申请认证 退出

您的申请提交成功

确定 取消

如何利用TCGA和GEO数据库+机器学习,发表6分SCI?

2023-01-20 18:54

本研究还对6个糖酵解基因的预后重要性进行了机器学习排序,最终确定了5个主要影响MPM预后的基因,按重要性降序排列:ALDH2、KIF20A、COL5A1、ADH1B和SDC1。

导语

糖酵解相关基因作为恶性胸膜间皮瘤(MPM)的预后标志物尚不清楚。本文通过生物信息学和机器学习构建预后风险模型,探索糖酵解途径基因与MPM预后的关系。 

背景介绍

今天小编为大家带  来一篇利用GEO公共数据库+机器学习发表6分+的文章。文章题目为  Identification of glycolysis genes signature for predicting prognosis in malignant pleural mesothelioma by bioinformatics and machine learning。

84901674180139971

研究流程

4991674180140372

数据介绍

从TCGA数据库下载MPM病例的临床信息和mRNA测序数据。从GEO获取GSE67487和GSE51024数据集。

结果解析 

01   糖酵解通路的获取和差异基因的选择  

从MSigDB共获得5个糖酵解相关通路基因集,包括BIOCARTA 糖酵解通路、GO糖酵解过程、HALLMARK糖酵解、KEGG 糖酵解糖异生、反应组糖酵解。对数据集GSE51024进行GSEA分析,发现5个糖酵解相关通路基因集在MPM组织和正常样本中显著差异(图2A-E)。5个糖酵解相关通路基因集中共有312个基因,使用limma包筛选出数据集GSE51024-MPM组织与正常组织差异表达的17个糖酵解基因(图3A,B)。

48761674180140883

图2

36551674180140964

图3

02   糖酵解基因构建预后模型  

通过单因素COX回归分析,发现11个糖酵解途径相关基因与患者总生存期(OS)显著相关。通过多因素COX分析纳入6个基因(COL5A1、ALDH2、KIF20A、ADH1B、SDC1和VCAN)构建患者预后风险模型,并同时绘制列线图(图4A)。COL5A1、ALDH2、KIF20A、ADH1B、SDC1和VCAN是独立风险基因。

单因素COX回归分析和多因素COX分析结合TCGA临床信息将风险评分确定为独立的预后危险因素(图4A,B)。风险核心 = (COL5A1×0.487)+(ALDH2×-0.252)+(KIF20A×0.337)+(ADH1B×-0.151)+(SDC1×0.223)+(VCAN×-0.406)(图 4B、C)。

12111674180141046

图4

03   风险模型的评估和验证  

通过构建的MPM风险模型计算TCGA数据集中每个患者的风险评分,根据中位风险值将病例分为高风险组和低风险组。K-M曲线显示,高危组生存率显著低于低危组(图5A)。ROC曲线显示曲线下面积(AUC)=0.830,相对于年龄、性别和肿瘤分期具有显著预后意义(图5B)。

54491674180141119

图5

通过对所有MPM病例的风险评分进行排序来分析生存率分布(图5C)。散点图中,随着风险评分的增加,患者的死亡率逐渐上升(图5D)。HR > 1(COL5A1,KIF20A,SDC1)的基因被定义为危险基因,HR < 1(ALDH2,ADH1B,VCAN)的基因被定义为保护基因。高危人群中的病例更可能表达风险基因,而低风险人群中的病例倾向于表达保护基因(图5E)。

临床亚组分析表明,对于不同年龄分层和肿瘤分期,基于K-M曲线预后模型的高危组生存率也显著低于低危组(图6A–D)。数据集GSE67487 K-M曲线中,低危组生存率显著高于高危组,ROC曲线AUC=0.782,验证了预后模型的可靠性(图6E,F)。

89831674180141199

图6

04   机器学习筛选预后基因  

选择COL5A1,ALDH2,KIF20A,ADH1B,SDC1和VCAN基因纳入分析,并根据最佳特征基因组合构建SVM和RF分类模型(图7A,B)。经分析结果表明,当预后数设置为5时,最佳预后基因组合的分类转移准确率最高。

与SVM相比,RF分类模型具有更高的精度(图7C)。RF分类模型的迭代计算过程如图7D所示。射频分类模型算法根据MPM患病率相关性得到预后基因的特异性重要性排名(图7E),最终筛选得到与MPM患病率风险相关性最高的5个预后基因最终筛选MPM风险最高的5个预后基因(ALDH2、KIF20A、COL5A1、ADH1B和SDC1,按重要性排序), MPM风险模型基于上述五个基因构建(图7F)。

9001674180141277

图7

小编总结

糖酵解与恶性肿瘤的发生、迁移和代谢密切相关。本研究鉴定出6个糖酵解相关基因(COL5A1、ALDH2、KIF20A、ADH1B、SDC1、VCAN),并通过单因素COX回归分析和多因素COX分析验证了上述6个基因对MPM的预后意义。K-M 分析还显示,高风险评分与转移和预后不良有关。本研究还对6个糖酵解基因的预后重要性进行了机器学习排序,最终确定了5个主要影响MPM预后的基因,按重要性降序排列:ALDH2、KIF20A、COL5A1、ADH1B和SDC1。

不感兴趣

看过了

取消

机器学习,数据库,糖酵解,基因

不感兴趣

看过了

取消

相关阅读

赞+1

您的申请提交成功

您的申请提交成功

确定 取消
海报

已收到您的咨询诉求 我们会尽快联系您

添加微信客服 快速领取解决方案 您还可以去留言您想解决的问题
去留言
立即提交