8+!基于免疫细胞标记基因预测肝癌预后~
导语
监测肝癌治疗后的反应,及时调整治疗策略,对于提高肝癌的生存率至关重要。目前临床对肝癌治疗后的监测主要以血清标志物和影像学为主。形态学评估存在局限性,例如无法测量小肿瘤,测量的重复性差,不适用于免疫治疗或靶向治疗后的癌症评估。
背景介绍
今天小编为大家带来的这篇文章,作者首先筛选出与肝癌相关的免疫细胞特异性基因,然后基于这些基因的表达建立深度学习模型(DNN)来预测肝癌患者的转移和生存时间,并就进行了模型比较与验证。文章发表在《Frontiers in Immunology》上,影响因子为:8.786,文章题目为:Prediction of liver cancer prognosis based on immune cell marker genes。
数据介绍
本研究通过CellMarker数据库获得肝脏中的免疫细胞标记基因,通过DisGeNet 数据库过滤一些不相关的基因。 从TCGA获得了372例肝癌患者及其基因表达数据。
技术路线
本研究技术路线如图1所示。
图 1
结果解析
01肝癌相关免疫细胞标记基因
本研究从 DisGeNet 中获得了 1222 个肝癌相关基因,称这个基因集为 G1。从CellMarker数据库中下载细胞标记基因,选取肝组织,得到肝细胞中的标记基因。通过过滤掉与免疫无关的基因,本研究得到了1007个免疫细胞标记基因,称这个基因集为G2。如图 2A 所示,G1 和 G2 的交叉点有 173 个基因。这些基因对应于29种免疫细胞。调节性T细胞具有最多的标记基因,达到59个。其他细胞类型如淋巴母细胞、血小板和胆管细胞等只有一个标记基因。免疫细胞对应的标记基因数量如图2B所示。
图 2
02免疫细胞标记基因在预测肝癌转移方面显示强大的力量
从TCGA获得了372例肝癌患者及其基因表达,173例患者发生转移。首先,本研究使用 DNN 来预测肝癌患者是否会发生转移。实施 10折交叉验证以验证 DNN 的准确性。如图3A、B所示,10次测试的AUC和AUPR出现波动,这是小样本集造成的。AUC最高达到0.94,最低达到0.75。AUC的平均值为0.85,AUPR为0.83,说明利用DNN通过173个免疫细胞标记基因预测肝癌转移是有效的。
图3
本研究将通过173个免疫基因预测肝癌转移的模型称为模型1。在上一节中,本研究还构建了G1和G2。G1包含1222个基因,均与肝癌相关。G2包含1007个基因,均为免疫细胞标记基因。本研究使用G1训练DNN模型并通过G2构建模型2和模型3。如图 3C 所示,模型 1 在所有模型中的 AUC 和 AUPR 表现最好,模型 2 表现最差。这表明在与肝癌(G1)相关的基因中混杂着许多与癌转移无关的基因。此外,免疫相关基因显示出很强的预测癌症转移的能力,尽管其中一些甚至与肝癌无关。G3吸收了两个基因集的精华,达到了最高的准确率。
本研究还将 DNN 与其他方法进行了比较,以显示它的优越性。将其与支持向量机 (SVM)、K 最近邻 (KNN) 和梯度提升决策树 (GBDT) 进行了比较。结果如图 3D、E所示。DNN在所有方法中表现最好,而SVM表现最差,GBDT比KNN 稍微好一些。
03生存时间预测
免疫细胞标记基因也被用于预测肝癌患者的生存时间。经过LASSO的lambda筛选,本研究得到了5个与肝癌生存时间显著相关的基因。它们是 CFH、GP1BA、RAP1A、SLC2A1 和 ENO1。Cox回归用于测试这五个基因的不同表达是否会导致生存曲线的显著差异。本研究根据5个基因表达量的中位数将训练集样本分为高表达组和低表达组,进行KM生存分析。如图 4A-E 所示,高基因表达下的存活时间与低基因表达下的存活时间有显著差异。
图 4
通过多因素Cox比例风险回归模型得到5个最佳预后基因的回归系数,将各基因的表达水平和系数进行线性组合,得到风险评分公式:Risk score=-0.19231*CFH+0.5966*RAP1A+0.22919*ENO10.19329*GP1BA+0.12790*SLC2A1。图 4F 显示了高风险和低风险的生存曲线。两条生存曲线的P值均低于0.0001,说明这5个基因可以显著区分患者的生存时间。图 4G、H 展示了训练 LASSO 寻找合适的 Lambda 的过程。
在获得预测存活时间的关键免疫细胞标记基因后,实施DNN以实现高精度。如图 4I、J 所示,DNN 的 AUC 比 COX 多 0.05。DNN在训练和测试中的C-index均显著高于COX。因此可以通过免疫细胞特异性基因的表达,相对准确地预测肝癌患者的生存时间。
04免疫细胞标记基因的功能分析
接下来本研究探索了这些基因的通路和 GO 术语。 富集分析表明,这些基 因与83条通路和1430个GO术语显著 相关(P <0.05)。这些通 路 可分为五类: 2类代谢、11类环境信息处理、5类细胞过程、10类生物系统、55类人类疾病。 GO术语可分为三类: 1309个生物过程,41个细胞成分,80个分子功能。 图 5 显示了免疫细胞标记基因的前 25 条通路和 GO 术语。
图 5
小编总结
实验发现,该研究模型明显优于其他方法,可以根据免疫细胞特异性基因的表达情况准确识别肝癌患者是否发生转移,预测肝癌患者的生存时间。还发现这些免疫细胞特异性基因参与了多种癌症相关通路。总之,本研究筛选了与肝癌预后相关的免疫细胞特异性基因,并通过这些基因有效预测了肝癌的转移和生存时间。发现与肝癌预后相关的通路和基因功能,有助于揭示肝癌的发病机制,寻找更特异的免疫靶点和治疗预测标志物。本研究缺点主要在于,数据较为单一,应该多补充几套数据对深度学习模型的精度进行证实。
不感兴趣
看过了
取消
不感兴趣
看过了
取消
精彩评论
相关阅读