本研究成功地使用机器学习构建了一种新的肺结核诊断模型,可为肺结核的早期检测提供可靠参考。
作者:朱青青,刘洁
第一作者及单位:朱青青,安徽省结核病防治研究所(安徽省胸科医院)
通信作者及单位:刘洁,安徽省结核病防治研究所(安徽省胸科医院)
A united model for diagnosing pulmonary tuberculosis with random forest and artificial neural network
Frontiers in Genetics, 2023,14:1094099.
doi:10.3389/fgene.2023.1094099.
背景
肺结核(pulmonary tuberculosis,PTB)是一种慢性呼吸道传染病,是结核病中最常见的一种。诊断以病原学检测为主要依据,如痰涂片查抗酸杆菌、痰培养分枝杆菌等。这些基于微生物学的检测方法需要时间的消耗,不利于快速诊断,且对标本留存要求高。因此迫切需要进行研究和开发非痰为基础,简单、灵敏、特殊的测试诊断肺结核。
最近几项研究表明,全血RNA特征可用于预测活动性结核病感染并确定患者结核分枝杆菌感染的进展。由于高通量测序技术的快速发展,大量的高通量数据存储在公共数据库中。机器学习技术,包括随机森林(RF)和人工神经网络(ANN),可以为疾病关键生物标志物的选择提供新见解,并且已经在以前的研究中被广泛使用,迄今为止,基于多生物标志物的诊断模型以及射频和人工神经网络的组合尚未用于结核病的诊断。因此,本研究旨在基于机器学习构建用于诊断肺结核的多mRNA诊断模型。
研究方法
本研究旨在识别PTB的特异性生物标志物,并结合随机森林(RF)和人工神经网络(ANN)算法构建PTB诊断模型。从基因表达综合(GEO)数据库中检索了两个公开的结核病队列,即GSE83456(培训)和GSE42834(验证)队列。通过筛选GSE83456队列,在PTB和对照样品之间分别鉴定差异表达基因(DEG)。使用RF分类器识别特定的生物标志物,然后构建基于ANN的分类模型来识别PTB样品。使用接收器工作特征(ROC)曲线验证了ANN模型的准确性。采用CIBERSORT算法测定PTB样品中22种免疫细胞的比例,并测定免疫细胞之间的相关性。
研究结果
1. 研究在肺结核组和对照组中共确定了33个差异表达基因,包括11个显著上调基因和22个显著下调基因。这些基因主要参与免疫相关功能,包括基于免疫球蛋白超家族结构域的免疫受体体细胞重组的适应性免疫应答、T细胞活化的正向调控、白细胞间粘附的正调控、白细胞凋亡过程的调控和白细胞凋亡过程。见图1。
图1 DEG的识别
2. 使用随机森林树鉴定肺结核的可靠诊断生物标志物。选择错误率最低的树。基于模型精度和均方误差减小值,采用基尼系数法评估所有差异基因的重要性。KLF12被确定为最重要的生物标志物。选择重要性大于3的标志物进一步分析,共得到 11 种特异性生物标志物,包括 KLF12、IL23A、NELL2、FAM102A、CACNA1E、OSBPL10、C1QC、HOOK1、C2orf89和ID3。热图显示,CACNA1E和C1QC在PTB组中上调,而其余9个基因下调。
3. 根据基因评分,使用人工神经网络分析11个生物标志物的权重。人工神经网络由一个输入层、一个隐藏层和一个输出层组成。训练队列,GSE83456 的诊断性能(AUC)为 1.000。这表明ANN模型在PTB诊断上表现出色。模型在独立验证队列GSE42834中也表现出优秀的诊断性能0.946。见图2。
图 2 ANN诊断模型的构建与评价
研究结论
综上所述,本研究成功地使用机器学习构建了一种新的肺结核诊断模型,可为肺结核的早期检测提供可靠参考。由于诊断方法基于外周血检测,因此可以使用鉴定的11种生物标志物设计诊断试剂盒,这对于快速准确地诊断肺结核非常方便。此外,本文讨论的诊断模型、生物标志物和外周血检测方法为肺结核潜在机制提供了新的见解。然而,需进一步的实验研究来确定已鉴定的生物标志物调节肺结核的潜在发病机制。
注:除非特别声明,本公众号刊登的所有文章不代表《中国防痨杂志》期刊社的观点
供稿:朱青青
编辑:于菲
审校:范永德
发布日期:2023-04-17
不感兴趣
看过了
取消
人点赞
人收藏
打赏
不感兴趣
看过了
取消
您已认证成功,可享专属会员优惠,买1年送3个月!
开通会员,资料、课程、直播、报告等海量内容免费看!
打赏金额
认可我就打赏我~
1元 5元 10元 20元 50元 其它打赏作者
认可我就打赏我~
扫描二维码
立即打赏给Ta吧!
温馨提示:仅支持微信支付!
已收到您的咨询诉求 我们会尽快联系您