在这项研究中,研究团队分析了来自肺结核患者的相邻正常和患病组织的circRNA测序数据,并分析了差异表达的相关基因。
点击蓝字 关注我们
Identification of Key CircRNAs Related to Pulmonary Tuberculosis Based on Bioinformatics Analysis
Yuan Q, Wen Z, Yang K, Zhang S, Zhang N, Song Y, Chen F.
Biomed Res Int, 2022, 2022: 1717784.
doi: 10.1155/2022/1717784. eCollection 2022.
PMID: 35419455
近日,《国际生物医学研究》( Biomed Res Int) 杂志发表了上海大学和上海市公共卫生临床中心合作的一项基于生物信息学分析的肺结核相关关键基因鉴定的研究(Identification of Key CircRNAs Related to Pulmonary Tuberculosis Based on Bioinformatics Analysis. Biomed Res Int. 2022. doi:10.1155/2022/1717784)。在这项研究中,研究团队分析了来自肺结核患者的相邻正常和患病组织的circRNA测序数据,并分析了差异表达的相关基因。通过机器学习和单因素分析构建了一个预测准确率为100%的模型。在前50个中心mRNA中构建了一个蛋白质-蛋白质相互作用网络,其中FBXW7得分最高,SOCS3得分次之。这些结果可能为肺结核早期诊断和治疗的候选标志物的鉴定提供新的参考。上海大学的袁琴、杨科和上海市公共卫生临床中心的温子禄为文章的第一作者,上海大学的陈付学教授、复旦大学上海肿瘤中心肝脏外科的张宁和上海市公共卫生临床中心宋言峥主任为本文的通信作者。
研究背景
结核病是一种由生长较缓慢的结核分枝杆菌(MTB)引起的传染性疾病,虽可被治愈,但迄今为止,结核病仍然是世界十大死亡原因之一,尤其是在发展中国家。因此,寻找有效的生物标志物用于结核病的早期诊断和治疗靶标是非常有意义的。
环状RNA(circRNA)是一类不具有5'末端帽子和3'末端尾巴、并以共价键形成单链环形结构的非编码RNA分子。与其他类型的RNA相比,circRNA含量丰富,稳定性更强,更能抵抗RNase R的降解。因此,circRNA能在样品处理过程中进行选择性富集,更适合作为分子诊断生物标志物的候选分子和更有效的治疗靶点。circRNA可以通过作为miRNA海绵、与mRNA结合蛋白(RBP)结合和直接编码蛋白质等功能在多种呼吸系统疾病和感染性疾病中发挥调控作用。而目前关于circRNA与结核病的相关研究还较少,因此,寻找与结核病相关的circRNA对于结核病的早期诊断和治疗具有重要意义。
在本研究中,我们旨在鉴定结核病患者组织中表达异常的circRNA和其下游的mRNA,寻找参与结核感染反应的关键分子,为结核病的早期诊断和治疗提供参考。
研究内容
1.肺结核差异表达基因的初步筛选:先对肺结核患者测序数据进行差异表达分析,再根据基因的表达量作出散点图(图1a)。在肺结核患者邻近正常组织和患病组织的circRNA表达中,满足P<0.05和|log2FC|>1的有125个circRNA,其中50个上调circRNA,75个下调circRNA(图1b)。从差异表达的circRNA中分别筛选出上调前十和下调前十的circRNA(表1)。再根据circRNA在不同样本中的表达,进行聚类分析(图1c)。
图1 测序数据差异表达分析
表1 正常组织与疾病组织中差异表达的上调/下调circRNA前10位基因
2.构建机器学习模型:通过125个差异表达的circRNA构建机器学习模型。首先从125个circRNA中筛选出主要的影响因素进行特征选择,再通过8种特征筛选方法得到主要的circRNA,接着采用13种算法对125个circRNA和特征筛选出的circRNA构建机器学习模型(图2,表2)。8类特征筛选出的circRNA中,有4类模型的正确率可以达到100%,对这4类模型中包含的29个circRNA出现的次数进行统计,发现有14个circRNA在4类中出现不止1次,其中hsa_circ_0007919、chr10:15590454|15628663、hsa_circ_0002419在4类中均有出现,可能与肺结核的发生发展有重要联系(表3)。
表2 特征筛选信息
图2 不同特征筛选方法所建立的机器学习模型平均准确率比较
表3 29个circRNA在4类特征筛选出的circRNA中出现的频次
3. 单因素分析与关键circRNA的确认:对特征筛选出的14个circRNA建立机器学习模型并进行单因素分析,结果显示,hsa_circ_0002419与肺结核呈强相关性,在4种算法中正确率均为94%;hsa_circ_0005521与肺结核呈较强相关性,正确率均为89%(表4)。基于20个差异表达的top基因和14个单因素分析基因制作的Venn图,筛选到3个circRNA,即hsa_circ_0007919(上调)、hsa_circ_0002419(下调)和hsa_circ_0005521(下调),将其确认为肺结核发生发展中的关键基因(图3)。
表4 14个circRNA的单因素分析
图3 差异表达的top基因与单因素分析基因的交叉分析
4.下游基因预测及生物学功能分析:通过ENCORI网站预测出3个关键circRNA潜在的miRNA,再通过miRTarBase数据库预测miRNA的下游潜在mRNA(表5)。从GEO数据库获得肺结核miRNA基因芯片GSE29190,筛选到47个差异表达miRNA(P<0.05)。由潜在的miRNA和差异表达的miRNA通过jvenn库软件筛选到下游hsa-miR-409-5p(图4a)。通过GEO数据库获得肺结核mRNA基因芯片GSE83456,筛选到9272个差异表达的mRNA(P<0.05)。由hsa-miR-409-5p潜在的mRNA和差异表达的mRNA通过jvenn筛选到16个下游mRNA(图4b)。利用Cytoscape构建circRNA-miRNA-mRNA作用网络(图4c)。基于筛选到的3个关键circRNA的下游mRNA,在DAVID数据库中对基因进行GO富集分析和KEGG通路分析(图5)。
表5 circRNA下游基因统计
图4 分析筛选下游miRNA和下游mRNA
图5 生物学功能富集分析
5. PPI网络构建:利用jvenn库软件筛选出被3个关键circRNA共同调控的372个mRNA(图6a)。接着通过STRING数据库得到这些基因的互作信息。为了确定PPI网络中的关键节点,基于Cytoscape中的cytohubba功能,计算出前50个关键基因并构建PPI网络(图6b)。
研究结论
总之,我们在肺结核患者的临近正常组织和患病组织中筛选到了3个关键circRNA。通过GO和KEGG分析,富集到与肺结核发生发展的相关途径。并且通过PPI网络确定了关键基因。这些发现可能为寻找肺结核早期诊断的候选标志物提供参考,为结核病的治疗靶标提供新的方向。
但研究存在一些局限性。首先,还需要通过qRT-PCR进一步验证差异表达circRNA的表达水平。其次,本研究所建立的预测正确率为100%的模型还需要进一步的参数调整、优化和评估,才能应用于临床。最后,差异表达的circRNA及其下游潜在基因在结核病中的具体作用机制,还需要通过实验进一步探究。
不感兴趣
看过了
取消
人点赞
人收藏
打赏
不感兴趣
看过了
取消
您已认证成功,可享专属会员优惠,买1年送3个月!
开通会员,资料、课程、直播、报告等海量内容免费看!
打赏金额
认可我就打赏我~
1元 5元 10元 20元 50元 其它打赏作者
认可我就打赏我~
扫描二维码
立即打赏给Ta吧!
温馨提示:仅支持微信支付!
已收到您的咨询诉求 我们会尽快联系您