精准前沿丨机器学习算法构建抗生素耐药基因缺失菌株的耐药性预测模型
本期《精准前沿》栏目分享由美国北德克萨斯大学Rajeev K. Azad团队发表在Briefings in Bioinformatics(IF=13.994)上的一篇研究[1],该研究使用机器学习模型,在特定抗生素耐药基因缺失的菌株中,预测其对此抗生素的耐药性。研究结果表明,不同的物种和药物组合最优的机器学习模型不同,但ETC(极端随机森林)模型在多个物种和药物组合的实际数据预测中表现最好,准确率可以达到86%。
研究背景
近些年来,研究者发现不携带特定抗生素耐药基因的菌株,表型却依然显示为对此抗生素耐药型的频率越来越高。本研究团队先前就发现了名为 K. pneumoniae AR_0107 菌株,其未携带碳青霉烯酶基因( carbapenemase ) 或外排泵编码基因( efflux pump encoding genes ),却对碳青霉烯类药物耐药。 AR_376 菌株携带外排泵基因,却对碳青霉烯类药物敏感。由此,基于已普遍共识的,使用耐药基因判断菌株是否耐药的这一标准需要再深入研究。而对于 AR_0107 这类菌株耐药性的研究,可能发现新的耐药机制。本研究提供了基于机器学习在特定抗生素耐药基因缺失菌株中预测耐药 / 敏感的框架,以及此框架应用于 5 种微生物( K. pneumoniae, E. coli and Shigella, P. aeruginosa, C. jejuni, S. enterica )菌株上的预测分析结果。
研究设计
菌株、AMR基因和AST表型的获取
从NCBI Pathogen Detection网站Isolates Browser页面上获取物种各个基因组,AMR基因以及AST药敏信息。针对每个物种与每个抗生素组合,构建矩阵(AMR基因0为缺失1为存在,抗生素0为敏感1为耐受)。
表1. 各物种基因组敏感和耐药条数,各基因组使用的耐药基因数
机器学习模型和评估指标
使用Python的Scikit-learn包评估12种机器学习模型:Logistic Regression (logR),Gaussian Naive Bayes (gNB), Support Vector Machine (SVM),Decision Trees (DT), Random Forest (RF), K-Nearest Neighbors(KNN), Linear Discriminant Analysis (LDA), Multinominal Naive Bayes (mNB), AdaBoost Classifier (ABC), Gradient Boosting Classifier (GBC), ExtraTrees Classifier (ETC) and Bagging Classifier(BC)。
使用6折交叉验证取均值,评估如下指标:precision 精确率, recall 召回率,F1-score, ROC-AUC, PR-AUC。classification accuracy准确率使用:外循环6折交叉验证嵌套内层10折交叉验证评估,以及留一法交叉验证评估。
模型应用
使用以上12种模型,使用特定药物耐药基因缺失的菌株,预测其AST表型。结果表明ETC模型有较高的预测准确率。
核心基因集
因为AMR基因在决定耐药性上有重要作用,所以文章获取了在ETC模型的6折交叉验证中,每次排序都在前30位的AMR基因做提取,每种药物最终获取到其核心基因集。将这个AMR基因集从原始数据矩阵中提取出来,即降低了特征量,再用来训练12种算法以及评估其表现。
随机基因集
随机选择与核心基因集相同个数的基因,从原始数据矩阵中提取出来,用来训练算法以及评估其表现,此步骤重复10次,以10次均值作为评估指标。
图1. 研究流程框架图
研究结果
1. 没有一个适用于所有物种和药物组合的最佳的模型。需要根据各物种药物组合的各模型的F1-score值来选择合适的模型,同样的是否使用所有AMR基因还是核心基因集也应该参考各模型的F1-score值。
表2. 特征值为所有AMR基因或者为核心基因集时,各物种与药物组合中,F1-score值最高的3个机器学习模型
图2. 使用12种模型和三种基因集组合在K. pneumoniae, E. coli and Shigella, P. aeruginosa中预测多利培南耐药,在6折测试中,模型应用于测试集的F1-score均值
2. 在预测特定药物耐药基因缺失的菌株的耐药/敏感的实际应用中,ETC模型的预测准确率为86%(73/85)。
3. 从ETC模型的6折交叉验证中,将每次排序都在前30位的AMR基因做提取,每种药物最终获取到其核心基因集。如表3为提取的K. pneumoniae中与耐碳青霉烯类药物相关的耐药基因,且这些基因尚未报道过可以解释碳青霉烯药物耐药。4种药物,√表示为此药物的核心基因集基因,× 表示不是此药物的核心基因集基因。
表3. 从ETC模型中提取的K. pneumoniae中与耐碳青霉烯类药物相关的耐药基因
讨论
1. 酶介导的抗生素耐药有多种机制,如水解(水解酶包括青霉素酶,头孢酶,碳青霉烯酶和环氧化物水解酶),转移(如乙酰转移酶,磷酸转移酶),裂解(如单加氧酶,裂解酶)。在ETC模型提取的K. pneumoniae中与耐碳青霉烯类药物相关的耐药基因中,ampC, blaCTX-M-15, blaSHV-11和 blaTEM-1 编码具有水解活性的蛋白;aac(6′)-Ib, aph(3′)-Ia, aph(4)-Ia和sul1编码具有转移作用的蛋白。考虑到这些水解蛋白,转移蛋白与碳青霉烯酶,抗生素修饰酶有相似的功能,由此可能导致K. pneumoniae对碳青霉烯类药物的耐药。
2. 本文使用的机器学习模型预测的结果,最终还是需要实际的湿实验验证。如以本文ETC模型提供的核心基因集中的基因为研究目标,使用RNAi探针或CRISPR技术降低特定基因的表达以查看耐药特性变化,或者克隆耐药基因到敏感菌株以查看是否导致耐药特征。
3. 物种Enterobacter虽然在训练数据获得了较高预测准确率,但是其不能准确预测此物种新基因组的耐药结果,可能的原因为训练数据中的菌株太少。这受限制于NCBI pathogen database中,Enterobacter 属的耐药菌株的占主导,记录条数高于敏感菌株。因此,无偏的数据库对于使用机器学习方法解决耐药预测是非常重要的。
结语
该研究提供了一种使用公开数据库数据,进行机器学习模型训练,在特定抗生素耐药基因缺失的菌株中,预测其对此抗生素的耐药性的方法。未来的研究可以基于此方法的基础上进行数据集扩展以及参数优化,获得更优的预测结果。
END
参考文献: [1] Janak Sunuwar, Rajeev K Azad, A machine learning framework to pred ict antibiotic resistance traits and yet unknown genes underlying resistance to specific antibiotics in bacterial strains, Briefings in Bioinformatics, Volume 22, Issue 6, November 2021, bbab179, https://doi.org/10.1093/bib/bbab179
撰写丨四代测序 编辑、排版丨SX
不感兴趣
看过了
取消
不感兴趣
看过了
取消
精彩评论
相关阅读