申请认证 退出

您的申请提交成功

确定 取消

《宏基因组测序病原微生物检测生物信息学分析规范化管理专家共识》解读

2022-04-07 09:58   检验视界

目前国际上已有一些研究针对自身团队建立的实验方法设立阈值,检验工作者在建立实验室技术体系或者对引入的方法进行性能确认的时候,可以参考和学习。

8531647947471794

(图片来源:摄图网)

宏基因组高通量测序技术 ( metagenome next-generation sequencing,mNGS),是一种基于宏基因组学和高通量测序技术,可检测并分析各种临床来源样本中所有已知及未知的病原体(包含细菌、真菌、病毒、寄生虫、支原体/衣原体等)。为了能更多地造福临床和检验工作者,笔者及其工作团队尝试去针对《宏基因组测序病原微生物检测生物信息学分析规范化管理专家共识》(下简称共识)中的内容基于笔者及工作团队有限的学识进行展开和解读。如果文中存在不足或理解上的错误,也恳请各位专家和同道批评指正。 

看懂mNGS报告 

相对丰度、绝对丰度、每百万序列数和每千万序列数是临床医生在面对mNGS报告时,经常能够遇到的生物信息学概念。在这里,笔者希望给广大临床工作者从两个方面进行解读:

01  为什么会产生这些概念?

如图2所示,高通量测序是一个随机抽样的检测过程,并不是样本中所有的核酸都会被尽数检测到。因此每个样本的高通量测序数据只是样本的一部分。

13391647947472644

图2  二代测序随机抽样示意图

(例 如一管样本中存在1ng的文库分子,那如果片段大小平均都在350bp左右,它将有2.4 x 1015个文库片段,一个文库片段对应的就是测序数据中的一条序列。如果都进行测序,将会产生2.4 x 109 M reads。但实际上我们只会进行5-100M reads的测定。) 所 以 除非我们穷举 这管样本中的所有文库分子(但基本是难以实现),否则我们检测到的人 源序列还是微生物序列数,更多反应的是其在样本中的占比情况。 因此,如果该微生物在样本中占比越大,它被测到的概率越高,它的序列数也就随之越高。

另外一方面,如果样本总测序序列数越多,它能检测的低比例微生物,则越多 。 (例如一个微生物的核酸在样本中占比是一千万分之一(即1/10M),则需要针对这个样本检测超过10M reads时,它才有可能被检测到。)

所以,生信专家共识中提到的 绝对丰度,就是指该微生物文库片段/序列在样本中的占比 而每百万/千万序列数则是将绝对丰度乘以一百万或一千万,意为(均一化到)一百万/千万总测序序列中,能检测到多少该微生物的序列数。还有一些研究团队,为了更加贴合宏基因组临床应用专家共识,将这个均一化的基数,设置为两千万(20M reads)。

相对丰度则是指该微生物序列在所有微生物序列中的占比 在肠道微生物组的研究中,一般认为在种群中丰度占据绝对地位的微生物会发挥重要的作用。因此,考虑相对丰度的分析方式也被随之代入到了mNGS领域。

但由于不同的微生物基因组大小不一、破壁难度不一(真菌>细菌>病毒),也有专家把不同类型的微生物单独计算它们的相对丰度(如细菌A只考虑在细菌中的相对丰度)。所以在讨论相对丰度的时候,各位临床老师需要注意分母指的是什么,这可能会影响计算的结果。

02 这些指标在什么情况下 有临床价值,能够指导临床进行诊断或治疗?

这些指标在什么情况下具有临床价值,即提示临床该微生物可能是致病原。这也是经常会引起临床老师的困惑。这是mNGS临床应用中较为前沿的科学问题。笔者在第一个问题中花了较大的篇幅,则是为了说明为什么回答这个问题存在一定的难度。

因为微生物的占比会随着人源细胞的变化和其他微生物的载量变化而变化。即使相同载量的微生物,也可能在不同的样本中呈现不同的绝对丰度、相对丰度和每百万序列数 目前已经有一些研究团队尝试去解决该难题,如加州大学旧金山分校医学院和广州呼研院团队使用RPM和RPM在大样本中排名作为构建阈值的指标,筛选出阳性判断阈值,用于指导免疫缺陷儿童和成人的肺部感染病原体诊断。笔者相信,随着更多的mNGS临床研究和技术方法的升级,具有临床指导意义的mNGS检测阈值一定会出现。 

基本技术方案的解读 

《共识》中明确提出,mNGS的分析流程涵盖了标签识别、序列拆分、接头及低质量序列过滤、人源及人工载体序列过滤、微生物比对数据库、根据物种同源性百分比、按序列高低排序、微生物物种分类列表、结合样本类型和临床特征、过滤背景微生物和生成mNGS报告。

笔者将一份样本从文库分子到mNGS报告制作了一张流程图,尝试阐释mNGS的关键步骤和数据流向(图5)。

93051647947473010

 图5 宏基因组生物信息分析流程示意图

《共识》中提及到,人源序列的残留会造成后续微生物序列分析的错误 ,因此 有效地过滤掉人源序列既可以减少后续分析的错误,也可以加速微生物物种注释的时间 所以是数据前处理中极为重要的过程。

笔者注意到,有一些mNGS的厂家过分夸大炎黄一号与hg19/38等高加索人的基因组差异在人源序列过滤中的作用。笔者非常同意加入炎黄一号作为人源序列去除的比对基因组。但过分强调基因组而忽略选择合适的算法,会是舍本逐末

如图所示,笔者曾做了一个小样本的测试,选择更为精细化的BMTagger和BWA进行人源序列过滤的对比分析。从结果上看(图6),在比对分析上更为精细的BMTagger所带来的差异,要远远高于所谓的人种基因组差异带来的影响。目前mNGS厂家鱼龙混杂,有些从业者利用临床和检验老师对生物信息学的不熟悉,刻意营销概念,也是需要警惕的。

94341647947473708

图6 人源参考基因组差异和算法差异对宿主序列除去的影响

宏基因组是生物信息学分析中的皇冠,而物种注释则是这个皇冠上的珍珠。 其准确性左右了整个mNGS检测的可靠性。 目前物种注释的算法分为上文提及的比对方式和非比对方式。 数据库则根据参考序列的特征,分为了全基因组、种特异的核酸序列和蛋白序列三种数据库类型(图7)。

39161647947474054

图7 不同宏基因组数据库类型示意图(参考自Sun Z, Huang S, Zhang M, et.al. Nat Methods. 2021)

而且 《共识》指出,如何推动感染性疾病规范化诊疗、推动以疾病诊断为基础的检测试剂注册、推动以疾病分类建设微生物检验技术平台是今后应解决的首要问题。 所以构建好的分析软件和数据库应当进行检测注册证申请,经过权威机构部门认可和验证的的分析软件和数据库,才是真正值得信赖和依靠的分析系统。

另外一方面,目前大量的研究表明,我们所使用的分子生物学试剂盒存在大量的背景核酸。因此,需要建立背景菌/试剂工程菌的列表,针对存在于试剂中的微生物设立阳性检出阈值(Cutoff value),防止假阳性的检测结果。

笔者也听到一些mNGS厂家提出,任何一份标本都能检测出病原体/微生物。这个概念是极其误导临床工作者的。 任何一种方法学都存在最低检出限 ,这是检验所该有的理念和原则。同时,任何一个阈值都会造成一定程度的假阳性和假阴性,取决于阈值建立的目的是为了保证敏感性还是特异性。

目前国际上已有一些研究针对自身团队建立的实验方法设立阈值,检验工作者在建立实验室技术体系或者对引入的方法进行性能确认的时候,可以参考和学习。

-End-  

编辑 | 骆秉涵 王迪  

不感兴趣

看过了

取消

临床,序列,分析,样本,基因组

不感兴趣

看过了

取消

相关阅读

赞+1

您的申请提交成功

您的申请提交成功

确定 取消
海报

已收到您的咨询诉求 我们会尽快联系您

添加微信客服 快速领取解决方案 您还可以去留言您想解决的问题
去留言
立即提交