精准前沿丨mNGS在临床病毒学的应用建议指南:生信分析与生成报告

2023
03/24

+
分享
评论
先声诊断
A-
A+

如果发现外来或新型病原体,可能需要进行文献回顾、与临床医生进行个人讨论以及进一步的病毒学检测。

本期《精准前沿》栏目分享欧洲临床病毒学会(ESCV)Jutte J.C. de Vries研究团队发表于Journal of Clinical Virology(IF =14.481)上的一篇研究[1]。目前mNGS宏基因组二代测序(非靶向)在感染临床上得到广泛应用,为了进一步支持病毒诊断的mNGS方法开发应用, 优化和标准化, 欧洲临床病毒学会(ESCV)建立了下一代测序平台(ENNGS)。该平台为mNGS服务于病毒检测,根据欧洲各地的经验方法汇总为应用指南。本文属于该平台发表的第二篇文章,第一篇文章主要介绍了mNGS湿实验部分,本篇详细介绍了该平台在mNGS生信分析部分给出的应用指南,系统性梳理了各个技术要点,因此分享此篇文章,以供参考。

43251679614806969

研究背景

宏基因组二代高通量测序(mNGS)是一种非靶向技术,用于确定感染综合征患者的各种临床样本类型中的DNA/RNA序列。mNGS适用于鉴定任何病原体,包括在典型PCR扩增靶点上出现分歧的变异体、与特定临床综合征相关的未知病原体,以及可能仍未被靶向测序方法检测到的新病原体。尽管有这些明显的优势,但mNGS仍处于转化为临床应用的早期阶段。mNGS临床使用的挑战之一是目前缺乏标准化的方法和流程,包括明确应用范围、敏感度和特异度明确的病原体检测生物信息方法。mNGS病原检测性能在很大程度上取决于准确的生物信息学分析,分类算法和数据库都是决定生信流程整体性能的关键因素。目前世界各地已经开发了广泛的宏基因组流程和分类工具,通常用于生物多样性研究,分析不同样本和队列中的微生物组成。相比之下,当将mNGS应用于患者诊断时,潜在的假阴性和假阳性结果可能会对患者治疗方案产生重大影响。大多数应用于病毒诊断的宏基因组分析的生物信息学工具的研究报告通常只是描述了作者自己开发的单个内部流程的算法和验证,强调需要高质量的验证研究。欧洲临床病毒学会为此制定了关于mNGS生物信息学分析方法和报告的一系列指南和建议,从而有助于mNGS在诊断实验室的推广,并确保结果的有效性,进而优化患者诊疗。

为了支持用于病毒诊断的mNGS程序的开发和实施,在欧洲临床病毒学学会(ESCV)的主持下建立了一个平台:ESCV下一代测序平台(ENNGS)。该平台的目的是将参与mNGS病毒诊断的专业人员聚集在一起,分享材料、方法和经验,并为临床诊断和公共卫生实验室中mNGS的推广和应用提出建议。

指南

1 生信设备和数据安全

mNGS数据的处理由专业的生物信息学家或非生物信息学家通过用户友好的工具和流程界面提供。大多数宏基因组软件流程都在公共领域,需要生物信息学方面的专业知识。硬件部分,既可以使用本地计算机,也可以使用远程计算器,包括云计算等。生物信息学分析工具则不限于本地运行的流程和云平台的服务,最好是有web前端页面,包括原始数据上传,并下载最终结果等。基于纳米孔的三代测序由于技术特性,可以运行在连接测序仪的笔记本电脑。

至于数据安全,则应保护数据免受未经授权的访问和操作、丢失和破坏。在实施宏基因组程序时,应考虑患者隐私和个人数据的合理使用和授权。云计算的话,则要与云计算提供商签订相关的书面协议,保护数据以防止未经授权的访问,使用,披露,中断,修改和销毁等。

此外检测服务涉及认证要求,也需要做好生信分析工具的版本管理,保证新版本上也能提供患者结果。

2 生信分析

2.1 原始数据的存储

NGS FASTQ 数据和元数据文件应与文件名和文件夹一起存储,这些文件名和文件夹具有有助于分类和排序的唯一且可识别的名称 。建议包括例如 数据交付日期、项目团队或(子)部门、项目名称、测序文库编号、唯一样品标识符(如样品编号和日期)始终保持一致。实验室信息和管理系统 (LIMS) 支持提供元数据和数据处理的标准化提交协议。文件夹中保存的原始数据文件以及文件夹本身应具有只读访问权限,文件夹中的文件应保留其原始名称以支持方法认证所需的标准(包含Illumina读数的FASTQ文件的名称通常包括流动槽编号、样本名称、样本编号、机器通道编号、读取类型 (R1/R2),例如“HK2LLDSXX_7074− 09-002− 001_CTGATCGT-ATATGCGC_L004_R1.fastq”和包含纳米孔 (ONT) 原始电化学的FAST5文件的名称、信号通常包括流动槽编号、运行ID和每个条形码生成的文件的连续编号,例如“FAK96194_5138107d5a8425587f0828dd31f396e3ebd774c4_1.fast5”,需要使用GUPPY等将其转换为FASTQ格式)。大多数用于NGS数据处理的工具都接受压缩格式“tar”、“zip” 或 “gzip”的文件。

2.2 数据预处理

序列数据质量可以通过例如可视化工具FASTQC或者MultiQC查看,然后是数据预处理,包括去除低质量序列、低-复杂性读取、碱基修剪等。推荐工具有cutadapt和Trimmomatic等。

2.3 去除人源序列

某些类型的数据分析可能需要在分类之前去除核糖体RNA序列或人源DNA序列,原因是道德原因/数据保护权利以及加速下游数据分析。根据一般数据保护法规,建议验证去除人类读数的有效性。

2.4 数据分析(版本控制)

下游mNGS数据分析可能仅限于序列的分类学分析,或者可能包括将序列从头组装到contigs或scaffolds水平,然后与一组基因组进行比对,这需要为特定任务和目标选择工具。目前没有最佳或黄金标准工具,不同的方法可以为同一个FASTQ文件产生不同的结果。在最近的ENNGS病毒宏基因组流程比较中,性能受到特定流程的整体组件的影响,包括算法、设置和数据库。

建议使用版本管理的流程工具和适用于临床样本的NGS数据分析的外部数据库。对于流程中使用的每个工具,至少必须描述以下参数/选项:分析日期、工具和外部数据库的名称和版本,以及用于每个工具的用户定义和默认参数值记录,例如使用版本管理工具 (Conda)。此外,建议对整个工具集合进行版本控制,例如使用工作流工具Snakemake/Nextflow,或进一步使用docker封装。随后,工作流的存储及其默认设置可以在GitHub/GitLab托管,这是一个具有内置版本控制的平台。

2.5 分类学算法

分类学分析可以深入了解所分析样本的分类组成,以及在定义属于不同分类水平的分类群的生物体的相对丰度时获得的结果,对于病毒主要是种、属和科。根据所解决的具体临床问题,序列可以进一步分类到物种级别以下,例如基因型(乙型和丙型肝炎病毒)、亚型(HIV-1)或分离株,尽管这超出了由ICTV提供的分类学范围,并且不同流程的检出能力也会有差别。

可以使用不同的算法方法对序列进行分类,这些方法可以在合理的时间内处理大量测序数据。为了做到这一点,大多数算法使用一种称为k-mers的参考序列完美匹配的序列片段。这些工具可分为三组:i) DNA-to-DNA工具(类似BLASTn;即 megaBLAST、Kraken;Centrifuge、CLARK),ii) DNA到蛋白质工具(BLASTx-like;即 DIAMOND、Kaiju、GenomeDetective、SURPI、RIEMS和 iii)基于特定标签的工具(即MetaPhlAn2)。由于氨基酸的突变率低于核苷酸序列,因此DNA到蛋白质工具可能对新出现的序列和高度可变的序列更敏感。选择分类算法时应考虑的一个方面是准确度与召回率的权衡。高召回率通常以准确度下降为代价,这意味着假阳性类群被分类为低丰度水平。分类算法通常为每个读数分配一个特定的分数或置信度,任何下游应用程序都可以将其作为分类的可靠性参考。

2.6 参考数据库

参考数据库的选择可以显着影响分类学分类的结果。参考数据库应包含涵盖相关生物体整个遗传多样性的基因组,并进行校验,以免包含任何人工、低质量或错误命名的基因组序列。包含错误注释的参考序列的数据库容易发生错误映射导致假阳性结果。缺少新发现的或不常见的病毒株的不完整数据库可能导致假阴性结果。通过删除重复序列进行数据库压缩是节省存储空间的有效方法,但压缩会导致病原体检测性能下降。通常较大的数据库可以实现更准确的子类型/分类检测。

科学界可以使用几个病毒数据库(示例见表1)。完整的NCBI的GenBank核苷酸数据库病毒部分包含冗余序列,需要大量计算机资源并导致许多假阳性病毒检出。相比之下,非冗余的RefSeq数据库相对较小,它为每个物种提供一个序列,根据ICTV 分类法准确分配,重要的是RefSeq序列校验显著减少了临时序列的假阳性分配数量。最近发现的病毒和与RefSeq参考序列高度不同的病毒变体可能无法识别,后者还取决于如上所述使用的分类算法的映射标准的严格性。在临床诊断实践中,RefSeq数据库通常用于病毒的识别和分类,并在国际基准研究中取得了良好的整体性能。此外还有脊椎动物病毒基因组数据库,方便用于脊椎动物病毒的临床诊断,例如Virosaurus ,其序列被聚类以消除冗余。

随着公共数据库中基因组序列数量的指数增长,定期更新用于分类学分析的参考数据库并验证此更新非常重要。更新频率取决于在亚型或株级别进行分类的需要,以及更新的公共数据库中新型病毒的出现情况。最后,一些病毒参考序列包含人类起源的延伸,最初可以通过这些序列多次出现观察。这种类型的错误注释可以通过将分配的测序序列与BLAST进行比对来检测,在这些情况下,最高比对质量结果是人类起源的。将此类条目标记/列入黑名单可以在结构上防止错误注释序列和误报结果。

2.7 污染序列的移除

污染可以在工作流程的几个步骤中引入,包括核酸提取试剂盒、试剂和稀释剂、采样后环境(即空气中的颗粒、index交叉,过去测序的残留)以及与使用的分类算法/参考数据库比对引起的错误比对等。指南第一部分有提到湿实验要纳入阳性和阴性对照,以便可以手动或使用计算算法进行测序后污染物去除。此类工具的两个示例包括 Recentrifuge和R包Decontam。这些算法基于不同的假设:虽然Recentrifuge根据样本中与对照相比的相对频率对候选污染类群进行分类并检查交叉污染,但Decontam假设来自污染类群的序列可能具有与样本负相关的DNA浓度趋势,并且在对照样本中也可能比在真实样本中具有更高的出现率(污染物种不必与阴性对照中的真实物种竞争)。此外,Recentrifuge考虑了分类学分类器提供的每个步骤中分类的分数水平,因此消除了分类学算法引入的潜在假阳性分类群。必须考虑到,在阴性样本中检测到的(低水平)序列并不少见地源自患者样本中存在的高丰度物种(例如,由于标签跳跃)。自动去除污染序列的流程须进行验证工作。序列读取与污染物数据库(可考虑bwa工具)的比对也很有用。

2.8 读数的标准化

对于定量或半定量结果,通过为每个样本生成的读数总数对分配给特定分类群的读数数进行归一化是有用的,因为生成的测序读数数可能在样本之间存在很大差异。此外,分类群之间平均基因组大小的差异也会导致对结果的误解,因此,需要对属于特定分类水平的每个分类群的平均基因组长度进行额外的标准化,例如通过报告每百万读数获取的1Kb基因组的读数计数。

表1. 常见的病毒数据库列表

9491679614807213

3 生信流程的验证

3.1 验证的数据集

生物信息学流程应使用来自真实样本的数据进行评估,这些数据通过分子诊断方法得到充分验证,也可以通过其他流程工具进行再次补充确认。可以使用ART、CAMISIM等工具生成人工mNGS模拟数据集进行验证。通过使用模拟数据集,可变数量的背景序列(例如人类或细菌来源的序列)、不同的突变率、不太相关的病毒基因组的检测率以及设置的多种组合(单端与双端测序,不同测序读长等)都可以进行测试验证。

3.2 流程性能

流程性能:召回率(灵敏度)、准确度(阳性预测值)和/或 F1分数应根据金标准分子诊断方法使用已知状态样本的真实数据集来确定。F1分数定义为灵敏度(召回率/真阳性率)和准确度的调和平均值。mNGS方法的特异性分析受到大量mNGS阴性结果而没有PCR验证结果的阻碍。通过计算准确度,方便地避免了未知真阴性结果的比例。整个工作流程的检测限度应根据检测的预期用途来确定。流程性能评估应包括碱基检出、比对和目标识别。

3.3 定义阳性结果的阈值

对于病原体检测,必须在验证阶段通过与金标准分子诊断技术进行比较来确定阳性结果的阈值。由于病毒读数计数/分布以及阈值取决于整个湿实验室和分析工作流程中的因素,因此必须为每个协议确定这一点。

最近的验证工作表明,为了可靠地识别阳性结果,应该存在映射到所识别生物体的三个或更多不同基因组区域的非重叠读数。基于读数分布的阈值似乎比(仅)基于读数数量的阈值更准确:来自扩增子污染物的高读数将被错误地报告,基于读取计数的严格阈值可能会错过分布在病原体多个基因组位置的一些读数。因此,阳性结果的确认应包括将读数映射到已识别生物体的相关参考序列,从而产生基因组覆盖信息,作为管道的自动化部分或作为二次分析。必须指出的是,细菌的鉴定需要不同的标准。

3.4 环形实验

ENNGS最近使用来自临床样本的数据集使用RT-PCR作为金标准对各种流程进行了基准测试。参与的临床诊断实验室使用了各种各样的病毒宏基因组管道。在基准测试中,低丰度病毒病原体和混合感染的检测仍然是一个挑战。出于认证目的需要进行基准测试,可以揭示工作流程中效率较低的组成部分,此外,可以指出与参与者的共同目标有关的最佳实践,即使用mNGS进行临床诊断。瑞士生物信息学研究所组织的一项环形试验开启湿实验室程序和干实验室程序的性能验证工作。另外QCMD已在2020年第4季度使用参考品样本启动了宏基因组工作流程的EQA计划。提供mNGS服务的临床实验室应参与环形试验或正式的EQA计划;能够测试湿实验室和生物信息学的方案更好。

4 结果回顾和生成报告

在报告之前,需要对mNGS数据进行技术评估和审查,以了解质量、可能的实验室污染和合理性,这可以在由分子微生物学、生物信息学和临床病毒学专业知识组成的跨学科团队中完成。该技术团队应考虑流程测序质量和预期的参考品物种读数。此外(试剂盒)污染物或在无模板对照中也检测到的序列应进行校正。为了评估和确认病毒感染,必须考虑覆盖的深度和覆盖的不同基因组区域的数量(图1)。可以使用BLAST手动检测基于分类错误分配的潜在误报命中。针对mNGS检测结果的验证性PCR很有用(在实施的早期阶段)。

93421679614807712

图 1. 真实临床样本中经PCR证实的mNGS阳性结果(a–c)的覆盖图示例:a) 人类冠状病毒 HKU-1,3951条读数,89%的基因组覆盖率,b) 人类腺病毒 A , 19 条读数, 8% 基因组覆盖度, 比对到3个以上基因组位置, c) 参考品中的马动脉炎病毒, 14 reads, 5% 基因组覆盖度,比对到3个以上基因组位置, d) mNGS发现的假阳性丙型肝炎病毒扩增子污染物,133,213 条读数,4%的覆盖率,但只比对到1个基因组位置。

顶部条代表核苷酸比对,底部条代表氨基酸比对,绿色区域:匹配序列。

读取在基因组上的分布是定义阳性结果的重要参数。

经过技术审查后,mNGS的结果应以紧凑的格式报告给临床医生,并有助于在治疗策略和进一步诊断步骤方面做出决策。因此,报告应该易于理解,但又易于阅读,并且仅包含临床相关或潜在相关的信息。诊断学的本质是识别潜在的临床相关发现并解释其意义。因此,不应向提出请求的临床医生报告已知试剂污染物、错误分配、噬菌体和常见(逆转录)病毒内源序列的结果。

此外检测到的其他致病病毒,虽然与就诊时的临床综合征无关,例如丙型肝炎和 HIV,但可以通过mNGS检测到并应报告。在临床要求(病毒)mNGS时,应告知临床医生检测旁观者病原体的可能性。例如,可以在(数字)申请表或诊断信息手册中获得此信息,并且应向临床医生明确表示,通过执行mNGS请求,就最广泛意义上的病毒鉴定达成一致。

致病性未知的病毒或不常检测到的病毒以前可能与特定疾病无关,但在以后的某个时间点可能会证明与特定综合征有关,如星状病毒脑炎病毒,因此建议报告这些病毒。特定患者宏基因组发现的未知或潜在关联的解释可以随后与临床医生讨论或在报告中评论,例如检测到低水平的疱疹病毒。

如果发现外来或新型病原体,可能需要进行文献回顾、与临床医生进行个人讨论以及进一步的病毒学检测。

结论

对于某些临床综合征,需要扩展mNGS之外的诊断组合。本文提供的建议旨在指导临床诊断和公共卫生实验室实施病毒mNGS生物信息学分析和工作流程。生物信息学软件工具和平台将发展得非常快,预计这些未来的发展将支持将病毒宏基因组测序逐步广泛地引入临床诊断和公共卫生实验室。

END 

参考文献: [1] Recommendations for the introduction of metagenomic next-generation sequencing in clinical virology, part II: bioinformatic analysis and reporting. 

撰写丨飞翔的杜卡迪      

编辑、排版丨SX    

不感兴趣

看过了

取消

本文由“健康号”用户上传、授权发布,以上内容(含文字、图片、视频)不代表健康界立场。“健康号”系信息发布平台,仅提供信息存储服务,如有转载、侵权等任何问题,请联系健康界(jkh@hmkx.cn)处理。
关键词:
临床病毒学,mNGS,病毒,阳性

人点赞

收藏

人收藏

打赏

打赏

不感兴趣

看过了

取消

我有话说

0条评论

0/500

评论字数超出限制

表情
评论

为你推荐

推荐课程


社群

  • 第九季擂台赛官方群 加入
  • 手术室精益管理联盟 加入
  • 健康界VIP专属优惠 加入
  • 健康界药学专业社群 加入
  • 医健企业伴飞计划 加入

精彩视频

您的申请提交成功

确定 取消
5秒后自动关闭

您已认证成功

您已认证成功,可享专属会员优惠,买1年送3个月!
开通会员,资料、课程、直播、报告等海量内容免费看!

忽略 去看看
×

打赏金额

认可我就打赏我~

1元 5元 10元 20元 50元 其它

打赏

打赏作者

认可我就打赏我~

×

扫描二维码

立即打赏给Ta吧!

温馨提示:仅支持微信支付!

已收到您的咨询诉求 我们会尽快联系您

添加微信客服 快速领取解决方案 您还可以去留言您想解决的问题
去留言
立即提交