科研前沿 | Sci. Total Environ.:来自宿主相关和环境宏基因组的冠状病毒样短序列的探索性评估

2021
08/02

+
分享
评论
微生态
A-
A+

新冠病毒-19大流行不仅在全球造成了大量伤亡,而且对科学家来说也是一个前所未有的挑战。


编译:微科盟容我想想,编辑:微科盟木木夕、江舜尧。

微科盟原创微文,欢迎转发转载,转载须注明来源《微生态》

导读  

新冠病毒-19大流行不仅在全球造成了大量伤亡,而且对科学家来说也是一个前所未有的挑战。假阳性病毒检测试验不仅加剧了医疗保健部门的情况,而且还为假设研究提供了依据。以前的研究强调了软件选择和数据解释在病毒组研究中的重要性。我们的目的是通过关注宏基因组数据中短的病毒样DNA序列,进一步扩展生物信息学驱动的病毒组研究的理论和实践知识。对来自不同样本类型(陆地、动物和人类相关样本)和来源的数据集的分析表明,在当前的新冠病毒-19大流行之前,冠状病毒样序列已经存在于宿主相关样本和环境样本中。在分析的数据集中,检测到各种β-冠状病毒样序列,其中也包括SARS-CoV-2。深入分析表明,检测到的序列不是病毒来源,因此不应在病毒组分析方法中考虑。我们的研究证实了参数选择的重要性,特别是在读取长度方面对于可靠的病毒组分析。自然环境是冠状病毒样核苷酸序列的重要来源,在分析和解释病毒组数据集时,应将其考虑在内。因此,我们建议在宿主相关样本和环境样本中仔细选择SARS-CoV-2分析的处理参数,以避免错误识别。


 

论文ID


 

名:Explorative assessment of coronavirus-like short sequences from host-associated and environmental metagenomes

来自宿主相关和环境宏基因组的冠状病毒样短序列的探索性评估

期刊Science of the Total Environment

IF:7.963

发表时间:2021.6.24

通讯作者:Tomislav Cernava

通讯作者单位:奥地利格拉茨理工大学  


背景


由SARS-CoV-2引起的全球新冠病毒-19(Corona Virus-Disease-2019)大流行始于2019年,此后影响了1.7亿多人,造成近400万人死亡(世卫组织)。在本研究结束时,这两个数字仍在上升。人们普遍认为,SARS-CoV-2(也称为hCoV19和nCoV)是一种源于蝙蝠的人畜共患病病毒(国际病毒分类委员会冠状病毒科研究组,2020;Zhou et al.,2020),并且在能够大规模感染人类之前,很可能在另一中间宿主中经历了至少一次重组事件(Ji et al.,2020)。对于另外两种严重的人类致病性冠状病毒爆发,SARS-CoV和MERS-CoV,已经描述了类似的机制,其中麝香猫(civets)(Childs et al.,2007)和单峰骆驼(drome-dary camels)(Azhar et al.,2014)分别被确定为中间宿主。关于SARS-CoV-2,关于可能的中间宿主的讨论仍在进行中,到目前为止,蛇(Ji et al.,2020)和穿山甲(Zhang et al.,2020)已被提出。刺突蛋白受体结合域中发生的特异性突变被认为是至关重要的,这使得病毒能够停靠在人类细胞上,这一点在其他地方已经得到了很好的评价(Andersen et al.,2020)。除了SARS-CoV-2的来源不明外,卫生部门还受到缺乏可靠检测方法的严峻挑战。事实上,SARS-CoV-2的基因组与其他冠状病毒非常相似,特别是SARS-CoV。因此,当实施一种健康方法时,冠状病毒的假阳性检测可能使流行病学研究复杂化。对患者的检测方法被认为是足够准确的,因为他们很少携带各种可能导致误报的病毒。然而,在自然生态系统中,通过分子和生物信息学方法检测病毒尤其成问题,因为自然生态系统包含复杂的微生物组,病毒可能丰富多样(Handley & Virgin,2019)。对于此类应用,short reads高通量测序可进行病毒群落分析,检测罕见甚至新颖的病毒(Cheval et al.,2011;Wylie et al.,2012;Zhang et al.,2021)。除了基于同源性的注释方法,如BLASTn,还建立了包括Kraken2和Kaiju在内的几种生物信息学工具,以促进微生物群落的快速分析,其中也包括病毒组(Menzel et al.,2016;Wood et al.,2019年)。另一方面,上述方法证明了短序列读取组装策略的重要性,以促进可靠的病毒组分析(Sutton et al.,2019年)。在当前大流行的背景下,检测不一定属于SARS-CoV-2的冠状病毒样序列可能会影响对该病毒自然分布的研究。在这篇简短的报告中,我们旨在提高人们对宏基因组数据中冠状病毒样序列的认识。我们的数据支持这样的假设,即非病毒来源的短病毒样DNA序列是导致不同生态系统中SARS-CoV-2不正确识别的各种不确定性的重要原因。


图文摘要


实验设计


我们在各种宏基因组样本,即陆地、动物和人类相关样本中搜索冠状病毒样短序列。此外,我们结合了内部和之前发表的宏基因组数据集(表S1),这些数据集迄今为止与任何冠状病毒研究都没有关联。使用两个完善的宏基因组和宏转录组研究分类器评估高质量reads的病毒分类,即Kraken2 (Wood et al., 2019)和Kaiju (Menzel et al.,2016)。Kraken2使用基于k-mer的方法,通过将所有k-mer映射到包含给定k-mer的所有基因组的最低共同祖先(LCA),对单个元基因组读取进行分类,而Kaiju使用Burrows Wheeler转换在蛋白质水平上搜索最大精确匹配。Kraken2分析使用默认参数对Kraken病毒数据库进行,该数据库包含RefSeq完整病毒基因组/蛋白质(检索日期为2020年12月18日),并添加了18个公开的β冠状病毒完整基因组(表S2)。Kaiju使用MEM(最大精确匹配)模式对NCBI RefSeq数据库执行(于2020年5月22日检索)。此外,我们系统地将宏基因组数据集(组装的contigs和合并的配对端读)与国际知名机构针对SARS-CoV-2分离物Wuhan-Hu-1 (SARS-CoV-2)检测设计的引物和探针列表进行了比对,并在世卫组织网站(表S3)和SARS-CoV-2上公布利用(BLASTn是引物比对的缩写)分离Wuhan-Hu-1全基因组(GenBank账号:MN908947.3)(Camacho et al.,2009)。每个可能的核苷酸交换引物分别对齐。在校准之前,我们使用MEGAHIT v1.2.9和元敏感参数(Li et al.,2015)生成组装的元基因组contigs群。利用集成基因组学查看器(IGV)工具(版本2.4.10)(Thorvaldsdóttir et al.,2013)可视化了针对SARS-CoV-2分离株Wuhan-Hu-1全基因组的short reads和contigs序列比对。随后,我们针对非冗余蛋白质序列(nr)NCBI数据库(Sayers et al.,2020)对初步确定为SARS-CoV-2的读对进行BLASTx搜索(https://blast.ncbi.nlm.nih.gov; 更新日期:2021年1月10日)。  


结果与讨论

 
只有一小部分数据集可以使用Kraken2分配给病毒(平均值:0.40%;最低值:0.02%;最大值:3.30%)和Kaiju MEM(平均值:1.03%;最低值:0.26%;最大值:4.17%)宏基因组分类器(图1AB)。两种宏基因组分类器均检测到被归类为冠状病毒科的读码(图1CD)。相对而言,Kraken2检测到的属于冠状病毒科的读取数低于Kaiju(分别为245329次读取)。有趣的是,在各种样本中检测到与人类相关的冠状病毒,即人类冠状病毒HKU1、人类冠状病毒229E、人类冠状病毒NL63、中东呼吸综合征冠状病毒(MERS)和严重急性呼吸综合征相关冠状病毒(SARS-CoV)。具体而言,根据Kraken2分析,在两个陆地样本和两个动物相关样本中检测到SARS冠状病毒,根据Kaiju分析,在八个陆地样本、五个动物相关样本和五个人类相关样本中检测到SARS冠状病毒(图1C, D)。在五个陆地样本(AS1AS10DS11DS12SM)、两个动物相关样本(COW3GOAT3)和一个人类相关样本(STO3)中检测到被归类为SARS冠状病毒-2READ。这些结果表明,冠状病毒样短序列可以从不同的亚基因组中检索,包括人类、动物和环境样本。使用BLASTx搜索NCBI nr数据库(更新日期:2021110日),对检测到的读数进行进一步注释,以确认它们并非源于冠状病毒,冠状病毒都是已知的RNA病毒(补充数据1)。Short reads方法有助于快速但深入地评估病毒群落及其检测和监测(Nieuwenhuijse et al.2020Sabatier et al.2020Wylie et al.2012Zhang et al.2021)。在这里,我们想强调的是,由于可能出现错误识别,在基于short reads执行病毒社区分析时必须谨慎。此外,我们认为,虽然用于short reads序列比对的工具速度很快,但它们往往不够精确。
通过将宏基因组数据集的short readscontigsSARS-CoV-2 Whuan-Hu-1全基因组序列(GenBank账号:MN908947.3)对齐,我们检测到少量匹配的short reads(最小contigs18 bp90%以上的同一性;图1E;表S4)。大多数陆地样本包括short reads比对(9个样本中的8个),而与人类相关的样本没有发现比对。当评估接触而不是short reads时,整个数据集中只有6个可以比对(比对覆盖率低;与SARS-CoV-2 Whuan-Hu-1全基因组(表S5)的比对长度为18-23 bp。因此,我们的分析表明,为了避免复杂样本中冠状病毒的错误识别,应选择24 bp8个氨基酸的最小比对长度。大多数对齐阅读位于SARSCoV-2 Whuan-Hu-1完整基因组的3200-350021800-22600位置,分别注释为ORF1a多蛋白和表面糖蛋白(图1e)。在用BLASTx搜索了整个contigs后,也证实它们不是冠状病毒(补充数据1)。
 

图1 所示。根据Kraken2 (A, C)和Kaiju (b和d)分类器,散点图和条形图显示分析的宏基因组中病毒(A, B)和冠状病毒(C, D)的数量。整合基因组查看器(IGV)对SARS-CoV-2分离Whuan-Hu-1全基因组short reads序列和组装片段的比对快照(E)。
 
随后,我们分析了宏基因组数据集是否包含互补区域,以测试目前用于SARS-CoV-2检测的引物。在世界卫生组织公布的55个引物和探针序列中(世界卫生组织,2020年;表S3),当允许一个不匹配(补充数据2)时,在两个数据集中的至少一个(shortreadscontigs)中至少可以检测到11个。在大多数情况下,只检测到一对引物中的一个引物;唯一检测到同一引物对正、反引物的是法国巴黎巴斯德研究所的引物nCoV_IP2-12669FwnCoV_IP2-12759Rv和中国疾控中心的China_ORF1ab_FChina_ORF1ab_R。它们分别与Pinus mugo(山松)Vaccinium myrtillus(越桔)的植物宏基因组显示出互补性(补充数据2)。在这两种情况下,在任何数据集中都无法检测到清晰阳性试验所需的相应qPCR探针。然而,当严格性降低到两个不匹配时,在法国巴黎巴斯德研究所的一个植物宏基因组Sphagnum magellanicumSMpeat moss;补充数据3)。日本国家传染病研究所在从咸海盆地检测(National Institute of Infective DiseasesJap)的另一个引物探针组(Jap_ORF1a_NIID_Whu 1_F509Jap_ORF1a_NIID_Whu 1_R854Jap_ORF1a_NIID_Whu 1_Seq F519Jap_ORF1a_NIID_Whu 1_Seq R840)也是如此(AS10;补充数据3)。与short readscontigs相类似,这些reads结果也表明不是来自冠状病毒(补充数据1)。在以前的研究中,对SARS-CoV-2 RT-qPCR引物探针组进行了分析敏感性和效率比较(Vogels et al.2020)。作者认为,随着病毒在暴发期间的进化,探针核苷酸错配可能会影响PCR的敏感性,这可能会改变探针结合区域。在我们的研究中,我们不希望引物探针命中导致阳性检测结果,因为这些读取不是病毒成分,因此不会产生预期的扩增子片段(补充数据1)。然而,我们强调在SARS-CoV-2检测的RNA提取过程中消除环境DNA的重要性,以及后续PCR条件(特别是退火温度)的严格性,以避免假阳性检测。
考虑到我们发现SARS-CoV-2完全引物-探针组匹配,环境RNA或污染DNA中的冠状病毒样序列为经常报告的假阳性RT-PCR试验的发生提供了可能的解释,也是不确定性的主要原因(Surkova et al.2020)。我们假设,为了早期检测SARS-CoV-2和其他病毒暴发,特别是废水监测,将越来越多地采用鸟枪式宏基因组/转录组学方法(Kolarević et al.2021Venugopal et al.2020)(或其他环境样本),因此希望提高对基于short reads分析的自动化生物信息学方法可能导致的复杂数据集中错误识别的潜在发生的认识。
 

结论


我们在人类、动物和自然环境中鉴定出与冠状病毒高度相似的短核苷酸序列。它们在这些生态系统中的起源和作用尚不清楚,这有待于今后的探索。然而,我们仍然想强调,从宏基因组数据中识别与冠状病毒相似的短序列是有价值的。如果在检测试验前DNA去除不足,这些序列的存在可能会干扰可靠的SARS-CoV-2检测,即使这在本研究中无法得到证实;因为迄今为止,大多数引物-探针组仅针对其他已知的β-冠状病毒和其他引起呼吸道疾病的病毒进行了验证(Corman et al.2020Vogels et al.2020)。由于已经在废水样本中多次检测到SARS-CoV-2,因此有人提出废水监测可能是早期检测SARSCoV-2疫情的良好策略(Kolarević et al.2021Venugopal et al.2020)。我们的研究结果表明,通过标准化微生物组分析工作流程或实时PCR检测引物-探针匹配来分析非组装病毒组数据集的可靠性不足以避免在复杂微生物组(如土壤或废水中存在的微生物组)中错误识别冠状病毒。为了阐明冠状病毒的分布并将其与冠状病毒样序列区分开来,需要以RNA为中心的方法,结合标准化引物和PCR参数,完全排除污染DNA。当使用大型参考数据库(例如NCBI参考序列(RefSeq)数据库和NCBI BLAST nr数据库)时,潜在的命中率不限于冠状病毒,则不太可能出现这种歧义。然而,当需要使用封闭数据库进行有针对性的搜索时,选择具有代表性的序列长度(最小24 bp8个氨基酸)对于避免错误识别至关重要。从病毒组分析中获得的结果应始终进行严格评估;例如,当在宏基因组数据集中检测到RNA病毒时。最后,我们相信微生物组研究有助于理解和预测进一步的病毒暴发,并采取必要的行动避免暴发,因为病毒是微生物组的一部分,其固有的稳定性和可塑性是根本的。



不感兴趣

看过了

取消

本文由“健康号”用户上传、授权发布,以上内容(含文字、图片、视频)不代表健康界立场。“健康号”系信息发布平台,仅提供信息存储服务,如有转载、侵权等任何问题,请联系健康界(jkh@hmkx.cn)处理。
关键词:
宏基因组,数据集,序列,科研,样本,检测,探针

人点赞

收藏

人收藏

打赏

打赏

不感兴趣

看过了

取消

我有话说

0条评论

0/500

评论字数超出限制

表情
评论

为你推荐

推荐课程


社群

  • 第九季擂台赛官方群 加入
  • 手术室精益管理联盟 加入
  • 健康界VIP专属优惠 加入
  • 健康界药学专业社群 加入
  • 医健企业伴飞计划 加入

精彩视频

您的申请提交成功

确定 取消
5秒后自动关闭

您已认证成功

您已认证成功,可享专属会员优惠,买1年送3个月!
开通会员,资料、课程、直播、报告等海量内容免费看!

忽略 去看看
×

打赏金额

认可我就打赏我~

1元 5元 10元 20元 50元 其它

打赏

打赏作者

认可我就打赏我~

×

扫描二维码

立即打赏给Ta吧!

温馨提示:仅支持微信支付!

已收到您的咨询诉求 我们会尽快联系您

添加微信客服 快速领取解决方案 您还可以去留言您想解决的问题
去留言
立即提交