申请认证 退出

您的申请提交成功

确定 取消

基于k-mer的病毒分类方法可识别人类自闭症的病毒关联

2022-04-18 17:43

目前微生物组分析的方法主要集中在使用16S rRNA测序的细菌、使用ITS测序的真菌和使用宏基因组测序的分类评估的其他生物

导读  

病毒是微生物组分研究和鉴定中代表性不足的分类群;然而,它们在健康、微生物组调节和遗传物质转移方面发挥着重要作用。目前只有几千种病毒被分离、测序和分类,这限制了在微生物组中识别和量化病毒的能力。此外,病毒庞大的多样性对分类提出了挑战,不仅仅是在构建病毒分类学方面,而且在确定病毒基因型与其表型之间的相似性方面也是如此。然而,病毒序列的多样性可用于在宏基因组和宏转录组样本中对其序列进行分类,即使它们没有分类法。

为了识别和量化转录组和基因组样本中的病毒,我们开发了一种动态编程算法,用于从715,672个宏基因组病毒中创建分类树。为了创建分类树,我们对每个宏基因组病毒的k-mer图谱生成的比例相似性分数进行聚类,以创建宏基因组病毒数据库。由此产生的宏基因组病毒Kraken2数据库可在此处找到,并且与Kraken2兼容。

然后,我们将病毒分类数据库与使用来自NCBI基因组创建的数据库进行整合,以用于Parakaken(补充压缩包1中提供的Kraken的并行版本),一种宏基因组/转录组分类器。为了说明我们用于分类宏基因组病毒的广泛性,我们分析了一项植物宏基因组研究的数据,该研究确定了3个不同隔间中2种杨树基因型之间的基因型和隔间特异性差异。

在一项比较自闭症谱系障碍患者和对照组的人类转录组研究中,我们还发现死后大脑中8个病毒序列的丰度显著增加。我们还通过利用 JGI 和 NCBI 病毒数据库来识别病毒序列的唯一性,展示了对病毒进行分类的潜在准确性。最后,我们用2019冠状病毒疾病分类数据库验证病毒分类的准确性,以确定已知的COVID-19和木薯褐条病毒感染样品中的致病病毒

我们的方法是更好地理解病毒在微生物组中的作用的第一步,它允许在没有分类学的情况下更完整地识别序列。对病毒进行更好的分类将有助于识别病毒与其宿主以及病毒与其他微生物组成员之间的关联。尽管缺乏分类学,该宏基因组病毒数据库可以与任何利用分类学的工具(如Kraken)一起使用,以便对病毒进行准确分类。

 

45541650151151295

图文摘要    

论文ID

 

名:A k-mer based approach for classifying viruses without taxonomy identifies viral associations in human autism and plant microbiomes

一种基于k-mer的无需分类的病毒分类方法可识别人类自闭症和植物微生物组中的病毒关联

期刊Computational and Structural Biotechnology Journal

IF:7.271

发表时间:2021.10.25

通讯作者:Daniel Jacobson

通讯作者单位:美国橡树岭国家实验室;美国田纳西大学

DOI号:10.1016/j.csbj.2021.10.029 

实验设计

49741650151151652

前言

据估计,地球上的噬菌体数量高达4.80×1031,这意味着可能存在的病毒总数要多得多。病毒在微生物组的调节中起着至关重要的作用。此外,即使在没有疾病的情况下,病毒也在人类微生物群中无处不在。病毒所扮演的独立于疾病的角色或者说作用也没有得到很好的研究清楚,因此对于更好地理解宿主、病毒和微生物组之间的相互作用,必须对病毒进行识别和分类。尽管有大量的病毒及其在微生物组中的重要性,但只有一小部分被测序或鉴定。总的来说,宏基因组学和宏转录组学已经导致发现了比分离和测序之前能够研究的更多的病毒;然而,它们的分类知识是有限的,这使得在组学样本中进行准确的鉴定具有挑战性。虽然国际病毒分类委员会(ICTV)对病毒分类进行了更新,但截至2019年,只有5560种病毒物种被指定了分类。相比之下,联合基因组研究所(JGI)的综合微生物基因组和微生物组(IMG)报告了8000多个病毒分离株,IMG/VR列出了超过715,000个宏基因组病毒,其中大多数病毒缺乏分类学分类,因为它们是从混合生物中取样的,尚未分离。宏基因组病毒通常缺乏表型特征和宿主信息,这给理解其基本生物学带来了挑战,需要不同的分类方法。

此外,依赖序列同源性或NCBI/RefSeq数据库进行分类的方法在没有分类学或与任何分类学(如大多数宏基因组病毒)没有同源性的情况下不起作用。例如,ViromeScan依靠NCBI的已知分类法,从宏基因组样本中的RefSeq中识别病毒。诸如vConTACT、Low等人和Metavir等工具需要与已知病毒具有同源性才能进行分类。据我们所知,目前还没有已知的方法或数据库用于对宏基因组病毒进行分类,而这些宏基因组病毒在RNASeq或DNASeq样本中没有分类或与具有分类的病毒同源性。尽管存在分类学和生物学方面的障碍,但在宏观组学实验中识别病毒,除了微生物和植物群落中的其他相互作用外,还可以对宿主-病毒相互作用进行新的了解。

JGI组装宏基因组病毒的努力产生了数量空前的病毒序列,这些序列可用于对构成宏基因组和宏转录组样本大部分的微生物暗物质进行分类。据我们所知,我们基于k-mer的方法是现存唯一能够按照IMG-VR提供的规模对病毒进行分类和量化的方法。病毒分类的主要挑战之一,尤其是在缺乏表型信息的情况下,是它们的多样性,以及序列和进化之间的不良关系。虽然包含高度不同的序列增加了创建详细、精细的病毒分类的难度,但独特序列的存在有助于对病毒组学样本的分类,即我们知道它们可能在物种水平或更高水平上有所不同。诸如自然载体表达、成对序列比较和成对进化距离等方法已被开发出来,以更好地识别病毒之间的系统发育相似性,但基于k-mer的方法可以提供对分类序列数据库进行数百万到数十亿次测序reads的高效和准确分类所需的速度和规模。此外,这些基于k-mer的方法可以扩展到无需分类学的序列,这样既可以更精确地对reads进行分类,又可以更好地理解微生物组中可能存在的生物体类型。

在本文中,我们创建了一种方法,用于生成从IMG到VR的715,672种病毒的分类树,用于在宏基因组学和宏转录组学研究中识别病毒序列(图1)。鉴于不可能将所有病毒相互比较,我们首先对病毒进行子集划分,以确定哪些病毒对具有k-mer重叠从而计算相似性分数。子集划分导致比较空间减少了99.98%,从而可以为每个具有非零相似性的病毒对计算定量比例相似系数。然后使用Hip-MCL算法对类似病毒进行聚类,以用于生成基于多个膨胀值的分层树。分类树与NCBI的分类法相结合,允许对宏基因组和宏转录组样本的reads进行分类。最后,使用伪分类法创建了所有宏基因组病毒的Kraken数据库(可在此处获得:https://www.osti.gov/biblio/1615774)用于Kraken2。我们利用ParaKraken来说明我们的病毒分类方法的广泛使用,以扩展更传统的宏基因组分析,从而包括比NCBI单独提供的更多的病毒多样性。

 

36451650151152041

图1. 病毒分类树的创建和使用。为了首先确定715,672宏基因组病毒中哪些与其他病毒具有非零相似性分数,我们对病毒进行了子集划分以确定k-mer重叠。我们确认约4300万对具有非零相似性分数,计算数量减少99.98%。然后,通过对具有以下膨胀值的定量比例相似系数运行HipMCL来创建病毒簇:1.4、2.0、3.0、4.0和6.0。MCLCM用于分析膨胀集群以生成层次结构,然后对成员数>3的集群执行相邻连接。然后将宏基因组病毒树与NCBI的分类法相结合,用于对宏转录组和宏基因组样本进行分类。我们使用NCBI全基因组和JGI宏基因组病毒数据库分析了白杨和ASD数据集,使我们能够对分类群进行分类,并确定不同条件下的差异丰度。该网络显示了杨树基因型(绿色-杂种,橙色-三角洲杨)中病毒(紫红色)的不同丰度。不同基因型的病毒丰度在土壤(最轻)和根际(中间)隔室中相似,但内际(最暗)与其他隔室不同。

为此,我们将相同的宏基因组分类方法(包括我们的Kraken数据库)应用于包含2种不同杨树基因型的根际、内际和土壤样本的植物数据集,以及来自自闭症谱系障碍(ASD)个体和对照组的死后脑样本数据集。选择植物和人类样本表明,本文提出的方法与宿主和微生物组无关,在病毒组中具有较高的保真度。此外,这2种宿主都对与细菌有关的微生物组进行了深入的研究,并且通常缺少病毒等生物体。此外,病毒既影响宿主生物的健康,也受宿主生物健康的影响,这使得两者都是在微生物组内探索病毒的理想选择。例如,我们特别选择ASD脑组织样本,因为之前的文献表明ASD与脑组织中的病毒之间存在关联。一项研究发现ASD患者脑组织中的多瘤病毒数量增加,并且个体内的病毒数量已被证明与神经心理发育下降相关,支持ASD与脑组织中存在的病毒之间存在关联的观点。我们还利用2019冠状病毒疾病的病毒序列作为阳性对照来估计单个病毒株中病毒序列的唯一性,并在感染条件下鉴定已知病毒,如支气管肺泡灌洗液(BALF)样品中的COVID-19感染和木薯样品中的木薯褐条病毒。

结果

病毒分类树可以集成到NCBI分类法中,用于对宏基因组和宏转录组样本中的病毒序列进行分类。为了说明拥有715,652种病毒分类树的能力,我们将ParaKraken应用于两项不同研究产生的数据。第一项研究是从2种不同基因型(美洲黑杨P. deltoides和美洲黑杨×毛果杨P. trichocarpa)的3个不同区域(内生层、根际和土壤)中采样的杨树宏基因组。每个基因型-隔室都有5个生物学重复(出于质量控制的原因,删除了一个毛果杨样本)。如果没有病毒数据库,由此产生的宏基因组分类无法识别50%reads的分类群。大量未知的微生物暗物质使我们能够对微生物组样本中可能存在的病毒序列进行初步估计。第二项研究是一项ASD研究,比较ASD患者和对照组死后的脑活检。虽然ASD研究中的绝大多数reads是人类的,但我们捕获了一部分大脑微生物组,包括病毒组。1 杨树宏基因组 

为了确定隔间和基因型之间的植物群落的差异,我们将ParaKraken应用于从美洲黑杨和美洲黑杨×毛果杨(杂交种)的内生层、根际和土壤样品中产生的数据。为了反映最近发表的旨在描述植物病毒组的常用作图方法,最初仅使用NCBI数据库对样本进行分析,该数据库包含原核生物、古生物、真核生物和8000个病毒分类群的所有公开基因组。NCBI数据库将48亿次reads数据中的50%分配给分类群,其余数据代表未知微生物暗物质(图2A)。为了说明基于k-mer的病毒数据库映射能力的增强,我们随后使用基于k-mer的病毒数据库结合NCBI数据库分析样本。纳入715,672株JGI宏基因组病毒后,图谱的reads量增加了3.47亿次。对于给定样本,宏基因组病毒占总映射reads数的6%至20%(平均15%),大大增加了病毒组的覆盖率(补充表1和表2)。除了增加reads覆盖率外,病毒序列也因隔间和基因型而异,从而导致病毒、宿主和其他社区成员之间的潜在关联。

55911650151152156

图2. 宏基因组和宏转录组样本中病毒的分类。(A)病毒数据库对美洲黑杨(D)和毛果杨(H)数据中映射的reads数的影响。每组中的第一条代表纳入病毒数据库前的ParaKraken结果,第二条代表纳入病毒数据库后的分类。宏基因组病毒平均占绘制reads的15%,在根际和土壤中的绘制百分比高于内际,表明病毒构成了微生物组的很大一部分。(B)自闭症患者大脑和正常人大脑中病毒的差异。毫不奇怪,在人类样本中,真核生物占绝大多数。然而,我们能够识别与病毒相关的序列,其中8个在ASD组显著高于对照组(p值<0.05,f值>0.9,>2倍变化)。该图显示了所有显著差异丰度病毒(不考虑倍数变化),病毒大小代表倍数变化(最小-1.00 FC,最大2.62 FC)。对照组中有5种病毒的p值<0.05,f值>0.9,而ASD中9种病毒的平均倍数变化为1.09,而ASD中9种病毒的平均倍数变化为2.23,这表明ASD大脑中的病毒计数可能更高。

为了更好地探索隔间和基因型之间的差异,我们进行了差异丰度分析,比较了基因型内部和基因型之间的差异,重点是病毒。对于基因型内比较,我们比较了每个基因型的内生区域与根际、根际与土壤、土壤与内生区域(图3A)。有65个病毒序列在比较中显著差异丰富(p值<0.05,f值>0.9)。根际(48和37个序列)和土壤(36和39个序列)的差异丰富的病毒序列数量远远高于内生区域(4和6个序列),这可能是由于内生区域中检测到的病毒reads量较低。根际和土壤剖面彼此相似,只有一个隔间和基因型特有的10个显著序列。此外,同一基因型内的根际和土壤样本比不同基因型间的根际和土壤样本更为相似。该2个内部区域样本中共有6个独特的重要内部区域病毒序列中的3个。

73671650151152488

图3. 杨树基因型和隔间中病毒序列的差异丰度。在(A)基因型内比较中,不同基因型的根际和土壤样品具有相似的显著性(p值<0.05和f值>0.9)病毒序列;然而,重要的土壤和根际病毒序列在基因型内比在基因型间更相似。这两个内胚层样本几乎没有显著的病毒序列,而且它们之间比其他隔间有更多的共同点。在(B)基因型之间的比较中,给定基因型的土壤和根际样本具有相似的显著差异丰富的病毒。此外,与根际和土壤相比,内源样本的显著差异序列要少得多,这可能是由于病毒序列的总体丰度较低。这两张图都表明存在宿主或微生物组介导的病毒序列选择,该病毒序列具有某些基因型和间隔特异性。

除了基因型内比较外,还进行了室内比较:美洲黑杨土壤与毛果杨土壤,美洲黑杨根际与毛果杨根际,以及美洲黑杨根内部与毛果杨根内部(图3B)。在比较中有48个病毒序列存在显著差异。与基因型内比较类似,根际(28和15个序列)和土壤(27和16个序列)的病毒含量比根内部(3个和2个序列)更高。此外,给定基因型的土壤和根际样品具有几乎相同的重要病毒序列,其中1种病毒是美洲黑杨根际特有的,3种病毒是毛果杨根际特有的,4种病毒是毛果杨土壤特有的。根际和土壤的基因型之间没有明显的病毒共享。不存在仅与根系内部相关的独特病毒,每个根系内部样品与毛果杨根际/土壤和美洲黑杨根际/土壤至少共享一种重要病毒。

2 自闭症谱系障碍转录组 

为了更好地理解病毒序列与人类健康之间的关联,我们分析了ASD个体和对照组的死后脑组织宏转录组样本(图2B)。我们首先将reads与GRCh38人类参考基因组进行比对,导致67.5%的reads(总44.3亿个reads中的2.99个)映射到参考基因组。然后用我们的ParaKraken通道处理未映射的reads。不出所料,95%的未映射reads被分配给真核生物,很可能是由于患者和人类参考基因组之间的映射不明确和差异所导致(补充表3)。尽管未映射reads中人类序列的百分比很高,但在所有样本中都很容易识别出宏基因组病毒reads,reads范围从5 k到125 k(平均reads0.06%;而细菌占reads的0.57%)。为了评估JGI病毒的独特性,我们量化了在宏基因组病毒水平上映射的reads百分比。与单个病毒相比,只有8.9%的reads在更高的分类级别上进行映射,这表明JGI病毒在样本集中具有高度的唯一性和明确性。

为了进一步了解ASD与脑活检中病毒序列之间是否存在关联,我们将ASD与对照组进行了差异丰度比较。与对照组相比,ASD患者的8个宏基因组病毒序列在>2倍变化时的丰度显著高于对照组,而对照组在该倍变化时的丰度显著低于对照组初始状态。比较所有重要病毒时(p值<0.05,f值>0.9;不考虑倍数变化),ASD中显著较高的9种病毒的平均倍数变化为2.23(1.99–2.62),而对照组中显著较高的5种病毒的平均倍数变化为1.09(1.00–1.16)(图2B),这表明自闭症患者的脑组织可能具有相对较高的病毒序列丰度(至少对于我们数据库中包含的病毒而言)。ASD中较高的9种病毒的JGI ID分别为:Ga0114997_10000721、Ga0099847_10000845、Ga0180434_100000080、Ga0181583_10003850、C687J26657_10000305、Ga0080013_10000178、Ga0114957_10000600、Ga0007809_10000384、Ga0181563_10001177,以及对照组中较高的5种病毒:Ga0075122_10000531、DelMOWin2010_c10003738、Ga0075125_4、GA100312;、GA100312,Ga0160422_10001594。这些宏基因组病毒通过在脑组织样本中reads的序列同源性代表最接近的已知生物体。

3 病毒独特性和丰度的评估

为了评估病毒序列的独特性,我们于2020年2月下载了NCBI病毒分类法的更新版本。我们首先通过计算从NCBI的所有病毒序列中产生了长度为200 bp、滑动窗口为1的reads,从而产生了10.6亿次reads。然后,我们对NCBI和JGI数据库使用ParaKraken分析这些reads。绝大多数的reads(53.4%)仅对应于产生reads的单个病毒分离株。一小部分reads(8.3%)映射到NCBI分类根,这意味着病毒reads要么与另一个超级王国同源,要么与宏基因组病毒同源。NCBI数据库中reads的唯一性表明,大部分病毒多样性尚未被发现,很少有病毒对多个相似的分离株进行了测序,NCBI的病毒与JGI的病毒之间也很少有重叠。根据 NCBI 的结果,自闭症宏基因组中的 JGI 病毒的歧义远低于预期。对于 NCBI 中的病毒,映射到单个分离株的reads与非NCBI 根病毒reads的比率为 1.4 (53.4/38.3),而自闭症数据集中 JGI 宏基因组病毒的reads为 10.2 (91.1/8.9)。

为了进一步理解2019冠状病毒疾病的独特性,我们使用两个不同的数据库对COVID-19 BALF样本中的病毒进行分类。第一个数据库包括最原始的NCBI和JGI parakraken数据库,而第二个数据库包括2020年2月版本的NCBI病毒(包括导致新冠病毒19的SARS-CoV-2基因组)。在没有感兴趣的分离株的情况下,26,878个reads(占reads的0.2%)映射到不同的冠状病毒亚科,其中22,238个reads的最高命中率是SARS冠状病毒(以前的冠状病毒分类法)。添加SARS-CoV-2分离株后,62,480个reads(占总reads的0.5%)映射到冠状病毒亚科,其中大部分62461个reads映射到感兴趣的特定病毒分类群:严重急性呼吸综合征冠状病毒2。SARS-CoV-2与另一种类似SARS的冠状病毒具有89.1%的序列同源性,这就是为什么我们能够在没有确切感兴趣的分离株的情况下识别冠状病毒的部分原因。然而,尽管已经对高度密切相关的病毒进行了测序,但将感兴趣的确切分离株包括在内,使图谱增加了2.3倍(重申了先前的结果,即鉴于测序的病毒数量稀少,大多数病毒序列是唯一的)。

除了COVID2019冠状病毒疾病外,我们还分析了来自莫桑比克的木薯样本,证实该样品被木薯褐条病毒感染。我们将ParaKraken应用于原始NCBI数据库和样本上的JGI数据库,并确认存在感兴趣的病毒。ParaKraken鉴定了1942次与木薯褐条病毒相关的reads(占总reads的0.1%)。正如所料,在自闭症患者的大脑样本或植物宏基因组样本中,ParaKraken均未发现冠状病毒或木薯褐条病毒。SARS-CoV-2和木薯褐条病毒均证明,在活跃感染期间,ParaKraken可以识别感兴趣的病毒,并且病毒包含高度独特的序列,部分原因是缺乏已测序的病毒和具有分类学的病毒。

4 JGI病毒数据库的准确性  

为了评估JGI病毒基因组的准确性,我们随机模拟每个基因组的100次reads,从而产生了7160万个reads。我们还以2.5%、5%和12.5%的速率模拟突变,以确定核酸序列的微小变化如何影响准确性(表1)。Parakaken和Kraken2 JGI宏基因组和NCBI数据库能够在82%的时间内识别正确的病毒(包括分类树中的亲本病毒)。此外,9.5%的reads映射到其他JGI病毒,8.5%的reads映射到简单的“其他”类群(其他包括NCBI分类群、未映射reads和不明确reads)。2.5%和5%的突变对准确率的影响最小,但当我们引入12.5%的突变率时,准确率降低了56%。尽管准确率比Kraken2(ParaKraken的基本分类器)使用NCBI数据库(原核生物属和属分类病毒)产生的准确率低10–15%,但是准确度的下降很大程度上可能是由于我们评估中使用的基因组数量较多,与Kraken2用于准确度评估的数据子集相比,JGI数据库中的病毒和病毒序列的多样性更高。因此,kmer/lmer空间的任何缩减以及用于从Kraken2创建更紧凑数据库的二次抽样将对具有高序列多样性的生物体产生更大的影响,例如本研究中使用的JGI病毒。而且,尽管准确度略有下降,我们仍然能够以较高的准确度识别宏基因组病毒,从而改进了病毒与宿主、病毒和微生物组其他成员之间关联的识别。

 

表1. JGI数据库的准确性。为了确定JGI数据库的准确性,从每种病毒中随机选择200个核苷酸的100次reads(产生7160万次reads)。之后将READ突变为包括5、10和25个突变。然后使用Parakaken对Kraken2 JGI和NCBI数据库中的reads数据进行分析。如果read内容与确切的病毒或该病毒的亲本病毒匹配,则确定read内容被正确分类。如果read映射到另一个JGI病毒或不是生成reads的亲本病毒,则确定该read在JGI中被错误分类。如果read未映射、不明确或映射到NCBI reads,则将其归类为“其他”。每次read 的5-10个突变对准确性的影响最小。

93181650151152767

讨论

鉴定组成微生物组的成分及其与宿主的关系对于理解人类健康、植物健康以及微生物如何影响其他生物体的表型至关重要。目前微生物组分析的方法主要集中在使用16S rRNA测序的细菌、使用ITS测序的真菌和使用宏基因组测序的分类评估的其他生物;然而,除了已经分离并分配给一个分类学的少数病毒所能达到的效果之外,在量化和理解宏基因组和宏转录组样本中的病毒reads方面所做的工作很少。此外,病毒具有高度的序列多样性,如IMG/VR鉴定的独特宏基因组病毒所示,绝大多数病毒在NCBI中没有近亲。

解决目前病毒鉴定的局限性是至关重要的,因为病毒在许多生物系统中扮演着重要但尚未研究的角色。例如,噬菌体可以调节小鼠肠道微生物组的代谢组,包括影响噬菌体不直接影响的细菌。此外,黑猩猩的终末期病毒感染可能导致肠道微生物群中细菌的不稳定,可能是通过改变宿主免疫系统实现的。微生物组也可以起到保护作用,有助于降低病毒感染的风险。由于缺乏检测微生物组样本的方法,以及从微生物组样本中收集到的大部分信息来自细菌,病毒在微生物组样本中的大部分作用尚不清楚。

此外,在本论文发表之前,还缺乏量化病毒分类群、研究宿主-病毒相互作用或病毒与其他微生物组分之间大规模相互作用的方法(比病毒分类学所能达到的规模大的数量级)。通过直接测定人类样本中已知的病毒、病毒抗原和病毒抗体,可以确定多瘤病毒与ASD、其他具有神经发育病毒、具有多发性硬化症的不同疱疹病毒和外周血神经病变、HIV和外周动脉疾病之间的关联,以及丙型肝炎和肾病等。此外,母亲和孩子的自身免疫在自闭症的形成和神经发育中都起着重要作用。此外,多种病毒与先天性自闭症有关,如风疹、流感、巨细胞病毒和多瘤病毒。很可能有许多对人类健康有影响的人类相关病毒和微生物组相关病毒有待发现,无论是直接发现还是通过与微生物组中的其他分类群相互作用。在经历干旱胁迫的植物中,已证明致病性病毒对干旱具有放大作用,从而增加感染相关胁迫和干旱相关胁迫;然而,不同的传染性病毒通过减少水分损失降低干旱严重程度,最终提高了对感染和干旱的耐受性。此外,病毒胁迫和非生物胁迫的联合效应(如干旱、高温、盐碱等)受到对单个胁迫源的表观遗传反应重叠的影响,这可能产生积极或消极的影响,具体取决于植物对每种胁迫的具体反应。为了更好地了解病毒对宿主和微生物群造成的各种直接和间接影响,需要更全面的知识和改进的大规模识别病毒的方法。

IMG/VR通过提供已知最广泛的宏基因组病毒集合,为鉴定未知病毒及其相关性的方法学开发和假设生成提供了合适的起点。虽然他们的工作是在单个样本中确定了病毒装配,但我们可以利用他们收集的大量装配来量化不同宏基因组和宏转录组样本中的病毒序列。为了对病毒序列进行分类,我们开发了一种动态编程算法,该算法允许我们从宏基因组病毒创建一个分类树,该分类树可以与NCBI的分类法相结合。虽然将所有病毒相互比较是不切实际的,但该方法最初确定哪些病毒具有非零相似性分数,从而将相似性计算的数量减少了99.98%。这种简化使得相似度的计算和分类树的构建成为可能,为在宏基因组和宏转录组样本中识别病毒序列提供了第一步。对于显示病毒和感兴趣的表型之间关系的样本,可以分离该病毒以更好地表征。

通过鉴定杨树基因型和组织区室以及ASD和对照脑活检中的病毒序列,证明了分类树的实用性。我们发现与美洲黑杨根际、毛果杨根际和不同分布区域相关的病毒序列存在显著差异,表明宿主因素和微生物群落组成的差异可能会选择不同的病毒。然而,与根际/土壤相关的内胚层样本相关的病毒数量较低是否是由于差速离心、某些宿主相关因素或某些数据库偏差所致尚不清楚。

虽然在2个数据集中确定的单个病毒计数比木薯棕色条纹病毒和 COVID-19 感染样本低几个数量级,但杨树和 ASD 样本均不具有任何已知的病毒诱导的病理生理学。然而,杨树的宏基因组有一个总的病毒载量,平均约为15%的reads,高于活跃感染的木薯样本中0.3%的reads。未感染样本中病毒总数较高的原因是土壤几乎不含宿主,样本经过差速离心以限制宿主,除了任何潜在的数据库偏差外,还允许更多的微生物组通过测序来表示。

结论

病毒是微生物组中一个尚未得到充分研究的组成部分。我们在此提出的从宏基因组病毒创建分类树的方法可以与任何基于分类学的分类工具一起使用,以更好地识别病毒及其在微生物组中的影响。尽管JGI已经鉴定出的715,672宏基因组病毒可能只占现存病毒的一小部分,但它仍然远远超过具有分类学的病毒数量。因此,在设计出一种方法来处理大规模创建病毒分类法之前,需要分类法或与具有分类法的病毒同源性的方法将发挥不出作用。在此之前,我们表明可以在不需要分类法的情况下识别宏基因组杨树基因型和隔室样本以及宏转录组 ASD 样本中的病毒序列。更具体地说,我们确定了8个显著的差异病毒序列,与对照组相比,ASD患者的差异病毒序列显著更高且FC>2.0。我们还表明,我们的方法可以通过利用 NCBI 的病毒基因组识别 COVID-19 和木薯褐条病毒感染样本中的已知病毒来准确识别病毒。通过使用NCBI的病毒数据库,我们还表明病毒序列对单个病毒分离株具有高度特异性,并且JGI宏基因组病毒比NCBI病毒具有更高的唯一性。虽然JGI病毒的独特性和多样性使得它们更难用Kraken2在样本中进行分类,但我们的方法在识别正确的JGI病毒序列方面仍有82%的准确率,在识别JGI病毒序列方面的准确率超过90%。除了分类和量化外,还可以对病毒reads进行进一步的下游分析,如组装、同源性和功能注释,以预测潜在病毒或病毒序列的特征。最终,更好地理解病毒对微生物和宿主的影响将有助于更好地理解人类健康和植物生物学。

不感兴趣

看过了

取消

病毒,序列,基因组

不感兴趣

看过了

取消

相关阅读

赞+1

您的申请提交成功

您的申请提交成功

确定 取消
海报

已收到您的咨询诉求 我们会尽快联系您

添加微信客服 快速领取解决方案 您还可以去留言您想解决的问题
去留言
立即提交