科研 | Nature Microbiology:人类肠道微生物中189,680例DNA病毒的宏基因组概要

2021
08/27

+
分享
评论
微生态
A-
A+

肠道微生物群是一个复杂的微生物生态系统,对人类健康和发展具有重要作用。




编译:微科盟R.A,编辑:微科盟木木夕、江舜尧。

微科盟原创微文,欢迎转发转载,转载须注明来源《微生态》公众号

导读  
肠道微生物群是一个复杂的微生物生态系统,对人类健康和发展具有重要作用。病毒在肠道微生物组中具较高丰度,它与人类疾病有关,但经常被忽视。特别是,噬菌体(感染细菌的病毒)构成了病毒颗粒的大部分,可通过噬菌体捕食作用影响微生物生态系统过程,溶血素和水平基因转移。尽管它们无处不在,但我们对微生物组中的病毒基因组多样性的了解是有限的,大多数病毒序列无法与现有的基因组数据库匹配。微生物群中病毒基因组的综合数据库是病毒无组装量化、预测宿主-病毒相互作用、比较基因组学和基因组挖掘(例如,抗CRISPR基因)的先决条件。迄今为止,许多研究已使用病毒亚基因组测序从人类粪便样本中鉴定噬菌体基因组,如:已有的肠道病毒组数据库(Gut Virome Database,GVD)等。  
噬菌体(Bacteriophages)在人类肠道菌群生态学中具有重要作用。为了扩展现有的资源并提供肠道病毒组的补充数据,作者对11,810个来自之前发表的61项研究的人类粪便样本的大量亚基因组进行探索。作者利用这些数据形成了宏基因组肠道病毒目录(Metagenomic Gut Virus catalogue,MGV catalogue),其中包含189,680个病毒基因组草图(draft genomes),估计完整性大于50%,代表54,118个候选病毒物种。  
基于序列聚类,作者确定了54,118种候选病毒,其中92%未现有数据库中发现。肠道宏基因组病毒目录改进了粪便宏基因组中病毒的检测,占人类肠道细菌和古细菌中CRISPR间隔区的近40%。作者还构建了459,375个病毒蛋白簇的目录,以探索肠道病毒组的功能潜力。这揭示了数以万计的产生多样性的逆转录酶元件,这些元件利用易出错的反转录来突变靶基因,并可能参与噬菌体与其宿主之间的作用。这些基因组数据极大地扩展了已知的肠道微生物DNA病毒的多样性,提高了对宿主-病毒联系的认识。作者期望MGV目录将是一个有用的社区资源,用于探究肠道病毒组在人类健康和疾病中的作用  

 

论文ID


 

名:Metagenomic compendium of 189,680 DNA viruses from the human gut microbiome

人类肠道微生物中189,680DNA病毒的宏基因组概要

期刊Nature Microbiology

IF:17.745

发表时间:2021.6.24

通讯作者:Stephen Nayfach & Nikos C. Kyrpides

通讯作者单位:美国加州伯克利劳伦斯伯克利国家实验室环境基因组学和系统生物学部;美国加州伯克利美国能源部联合基因组研究所


实验设计


本研究中,作者首先完成了病毒检测平台的构建,即用四种病毒特征的组合来鉴定病毒亚基因组重叠群:(1)存在病毒蛋白家族,(2)微生物蛋白家族缺失,(3)存在病毒核苷酸特征,(4)相同簇上多个相邻基因的存在与否;其次,调试和评估了病毒检测平台:在所创建的含有人类相关病毒和细菌的基因组片段的模拟数据集评估病毒检测平台。此外,实施了平台在人肠道病毒全基因组鉴定中的应用:从人类粪便样本下载了18,271个公开可用宏基因组数据,对应于11,810个独特的生物样品。应用作者的病毒检测平台来鉴定4,436,008个长度超过11,8271kb的宏基因组数据;另一方面,用Prodigalv.2.6.3来进行了识别含替代编码基因的病毒:鉴别病毒基因组中的蛋白质编码基因。此外,作者还使用定制所建平台来使用替代遗传密码识别病毒;至于病毒基因组的质量控制:来自四个参考数据库:IMG/VR V.2.0GVD V.1.0HuvirdB v.1.0NCBI Genbank的病毒基因组数据作为用于比较的病毒参考基因组,用CHECKV V.0.7.0对所有病毒序列识别闭合基因组,和鉴别参考基因组的完整性。作者还进行了物种分类学注释与聚类以及宿主预测:NCBI Gegank基因组进行基于氨基酸对比对,并进行病毒基因组注释;物种分类学注释:用Baltimore classification (DNADNASSDNASSDNA-RTDSRNARNASSDNA-RTNASSDNA-RTNASSDNA-RTNASSRNA-RT)进行了门,科,属水平的注释,并将病毒基因组聚类到vOTUs;宿主预测:用CRISPR-spacer匹配的组合,将病毒基因组与细菌和古物基因组联系起来;最终,进行了宏基因组reads的覆盖度评价:对病毒基因组数据库进行了reads映射,以评估它们在微生物体中病毒的覆盖范围,以及进行了系统发育分析:作者鉴定了77个尾状病毒标记,并基于这些标记基因,用FastTree v.2.1.9软件构建了基因组的系统发育,以及功能注释和蛋白质聚类。


结果


肠道微生物DNA病毒的基因组目录
我们为当前研究开发了一个病毒检测平台,使用了成熟的方法和特征组合,包括VirFinder、来自地球病毒组研究的病毒蛋白科,用以检测符合同样标准的一些病毒基因和功能未被注释过的基因(图1ab)。基于电子对标(in silico benchmarking),我们的平台能够高灵敏度鉴定多种人类相关包括CRAS样噬菌体和巨噬菌体在内的病毒和噬菌体的基因组片段,而且我们的平台具有高度特异性,与现有方法相比功能更好(附表1-2)。对于110100的基因组片段 kb我们的平台获得了41%74%96%的真阳性率(TPR),而假阳性率(FPR)仅为0.43%0.38%0.18%
 

图1 从人类肠道亚基因组中回收数千个高质量的病毒基因组。a、病毒发现工作概述和MGV目录的形成。b、预测的病毒和非病毒亚基因组重叠超过20 kb的基因组特征。显示的数据是从每个类别中随机选择的1000个重叠。c、估计基因组完整性的分布和MGV的质量分级(完整,n = 26,030; >90%完整性,n = 53,220; 50–90%完整性,n = 110,430; <50%完整性,n = 2,620,162; 完整性未确定,n = 671,842)。d、完整性>50%的189,680个基因组的元数据和注释。对于方框图,中间线表示中值,方框表示四分位间距,whiskers表示1.5×四分位间距。
 
然后,我们将我们的平台应用于11,810个不同人类肠道样本的在之前的研究中组装的大量亚基因组,以广泛捕获溶解性和溶解性DNA病毒(图1a和附表3)。所分析的数据集涵盖24个国家的61项研究,包括年龄、生活方式和疾病状况各不相同的个人(附表4)。这揭示了350万个独特的,单一的长于1 kb病毒基因组。基于对所有三项研究中发现的亚基因组的分析,我们发现选择汇编器(即MEGAHITmetaSPAdes)对恢复的病毒的质量或特性几乎没有影响(附图1)。病毒基因组主要来自欧洲(46%)、中国(23%)和美国(13%)的个体,反映了这些来源的宏基因组数据量(分别占总装配长度的45%24%11%)。
从短片段到完整或接近完整的基因组,宏基因组组装病毒的完整性差异很大。为了评估基因组完整性,我们应用CheckV,揭示了189,680个至少50%完整的基因组(图1c),包括26,030个基于直接末端重复(n = 19704),宿主-前病毒边界(n = 5123)和反向终端重复(n = 1,203)的序列。为了提高基因组质量,我们从这些序列中去除了侧翼宿主区域(图1a)确认病毒基因组不受宿主污染,我们在所有189680种病毒中仅鉴定出一个全长16S rRNA基因(位于整合前噬菌体的两侧),而用于病毒发现的全套宏基因组重叠群中有83,05016S rRNA基因。我们将所有随后的分析集中在189,680个完整性>50%的基因组上,以避免与小基因组片段相关的限制,并符合适用于微生物基因组的质量标准。因为在测序之前没有分离出病毒样颗粒,所以我们预计许多病毒都来自细菌染色体。然而,只有24%的病毒基因组有宿主整合的证据(图1d),只有10%的侧翼宿主区域>5 kb。此外,大多数未整合的病毒根据BACPHLIP40BACPHLIP40是一种从保守的蛋白质结构域预测噬菌体生活方式的计算工具)(140,68965%)被分类为强毒型。同样,BACPHLIP260,30个完整基因组中的58%归为毒性基因组,这表明这一结果并非由于不完整的基因组组装而产生,而也可能因为整合酶基因通常出现在原噬菌体基因组的末端而产生的。总之,这些结果表明,从未经过滤的粪便亚基因组中恢复裂解病毒的基因组序列并不少见。
 
宿主预测和分类注释预测
病毒的细胞宿主对于理解噬菌体捕食非常重要,也是利用宿主-病毒相互作用设计创新噬菌体疗法的重要的第一步。为了实现这一目标,我们利用了统一的人类胃肠道基因组(UHGG)数据库,该数据库包含来自肠道微生物组的286,997个细菌和古细菌基因组,代表4,644个原核物种(图2)。首先,我们从UHGG基因组中提取了1,846,441CRISPR间隔区,并寻找与189,680个病毒基因组几乎完全匹配的序列,从而得到覆盖81%病毒的宿主-病毒连接(n = 153,892)有趣的是,当使用从4644个物种水平代表中提取的间隔子(spacers)时,只有21%的病毒与宿主相连,这表明细菌菌株和活跃的群落感染之间存在相当大的CRISPR多样性。尽管大多数病毒都是以间隔区为靶点的,但CRISPR阵列仅占28%n = 79,734),以及在<1%的许多流行物种中,包括:Alistipes putredinis, Bacteroides cellulosilyticus Bifidobacterium breve,证实了这种抗病毒防御系统的有限分布。为了扩展宿主-病毒网络,我们在189,680个病毒和286,997个宿主之间进行了全基因组比对,并基于近乎精确的基因组匹配中确定了连接(≥96%≥1kb),导致连接覆盖了96%的宿主基因组和90%的病毒基因组。正如所料,大多数病毒与厚壁菌(主要是Clostridia)和Bacteroidia有关,而这两个是肠道微生物群中两个主要的细菌门(图1d)。这些结果表明,宿主-病毒的相互作用可以通过在同一环境中广泛组装病毒和微生物基因组来系统地阐明。
 

图2 病毒与人类肠道细菌和古细菌的联系。a、条形图显示了286,997个人类肠道细菌和古细菌中CRISPR间隔区的数量,括号中显示了基因组的数量。每一行表示一个宿主类,包含至少20个基因组和100个间隔区。大多数CRISPR间隔区来自Clostridia(梭状芽孢杆菌)和类杆菌,反映了它们在人类肠道中的丰富性。b、CRISPR间隔区与病毒基因组匹配最多一个错配的百分比。c、含有CRISPR间隔区阵列的宿主基因组,以及那些具有CRISPR间隔区阵列的宿主基因组与病毒基因组匹配。d、如图所示,通过多种方法与病毒相连的基因组。e、与每个宿主类相关的已知病毒科的分布。每个宿主类都被不同的病毒科所感染。
 
接下来,我们根据NCBI GenBank的基因组和最近研究的CRAS样病毒比对(图1d),将病毒从ICTV数据库分配到科。只有56.6%的病毒可以在科水平上进行注释,证实了人类肠道病毒分类学方面的巨大未知。为了提高灵敏度,我们使用了来自VOG数据库的分类信息剖面隐马尔可夫模型(hidden Markov modelsHMMs(http://vogdb.org),揭示了大多数未注释的病毒是尾状病毒目的成员。在注释序列中,有9,395个推测的类crAssphage的基因组(占总数的5%)。总体而言,只有0.51%n = 48)的crAssphage显示出明显的溶酶原性(位于宿主区两侧,含有整合酶),比数据集中的其他病毒低17倍以上。与此相一致的是, 56% 的高质量基因组(n = 5,439)与其他高质量基因组(n = 36,872)。crAss-like样基因组包含其他一些不寻常的特征,包括GC含量低(平均 = 32%),拥有另一种基因密码和假定蛋白质的优势。例如,在27%crAss-like phages0.5%的其他病毒中,TAGTGA终止密码子被重新编码为氨基酸。同样地,只有12%crAssphage蛋白对PfamKEGGTIGRFAM有显著的杀伤作用,而其他病毒的蛋白只有28%。这一大规模分析支持了先前的发现,即某些类crAss病毒具有专性裂解的生活方式,并揭示了一些不寻常的特征,这些特征进一步证明crAssphage是人类肠道病毒中的一个异常值。
 
广泛扩展的病毒基因组多样性
为了量化MGV目录中基因组的多样性,我们首先使用MIUViG推荐的标准,即95%平均核苷酸同一性(ANI)超过85%的较短序列长度,确定了物种级病毒操作分类单元(viral operational taxonomic units, vOTUs)。对这些参数的微小调整确实影响了已鉴定的vOTUs的数量,表明病毒多样性的连续性超出了物种水平的界限(附表5)。总的来说,我们鉴定了54,118vOTUs,其中8,086个包含至少两个样本的成员(图3a)。据预测,最大的vOTUs会感染肠道微生物群中一些最常见的物种,包括:Bacteroides uniformis, Faecalibacterium prausnitziiAgathobacter rectalis(以前称Eubacterium rectale)。为了鉴定更高级别的病毒分支,我们根据成对平均氨基酸同一性(average amino acid identityAAI)和基因共享将基因组分为大约属和科水平的组,揭示了5,800个属水平的vOTUs1,434个科水平的vOTUs(图3a)。在科和属的等级上,vOTUs的累积曲线似乎接近渐近线,但对于种水平来说还未接近(图3b)。
 

图3 基因组聚类和与现有数据库的比较。将MGV目录中的189,680个基因组与三个数据库中完成率>50%的人类肠道病毒基因组进行比较:IMG/VR(n = 6,895),HuVirDB(n  = 9,626)和GVD(n = 4,494)。a、病毒基因组在种、属和科的水平上聚集在一起。b、MGV目录中vOTUs的累积曲线。c、1257个未过滤粪便基因组的reads百分比、585个病毒粪便基因组的reads百分比和286,997个UHGG基因组的CRISPR间隔区的百分比映射到不同数据库的病毒基因组。
 
其他最近的研究也汇编了来自肠道微生物群的DNA病毒数据库。为了鉴定MGV目录中特有的病毒,我们将我们研究中的189,680个基因组与其他三个基因组目录中的中等和高质量病毒基因组进行了聚类(图3a):HuVirDB9,626个基因组来自1,543个病毒亚基)、GVD v.1.04,494个来自471个病毒亚基和98个全亚基的基因组)和IMG/VR v.2.06,895个来自490个全亚基的基因组)。请注意,在本文章初稿的审阅过程中,IMG/VRGVD被更新为新版本,此处未对其进行分析。为了使所有研究具有可比性,在所有病毒数据集上运行CheckV,并排除完整性<50%的基因组片段。
引人注目的是,我们发现MGV目录中54,118个物种级别的vOTUs中的50,048个(92%),包括189,680个基因组中的100,398个(53%),没有与其他数据库中的任何基因组聚类(图3a)。相比之下,三个参考数据库的总和代表了10,391种水平的vOTUs,其中近一半也在MGV中发现。MGVIMG/VR数据库均来源于整个亚基因组,它们共享的vOTUs数量最多,并且含有较高比例的Caudovirales目溶原性噬菌体,而HuVirDBGVD数据集主要来源于病毒亚基因组,富集Microviridae, AnelloviridaeCRESS科的小环状单链DNA病毒中。
接下来,我们比较了四个基因组目录,基于它们从地理上不同的全亚基因组和病毒亚基因组集合中招募测序读数的能力(图3c)。为了防止自我匹配,我们放弃了测序reads和来自同一原始研究的病毒基因组之间的比对。总体而言,MGV基因组招募了8.6%的全宏基因组reads,比任何其他数据库高4.0倍,40.1%的病毒组reads,与HuVirDB相比为42.3%。我们还比较了CRISPR间隔子在每个病毒数据库中的招募情况,以此来量化宿主-病毒之间的联系(图3c)。总体而言,1.8%的来自UHGG基因组的M间隔区与来自MGV目录的基因组相匹配,比任何其他数据库高3.25倍。当仅使用物种水平代表的病毒数据库时,匹配间隔区和宏基因组reads的数量没有显著变化(图3c)。总之,这些结果表明MGV目录显著增加了已知的病毒多样性,改进了整个亚基因组中病毒reads的检测,并扩大了宿主-病毒连接的覆盖范围。
 
肠道尾状病毒属(Caudovirales
Caudovirales属的系统基因组学包括在许多环境中发现的尾双链DNAdsDNA)噬菌体的扩展序列,并且在我们分析的粪便亚基因组中高度代表。为了探索这一群体在肠道微生物群中的进化,我们构建了一个基于77个蛋白质编码标记基因串联比对的物种级系统发育树(图4a)。在去除数据不足的基因组(少于3个标记或<5%的比对代表性)后,最终的树包含25,528个物种级病毒基因组来自四个未培养肠道病毒数据库(MGVIMG/VRHuVirDBGVD)。
 

图4 Caudovirales病毒的系统基因组学。从MGV和其他数据库(IMG/VR、HuVirDB和GVD)获得的25528个物种级基因组构建了系统发育树。a、肠道尾状病毒的系统发育。树是用iToL74绘制的,为了提高可视化效果,每个属只显示一个基因组。分支颜色表示谱系是由先前发表的研究(黑色)代表,还是MGV目录所独有(绿色)。外圈显示每个vOTU的元数据。b、PD的计算方法是取物种级病毒基因组代表的分枝长度之和。c、从目前的研究中得出的MGVs导致PD的大量增加,这在(c)病毒科和(d)感染不同宿主群体的病毒中是一致的。
 
基于累积的分枝长度,MGV目录覆盖了总系统发育多样性(PD)的95.7%,并且包含代表整个树的所有主要谱系的基因组(图4b)。与其他三个数据库相结合,MGV基因组导致PD增加287%,平均分布在病毒和宿主分类群中。由于这些噬菌体数量众多,系统发育分布广泛,梭状芽胞杆菌(Clostridia)噬菌体是迄今为止种类最多的一类(占PD41.8%)。相比之下,类杆菌噬菌体仅占PD11.1%,大多数vOTUs分为四个主要簇(图4a),其中一个簇以crAss-like phages为主(占2.17% PD)。总的来说,基于尾部形态的经典病毒科与基于基因组的系统发育(例如,几乎所有的谱系都含有带注释基因组)之间的对应性较差,这进一步突出了对尾状病毒和其他病毒群进行系统发育驱动的分类的必要性,类似于为细菌和古细菌开发的GTDB分类法。
值得注意的是,有些谱系含有基因组超过200kb的巨型噬菌体(来自245个物种的518个基因组)。与其他分析一样,我们小心地去除了侧翼宿主区域以及组装人工制品,导致同一基因组被重复多次。最大的基因组是一个553,716 bp的接近完整的线性基因组,与普氏菌噬菌体Lak-A1密切相关(94.5%AAI超过87.1%的基因)。与crAss-likephages一样,巨型噬菌体很少整合到宿主体内(n = 13)尽管有时含有整合酶(n = 121)。为了更详细地描述这些病毒的多样性,我们构建了一个基于大末端酶亚基(terminase subunitTerL)的独立树。与最近发表的来自不同环境的巨型噬菌体的集合相比,MGVs导致了系统发育多样性和大多数谱系覆盖范围的大幅扩大(附图2)。
有趣的是,巨型噬菌体和其他尾状病毒在生物地理分布上似乎没有什么偏好,因为大多数分支在所有大陆都有发现。正如在人类肠道细菌中观察到的那样,我们假设,在较短的进化时间内,区域特异性系统类型可能很明显。为了实现这一目标,我们使用单核苷酸变体构建了146个有100多个成员的流行vOTUs的菌株水平的系统发育学。引人注目的是,我们观察到了离散的亚种(discrete subspecies),这些亚种在特定的地理区域高度富集了许多vOTUs(附图3)。例如,在亚洲的样本中,有一种类似crAss的亚种被预测会感染Parabacteroides,但在欧洲和北美很少见或不存在。需要更多的工作来理解这些系统发育模式背后的进化驱动因素和基因组适应。
 
肠道病毒组的功能能力
虽然人类肠道细菌和古菌的功能潜力已被广泛研究,但肠道噬菌体的功能潜力还不太清楚。为了探索这一点,我们在189,680个病毒基因组中鉴定了11,837,198个蛋白质编码基因,其中至少有20个氨基酸(98.4%为起始密码子和终止密码子),并与HMM数据库(包括KEGGTIGRFAMPfamVOGDB (http://vogdb.org/)以及地球病毒组数据库进行了比较。总的来说,45%的病毒基因没有与任何数据库显著匹配,75%的基因没有被赋予任何生物学功能(图5ab),这表明人们对人类肠道病毒的功能潜力知之甚少。
 

图5 肠道噬菌体的功能图。a、在所有MGV中鉴定了编码病毒基因的蛋白质,并与五个数据库中的HMM进行了比较。b、45%的基因不能匹配任何HMM,30%匹配未知功能的HMM,25%匹配已知功能的HMM。c、使用MMseqs2将11,837,198个基因在30%AAI下聚集成459,375个蛋白质簇。d、蛋白质簇的大小分布。e、蛋白质簇的累积曲线没有达到渐近线。f、最大的75个蛋白质簇的功能注释。逆转录酶以红色突出显示。g、基于逆转录酶基因(PF00078)和用DGRscan鉴定的TR–VR对的组合预测DGRs。大部分MGV包含DGR系统。h、DGR在不同种类病毒中的流行率。DGRs在Myoviridae科溶源性dsDNA病毒中最为常见。
 
为了确定肠道噬菌体中最常见的功能,我们使用MMseqs21,180万个AAI30%的病毒基因聚类为459,375个从头病毒蛋白簇(图5c),其中61%至少有两个成员(图5d)。累积曲线显示没有托盘(plateau),表明肠道噬菌体有一个功能多样性的未被发现的库,这是本研究没有完全捕捉到的(图5e)。Clostridia(梭状芽孢杆菌)噬菌体的功能多样性高,有173,187个蛋白质簇,反映了这些噬菌体的系统发育多样性。一些最大的蛋白质簇没有预测的功能,包括第四大的8,319个基因,因此是未来实验表征的良好候选(图5f)。其他大的簇被注释有典型的病毒功能,包括衣壳形成、包装、裂解、溶酶原、复制和转录调控(图5f)。
虽然列举所有病毒功能和辅助代谢基因不在本文讨论范围之内,但我们探讨了两个特别不寻常的发现。基于对PfamHMM搜索,我们发现了11,496个假定的病毒β-内酰胺酶(PF12706),包括5,832个成员的单个蛋白质簇中的大部分序列(图5f)。β-内酰胺酶是一种能够对青霉素、头孢菌素和头孢霉素等β-内酰胺类抗生素产生耐药性的酶,是一个主要的全球健康问题。为了验证这一结果,我们使用ResfamsNCBI AMRFinder和耐药基因识别码(Resistance Gene IdentifierGI)对抗菌药物耐药基因的管理数据库进行同源性搜索。这些工具显示总共只有 88 个耐药基因(Resfams 63个,AMRFinder 56个,RGI 30个),表明11,496个假定的病毒β-内酰胺酶和已验证的耐药基因之间的相似性较低(附图4)。虽然功能性宏基因组分析可能揭示肠道微生物群中真正的病毒β-内酰胺酶,但这些结果似乎支持噬菌体很少编码抗生素耐药基因的结论。
另一个有趣的发现是大量的噬菌体逆转录酶(RTs)(图5f和附表6)。总的来说,RT结构域(PF00078)是第三个最常见的功能注释,仅次于螺旋-转角-螺旋DNA结合结构域(PF01381)和噬菌体整合酶科(PF00589)。已知RTs发生在逆转录病毒、RNA靶向CRISPR–Cas系统和多样性产生逆转录元件(DGR)中。DGR利用易出错的逆转录在模板区(TR)的转录本中产生随机突变,然后在可变区(VR)处插入回基因组,从而在特定基因中产生群体水平的高度变异性。由于DGR系统首先在Bordettella噬菌体中被鉴定,它已在人类微生物组和几种人类肠道噬菌体中被发现。
为了确定病毒RTsreverse transcriptasesRTs)是DGRdiversity-generating retroelements)系统的一部分,我们使用工具DGRscan鉴定了79TR–VR对,250个高质量病毒基因组,估计完整性>90%。证实了我们的假设,大多数有RT的基因组也含有TR–VR25,62085.7%),而没有RT的基因组只有少数(53,6306.5%)(图5g)。DGR在某些Caudovirales科(例如,6,616 Myoviridae科的84%)和溶血素化病毒(1818750.1%)中非常常见,而在其他Caudovirales科、单链DNA病毒和真核病毒中则很少或完全缺失(图5h)。尽管绝大多数DGR基因靶点没有功能注释,我们在几个Pfam结构域(附表7)内观察到高度显著的富集,包括免疫球蛋白样结构域,该结构域在DGR靶向基因中更常见5.9倍,并且被认为在噬菌体与细菌细胞表面碳水化合物的相互作用中发挥作用。总之,这些结果显示DGRs在肠道噬菌体中比以前认为的更为常见,并且可能指向参与分子噬菌体-宿主相互作用的病毒蛋白。
 

讨论


在这项研究中,我们对已公开的亚基因组进行了大规模数据挖掘,以鉴定189,680个草图(draft genomes)水平的病毒基因组,代表了估计的54,118种、5,800属和1,434科水平的病毒。这个巨大的资源包含了在其他数据库中找不到的广泛的病毒基因组多样性,改进了微生物组中病毒reads的检测,并代表了许多多样性和以前未被鉴定的病毒组。通过多种方法的结合,我们能够预测宿主与病毒之间的联系,这些联系涵盖了肠道微生物群中大多数病毒和原核生物的多样性。这些宿主-病毒之间的联系对于理解疾病过程、设计噬菌体疗法或理解宿主-病毒协同进化动力学可能具有重要意义。尽管进行了大规模的注释工作,但我们只能将初步的生物学功能分配给25%的病毒基因,这表明需要更多的工作和新的方法来预测病毒基因组中的蛋白质功能,如深度学习和功能性宏基因组分析。虽然目前的研究主要集中在DNA病毒上,但未来的研究可以利用转录组学数据来研究RNA病毒或基因表达模式。
在审阅该文章初稿时,Camarillo Guerrero等科学家发表了肠道噬菌体数据库(Gut Phage DatabaseGPD),这是一个从28,060个人类肠道亚基因组和2,898个肠道细菌基因组中鉴定涵盖了142,000个非冗余病毒基因组(>10 kb)的数据库。应用CheckV,我们发现GPD代表798,89个病毒重叠群,完整性>50%,形成46,480个物种水平的vOTUs,比MGV54,118vOTUs14%(附图5)。病毒目录之间的差异是由几个因素造成的,包括:用于宏基因组挖掘的数据集、病毒鉴定方法和序列涵盖标准之间的差异。例如,MGV极大地提高了Microviridae的覆盖率,这些Microviridae因其长度较短而被排除在GPD之外(平均4.9kb)。MGVGPD组合代表75,187种水平的病毒,表明这两个目录包含互补的病毒多样性。在未来,这些和其他大规模病毒基因组目录可以整合,以创建如最近对人类肠道微生物基因组目录所做的那样的一个统一和标准化的公用资源库。


本文由作者自行上传,并且作者对本文图文涉及知识产权负全部责任。如有侵权请及时联系(邮箱:nanxingjun@hmkx.cn
关键词:
Nature,DNA病毒,宏基因组,微生物,噬菌体,MGV,细菌

人点赞

收藏

人收藏

打赏

打赏

我有话说

0条评论

0/500

评论字数超出限制

表情
评论

为你推荐

推荐课程


社群

精彩视频

您的申请提交成功

确定 取消
剩余5
×

打赏金额

认可我就打赏我~

1元 5元 10元 20元 50元 其它

打赏

打赏作者

认可我就打赏我~

×

扫描二维码

立即打赏给Ta吧!

温馨提示:仅支持微信支付!