尽管依然存在挑战,但本文介绍的全球和系统性研究提供了关键信息和资源、分析路线图和基础性进展,以提供评估RNA病毒生态系统、生态进化和流行病学影响所需的预测模型。
编译:微科盟Moon,编辑:微科盟居居、江舜尧。
微科盟原创微文,欢迎转发转载,转载须注明来源《微生态》公众号。
导读 众所周知, DNA病毒是丰富多样的,通常是关键的生态系统参与者,而RNA病毒在疾病环境之外的研究不足。本研究分析了约28 T全球海洋RNA数据集的序列数据,以扩展地球RNA病毒的目录和分类,追溯它们的进化起源,并揭示它们从南极到北极的海洋生物地理特征。我们使用新的方法来优化病毒发现和分类过程,发现了多种RNA病毒,并提出对病毒分类(增加一倍的病毒门,增加50%以上的病毒纲)和进化认识进行修订。“物种”水平的丰度测定表明,新病毒门“Taraviricota”(以往RNA病毒进化研究中缺失的一部分)和“Arctiviricota”的病毒在海洋中广泛分布并占优势地位。综上,本研究为将RNA病毒整合到生态学和流行病学模型中提供了关键的基础知识。
论文ID
原名:Cryptic and abundant marine viruses at the evolutionary origins of Earth’s RNA virome
译名:神秘而丰富的海洋病毒可能代表地球RNA病毒组的进化起源
期刊:Science
IF:63.714
发表时间:2022.4
通讯作者:Matthew B. Sullivan
通讯作者单位:美国俄亥俄州立大学
DOI号:10.1126/science.abm5847
实验设计
结果
1 海洋RNA病毒将orthornaviran的病毒门类增加了一倍(从原来的5个增加到10个)
鉴于在全球海洋中探索的RNA病毒多样性有限(附表1和2),我们尝试通过系统收集了全球范围内的Tara海洋数据(附表3)。这些数据包括771个宏转录组RNA测序数据(附表4为样本元数据),涵盖了10种不同的生物体大小(附图1),3个海洋层和121个地点,分布于全球五大洋。此外,数据集中还包括从整个北冰洋采集的大约6 Tb的143个宏转录组的新测序数据(图1A和附表4)。为了最大限度地利用这些宏转录组数据,我们开发和/或改进分析方法,并将其用于orthornaviran的鉴定、分类和组织。
图1. RdRp结构域megaclusters的建立。(A) Global Ocean的北极投影,其中突出了本文中新的大小不同的宏转录组(白色多边形)。通过使用海洋数据视图中的加权平均法,从Tara远征期间收集的现场温度测量数据而得出海面温度统计数据。(B)在不同的聚类阈值下,基于网络和系统发育的宏观分类的一致性百分比(线)。堆积条形图表示在这些不同的聚类阈值下,具有接近完整RdRp结构域(至少90%的结构域)的病毒的数量。(C)马尔科夫聚类算法(MCL)分析中膨胀值为1.1时的10个ICTV已确定病毒分类群的分簇散点图[来自(A)]。实线包含了在较低膨胀值下完全加入的病毒分类群,如每个椭圆内所示。虚线包括三个已建立的duplornaviricot纲,它们在较低的膨胀值下无相关性。颜色相同但不属于一组的点代表与GenBank分类学的差异。由此产生的七个聚类(编号)与我们研究中的六个新聚类(A)一起被用于构建图2A中的13个单独的系统发育树。 我们首先在Global Ocean数据集中搜索了编码RdRps的核酸,这些核酸是orthornavirans所特有的,与细胞RdRps或DNA指导的RNA聚合酶没有已知关系。鉴于RdRp序列的差异性,我们通过迭代搜索和更新的隐马尔可夫模型(HMM)来最大限度地鉴定RdRp,并实现了自动化(补充材料,以及附图2)。我们用这种方法识别了44779个编码RdRp的重叠群(contig,过滤了134个假阳性)(材料和方法以及附图2C),比基于标准BLAST的方法提高了大约26倍(附图2G)。在这44779个重叠群中,6686个重叠群编码完整或接近完整的RdRp结构域序列(完整性≥90%)(材料和方法)。 由于对海洋orthornavirans的采样严重不足,我们试图比较这些新数据与目前orthornavirans宏观分类的五个分支理解的一致性。这给我们带来了第二个主要的分析难点:尽管这个基于系统发育的统一框架是开创性的,但RdRp系统发育分析很复杂,需要手动和逐步进行构建,包括费力的多序列比对迭代过程、手动优化、系统发育树构建,以及代表性序列选择。我们担心,正如在文献中所看到的那样,迭代人工步骤中的主观性可能会导致对orthornaviran进化推断的不同观点。因此,为了减少这种主观性,我们开发了一种可扩展、基于网络的迭代聚类方法,来评估RdRp多样性。一旦执行这种方法,它几乎完全再现了先前建立的基于系统发育的ICTV承认的系统发育分类法(97%的一致性)(图1B和C,以及材料和方法)。
通过这一方法,我们评估了Global Ocean数据,对具有完整或接近完整RdRp结构域的子集进行分类,并评估其新颖性。我们对来自所有可获得的(陆地和海洋)病毒的111,760个完整或接近完整的RdRp结构域序列进行联合分析,6686个来自我们的数据集,101,819个来自GenBank(只有3850个确定的物种,表明种水平冗余度高)(材料和方法),以及3255个来自沿海海洋RNA病毒群(图1B和附表6)。虽然我们的数据集只占该分析中总序列的6%,但我们的数据涵盖了整个正RNA病毒圈的种类,具体如下(图2和附图3):我们分析的19个“megaclusters”中有13个是以前已知的,它们共同构成了orthornaviran宏观分类中ICTV认可的五个门类,在所有五个已知病毒门、所有20个已知病毒纲和103个已知病毒科中的49个具有海洋代表性的病毒(图2和附图3和4)。虽然这些病毒的分类“已知”,但几乎所有(99.7%)可以评估的海洋病毒都是新物种(根据全基因组或重叠群信息确定,如后文所述)(附表5),这些新物种大大增加了采样不足的病毒分类群,因为一些病毒科中有多达70%的序列来自海洋(附图4A和附表7)。
图2. 基于RdRp的系统发育分析展示了全球海洋orthornavirans的分类多样性。(A)13个最大似然系统发育树,包括从接近完整的RdRp序列的网络分析中出现的19个megaclusters(详见图1)。棕色表示本研究中发现的病毒序列,而灰色表示先前已知的参考序列。只有在系统发育和网络引导的聚类分析结果一致的情况下,才将病毒纲合并到统一的系统发育树中(材料和方法)。序列按50%的同一性进行预聚类。在本研究中检索到的新的完整或高质量(H)和中等质量(M)的基因组数量的保守估计用括号表示。带下划线的新病毒门得到了长读长和短读长组装的支持,而其余的则得到了多个独立的短读长组装的支持。(B)在GenBank、先前的沿海海洋调查和本研究的所有可用数据中,共享的、注释良好的RdRp结构域的门或纲水平集群的欧拉图。所有数据集中已建立的大类有Lenarviricota、Pisuviricota、Kitrinoviricota和Duplornaviricota;Chrymotiviricetes。在我们的数据集和GenBank中已建立的大类包括Duplornaviricota;Vidaverviricetes、Duplornaviricota;Resentoviricetes和Negarnaviricota。本研究中推断的未确定的大类包括“Taraviricota”、“Pomiviricota”、“Paraxenoviricota”、“Arctiviricota”、 “Wamoviricota”和“lenar样病毒”。 除了这些已建立的五门系统的分类群外,我们分析的19个megaclusters中有6个是新的(以下用双引号表示),并以全球海洋RdRps为主(图2A和补充数据1和2)。在目前的orthornaviran宏观分类框架中,这6个megaclusters将对应于5个新的门类,我们建议称之为“Arctiviricota”、“Paraxenoviricota”、 “Pomiviricota”、“Taraviricota”[包括22个先前确定的具有接近完整RdRp结构域的“quenyaviruses”]和“Wamoviricota”,以及一个新的“lenarviricot”纲,我们称之为“lenar样病毒(lenar-like viruses)”。我们通过手动检查序列发现,在这个纲水平大类的成员中,7个典型的RdRp基序中有3个缺失。聚类分析(补充数据3)显示,一些病毒类群在海洋和其他地方都有很好的代表性(如ICTV认可的pisuviricots),而其他病毒类群主要(“taraviricots”)或完全(“pomiviricots”、 “paraxenoviricots”、“arctiviricots”和“lenar-like viruses”)分布在海洋中(图2A)。
为了进一步评估我们基于RdRp推断的五个新门类的可靠性,我们分析了RdRp结构域的系统发育(主要序列)(图3A)和三维(3D)比对(三级结构)(图3B,附图5和附表8),以及其他可获得数据的基因组特征(如RdRp以外的结构域富集,10个门类中的7个都有)(附表9)。在所有情况下,网络衍生的聚簇都得到了系统发育和三维结构网络信息的支持,并且包含的特征(RdRp以外的在统计学意义上富集的结构域)(完整列表见附表9)与在已知病毒门中观察到的变化一致。已知的海洋代表病毒的基因组结构与非海洋病毒的基因组结构相似,而新发现的病毒门和纲的重叠群在RdRp结构域之外的注释很差(附图6和7以及附表9)。综上,这些结果进一步表明,Global Ocean数据在已知的5个病毒门的基础上增加了5个新病毒门类,并增加了至少11个病毒纲,使已知的orthornaviran病毒纲的数量增加了50%以上(附图3和7)。这将目前已有的宏观分类框架扩展到稳定的五门结构之外,并对其基因组结构进行了进一步探索。
图3. 基于RdRp的全球系统发育和网络分析推断orthornavirans的早期进化史。(A)RdRp结构域序列与RT序列(青色)的最大似然系统发育树。灰色分支和多边形代表已建立的宏观分类,而棕色多边形代表本研究推断的宏观分类。每个分支代表一个共识或来自一个宏观分类的序列(材料和方法)。每个分支中的节点代表自展值。(B)预测的(棕色)和实验得到的(其他颜色;标有序列号)RdRp和RT蛋白结构域结构的三维结构相似性网络。每个节点代表不同的结构,边缘代表每个连接对的可靠性分数,即它们属于同一蛋白质超家族(材料和方法)。LTR,长末端重复序列。
2 海洋RNA病毒修正了orthornaviran宏观分类的早期进化
基于RdRp结构域的系统发育分析可以用来推断深层的orthornaviran进化史。由于很难确定高度分歧的一级序列的同源性,因此人们对其用于此目的的稳健性有不同的看法。人们对RdRp系统发育树的最深部分也存在争议,因为441个位点中只有55个位点的比对同源性得分≥0.3(相比之下,更广泛接受的病毒门有128个或更多这样的位点)。尽管存在争议和挑战,但我们对当前文献的解释是,RdRp一级序列对推断病毒门之间关系缺乏可信度,但确实表明大多数病毒门似乎是单系的。鉴于现在发现了大量未知的正RNA病毒多样性,我们利用一级序列推断的系统发育以及其他特征(如RdRp三维结构和基于网络的聚簇、其他基因组结构域和全基因组特征)重新审视了RNA病毒深层进化的推断。 首先,我们评估了Duplornaviricota的双链RNA(dsRNA)病毒的单系起源,科学家认为双链RNA病毒是从正义单链RNA(+ssRNA)病毒进化而来的五个orthornaviricota病毒门之一。以前,由于Duplornaviricota和Negarnaviricota具有强烈的单系性,所以将Duplornaviricota中的所有病毒归于一个具有3个纲的单一门类中(Duplornaviricota和Negarnaviricota分别被标记为第4和第5分支)。然而,有研究重新分析序列比对的同源性,发现这些分类群是多分支的,因为:(i)双链RNA病毒门序列比对中只有72个位点的同源性≥0.3,而其他门类的序列至少有128个位点满足这一条件;(ii) Duplornaviricota与Negarnaviricota呈并系关系,这意味着至少在分类学上将Duplornaviricota纳入三个病毒门类。我们的全球系统发育树也强有力地表明,这些dsRNA病毒是多源的(图3A)。我们观察到的Duplornaviricota的多源性得到以下支持:(i)在我们的三维结构网络中缺乏强烈的双链RNA病毒门类群之间的关联(图3B),(ii)没有一个包含这些分类群的同源性聚簇,这些聚簇在我们的迭代聚类方法结果中出现(图1),以及(iii)这些分类群中具有不同的其他结构域富集程度(附表9)。因此,目前建立的将所有dsRNA病毒(除Duplopiviricete纲外)归入Duplornaviricota的做法似乎不正确。相反,我们建议,正如ICTV最近将+ssRNA病毒分成三个门类(Lenarviricota、Pisuviricota和Kitrinoviricota);我们的数据也支持(图2和3)]将Duplornaviricota分为三个不同的门类,与目前公认的分类一致。如果最终ICTV批准,这将使目前已知的多样性扩大到12个门类。 然后分析了负义单链RNA(-ssRNA)病毒(Negarnaviricota门)的深层进化关系,这些病毒从dsRNA进化而来,但在文献中这种进化关系置信度较低。我们的全球系统发育树还显示了negarnaviricots和一个dsRNA病毒“纲”有一个最后共同祖先,但我们发现有充分证据表明其姐妹群是dsRNA中的Chrymotiviricetes纲(图3A),而不是之前发现的Resentoviricetes纲。由于这种深层进化系统发育学推论容易出现长分支吸引假象,我们又评估了其他证据。这表明,这些先前提出的关系不支持(i)我们的三维结构网络(只有Resentoviricetes与Negarnaviricota关联,而且是弱联系)(图3B)或(ii)我们基于一级序列的迭代聚类方法也没有发现支撑该关系的证据(这两个类群从未形成一个同源性聚类)(图1)。此外,结构域富集分析(附表9,B部分)显示,negarnaviricots与dsDNA病毒不共享任何结构域,但与Pisuviricota和Kitrinoviricota中的50多种病毒共享一种病毒加帽甲基转移酶结构域(Pfam: PF14314)(附表9)。当我们分析病毒门类的“链性”时(材料和方法及附图8),这有助于鉴定病毒基因组类型(+ssRNA、-ssRNA或dsRNA),“Arctiviricota”中出现了-ssRNA病毒。系统发育(图3A)和三维结构网络(图3B)分析表明,“Arctiviricota”独立于negarnaviricots(和dsRNA病毒)进化,并代表了第二个-ssRNA门,是orthornavirans病毒中进一步的多起源代表。这些发现表明,所有orthornaviran基因组类型(+ss RNA,-ssRNA和dsRNA病毒)都有多种进化起源。 第三,我们重新回顾了RdRp一级序列推断假设,该假设认为orthornavirans是单系的,并认为逆转录因子的逆转录酶(RTs)是全球RdRp树的根。在这种情况下,Lenarviricota(其中一些可以感染细菌并携带衣壳蛋白)是其他orthornavirans的姐妹类群,而逆转录因子似乎更有可能是orthornavirans的祖先,这一结果反对了在肽-RNA世界中出现病毒RdRp的观点。相反,我们得出的RdRp系统发育结果表明lenarviricot RdRps与RTs共享祖先(得到很好的支持)(图3A和补充数据4),这(假设orthornavirans的单系起源)表明无衣壳蛋白的RNA复制子是逆转录病毒和RNA病毒的祖先,并与病毒RdRps是早期肽-RNA世界的一部分的观点一致。Lenarviricota包含短的(<5 kb)无衣壳蛋白RNA复制子(仅携带RdRp的mitovirids,感染真核生物,并在宿主线粒体内复制)。 然而,从三维结构分析中推断出来了另一种情况。对于深度进化推断,三维结构分析通常被认为比一级序列信息更有参考价值。这些分析以较高的计算概率表明,我们提出的“Taraviricota”门的病毒代表逆转录病毒和orthornavirans之间缺失的一环(图3B)。如果是真的,这意味着Taraviricota RdRps代表逆转录病毒的无衣壳蛋白RNA复制子祖先,而orthornaviran RdRps可能是RdRp复制子。为了进一步评估这种情况,我们研究了“taraviricots”的基因组信息,具体如下。 首先,与mitovirids(Lenarviricota门)类似,从短读长(n = 220)或长读长(n = 32)组装序列中恢复的海洋“taraviricots”基因组都很小(<3.4 kb,只有4种病毒除外)(图2A,附图7),并且只编码RdRp。在我们的数据集中,没有其他取样良好(>10种病毒)的病毒门类表现出这样的特征,我们认为,这是由于病毒基因组长度短或持续基因组分节段(“quenyaviruses”总是在其自身片段上编码RdRp)。如果前者是正确的,大多数“taraviricots”的基因组都很短,这意味着orthornavirans通过获取基因(以及之后可能的基因丢失)从只有RdRp的祖先进化而来。如果后者是正确的,那么orthornavirans的基因组分节段就会在早期演化,并可能有助于orthornavirans的早期多样化(图3A,“Taraviricota”)。基因组分节段在lenarviricots中并不常见,它的许多非分节段株系编码单一的果冻状衣壳蛋白,病毒学家认为这些蛋白(未经证实)从其他门的病毒通过水平转移而来。这些观察结果都支持我们在此提出的另一种三维结构推断方案。 其次,在四个不只编码RdRp的海洋“taraviricots”中,其中两个仅编码一种假定的磷脂酶[Pfam,PF11618(CL14603)或PF02230(CL0028)。在其他orthornaviran中没有发现过(附表9)]。这一结果表明,至少有一些“taraviricots”以前或现在感染的是无细胞壁的原核生物宿主或真核生物的线粒体。尽管这种观点只是推测,但我们对这一发现的解释是:“Taraviricots”绝大多数只编码RdRp和/或潜在的一致基因组分节段以及它们与多种orthornaviran基因组类型(+ssRNA和dsRNA)和RT的3D结构相似性,为“Taraviricota”作为早期基础谱系提供了一种简约的方案,随后其他orthornaviran门类也从中进化而来。 总体而言,我们试图利用一级序列之外的多种数据类型重新评估深层进化推论,这些分析表明:(i)dsRNA病毒门Duplornaviricota(可以分成三个不同的门)和-ssRNA门(Negarnaviricota和Arctiviricota)的多起源性;(ii)地球上古老的“Arctiviricota”的存在,在orthornaviran和pararnaviran进化中有潜在的重要作用。
3 orthornaviran病毒的丰度和生物地理特征
鉴于新发现orthornaviran病毒的广泛多样性,我们接下来尝试在全球范围内对其进行海洋生物地理特征分析。这种分析是可行的,因为有两项重大进展:(i)系统性的Tara Oceans全球采样(附表4)和(ii)最近的共识方法,通过评估基因组序列空间的不连续性,建立病毒操作分类单元(vOTUs;类似于物种水平)。将这种方法应用于本研究中的全基因组和重叠群数据也显示了这种不连续性,尽管在我们的敏感性分析中支持不同的临界值(附图9和材料与方法)。从这些分析中得出的经验性vOTU定义是:基于90%的平均核苷酸同一性,覆盖80%的较短重叠群,长度≥1 kb。在这个分界点上对44779个病毒重叠群进行去重,得到5504个vOTU(vOTU重叠群长度范围为1001到25584个核苷酸,中位数为1958)(附表5)。在这5504个vOTU中,有一部分(n = 624)与已知的完整病毒基因组有充分的近缘关系,我们可以估计其完整性,433个高质量或完整基因组(属于188个vOTU),719个中等质量基因组(属于另外246个vOTU),807个低质量基因组(属于另外190个vOTU),而其余的vOTU(n = 4880)与参考基因组差异很大,无法用现有方法估计其完整性(附表5)。几乎所有vOTU(n = 5485;99.7%),包括那些至少具有中等质量基因组的vOTU(n = 430;99.6%)]都属于新物种(附表5)。此外,为了将我们的方法与那些仅依赖RdRp结构域序列来构建vOTU的方法进行比较,我们研究了一系列聚类和重叠群长度临界值,发现对于长度≥1 kb的重叠群具有普遍且可靠的一致性(至少93%的一致性)(附图9及材料和方法)。因此,我们的vOTU定义既尊重RdRp推断的聚簇中单个重叠群之间的关系,又通过包括基因组信息来解决基于RdRp的一致度临界值的模糊性而对它们进行扩展(附图9)。
鉴于这种稳健性,我们通过读长映射来量化vOTUs,以评估771个Global Ocean宏转录组的丰度和全球生物地理学分布特征。结果表明三个病毒门,Pisuviricota、Kirinoviricota和“Taraviricota”总体上来说数目多分布广(附图10)。前两个病毒门包括在实地调查中经常发现的“picorna-like virus”和“tombus-like virus”,而第三个门(“Taraviricota”)包括本研究发现的至少220种以前未知的病毒(有接近完整的RdRp结构域序列)。平均而言,该门的vOTU主要在温带和热带水域中最丰富(图4)。这一发现表明这些以前被忽视的病毒的生态重要性,并为以前表征的病毒(“quenyaviruses”)提供了更广泛的背景,这些病毒在一些节肢动物和其他动物中很丰富,现在更清楚地认识到它们是最丰富的海洋orthornaviran门的成员。平均来说,尽管地理范围比较有限,但属于-ssRNA门“Arctiviricota”的vOTU在大西洋北极水域的大部分地区是最丰富的(图4)。其他-ssRNA病毒(negarnaviricots)在海洋的任何区域都没有显示出类似的模式,这表明本文描述的“arctiviricots”有特定的生态分布模式。尽管本研究展示的生物地理学数据代表了来自基因组和转录组的混合丰度,但“Taraviricota”和 “Arctiviricota”的相对丰度可能主要来自其基因组(附图8)。总之,这些数据为以前海洋中的RNA病毒多样性研究提供了一个全球性的、系统性采样的和大规模的补充。
图4. orthornaviran的生物地理学分布。全球地图显示了本研究中推断的每个门类的vOTU的分布和平均相对丰度(按log2比例计算)。楔形图的位置和颜色对于全球海洋中的同一宏观分类来说是固定的。楔形的长度与样本以及全球数据集中的平均丰度成正比。 最后,在确定了这种环境背景和广泛的海洋来源的orthornaviran多样性后,我们试图确定它们的宿主。不幸的是,环境RNA病毒重叠群的宿主鉴定非常具有挑战性,这让我们只能报告新的宏观分类病毒的域级宿主,这些分析方法包括预先确定的宿主与以前已知的RNA病毒类群的关联、基于丰度的共现网络以及内源性病毒元件的筛选。本研究的结果显示,“Taraviricota”、“Arctiviricota”、“Pomiviricota”、“Wamoviricota”和其中八个新纲的病毒与真核生物有关(附表11),而只有pisuviricot纲的27种病毒可能感染原核生物(附表12)。后者感染原核生物的发现很罕见,但对RNA病毒来说并非未知,并得到有统计学意义的Shine-Dalgarno基序信号,以及其中一个代表病毒基因组编码细菌II型分泌系统的推测前蛋白转化酶亚单位SecY(附图7)的支持。其余的新宏观分类(1门2纲)不能确定可能的宿主。这些发现共同表明,真核生物仍然是orthornavirans的主要宿主,但我们建议将新的pisuviricot纲与levivirids (Lenarviricota门)、cystovirids (Duplornaviricota门)和picobirnavirids (Pisuviricota门)一起被添加到已知的RNA噬菌体群中。
结论
尽管针对dsDNA病毒已经开发了明确的种群和基因组研究方法,并揭示了仅在海洋中就存在数十万种不同的dsDNA病毒,然而目前对RNA病毒的研究却很少,但迫切需要这类研究,并表明我们对病毒圈的理解将随着对微生物真核生物的研究而增加。本研究和以前的一些研究证实了这一观点,且正在重塑我们对RNA病毒多样性和进化的理解。仅在这项研究中就提出了数千种以前未知的RNA病毒物种。尽管现在对这种RNA病毒多样性的记录可能可以扩展到在自然界观察到的,但仍有几个难题需要解决。这些挑战包括:(i)确定以前未发现的病毒的宿主,(ii)在调查方法中可扩展地提高病毒基因组完整性,以及(iii)直接从环境样本中捕获RNA病毒颗粒,以有针对性的方式评估其多样性,并补充本研究中提出的基于宿主宏转录组序列空间的丰度计算。尽管依然存在挑战,但本文介绍的全球和系统性研究提供了关键信息和资源、分析路线图和基础性进展,以提供评估RNA病毒生态系统、生态进化和流行病学影响所需的预测模型。
不感兴趣
看过了
取消
人点赞
人收藏
打赏
不感兴趣
看过了
取消
您已认证成功,可享专属会员优惠,买1年送3个月!
开通会员,资料、课程、直播、报告等海量内容免费看!
打赏金额
认可我就打赏我~
1元 5元 10元 20元 50元 其它打赏作者
认可我就打赏我~
扫描二维码
立即打赏给Ta吧!
温馨提示:仅支持微信支付!
已收到您的咨询诉求 我们会尽快联系您