重磅科研丨Nature子刊: 从复杂微生物群落中生成谱系分辨率的完整宏基因组组装基因组

2022
11/29

+
分享
评论
微生态
A-
A+

我们的分析表明,通过使用较长的(>5kb)读长和适当低的(大约1%)错误率,能够跨越同源基因组区域,并将物种水平和菌株水平的单倍型注释成不同的组装体,可以获得生物学认识。

编译:微科盟Moon,编辑:微科盟居居、江舜尧。

微科盟原创微文,欢迎转发转载,转载须注明来源《微生态》公众号。

导读  

微生物群落可能包含亲缘关系很近的不同谱系,使宏基因组组装复杂化,并阻碍了完整的宏基因组组装基因组(MAGs)的产生。本研究发现,使用长(HiFi)读长结合Hi-C分箱的深度测序可以解决这一难题,而且在复杂的微生物群落也可以实现。利用现有的方法,我们对绵羊粪便宏基因组进行测序,鉴定出428个完整性超过90%的MAGs。为了分辨高度近缘的菌株,我们开发了MAGPhase,它通过区分数百千碱基基因组序列中的变异单倍型来区分近缘物种的谱系。MAGPhase在我们的数据集中确定了220个谱系水平MAGs。区分复杂微生物群落中的近缘微生物提高了生物合成基因簇的识别和将移动遗传元件分配到宿主基因组的精确度。我们利用Hi-C数据识别了1400个完整的和350个部分完整的生物合成基因簇,其中大部分是以前未被发现的,以及424(298)个潜在的宿主-病毒(宿主-质粒)关联。

论文ID

名:Generating lineage-resolved, complete metagenome-assembled genomes from complex microbial communities

从复杂微生物群落中生成谱系分辨率的完整宏基因组组装基因组

期刊Nature Biotechnology

IF:68.164

发表时间:2022.1

通讯作者:Pavel A. Pevzner,Timothy P. L. Smith

通讯作者单位:美国加州大学圣地亚哥分校;美国农业部肉用动物研究中心

DOI号:10.1038/s41587-021-01130-z

实验设计

83181669677479701

结果

1.绵羊肠道微生物组组装

HiFi和短读长测序数据来源于一只成年绵羊的粪便样本。短读长数据包含1,024,375,790条reads,数据量为154GB,HiFi读长包括22,118,393条reads,数据量为255GB。后者的覆盖度比以前大多数长读长宏基因组组装的覆盖度要高。用Kaiju基于reads进行分类,结果显示HiFi数据集中的革兰氏阴性株系比短读长数据略有减少,但是HiFi数据产生的子读长没有表现出这种减少,这表明可能是由于HiFi的过滤过程造成的。用metaFlye组装HiFi读长共产生了57,259个contigs,contigs N50为279 kb,包括127个符合高质量MAGs标准的contigs,其中44个(35%)表示宏基因组组装图中的闭合圈(表1)。

表1 组装质量统计。

52241669677479744

a.SCG完整度大于90%,SCG冗余度小于5%的contigs。 b. metaFlye组装软件预测长度大于1 Mbp的环状contigs。

2.HiFi读长组装的完整MAGs

研究人员认为应用HiFi读长降低了解决结构复杂的微生物基因组组装的不确定程度,并提高组装的完整性。我们通过设计实验(附图1a)证实了这一假设:通过从原始HiFi读长中提取子读长生成一系列“pseudo-CLR(pCLR)”数据集,可以对HiFi和CLR读长进行同类比较。在除真核生物外的所有超生物界中,pCLR的平均contig比HiFi的平均contig要长(附图1b)。然而,在所有类别中,除了未分类的、“无结果”的株系,pCLR contig的总组装长度都低于HiFi组装长度(附图1c)。在古菌和细菌注释的contigs中,pCLR组装平均有61个高质量的基因组,22个预测的环状高质量基因组,比HiFi组装分别减少了48%和50%(表1和附图1d)。 我们将HiFi contigs与Hi-C连锁数据进行分箱分析,得到了428个完整的MAGs,这是目前所知的单个样本中报告的参考质量最高的MAGs数量。在HiFi组装的完整MAGs中,有319个符合Bowers等人规定的高质量MAGs标准。累积组装长度图表明,与pCLR组装的MAGs相比,HiFi数据集中较大比例的完整MAGs的相对丰度较低(覆盖度低于10x)(图1a)。比较分箱的SCG完整度和平均覆盖深度也表明,HiFi组装比pCLR组装有更多低覆盖度的完整MAGs(图1b)。HiFi和pCLR组装的对比在SCG完整度超过90%的分箱中更为明显(图1c),其中pCLR组装主要包含覆盖率超过10x的分箱,与HiFi完整MAGs相比,覆盖率高达1000x。完整MAGs的覆盖度分布与HiFi组装将pCLR组装中被处理为单个分箱的基因组注释为更高分辨率、更低覆盖率的分箱的假设一致。

69741669677479809

图1 组装了样品中相对丰度较低的物种的HiFi完整MAGs。组装的HiFi分箱的累积长度。(a)在较低的覆盖深度达到峰值的速度比pCLR分箱的累积长度更快,表明HiFi读长更有可能组装低丰度类群。将平均短读长覆盖率与SCG的完整性估值(b)进行比较,发现与pCLR数据集相比,大量HiFi数据集低于10x的覆盖度阈值。这一点在>90%的完整度类别中更加明显,HiFi分箱的平均覆盖度低于每个pCLR组装的覆盖度,相对于pCLR分箱没有同等覆盖度的情况,几个HiFi分箱的平均短读长覆盖度低于1x。

3.识别MAG bins中的不同谱系

通过在宏基因组内将不同的谱系分成单独组装体,在一定程度上验证了HiFi metaFlye组装增加了MAGs总数的假设(与pCLR组装相比)。用GTDB-TK将HiFi和pCLR完整的MAGs进行分类,它们分属于197和187个不同属,以及15和14个不同的门(附图2)。HiFi数据集有22个特有的属,而在三个pCLR数据集中只有8个属,HiFi数据集还有一个特有的门(附图1-3)。在一些情况下,HiFi的分类群比pCLR的分类群有更多的组装分箱(附表2),包括梭菌(Clostridia),它在pCLR MAGs中只有一个分箱,但在HiFi的组装结果中却有三个。这三个分箱的平均核苷酸同一性(eANI)估计在93%和95%之间,表明它们是梭菌纲的不同物种,可能是属内的不同物种或种内的不同菌株(附表3和4)。HiFi数据集中MAGs的不同在重叠群与组装示意图的比较中显而易见(图2a),其识别了pCLR折叠MAGs中的异质排列区域,在Mash k-mer谱的比较中显示,三个HiFi MAGs在每个pCLR组装中的单个分箱预测的eANI都大于90%。这表明pCLR组装将单个HiFi MAGs的不同成分输出到单个分箱中。这一结论从读长深度覆盖度图也可以看出来,读长深度覆盖图表明pCLR分箱的覆盖度非常不均匀,平均约为45x,与以可变丰度存在的多个近缘菌株的减少一致(附图3)。相比之下,已分类的HiFi分箱的覆盖度非常均匀,约为10x、20x和33x(附图4),这表明该组装在这一丰度范围内已注释了物种或菌株水平的株系。这一结果对使用读长覆盖度解决宏基因组中的菌株有相当大的影响。

在pCLR1-3组装中发现共有15、10和11个pCLR MAGs分别与31、23和25个HiFi分箱具有直系同源关系(附图4-6)。与pCLR组装中的6个相比,我们利用eANI匹配距离低的阈值(≥93%的距离)进行最邻近距离分析,确定HiFi组装中的18个MAGs可能是物种或菌株水平的组装(附表5)。这些HiFi MAGs在pCLR组装中有单个代表物种,表明序列内容和结构变化的差异可能在易错读长的组装中丢失。

51991669677480026

图2 MAGPhase在宏基因组中逐步进行的SNP单倍型检测。HiFi组装中谱系水平的的MAGs(a)通常对应于pCLR组装中的两个或多个分箱。在这个例子中,我们在三个HiFi分箱(最左边的图)和一个pCLR1分箱(最右边的图)的超集图上显示了HiFi分箱的比较对齐(根据图例着色)。pCLR图的排列显示了序列的分叉和三分叉,否则在最终组装中会被压缩成气泡。深红色的方框与b中的IGV图相对应。这些分箱内特定位点的IGV图(b)显示了这种方法的有效性,可以不需要大量的统计事后分析就轻松区分单倍型。HiFi读长与HiFi分箱451的比对显示只有一个交替等位基因,而pCLR1分箱451中的相应区域显示有多达四个交替等位基因(在图上标出)。为了在将来数据集中实现这种分析的自动化,我们提供了MAGPhase软件包(c),它可以识别MAG内的候选SNP变异位点,并利用HiFi读长的长度和高精确度将其拼接为较长的单倍型。

4.MAGPhase辨别谱系水平的高质量MAGs

HiFi组装甚至可以在初始重叠群阶段解决一些亚系的问题,这促使我们研究是否可以像以前尝试的那样,利用SNP变异数据将更多的HiFi分箱注释成谱系水平的完整MAGs。我们发现MAGs的SNP变异高于预期SCG区域内读长错误率。短读长的比对不能区分真正的多态性位点,特别是在高度重复的直系同源基因区域(图2b),因此我们开发了一种计算方法来区分宏基因组中的株系。区分MAGs中结构变异亚型的能力需要同时考虑覆盖深度和单倍型信息。这个问题与基因表达研究中来自亲代等位基因可变表达背景下的转录本的阶段有相似之处,因此我们将IsoPhase工作流程的分阶段算法改编为一个名为MAGPhase的工具,以识别SNPs和检测含有这些SNPs的读长,并将这些读长用于每个MAGs确定的SCG区域中的不同SNPs(图2c)。为了避免由于读长错误导致的潜在的假阳性SNP单倍型,我们只调用SCG区域中至少有10个跨HiFi读长且在相当大的读取深度中普遍存在的变体。 我们在每个目标区域确定了阶段性SNP单倍型,并统计了每个MAG的单倍型等位基因的最大数量,以评估每个MAG中SCG变异的上限。pCLR分箱中的大多数MAGs有多个单倍型等位基因(平均219个,占总数的65%;附表6),表明它们是混合谱系。相比之下,大多数HiFi MAGs(220个,比pCLR组装多2倍)没有发现可识别的替代单倍型等位基因,表明许多谱系被HiFi很好地注释到了,或者在样本中没有可检测的多态亚群(表2)。我们发现多态的HiFi MAGs在SCG区域内表现出多达25个独特的单倍型等位基因,表明MAGPhase可以识别局部的遗传漂变区域。在48个具有10个以上独特等位基因的HiFi单倍型位点中,我们发现40%(122/305个单倍型)与原始参考序列相差3个或更少的碱基,这进一步支持了这一结论,表明中性突变在亚群中固定。这些热点区域的替代等位基因的中位覆盖率在单倍型的长度上平均为5个HiFi 读长,这表明这些可能是真正的可变位点,而不是HiFi读长中错误位置与这些位点巧合对齐的假阳性结果。然而,我们不能排除一些假定的变异位点可能是由不准确的读长比对造成的。 我们比较比对的短读长和多态HiFi MAGs,发现了使用短读长进行菌种异质性评估的局限性。例如,对谱系水平的梭菌纲MAGs进行比对,在HiFi分箱451、452和471上鉴定出7、1和0个替代单倍型等位基因(附图4)。与这些区域匹配的单个HiFi读长的清晰变异模式,表明使用这些读长可以从宏基因组分箱中分出单倍型的能力(图2b)。在与这些区域进行比对的单个HiFi读长中,清晰的变异模式显示了使用这些reads从宏基因组分箱中分期提取单倍型的能力。这些模式在HiFi分箱的短读长比对中并不明显,或者表现为严重的片段化(图2b)。在确定读长比对如何用于下游的变异体调用工作流程中,谱系水平的完整HiFi MAGs和直系同源的pCLR MAGs中的读长堆积是有指导意义的。例如,在比较HiFi和pCLR MAGs 451的同源区域时,对单倍型的视觉判断无法进行区分(图2b),但在该区域的读长堆积中可以清楚地看到MAGPhase识别的一个大片段插入区域。pCLR1 MAGs有四个难以分辨的单倍型等位基因,这与折叠组装的特性一致,而HiFi MAG 451可以用这些识别的单倍型分为两个谱系水平的完整MAGs。我们确定了另外35个和32个完整的HiFi MAGs,它们只有1个或2个确定的替代SNP单倍型,可以分别注释成另外70个和96个谱系水平的完整MAGs。然而,在我们的完整MAG中,有220个完整MAGs的单倍型为零,不需要任何人工筛选,因此,默认符合谱系水平的完整MAG的标准(以下称为“从头谱系水平注释”)。这220个从头谱系水平注释的完整MAGs意味着不需要大量的事后编辑。我们强调,无论开始MAGs的质量如何,短读长比对都不能稳定地识别已鉴定单倍型等位基因中的变异。

一致信号的缺乏和将变异体连接成单倍型的能力降低,限制了短读长在宏基因组群落中用于变异阶段的使用。在单倍型区域普遍存在许多比对质量为0(MapQ0)的模糊短读长比对,这表明它们在整个组装中具有高度重复性,不能为短读长比对提供足够的独特序列。在分箱451、452和471中,短读长MapQ0比对的比例分别为7%、9%和17%,这表明这些分箱中大部分都是短读长变异分析所无法解决的。对整个HiFi组装的5-kb窗口的分析表明,18%的组装被MapQ0比对与总比对比例大于0.5的窗口所覆盖。由于映射的模糊性,自然发生的变异不太可能在这些窗口被短读长比对检测到。相比之下,HiFi组装中只有2%的长度具有高MapQ0窗口,这表明98%的组装包含足够的用于HiFi读长比对的独特序列(附图7)。

表2 MAGphase单倍型分析结果。

21321669677480160

5.HiFi精确度对完整MAGs生成的影响

我们通过计算比对到HiFi组装中的每个MAG完整性类别的HiFi读长的数量,来估计这个复杂样本中谱系水平的完整MAGs的比例。这些比对结果显示,5.7%的HiFi读长映射到谱系水平的完整MAGs,18%和7%分别映射到完整MAGs和其他低质量MAGs(图3a)。大多数reads(83%)映射到细菌的重叠群上(图3b),其中7%的HiFi读长比对到谱系水平的完整MAGs。然而,大多数的比对(63%)不符合生成MAGs的最低标准(>50%的SCG完整性)。这些数据表明,我们的从头谱系水平注释的完整MAGs并不代表我们数据集中最丰富的谱系,相反,可能是由于样本中基因组序列的同质性而发生分层,使这些谱系在较低的覆盖深度更容易组装。 从复杂样本中提取基因组的特征所需的序列深度通常是未知的。我们的研究设计采用了非常深度的HiFi测序,以减少序列深度对微生物组分析的限制,同时支持对序列深度和产生谱系水平完整MAGs之间的关系进行分析。为了探索这一点,我们对降采样读长进行了多次组装。总的组装大小继续增加,直到完整的数据集,可能反映了低丰度微生物或真核细胞基因组的组装,但随着总深度的接近,积累的速度逐渐减弱(图3)。总MAGs和完整MAGs的数量随着深度的增加而继续增加,尽管完整MAGs的数量受深度的限制较小(在40-Gbp深度时占计数的45%)。我们还测试了使用短读长修饰HiFi组装的功效,发现它并没有大幅提高序列的准确性,并建议今后可以省略这一步骤(附图8)。

81201669677480208

图3 不同覆盖深度下MAG的代表和组装。图a为根据MAGs的基本质量类别,HiFi读长的比对百分比情况。这表明小部分读长没有被比对到(深绿色)或比对到未分箱的重叠群(棕色)。大多数读长比对到被bin3c归为在不连续分箱中的重叠群,但不符合分析的最低完整性标准(SCG完整性小于50%)(橙色)。与谱系水平的完整MAGs(粉红色)的比对情况在总比对结果中的比例比原来预期的要小,完整MAGs(>90%的完整性和<10%的污染;蓝色)和其他MAGs(>50%的完整性;绿色)在总比对中占很大比例。将读长比对注释为不同重叠群级别的分类分析(b)显示,如预期所示,大多数谱系水平的完整MAGs来源于细菌。对20 Gbp的部分HiFi读长进行降采样(c),发现较小的目标覆盖深度仍然可以产生大量完整和谱系水平的完整MAGs。在每个类别中,每个降采样数据集与完整HiFi数据集(深橙色)进行了比较。

6.功能遗传学分析提升

HiFi读长在宏基因组功能注释中的优势是通过预测生物合成基因簇(BGCs)来评估的,这些基因簇在碎片化的组装中很难识别。我们使用antiSMASH在HiFi组装中确定了1400个完整的和350个片段化的BGCs。据我们所知,这是在宏基因组组装中报告的最大数量的完整BCG(附图5)。几乎所有确定的BGCs都被归类为新的BGCs,说明了长读长对于探索新的天然产物的能力(见补充说明,“生物合成基因簇的鉴定”)。 7.提高移动DNA关联分析的分辨率 通过应用以前发表的工作流程,使用Hi-C关联和部分长读长比对,对病毒(图4a和附图6-8)或质粒(图4d)分类的重叠群进行评估,以确定推测的细菌宿主,详细描述见补充说明“可移动DNA关联分析”。使用SCAPP质粒组装工具,我们在HiFi组装中确定了5,528个候选质粒contigs,并确定了298个质粒-contig关联。我们预测了6个质粒contigs和25个候选细菌宿主(附图1),其中一个质粒被预测栖息在13个不同细菌属的成员中,表明该质粒具有属间迁移能力。我们还预测了质粒contigs与三种古菌属之间的联系,包括Methanobrevibacter和Methanosphaera,而且以前不知道这些古菌会携带自发产生的质粒。这些结果强调了HiFi组装和Hi-C接触图谱相结合将移动遗传元件分配到宿主生物方面的价值。

46461669677480281

图4 HiFi读长改善了移动遗传元件与候选宿主物种的关联。通过HiFi读长重叠(蓝色)、Hi-C关联(绿色)和两种数据类型(红色)确定的预测宿主-病毒关联(a)的网络图显示,病毒基因组具有广泛的宿主特异性。此外,与pCLR数据集中检测到的病毒-古菌关联相比,HiFi组装能够更好地识别候选病毒-古菌关联。病毒-宿主关联主要通过HiFi读长比对确定(b),与平均pCLR组装(平均,251.34)相比,HiFi组装有更高比例的证据(356个关联)。每个pCLR条(n = 3)表示每个类别的平均值(Read: 251.34; Hi-C: 43.09; Both: 16.21),误差条表示标准差(Read: 25.10; Hi-C: 19.93; Both: 6.84)。通过突出不同组装结果之间结构域检测的差异,与pCLR组装相比,在HiF组装中发现更多的病毒-古菌关联(c)。每个pCLR条(n = 3)表示每个类别的平均值(古菌:7.67;细菌:251.25;真核生物:16.14;病毒:20.40;其他:23.86),误差条表示标准差(古菌:2.07;细菌:35.06;真核生物:1.77; 病毒: 11.22;其他:4.02)。利用Hi-C关联数据,我们还能够识别HiFi组装质粒序列的候选宿主(d)。

讨论

宏基因组组装旨在为样本中大多数生物体生成参考基因组。我们的数据表明,短的和长的易错读长都会产生错误的组装结果,需要大量人工工作才产生参考质量的数据。相比之下,使用HiFi读长的metaFlye组装从复杂的宏基因组中产生了许多谱系水平的完整MAGs,而不需要进行二次整理(图2),对于群落中相对丰度较低的生物也可实现(图1a,c)。与最近的研究相比,我们发现使用短读长辅助的长读长序列数据组装,在恢复rRNA和tRNA基因(在我们的数据集中有319个MAGs包含完整的互补序列)和高质量环状重叠群(在我们的数据集中有44个)方面有相应的改进,而不需要进行进一步处理。与近缘的(>90%的eANI)谱系相比,这些完整的MAGs在结构变异和同源基因序列方面似乎得到了注释。基于草图的比较显示,在pCLR数据集中被压缩成折叠组装的HiFi MAGs(23-31个MAGs,占总数的6-7%),根据读长比对指标和变异相位分析,发现它们不能很好地代表生物体的实际基因组序列(图2b)。这些数据表明,易出错的长读长的宏基因组组装很可能将样品中存在的近缘基因组的重叠群折叠成单个不准确代表。 MAGPhase检测离散单倍型,并比现有的基于短读长的菌株注释算法更有效、更正确地识别变异菌株,这些算法依靠多个样本观察和统计变异连接分析来确定潜在的微生物株系。HiFi读长提供了合适的准确度和长度,使我们的HiFi MAGs能够识别多达309个SNP的phased单倍型,以及大至300kbp片段上的分相变异(表2)。HiFi读长允许检测样品中分离的单倍型(其相对丰度低至参考MAG单倍型的2%(300个reads中的5个)),而不是将微生物株系的分析限制在可能因短读长比对不准确而产生偏差的ANI阈值上。如IGV排列图所示,MAGPhase工作流程使用HiFi读长对宏基因组组装进行单倍型分析,并能对发现的单倍型进行视觉检查。我们已经包括了标记这些图表的工具,并能对预测的SNP单倍型进行可视化验证。即使使用由长的易错读长(pCLR组装)产生的MAGs作为参考,MAGPhase仍然可以产生可辨认的SNP单倍型,可用于识别后代谱系(图2b),这表明它可能有应用于现有非HiFi长读长组装的价值。最近的工作试图利用事后的短读长联结统计去实现菌种分离的MAGs。这种方法可能更具成本效益,但它以事后复制的准确性和工作量为代价,而我们的方法则是从头生成了很大比例的谱系水平MAGs。 组装微生物群落的低丰度成员和注释同一样品中存在的近缘后代株系的能力取决于测序的深度。我们对一个复杂的群落进行了深度测序,为比较较低深度的覆盖率设定了一个基准(图3c)。随后的降采样实验评估了覆盖率与物种和菌株水平组装的分辨率之间的权衡,揭示了仅用100Gbp的HiFi读长就可以从我们的样本中组装出超过300个完整的MAGs。我们发现,这些MAGs中的很大一部分是从头谱系水平的完整MAGs(所有重复中的93-210个MAGs)。这一统计数字可能会根据其他环境中样本组成的差异而有所不同,但它揭示了这些谱系中基因组变异的制约因素,而这是以前难以识别的。用HiFi读长从头组装谱系水平的MAGs更有可能发生在没有大的结构变异或目前HiFi读长无法跨越的基因岛的谱系中,如含有噬菌体整合等特征的菌株仍可能产生多个基因组的折叠表示。我们假设,通过将metaFlye组装图中的结构变异信息与MAGPhase生成的phased SNP单倍型相结合,可以在组装前实现MAGs的更好的菌株水平注释。 长读长技术能够生成许多千碱基长度的读长,并可能最终能够在单个读长中涵盖整个微生物基因组。高保真读长目前被限制在平均20 kbp或更少,并且比同等数量的短读长和易出错的长读长产生的成本更高。然而,宏基因组组装中读长长度的主要限制因素是目前用于确保全面代表微生物群落的DNA提取方法,这些方法通常产生小于10 kbp的DNA片段,这使其他平台的读长长度能力失去意义。我们还发现,HiFi组装并没有因为用短读长进行修饰而得到实质性的改善,所以相对于其他实验设计,其复杂性和成本都有所降低(附图1)。

我们注意到,与短读长相比,HiFi读长对革兰氏阴性菌而言略微降低(约20%);然而,这种差异并没有出现在产生HiFi读长的细胞的子读长中,表明这种影响与子读长向HiFi读长的转化有关。我们表明,MAGPhase能够利用HiFi读长与不同质量的组合进行比对来解析谱系(图2c),因此在未来的研究中,用HiFi读长进行的低通量测序可能与先前组装的参考文献一起使用。我们注意到,长读长准确性的提高已经扩展到其他平台,我们的方法应该同样适用于这些数据集。然而,目前宏基因组DNA提取方法所带来的问题将继续限制所有测序技术所能达到的读长大小。 通过HiFi读长,一些生物学方面的观点成为了可能。使用antiSMASH检测工具在 HiFi组装中发现的BGCs比次好的pCLR组装中的最高计数多40%。antiSMASH的结果确定了19个BGCs,它们与最近发现的一类编码人类肠道微生物群蛋白酶体抑制剂的基因簇有很高的相似性,表明这些功能对反刍动物的宿主定植可能具有与人类类似的重要性。此外,我们结合Hi-C连锁数据和HiFi读长比对重叠,在我们的样本中发现了几个新的移动遗传元件的关联。我们主要通过HiFi读长重叠检测出具有高复杂性(直径=7)的古菌-病毒关联(n=60)。使用Hi-C关联的宿主-质粒分析也确定了组装的、环状质粒的广泛宿主特异性。总的来说,我们分别确定了424个和298个潜在的宿主-病毒和宿主-质粒关联,这是迄今为止单个样本中移动元件活动最丰富的关联之一。 据我们所知,以前没有研究报道过在复杂的宏基因组中,在谱系水平上注释的高质量MAGs。

我们的分析表明,通过使用较长的(>5kb)读长和适当低的(大约1%)错误率,能够跨越同源基因组区域,并将物种水平和菌株水平的单倍型注释成不同的组装体,可以获得生物学认识。用metaFlye进行组装,用Hi-C进行分箱,用MAGPhase进行分相,可以用最少的人力工作产生谱系水平的MAGs。由此产生的谱系水平的完整MAGs是迈向完整宏基因组学的一步,从复杂的宏基因组样本中分离出微生物的高质量基因组组装。

不感兴趣

看过了

取消

本文由“健康号”用户上传、授权发布,以上内容(含文字、图片、视频)不代表健康界立场。“健康号”系信息发布平台,仅提供信息存储服务,如有转载、侵权等任何问题,请联系健康界(jkh@hmkx.cn)处理。
关键词:
HiFi,MAGs,宏基因组,pCLR,微生物,科研

人点赞

收藏

人收藏

打赏

打赏

不感兴趣

看过了

取消

我有话说

0条评论

0/500

评论字数超出限制

表情
评论

为你推荐

推荐课程


社群

  • 第九季擂台赛官方群 加入
  • 手术室精益管理联盟 加入
  • 健康界VIP专属优惠 加入
  • 健康界药学专业社群 加入
  • 医健企业伴飞计划 加入

精彩视频

您的申请提交成功

确定 取消
5秒后自动关闭

您已认证成功

您已认证成功,可享专属会员优惠,买1年送3个月!
开通会员,资料、课程、直播、报告等海量内容免费看!

忽略 去看看
×

打赏金额

认可我就打赏我~

1元 5元 10元 20元 50元 其它

打赏

打赏作者

认可我就打赏我~

×

扫描二维码

立即打赏给Ta吧!

温馨提示:仅支持微信支付!

已收到您的咨询诉求 我们会尽快联系您

添加微信客服 快速领取解决方案 您还可以去留言您想解决的问题
去留言
立即提交