Strainberry能够在复杂的微生物组中完善微生物的多样性,实现菌株基因组的完全分离。这项工作将成为该领域研究的起点以达到在更复杂的环境中实现菌株基因组分离。
本期《精准前沿》栏目分享来自法国巴斯德研究所Riccardo Vicedomini研究团队发表于Nature Communications(IF =14.919)上的一篇研究[1],研究提出了一种利用长读长的宏基因组数据分离菌株的方法:Strainberry,通过评测发现本方法组装出的菌株可以达到几乎完整的参考基因组覆盖度和99.9%的碱基准确度,在真实的宏基因组数据测试中发现相对于传统的组装测策略在菌株的组装上可以增加20%-118%的序列长度。
研究背景
对于宏基因组组装来说,目前技术可以在丰度足够高时,组装出染色体级别的序列,但理想情况下应该分离出存在的每个菌株。宏基因组组装的一个关键应用是识别在环境中发挥关键作用的基因组差异。相关研究表明不同菌株之间的致病性是完全不同的。分离出菌株的基因组序列,对宏基因组的研究至关重要。
研究设计
本研究提出了一种基于三代数据在低复杂度的宏基因组中分离菌株的策略:Strainberry。
图1.Strainberry流程图
相较于其他的组装软件,Strainberry可以组装出更高质量的菌株基因组序列。
研究结果
1. Strainberry的流程
Strainberry的流程主要包含三个步骤:1.单倍型定相和reads分离;2.单倍型组装;3.单倍型scaffolding。
Strainberry的两个输入文件分别是不区分菌株的组装和长reads数据。将长reads与组装序列比对获取单核苷酸变异信息,利用这些变异信息可以进行单倍型定相,可以分离出属于不同单倍型的reads。分离后的reads分别进行组装获得单倍型基因组,最后将可能属于同一菌株的序列连接。整个流程迭代n-1次,n是检测到的最大可能菌株数目。
2. 在三株模拟菌群中两株大肠杆菌的分离
Mock3是由1株蜡样芽孢杆菌,2株大肠杆菌混合组成。相较于Canu和Flye,Strainberry的组装完整性更好,与参考基因组的相似性更高。Canu实现了部分菌株的分离,但是与两株大肠杆菌的参考基因组相比分别丢失了46%和11%的序列信息,并且identity值分别为99.64%和99.74%低于Strainberry的结果。Strainberry可以精确地将Canu和Flye的组装序列分离成两组Contigs,同时与参考基因组相比具有完整的覆盖度和99.97%的identity。
图2. Mock3数据组装结果统计
3. 在9株模拟样本中分离出5株相近的菌株
Mock9数据包含9个不同的基因组,其中包含2株大肠杆菌和2株金黄色葡萄球菌,另外的基因组是其他不同物种的基因组。Flye可以分离出肺炎伯氏菌的基因组,然而将另外的基因组组装成一个基因组。Canu不仅完整组装出了肺炎克雷伯氏菌的基因组,同时也分离出了单个的金黄色葡萄球菌,大肠杆菌和宋内志贺菌。然而,虽然组装出的序列覆盖度较高,但Canu的组装结果identity值较低,重复率较高。两株金黄色葡萄球菌的identity是97.61%,Flye不能将它们分离开,相反,Strainberry可以精确地分开Flye的序列,同时相较于参考基因组来说具有几乎完整的覆盖度,平均核苷酸相似性为99.97%,重复率接近于1。
图3. Mock9数据的组装结果统计
4. 菌株覆盖度,差异度,菌株数量和重组率对菌株分离的影响
为了更好地评估Strainberry组装菌株的能力,作者模拟了24份包含在菌株的覆盖度,差异度,数量和重组率不同的同物种菌株。结果显示Strainberry的菌株分离质量在30X时达到平台期,在10X时效果较差。当菌株的差异率为0.39%时,Strainberry分离菌株的覆盖度显著提升,当差异率为0.50%时,可以分离出几乎完整的菌株。在所有的数据集上,Strainberry分离的序列与参考基因组的平均核苷酸相似性在99.8%以上,相对于不区分菌株组装有明显的提升。Strainberry最多可以分离5个菌株,但相比分离3个菌株在质量上会有降低,平均的覆盖度从95%(3 strains)降低到75%(5 strains),平均核苷酸相似性从99.9%(3 strains)降低到99.6%(5 strains)。对不同重组率的基因组Strainberry仍可以达到区分的目的,重组率越高,最终分离出的菌株序列与参考基因组的相似性在降低。
图4. 在菌株覆盖度,差异度和菌株数量方面评估对菌株分离的影响
5. 在单个样品上进行菌种分离,并通过人工处理和大量整理的多技术数据进行验证
作者将Strainberry应用于天然乳清发酵剂的低复杂度样本NWC2。NWC2包含四个主要的微生物物种,其中两株为同一个物种(L. helveticus strains NWC_2_3 和 NWC_2_4)。Pacbio数据的结果表明,原始的Fly组装在未进行任何矫正的情况下,无法分离开菌株,而且菌株NWC_2_3丢失了23.03%的序列,菌株NWC_2_4丢失了19.99%。然而,Strainberry的组装结果几乎覆盖了全部的参考序列(分别丢失了9.87%和0.64%)。相反地,原始的Canu组装序列可以覆盖几乎完整的基因组序列,但是Strainberry仍然可以提升其覆盖度。ONT数据的结果表明对NWC_2_3来说,Strainberry可以组装出几乎完整的基因组序列与Pacbio数据相比有小幅的提升。
图4. L. helveticus NWC_2_3和L. delbrueckii NWC_2_2的组装序列覆盖度
6. 人类粪便微生物组数据集中的菌株分离
作者将Strainberry应用到健康人粪便样本与Lathe workflow对比以探究Strainberry的性能。与Lathe workflow相比,Strainberry的组装序列在总长方面提升了19%,重复率方面升高了0.365,这意味着更多的序列被分离出来。Strainberry可以增加组装基因组的长度,在宏基因组的研究中可以挖掘出更多的信息。
图7.在菌株分离前后的组装大小和序列分类
讨论
Strainberry只用三代数据就可以达到分离菌株的目的,在低复杂度的数据中,在10X时就达到了分离的目的,但质量较低,在60X到80X的数据就可以分离出几乎完整的基因组序列。分离出菌株的组装质量高低与第一步不区分菌株组装序列的质量相关。
结语
综上所述,Strainberry能够在复杂的微生物组中完善微生物的多样性,实现菌株基因组的完全分离。这项工作将成为该领域研究的起点以达到在更复杂的环境中实现菌株基因组分离。
END
参考文献:
[1] Vicedomini R, Quince C, Darling A E, et al. Strainberry: automated strain separation in low-complexity metagenomes using long reads[J]. Nature Communications, 2021, 12(1): 1-14.
撰写丨UCSF
编辑、排版丨SX
不感兴趣
看过了
取消
人点赞
人收藏
打赏
不感兴趣
看过了
取消
您已认证成功,可享专属会员优惠,买1年送3个月!
开通会员,资料、课程、直播、报告等海量内容免费看!
打赏金额
认可我就打赏我~
1元 5元 10元 20元 50元 其它打赏作者
认可我就打赏我~
扫描二维码
立即打赏给Ta吧!
温馨提示:仅支持微信支付!
已收到您的咨询诉求 我们会尽快联系您