宏基因组分析专题(4):宏基因组拼接的高效工具:megahit的安装和使用

2021
07/30

+
分享
评论
微生态
A-
A+

宏基因组拼接的软件和流程。


在上一节  宏基因组分析专题(3):宏基因组数据的质控-fastQC和Trimmomatic的安装和使用  内容中我们讲解了测序数据的质量评估和控制,二代测序虽然其通量高,但是其错误率也高(通常一条read的前后若干bp错误率较高),在进行fastq质量评估和Trimmomatic对错误碱基进行修剪后,我们需要把质控后的reads通过一些软件结合一些算法把这些比较短的reads拼接成一些长一点的Contigs才能进行下一步的分析。

下面来介绍一下宏基因组拼接的软件和流程。

写在前面


宏基因组拼接工具有哪些?
目前宏基因组拼接软件主要有4种:

(1)SOAPdenovo:这款软件由华大开发,SOAPdenovo2是用于short-read组装的软件,主要用于组装比较大的基因组, 组装速度快但是错误率较高。

(2)SPAdesmetaSPAdes是目前宏基因组领域组装指标较好的软件,尤其在株水平组装优势明显,组装效果优,但是拼接时间长,资源消耗高

(3)IDBA:适合预测深度不均一的数据,且资源消耗过高

(4)Megahit:MEGAHIT是NGS de novo汇编程序,在土壤等复杂环境样本组装、大量样本混合组装方面优势明显,速度很快,消耗的资源少。

本文将重点介绍 MEGAHIT 的安装和使用。



安装和使用


第一:Megahit的介绍

MEGAHIT是NGS de novo汇编程序,用于以节省时间和成本的方式来汇编大型和复杂的宏基因组学数据。它分别在具有和不具有图形处理单元的单个计算节点上,在44.1和99.6 h内完成了252 Gbps的土壤宏基因组学数据集的组装。MEGAHIT将数据整体组装在一起,即不需要像分区和规范化这样的预处理。与以前的组装土壤数据的方法相比,MEGAHIT生成了三倍大的组装,具有更长的重叠群N50和平均重叠群长度;此外,有55.8%的读段与装配体对齐,从而提高了四倍。



图1 Megahit的流程图


Megahit组装的算法使用的是基于迭代的kmer的DBG法,其特点是超快和超高效内存使用,所以Megahit的软件运行速度极快,节约了大量的拼接时间。

组装算法大致可以分为三类

1.基于OLC (Overlap-Layout-Consensus),适用于测序量不大的长片段数据
2.基于kmer的DBG (de bruijn graph),适用测序量大的短片段数据
3.综合OLC和DBG法

第二:Megahit常用的参数

-1 一端测序的文件

-2 另一端测序的文件

-m/--memory 在 SdBG 构造中使用的最大内存(以字节为单位)

--k-list  设置k参数 所有必须是奇数,在 15-255 范围内,增量 <= 28

-o 输出的文件夹

--tmp-dir 输出临时文件

-v/--version 版本号

-v/--version 帮助



第三:Megahit实战
采用了上一章,用fastqc和Trimmatic质控后的数据:SRR1977249和SRR1976948双端质控后的数据。
对于SRR1977249

megahit -t 20 -1 SRR1977249_1.clean.fastq.gz  -2 SRR1977249_2.clean.fastq.gz -o SRR1977249


图2

SRR1977249数据耗时323秒


图3


输出的文件是多个k组装而输出的文件

 图4


同样的对于SRR1976948数据:

megahit -t 20 -1 SRR1976948_1.clean.fastq.gz -2 SRR1976948_2.clean.fastq.gz -o SRR1976948


图5

SRR1976948总耗时421秒

 

SRR1977249和SRR1976948总耗时744秒,不到13分钟,非常的快

图6
到这里我们完成了所有的宏基因组组装过程,如果你测的是土壤中的宏基因组,那么这些Contigs包含土壤所有的微生物,为了进一步研究,下一章内容我们会将这些Contigs通过一定的算法进行分类(例如四碱基的频率),来得到一些bins来进行进一步分析,敬请期待。

本文来源于微科盟原创作者phage,仅用于学术分享,如有侵权,请联系删除!

不感兴趣

看过了

取消

本文由“健康号”用户上传、授权发布,以上内容(含文字、图片、视频)不代表健康界立场。“健康号”系信息发布平台,仅提供信息存储服务,如有转载、侵权等任何问题,请联系健康界(jkh@hmkx.cn)处理。
关键词:
拼接,使用,组装,基因组,数据

人点赞

收藏

人收藏

打赏

打赏

不感兴趣

看过了

取消

我有话说

0条评论

0/500

评论字数超出限制

表情
评论

为你推荐

推荐课程


社群

  • 医生交流群 加入
  • 医院运营群 加入
  • 医技交流群 加入
  • 护士交流群 加入
  • 大健康行业交流群 加入

精彩视频

您的申请提交成功

确定 取消
剩余5
×

打赏金额

认可我就打赏我~

1元 5元 10元 20元 50元 其它

打赏

打赏作者

认可我就打赏我~

×

扫描二维码

立即打赏给Ta吧!

温馨提示:仅支持微信支付!