宏基因组分析专题(3):宏基因组数据的质控-fastQC和Trimmomatic的安装和使用

2021
07/20

+
分享
评论
微生态
A-
A+

为什么要质控?


本文由微科盟phage根据实践经验而整理,希望对大家有帮助。

微科盟原创微文,欢迎转发转载,转载须注明来源《微生态》


写在前面


为什么要质控?

    宏基因组测序一般用的是illumina二代测序技术,二代测序技术的一般过程为:先把样本基因组中的DNA随机打断,使用酶将两端补平,然后在这些片段两端加上接头 (adaptor),Index 和引,在进行PCR扩增后再上级测试,目前二代测序的长度为150-250 bp左右,在测序过程中,reads两端的序列极容易出错,因此在公司测序得到的rawdata存在一些含有带接头的、低质量的reads,为了保证信息分析质量,必须对raw reads过滤,得到clean reads,后续分析都基于clean reads




安装步骤


第一步:下载测试数据

curl -O -L 

https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/SRR1976948_1.fastq.gz

curl -O -L 

https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/SRR1976948_2.fastq.gz

curl -O -L 

https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/SRR1977249_1.fastq.gz

curl -O -L 

https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/SRR1977249_2.fastq.gz




第二步:安装fastQC软件

2.1 使用conda安装

conda install FastQC


2.2 使用源代码安装 (手动安装)

下载

wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.3.zip

解压

unzip fastqc_v0.11.3.zip

设置权限

cd FastQC/

chmod 755 fastqc

加入到 PATH

export PATH=/home/user/FastQC/:$PATH

测试

fastqc --help

应该能看到帮助信息,说明已经安装成功



第三步:快速运行FastQC

fastqc -t 20 SRR1976948_1.fastq.gz SRR1976948_2.fastq.gz SRR1977249_1.fastq.gz SRR1977249_2.fastq.gz


图1

产生8个文件分别为4个网页报告文件和4个质控后的zip文件

Fastqc 常用参数

-help 显示帮助信息

-t 使用的线程数

-o 将输出文件输出到指定的文件夹中


第四步: fastqc报告解读

打开SRR1976948_1_fastqc.html

报告说明:在打开的网页上是整个质控的报告,报告的结果为,绿色的对勾是合格,警告是黄色叹号,不合格是红叉。

4.1 Basic Statistics 基本信息

图2


Encoding指测序平台的版本和相应的编码版本号,可推测是Phred 33 或是Phred 64 质量分数的编码方式。 

Total Sequences输入文本的reads的数量。 

Sequence length 测序的长度

%GC 是我们需要重点关注的一个指标,这个值表示的是全部序列中的GC含量,这个数值一般是物种特异的,比如人类基因组就是42%左右。


图3



第五步:使用Trimmatic对原始数据进行修剪

Trimmomatic 支持多线程,处理数据速度快,主要用来去除 Illumina 平台的 Fastq 序列中的接头,并根据碱基质量值对 Fastq 进行修剪。软件有两种过滤模式,分别对应 SE 和 PE 测序数据,同时支持 gzip 和 bzip2 压缩文件。

另外也支持 phred-33 和 phred-64 格式互相转化,不过现在绝大部分 Illumina 平台的产出数据都是 phred-33的格式了。

 

5.1 Trimmatic的安装:

conda install Trimmomatic

 

5.2 下载Illumina双端接头序列

curl -O -L 


 

5.3 使用Trimmomatic去接头和低质量序列

trimmomatic PE -threads 20 SRR1976948_1.fastq.gz SRR1976948_2.fastq.gz SRR1976948_1.clean.fastq.gz SRR1976948_1.unpaired.fastq.gz SRR1976948_2.clean.fastq.gz SRR1976948_2.unpaired.fastq.gz ILLUMINACLIP:TruSeq2-PE.fa:2:40:15  LEADING:2 TRAILING:2 SLIDINGWINDOW:4:2 MINLEN:25


 图4


图5


trimmomatic PE -threads 20 SRR1977249_1.fastq.gz SRR1977249_2.fastq.gz SRR1977249_1.clean.fastq.gz SRR1977249_1.unpaired.fastq.gz SRR1977249_2.clean.fastq.gz SRR1977249_2.unpaired.fastq.gz ILLUMINACLIP:TruSeq2-PE.fa:2:40:15  LEADING:2 TRAILING:2 SLIDINGWINDOW:4:2 MINLEN:25


图6

图7


本文来源于微科盟原创作者phage,仅用于学术分享,如有侵权,请联系删除!





不感兴趣

看过了

取消

本文由“健康号”用户上传、授权发布,以上内容(含文字、图片、视频)不代表健康界立场。“健康号”系信息发布平台,仅提供信息存储服务,如有转载、侵权等任何问题,请联系健康界(jkh@hmkx.cn)处理。
关键词:
宏基因组,质控,专题,数据,测序,序列

人点赞

收藏

人收藏

打赏

打赏

不感兴趣

看过了

取消

我有话说

0条评论

0/500

评论字数超出限制

表情
评论

为你推荐

推荐课程


社群

  • 医生交流群 加入
  • 医院运营群 加入
  • 医技交流群 加入
  • 护士交流群 加入
  • 大健康行业交流群 加入

精彩视频

您的申请提交成功

确定 取消
剩余5
×

打赏金额

认可我就打赏我~

1元 5元 10元 20元 50元 其它

打赏

打赏作者

认可我就打赏我~

×

扫描二维码

立即打赏给Ta吧!

温馨提示:仅支持微信支付!