【从零开始学生信】二代测序数据简介之fastq和fasta

2021
01/20

+
分享
评论
e药安全
A-
A+



概念

  fastq格式是序列格式中常见的一种,是基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式。其序列以及质量信息都是使用一个ASCII字符标示,最初由Sanger开发,目的是将FASTA序列与质量数据放到一起,目前已经成为高通量测序结果的事实标准。


格式说明

  fastq文件中每个序列通常有四行:

1 第一行:必须以“@”开头,后面跟着唯一的序列ID标识符,然后跟着可选的序列描述内容,标识符与描述内容用空格分开;

2 第二行:序列字符(核酸为[AGCTN]+,蛋白为氨基酸字符);

3 第三行:必须以“+”开头,后面是序列标示符、描述信息,或者什么也不加。如果“+”后面有内容,该内容必须与第一行“@”后的内容相同;

4 第四行:碱基质量字符,每个字符对应第二行相应位置碱基或氨基酸的质量,根据评分体系的不同,每个字符的含义表示的数字也不相同。这一行的字符数与第二行中的字符数必须相同。

  例如:


Illumina公司序列标识符

@E00500:23:H3VV7ALXX:8:1101:5538:3067 1:N:0:GCGAGTAA

@E00500the unique instrument name
23the run ID
H3VV7ALXXthe flowcell ID
8flowcell lane
1101tile number within the flowcell lane
5538‘x’-coordinate of the cluster within the tile
30671‘y’-coordinate of the cluster within the tile
NY if the read fails filter (read is bad), N otherwise
00 when none of the control bits are on, otherwise it is an even number
GCGAGTAAindex sequence 




概念

  fasta序列格式是blast组织数据的基本格式,无论是数据库还是查询序列,大多数情况都使用fasta序列格式,所以首先对fasta格式在做详细说明。


格式说明

下面是人HG19参考基因组部分fasta格式序列:

  fasta格式首先以大于号“>”开头,接着是序列的标识符,然后是序列的描述信息。换行后是序列信息,序列中允许空格,换行,空行,直到下一个大于号,表示该序列的结束。


  fatsq每个序列有四行,更好的表现了fasta格式数据。fatsq可以转变为fasta格式数据。实现转换的代码十分简单,如下:

#/usr/bin/env python2.7

import sys

fn=sys.argv[1]

output_fn=sys.argv[2]

fw = open(output_fn, "w")

lines = open(fn).readlines()

len_lines=len(lines)

i=0

while(i<len_lines):

    id=lines[i].strip()

    seq=lines[i+1].strip()

    fasta_id="> "+id

    out='%s\n%s\n'%(fasta_id,seq)

    fw.write(out)

    i=i+4


  当二代测序的原始数据拿到手之后,第一步要做的就是看一看原始reads的质量。常用的工具就是FASTQC。

FASTQC的官网:

http://www.bioinformatics.babraham.ac.uk/projects/fastqc/

FASTQC的下载地址:

http://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc


在linux上的安装

$wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.5.zip

解压 

$ unzip fastqc_v0.11.5.zip

设置权限 

$ cd FastQC/

$ chmod 755 fastqc  

加入到 PATH 

$ export PATH=/home/user/FastQC/:$PATH

测试

$ fastqc --help

  能看到幫助信息,说明已经安装成功


在Window上的安装

1 下载 http://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc(选择win可用的选项下载)

2 Unzip, 进入FastQC, double-click **run_fastqc.bat**

3 FastQC GUI, File -> Open -> select fastq file

  如果double-click run_fastqc.bat 没有反应, 说明 JAVA 没有安装配置好. 请参考

http://www.runoob.com/java/java-environment-setup.html


Ref:

http://en.wikipedia.org/wiki/FASTQ_format

http://boyun.sh.cn/bio/?p=1901

http://www.bioinformatics.babraham.ac.uk/projects/fastqc/

本文由作者自行上传,并且作者对本文图文涉及知识产权负全部责任。如有侵权请及时联系(邮箱:nanxingjun@hmkx.cn
关键词:
FastQC,标识符,测序,数据,格式

人点赞

收藏

人收藏

打赏

打赏

我有话说

0条评论

0/500

评论字数超出限制

表情
评论

为你推荐

推荐课程


社群

精彩视频

您的申请提交成功

确定 取消
剩余5
×

打赏金额

认可我就打赏我~

1元 5元 10元 20元 50元 其它

打赏

打赏作者

认可我就打赏我~

×

扫描二维码

立即打赏给Ta吧!

温馨提示:仅支持微信支付!