概念
fastq格式是序列格式中常见的一种,是基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式。其序列以及质量信息都是使用一个ASCII字符标示,最初由Sanger开发,目的是将FASTA序列与质量数据放到一起,目前已经成为高通量测序结果的事实标准。
格式说明
fastq文件中每个序列通常有四行:
1 第一行:必须以“@”开头,后面跟着唯一的序列ID标识符,然后跟着可选的序列描述内容,标识符与描述内容用空格分开;
2 第二行:序列字符(核酸为[AGCTN]+,蛋白为氨基酸字符);
3 第三行:必须以“+”开头,后面是序列标示符、描述信息,或者什么也不加。如果“+”后面有内容,该内容必须与第一行“@”后的内容相同;
4 第四行:碱基质量字符,每个字符对应第二行相应位置碱基或氨基酸的质量,根据评分体系的不同,每个字符的含义表示的数字也不相同。这一行的字符数与第二行中的字符数必须相同。
例如:
Illumina公司序列标识符
@E00500:23:H3VV7ALXX:8:1101:5538:3067 1:N:0:GCGAGTAA
@E00500 | the unique instrument name | |
23 | the run ID | |
H3VV7ALXX | the flowcell ID | |
8 | flowcell lane | |
1101 | tile number within the flowcell lane | |
5538 | ‘x’-coordinate of the cluster within the tile | |
30671 | ‘y’-coordinate of the cluster within the tile | |
N | Y if the read fails filter (read is bad), N otherwise | |
0 | 0 when none of the control bits are on, otherwise it is an even number | |
GCGAGTAA | index sequence |
概念
fasta序列格式是blast组织数据的基本格式,无论是数据库还是查询序列,大多数情况都使用fasta序列格式,所以首先对fasta格式在做详细说明。
格式说明
下面是人HG19参考基因组部分fasta格式序列:
fasta格式首先以大于号“>”开头,接着是序列的标识符,然后是序列的描述信息。换行后是序列信息,序列中允许空格,换行,空行,直到下一个大于号,表示该序列的结束。
fatsq每个序列有四行,更好的表现了fasta格式数据。fatsq可以转变为fasta格式数据。实现转换的代码十分简单,如下:
#!/usr/bin/env python2.7 import sys fn=sys.argv[1] output_fn=sys.argv[2] fw = open(output_fn, "w") lines = open(fn).readlines() len_lines=len(lines) i=0 while(i<len_lines): id=lines[i].strip() seq=lines[i+1].strip() fasta_id="> "+id out='%s\n%s\n'%(fasta_id,seq) fw.write(out) i=i+4 |
当二代测序的原始数据拿到手之后,第一步要做的就是看一看原始reads的质量。常用的工具就是FASTQC。
FASTQC的官网:
http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
FASTQC的下载地址:
http://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc
在linux上的安装
$wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.5.zip |
解压
$ unzip fastqc_v0.11.5.zip |
设置权限
$ cd FastQC/ $ chmod 755 fastqc |
加入到 PATH
$ export PATH=/home/user/FastQC/:$PATH |
测试
$ fastqc --help |
能看到幫助信息,说明已经安装成功
在Window上的安装
1 下载 http://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc(选择win可用的选项下载) 2 Unzip, 进入FastQC, double-click **run_fastqc.bat** 3 FastQC GUI, File -> Open -> select fastq file 如果double-click run_fastqc.bat 没有反应, 说明 JAVA 没有安装配置好. 请参考 http://www.runoob.com/java/java-environment-setup.html |
Ref:
http://en.wikipedia.org/wiki/FASTQ_format
http://boyun.sh.cn/bio/?p=1901
http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
人点赞
人收藏
打赏
打赏金额
认可我就打赏我~
1元 5元 10元 20元 50元 其它打赏作者
认可我就打赏我~
扫描二维码
立即打赏给Ta吧!
温馨提示:仅支持微信支付!