0%

测序数据格式——FASTQ

测序数据格式——FASTQ

FASTQ

高通量测序数据通常以FASTQ格式来保存,后缀名为fq,示例如下:

chr1_1.fq
1
2
3
4
5
6
7
8
9
10
11
12
@SRR062634.321 HWI-EAS110_103327062:6:1:1446:951/2
TGATCATTTGATTAATACTGACATGTAGACAAGAAGAAAAGTATGTTTCATGCTATTTTGAGTAACTTCCATTTAGAAGCCTACTCCTGAGCACAACATT
+
B5=BD5DAD?:CBDD-DDDDDCDDB+-B:;?A?CCE?;D3A?B?DB??;DDDEEABD+>DAC?A-CD-=D?C5A@::AC-?AB?=:>CA@##########
@SRR062634.488 HWI-EAS110_103327062:6:1:1503:935/2
AATGTTATTAAAAATGGACACCTTTTTCTCACACATTCAGTTTCATTGTCTCGCACCCCATCGTTTTACTTTTCTTCCTTCAGAAAATGATAAATGTGGG
+
AAAA?5D?BD==ADBD:DBDDDDD5D=;@>AD-CD?D=C5=@4<7CCAA5?=?>5@BC?*<:=>>:D:B5?B?5?'3::5?5<:;*97:<A#########
@SRR062634.849 HWI-EAS110_103327062:6:1:1587:921/2
CAGATCAGAATAATTTTTGTGTTATGTACGTGTAAGAAAACATAGCTATTATGATATGGAAACTAGGAGTGAAATATGAGGAATTTGTGACTTTTCTGAA
+
DFFEBEF?FEGGGBEFDFB3>EE=EEEEEEEECEBDCCD<CEEEDAA=EEB=DEDFEEDF?=EBBEEAEAD@:?-?A5<AC(=?>4>?############
  • 第一行以“@”起始,包括测序片段的描述信息,ID信息,双末端测序的两条片段会以“ID/1”和“ID/2”形式区分;
  • 第二行为序列本身,即为一条read序列;
  • 第三行以“+”起始;
  • 第四行为序列质量信息,每个碱基的质量对应一个字符,公式为Q=-10lg⁡p,p为该检测为错误测序的概率,计算得Q为字符的ASCII码,如当p=0.01时Q=20,当p=0.001时Q=30。

上述示例包含了3条reads的测序信息,如果是双末端测序,每一次测序会存储为两个文件,即每一对的两条reads分别存储在两个文件中。

FastQC

FastQC是一个用来检验高通量测序数据质量的工具。
官方帮助文档:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/

这里推荐一篇介绍使用说明的博文用FastQC检查二代测序原始数据的质量