测序数据格式——FASTQ

FASTQ

高通量测序数据通常以FASTQ格式来保存，后缀名为fq，示例如下：

chr1_1.fq

@SRR062634.321 HWI-EAS110_103327062:6:1:1446:951/2
TGATCATTTGATTAATACTGACATGTAGACAAGAAGAAAAGTATGTTTCATGCTATTTTGAGTAACTTCCATTTAGAAGCCTACTCCTGAGCACAACATT
+
B5=BD5DAD?:CBDD-DDDDDCDDB+-B:;?A?CCE?;D3A?B?DB??;DDDEEABD+>DAC?A-CD-=D?C5A@::AC-?AB?=:>CA@##########
@SRR062634.488 HWI-EAS110_103327062:6:1:1503:935/2
AATGTTATTAAAAATGGACACCTTTTTCTCACACATTCAGTTTCATTGTCTCGCACCCCATCGTTTTACTTTTCTTCCTTCAGAAAATGATAAATGTGGG
+
AAAA?5D?BD==ADBD:DBDDDDD5D=;@>AD-CD?D=C5=@4<7CCAA5?=?>5@BC?*<:=>>:D:B5?B?5?'3::5?5<:;*97:<A#########
@SRR062634.849 HWI-EAS110_103327062:6:1:1587:921/2
CAGATCAGAATAATTTTTGTGTTATGTACGTGTAAGAAAACATAGCTATTATGATATGGAAACTAGGAGTGAAATATGAGGAATTTGTGACTTTTCTGAA
+
DFFEBEF?FEGGGBEFDFB3>EE=EEEEEEEECEBDCCD<CEEEDAA=EEB=DEDFEEDF?=EBBEEAEAD@:?-?A5<AC(=?>4>?############

第一行以“@”起始，包括测序片段的描述信息，ID信息，双末端测序的两条片段会以“ID/1”和“ID/2”形式区分；
第二行为序列本身，即为一条read序列；
第三行以“+”起始；
第四行为序列质量信息，每个碱基的质量对应一个字符，公式为Q=-10lg⁡p，p为该检测为错误测序的概率，计算得Q为字符的ASCII码，如当p=0.01时Q=20，当p=0.001时Q=30。

上述示例包含了3条reads的测序信息，如果是双末端测序，每一次测序会存储为两个文件，即每一对的两条reads分别存储在两个文件中。

FastQC

FastQC是一个用来检验高通量测序数据质量的工具。
官方帮助文档：http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/

这里推荐一篇介绍使用说明的博文用FastQC检查二代测序原始数据的质量