基因组变异检测的工作流程
流程
通常得到的测序数据为fastq格式文件。使用BWA将测序数据fastq文件映射(Mapping)到参考基因组fasta文件,得到比对信息数据sam文件,使用SAMtools view: 将sam转化为bam,sort: reads按映射位置排序,index: 对bam文件建立索引。例如,从SRA数据库中下载了一些sra文件。
1 | # sra -> fastq |
通常得到的测序数据为fastq格式文件。使用BWA将测序数据fastq文件映射(Mapping)到参考基因组fasta文件,得到比对信息数据sam文件,使用SAMtools view: 将sam转化为bam,sort: reads按映射位置排序,index: 对bam文件建立索引。例如,从SRA数据库中下载了一些sra文件。
1 | # sra -> fastq |
SAMtools组织和代码库(Samtools organisation and repositories)
GitHub: https://github.com/samtools
Documentation: http://samtools.github.io/
包括比对文件格式SAM、BAM和CRAM,以及变异数据格式(VCF和BCF),此外还包括一些其他格式。
GitHub: https://github.com/samtools/hts-specs
Documentation: http://samtools.github.io/hts-specs/
这里是简单的一些介绍。详细的内容建议看官方手册。官方的文档既全面,又会更新,是第一手资料。这里是SAM文件格式以及SAMtools的一些简单的介绍,更详细内容移步SAMtools相关官方文档。
通常得到个体/供体(individual/donor)的测序序列(reads)时,由于测序技术的原因,得到的是打碎的小片段,并不知道每个read在参考序列上位置,所以要mapping到参考基因组上去,找到其在参考基因组上的位置。比对结果通常以文本形式按SAM(Sequence Alignment/Map)格式进行保存,为了便于存储和传输,常被压缩为BAM和CRAM二进制文件。SAM格式文件包含测序片段的所有比对信息。
高通量测序数据通常以FASTQ格式来保存,后缀名为fq,示例如下:
1 | @SRR062634.321 HWI-EAS110_103327062:6:1:1446:951/2 |