0%

参考基因组介绍

参考基因组介绍

参考基因组(reference genome)

人类基因组计划绘制了人类的基因图谱,得到了30亿个碱基对的序列,投入30亿美元,使用第一代测序技术,将测序得到的序列组装(拼接/装配/Assembly)。这个序列也成为最初的参考基因组。

关于版本

由于测序技术或者其他种种原因,现在并不能获得基因组的全部准确信息,存在某些特殊区域或结构,无法测序或者很难测序。但是,随着测序技术的发展,有一些序列又能被测出,又能多测出一些基因,这些序列就会被加入到参考序列中,这样就会每隔一段时间发布一版人类参考基因组。常见的有NCBI36/hg18GRCh37/hg19GRCh38/hg38。至于每个版本都有两个名字,如GRCh37和hg19,可以认为它们是一个版本的不同编号方式,其实基本完全相同,有时会存在染色体号表示的不同(chr1/1)或某些小细节的不同,参考:

  1. https://genome.ucsc.edu/cgi-bin/hgGateway
  2. http://www.cnblogs.com/xudongliang/p/5189400.html

不同版本之间的大部分序列都是相同的,只是由于不同位置插入或调整了某些序列,导致整体坐标信息发生位移。UCSCLiftOver或者开源工具CrossMap可以转换不同版本之间坐标。

千人基因组计划中搜索reference,会得到一些信息,比如Release of 1000 Genomes main project reference genome这里分别给出了参考基因组的EBI和NCBI的下载地址,当然UCSC上面也提供了各种物种的参考序列。如hg38

FASTA

参考序列通常用FASTA格式来保存数据,后缀名为fa或fasta,如下文本文件:

FASTA: chr11.fa
1
2
3
4
5
6
7
8
9
10
>11 dna:chromosome chromosome:NCBI36:11:1:134452384:1
TTTTCATGTGTTTTTTGGCTGCATAAATGTCTTCTTTTGAGAAGTGTCTGTTCATATCCT
TTGCCCACTTTTTGATGGGGTTGTTTGTTTTTTTCTTGTAAATTTGTTTGGGTTCATTGT
AGATTCCGGATATTAGCACTGGGGCCTGTTGTGGGGTGGGGGGAGGGGGGAGGGATAGCA
TTAGGAGATATACCTAATGTTAAATGATGAGTTAATGGGTGCAGCACACCAGTATGGCAC
ATGTATACATATGTAACTAACCTGTACGTTGTGCACATGTATCCTAAAACTTAAAGTATA
ATTTAAAAAATAAATAAATAAAAATAAAAATAAAAAGGCAAACAAGGACACTATAAGAAA
AGTATGGGCCAACCAATATCCCTGATGAACACAGATACAAAAGTCCTCAAAAAAAAGTAC
TAGCAAGCAGAATTTAACAACATATTAGGAGAACATTTACCATGATAAAGTGGATTTATC
CTCCAGATGTTTCAGCAAACACAAATCAAATGTGATAAACCACATTAACAGAATGAAGGA

>开头的一行为当前序列的标题,上述为11号染色体的序列。另起一行为按顺序排列的序列数据。通常,核酸序列常用的有AGCT和N(aNy),更详细的,可参考维基百科。下载时,通常为gz格式的压缩文件,如文件hg38.fa.gz包含了hg38所有染色体的参考序列,解压缩后通常约为3.2G,即人类遗传数据的32亿个碱基,每个碱基占1个字节。

常用数据处理

通常需要使用SAMtools的faidx命令和BWA的index命令对FASTA文件建立索引信息文件,便于下游的数据使用和处理。此外,还可能需要一个工具,那就是将全基因组的FASTA文件按染色体分割,得到每个染色体的单个fa文件。这里自制了小工具Split Fasta,当然简单的命令行脚本也可以实现。