高通量测序及变异数据库的简易使用
高通量测序数据
这里主要介绍NCBI的SRA和EBI的ENA,两者同步,数据基本相符,有的study
在ENA中有BAM文件,但SRA中没有。网址分别是
ENA: http://www.ebi.ac.uk/ena
SRA: http://www.ncbi.nlm.nih.gov/sra
组织结构
包括stduy
、sample
、experiment
和run
- stduy: 为一个特定的研究目的,如千人基因组计划就为一个大型课题,它还包含多个子课题。研究课题有一个
SRA
与ENA
数据库通用的检索号,为DRP/SRP/ERP
开头加数字的形式。每一个研究课题需要隶属于一个注册在NCBI的BioProject
数据库的项目,一个BioProject
的项目可以包含多个研究课题。 - sample: 为测序个体(人或其他物种),检索号为
DRS/ERS/SRS
开头加数字的形式。每个测序样本需要在NCBI
的BioSample
数据库中进行注册并描述相关属性信息,研究课题与测序样本为多对多的关系,即一个课题下可以包含多个样本的测序,而同一个体也可以被不同的课题研究。 - experiment: 为
SRA
数据库的基本单元,包含着测序实验的描述信息。实验检索号为DRX/ERX/SRX
开头加数字的形式。每个实验需隶属一个BioProject
的项目,实验与样本为多对一的关系,同一实验只能测序一个样本,同一样本则可能被不同实验测序。 - run: 为下载的基本单元,每个
Run
对应一个文件,存储测序序列及测序质量等信息,编号为DRR/ERR/SRR
开头加数字的形式,一个实验可以包含一个或多个run
。
例如千人基因组计划先导项目PRJNA61209
包括3个研究课题,其中第一个课题的检索号为SRP000031
,包含178个测序样本的523个实验。
数据下载(三种方法)
- FTP: NCBI: ftp.ncbi.nlm.nih.gov/sra (可以使用IPv6),EBI: ftp.sra.ebi.ac.uk
- 使用SRA Toolkit的
prefetch
,就像$ prefetch SRR390728
或$ prefetch --list listfile
- aspera,高速文件传输服务,参考使用Aspera下载EBI和NCBI数据。
参考:
http://www.ncbi.nlm.nih.gov/books/NBK242621/
http://www.ebi.ac.uk/ena/browse/read-download
http://www.ncbi.nlm.nih.gov/books/NBK51062/#intro.More_detailed_version
格式转换
NCBI下载的通常为sra
结尾的文件,需使用SRA Toolkit
中的$ fastq-dump/sam-dump --split-files SRR390728
检索
基因组变异数据
- dbSNP是关于SNP和indel的数据库
- DGV/DGVa/dbVar,结构变异数据库,常用DGV,会收录许多文献发布的变异数据,可按stduy/sample/chromosome/SV type/reference等进行检索,十分方便。
DGV: http://dgv.tcag.ca/dgv/app/home
DGVa: https://www.ebi.ac.uk/dgva
dbVar: http://www.ncbi.nlm.nih.gov/dbvar/