高通量测序及变异数据库的简易使用

高通量测序数据

这里主要介绍NCBI的SRA和EBI的ENA，两者同步，数据基本相符，有的study在ENA中有BAM文件，但SRA中没有。网址分别是
ENA: http://www.ebi.ac.uk/ena
SRA: http://www.ncbi.nlm.nih.gov/sra

包括stduy、sample、experiment和run

stduy: 为一个特定的研究目的，如千人基因组计划就为一个大型课题，它还包含多个子课题。研究课题有一个 SRA与ENA数据库通用的检索号，为DRP/SRP/ERP开头加数字的形式。每一个研究课题需要隶属于一个注册在NCBI的BioProject数据库的项目，一个BioProject的项目可以包含多个研究课题。
sample: 为测序个体(人或其他物种)，检索号为DRS/ERS/SRS开头加数字的形式。每个测序样本需要在NCBI的BioSample数据库中进行注册并描述相关属性信息，研究课题与测序样本为多对多的关系，即一个课题下可以包含多个样本的测序，而同一个体也可以被不同的课题研究。
experiment: 为SRA数据库的基本单元，包含着测序实验的描述信息。实验检索号为DRX/ERX/SRX开头加数字的形式。每个实验需隶属一个BioProject的项目，实验与样本为多对一的关系，同一实验只能测序一个样本，同一样本则可能被不同实验测序。
run: 为下载的基本单元，每个Run对应一个文件，存储测序序列及测序质量等信息，编号为DRR/ERR/SRR开头加数字的形式，一个实验可以包含一个或多个run。
例如千人基因组计划先导项目PRJNA61209包括3个研究课题，其中第一个课题的检索号为SRP000031，包含178个测序样本的523个实验。

NCBI下载的通常为sra结尾的文件，需使用SRA Toolkit中的$ fastq-dump/sam-dump --split-files SRR390728

dbSNP是关于SNP和indel的数据库
DGV/DGVa/dbVar，结构变异数据库，常用DGV，会收录许多文献发布的变异数据，可按stduy/sample/chromosome/SV type/reference等进行检索，十分方便。