0%

高通量测序及基因组变异数据库的入门使用

高通量测序及变异数据库的简易使用

高通量测序数据

这里主要介绍NCBI的SRA和EBI的ENA,两者同步,数据基本相符,有的study在ENA中有BAM文件,但SRA中没有。网址分别是
ENA: http://www.ebi.ac.uk/ena
SRA: http://www.ncbi.nlm.nih.gov/sra

组织结构

包括stduysampleexperimentrun

  1. stduy: 为一个特定的研究目的,如千人基因组计划就为一个大型课题,它还包含多个子课题。研究课题有一个 SRAENA数据库通用的检索号,为DRP/SRP/ERP开头加数字的形式。每一个研究课题需要隶属于一个注册在NCBI的BioProject数据库的项目,一个BioProject的项目可以包含多个研究课题。
  2. sample: 为测序个体(人或其他物种),检索号为DRS/ERS/SRS开头加数字的形式。每个测序样本需要在NCBIBioSample数据库中进行注册并描述相关属性信息,研究课题与测序样本为多对多的关系,即一个课题下可以包含多个样本的测序,而同一个体也可以被不同的课题研究。
  3. experiment: 为SRA数据库的基本单元,包含着测序实验的描述信息。实验检索号为DRX/ERX/SRX开头加数字的形式。每个实验需隶属一个BioProject的项目,实验与样本为多对一的关系,同一实验只能测序一个样本,同一样本则可能被不同实验测序。
  4. run: 为下载的基本单元,每个Run对应一个文件,存储测序序列及测序质量等信息,编号为DRR/ERR/SRR开头加数字的形式,一个实验可以包含一个或多个run
    例如千人基因组计划先导项目PRJNA61209包括3个研究课题,其中第一个课题的检索号为SRP000031,包含178个测序样本的523个实验。

数据下载(三种方法)

  1. FTP: NCBI: ftp.ncbi.nlm.nih.gov/sra (可以使用IPv6),EBI: ftp.sra.ebi.ac.uk
  2. 使用SRA Toolkitprefetch,就像$ prefetch SRR390728$ prefetch --list listfile
  3. aspera,高速文件传输服务,参考使用Aspera下载EBI和NCBI数据

参考:
http://www.ncbi.nlm.nih.gov/books/NBK242621/
http://www.ebi.ac.uk/ena/browse/read-download
http://www.ncbi.nlm.nih.gov/books/NBK51062/#intro.More_detailed_version

格式转换

NCBI下载的通常为sra结尾的文件,需使用SRA Toolkit中的$ fastq-dump/sam-dump --split-files SRR390728

检索

基因组变异数据

  • dbSNP是关于SNP和indel的数据库
  • DGV/DGVa/dbVar,结构变异数据库,常用DGV,会收录许多文献发布的变异数据,可按stduy/sample/chromosome/SV type/reference等进行检索,十分方便。

DGV: http://dgv.tcag.ca/dgv/app/home
DGVa: https://www.ebi.ac.uk/dgva
dbVar: http://www.ncbi.nlm.nih.gov/dbvar/