0%

基因组变异检测的工作流程

流程

通常得到的测序数据为fastq格式文件。使用BWA将测序数据fastq文件映射(Mapping)到参考基因组fasta文件,得到比对信息数据sam文件,使用SAMtools view: 将sam转化为bam,sort: reads按映射位置排序,index: 对bam文件建立索引。例如,从SRA数据库中下载了一些sra文件。

1
2
3
4
# sra -> fastq
fastq-dump --split-3 $filename
# Mapping
bwa mem -t $thread $ncbi36 ${filename}_1.fastq ${filename}_2.fastq | samtools view -@ $thread -b - | samtools sort -@ $thread - ${filename} && samtools index $filename.bam
阅读全文 »

VCF数据处理之——截取个体变异的基因型

我的课题是基因组结构变异检测方面的,所以经常需要需要做一些检测变异的实验。检测完之后需要对结果进行一个性能检验,即用检测结果与基准数据(Benchmark)对比,得到一个精度和敏感度,用此来评价检测工具的性能(Performance)。如果使用已发布的,包含个体基因型的VCF数据作为基准。就需要将个体存在的变异截取出来,用于与检测结果的对比。

阅读全文 »

VCF格式说明及常用处理

目前,基因组变异数据通常使用VCF(Variant Call Format)格式以文本形式进行保存,如千人基因组计划或其他机构发布的验证过的变异,此外,许多变异检测工具也通常使用VCF来保存变异检测结果。这里只对VCF格式进行简要的说明(详细官方文档见这里),下图为一示例VCF格式文件。

阅读全文 »

SAMtools相关文档

SAMtools组织和代码库(Samtools organisation and repositories)
GitHub: https://github.com/samtools
Documentation: http://samtools.github.io/

文件格式说明(File-format specifications)

包括比对文件格式SAM、BAM和CRAM,以及变异数据格式(VCF和BCF),此外还包括一些其他格式。
GitHub: https://github.com/samtools/hts-specs
Documentation: http://samtools.github.io/hts-specs/

阅读全文 »

SAM文件格式和SAMtools

这里是简单的一些介绍。详细的内容建议看官方手册。官方的文档既全面,又会更新,是第一手资料。这里是SAM文件格式以及SAMtools的一些简单的介绍,更详细内容移步SAMtools相关官方文档

SAM文件格式

通常得到个体/供体(individual/donor)的测序序列(reads)时,由于测序技术的原因,得到的是打碎的小片段,并不知道每个read在参考序列上位置,所以要mapping到参考基因组上去,找到其在参考基因组上的位置。比对结果通常以文本形式按SAM(Sequence Alignment/Map)格式进行保存,为了便于存储和传输,常被压缩为BAM和CRAM二进制文件。SAM格式文件包含测序片段的所有比对信息。

阅读全文 »

CentOS系统安装配置

公司新来几台HP机,双硬盘,120G-SSD + 1T-HDD,SSD上自带Win7。现在需要在机械硬盘上装入CentOS用于一些大数据实验。正好是第一次装CentOS,这里做一下笔记和总结。

制作启动盘

首先下载系统镜像,基本上所有的开源软件镜像网站都会有CentOS系统。选择了清华的镜像站,下载的为CentOS-7-x86_64-DVD-1511.iso版本。接着使用UltraISO制作了U盘启动盘。

阅读全文 »

磁盘分区格式与系统引导方式

磁盘基础

柱面,同一磁道,多个盘面构成的圆柱面,从0开始编号
磁道,低格时在盘面上划分的同心圆,从0开始编号。
扇区,每段圆弧为一个扇区,从1开始编号,最小的读写单位。
根据这三个维度可得到CHS地址。

阅读全文 »

一些提高效率的Chrome插件

自己常用的浏览器是Google Chrome,大概用了五六年了吧。这种优秀的产品用一次就能让你抛弃别的浏览器。优秀的同步功能,包括所有设置,密码、扩展程序、甚至浏览历史;Chrome商店丰富的应用能满足各种扩展需求。

这里总结分享一些自己常用的插件,即保持常开的,主要是关乎提升效率的。

阅读全文 »

测序数据格式——FASTQ

FASTQ

高通量测序数据通常以FASTQ格式来保存,后缀名为fq,示例如下:

chr1_1.fq
1
2
3
4
5
6
7
8
9
10
11
12
@SRR062634.321 HWI-EAS110_103327062:6:1:1446:951/2
TGATCATTTGATTAATACTGACATGTAGACAAGAAGAAAAGTATGTTTCATGCTATTTTGAGTAACTTCCATTTAGAAGCCTACTCCTGAGCACAACATT
+
B5=BD5DAD?:CBDD-DDDDDCDDB+-B:;?A?CCE?;D3A?B?DB??;DDDEEABD+>DAC?A-CD-=D?C5A@::AC-?AB?=:>CA@##########
@SRR062634.488 HWI-EAS110_103327062:6:1:1503:935/2
AATGTTATTAAAAATGGACACCTTTTTCTCACACATTCAGTTTCATTGTCTCGCACCCCATCGTTTTACTTTTCTTCCTTCAGAAAATGATAAATGTGGG
+
AAAA?5D?BD==ADBD:DBDDDDD5D=;@>AD-CD?D=C5=@4<7CCAA5?=?>5@BC?*<:=>>:D:B5?B?5?'3::5?5<:;*97:<A#########
@SRR062634.849 HWI-EAS110_103327062:6:1:1587:921/2
CAGATCAGAATAATTTTTGTGTTATGTACGTGTAAGAAAACATAGCTATTATGATATGGAAACTAGGAGTGAAATATGAGGAATTTGTGACTTTTCTGAA
+
DFFEBEF?FEGGGBEFDFB3>EE=EEEEEEEECEBDCCD<CEEEDAA=EEB=DEDFEEDF?=EBBEEAEAD@:?-?A5<AC(=?>4>?############
阅读全文 »