生物信息学在高通量测序数据分析中的应用.ppt

资源描述

《生物信息学在高通量测序数据分析中的应用.ppt》由会员分享，可在线阅读，更多相关《生物信息学在高通量测序数据分析中的应用.ppt（69页珍藏版）》请在三一办公上搜索。

1、生物信息学在高通量测序数据分析中的应用,主讲人：李广林,提纲,高通量测序技术的介绍,高通量测序技术的主要应用,生物信息学在高通量测序数据中的主要应用,高通量测序简介,高通量测序:一次性对几百万到十亿条DNA分子进行并行测序，又称为下一代测序技术，其使得可对一个物种的转录组和基因组进行深入、细致、全貌的分析，所以又被称为深度测序。High-throughput Sequencing Next Generation Sequencing Deep Sequencing,3,主要测序技术,第一代测序技术Sanger sequencing(1980s)第二代测序技术(next generatio

2、n sequencing,NGS)Roche/454(2005)Illumina/Solexa(2006)Life/APGs SOLiD(2007)Life/APGs Ion torrent(2010)第三代测序技术Pacific Biosciences single molecule sequencing(2011)Nanopore sequencing,测序的基本反应原理：DNA聚合反应,第一代测序技术 Sanger 法,结合荧光标记和毛细管电泳,测序峰图,ABI 3730 sequencer,Read length:1,000 bpAccuracy:99.999%Cost:$0.5/kb

3、Throughput:6x105 bp/day,Sanger vs NGS,高通量测序技术Roche/454 pyrosequencing,以固化了引物的玻璃微球为中心形成油包水结构的乳滴，每个乳滴都是一个PCR反应的微量反应器（通过控制测序文库DNA的浓度和微球悬浊液的浓度，保证大多数微球只结合一条DNA模板）。经过多轮循环反应，每个微球表面都结合了数千个相同的拷贝。变性后，使微球上结合的都是单链DNA片段。富集微球，转移到刻有大规模微孔阵列的微孔板上，每个微孔只容纳一个微球。,高通量测序技术Roche/454 pyrosequencing,顺次向流通池中加入4种dNTP中的一种，流过微孔板

4、的一面。当dNTP与脱氧核糖骨架连接后释放出焦磷酸，在与dNTP一起加入的ATP硫酰化酶和荧光素酶作用下产生一系列级联反应，放出不同的光信号。每个微孔中光信号的有无，就表明对应的dNTP是否连接到了片段上。,454测序的原理：焦磷酸测序,逐次加入dATP等，每加入一种，检测信号，清洗再加下一种。,ATP硫酸化酶,5-磷酰硫酸,荧光素酶,高通量测序技术Roche/454 pyrosequencing,优势：读长长(max 1 kb,GS FLX Titanium XL+)，运行时间短(10-23 hours)主要错误来源：难以准确判定连续碱基（经过3次级联化学反应产生的荧光信号与连接上碱基的数量

5、线性关系较差），容易产生Indel劣势：通量相对偏低(max 700M)，单位成本高,GS FLX+System,GS Junior System,高通量测序技术Illumina/Solexa,单链DNA两端加上非对称的通用接头(包括测序引物)，接头与事先固定在固相芯片表面的序列互补单链DNA结合到芯片表面形成桥式结构。然后使用接头引物进行PCR扩增变性后在一个芯片上可以形成上亿个不相关的单链DNA分子簇，其一端固定在芯片表面，另一端是自由的,高通量测序技术Illumina/Solexa,使用测序引物从自由的通用接头一侧开始测序反应。测序使用的dNTP每种碱基被不同的荧光基团标记，同时脱氧核糖

6、的3-OH被封闭，这样每轮测序循环只能延伸一个核苷酸。读取碱基荧光信号，就能知道这一轮每个簇结合上的是什么核苷酸然后切除荧光基团，打开被封闭的3-OH，继续进行下一轮反应,Solexa测序的原理：可逆阻断,高通量测序技术Illumina/Solexa,优势：通量最高(max 600Gb,HiSeq 2500)主要错误来源：同一个簇内不同DNA链延伸情况不同（相位差），导致读取错误劣势：读长较短(max 250bp,HiSeq 2500)，运行时间长(1-14 days，HiSeq 2500大幅提升了运行速度)，数据存储和分析难度大。,MiSeq,HiSeq 2000,Genome Analyz

7、er II,高通量测序技术AB/SOLiD,SOLiD System,5500 series,SOLiD 测序探针介绍,类似454的微球反应体系，但使用连接反应。,SOLiD Sequencing,每次测序反应的第1轮，测序引物1与接头序列互补形成平末端，然后与探针连接。当探针1,2位与待测序列模板互补并连接上之后，获取荧光信息。然后在探针的5,6位之间切开探针，进行下一个连接反应。这样重复多次，可以获得模板序列的第1-2,6-7,11-12位置的信息。,高通量测序技术Life/APGs SOLiD,优点：由于使用双碱基编码技术（two-base encoding），准确率最高，通量高(max

8、 300 Gb)缺点：读长最短(max 75 bp)，运行时间长(7-10 day)，数据储存和分析难度大,5500 Series Genetic Analysis Systems,高通量测序技术Life/APGs Ion torrent PGM,454发明者的新作品测序反应在微阵列芯片上的微反应池中进行。每个dNTP结合到延伸链上，会释放出一个H+，pH值变化会导致电位变化。检测每次dNTP流过的电位差变化，就能知道该dNTP是否连接上去。,高通量测序技术Life/APGs Ion torrent PGM,优点：速度快(2 hours)，准确度较高（只需要1次聚合反应，电位变化与碱基数量线性

9、关系较好），成本低，芯片可升级缺点：读长较短(max 200 bp)，通量较低(max 1G)已有升级版Ion Proton，号称比Ion torrent强100倍。,Ion torrent 318 chip,Ion Proton,高通量测序技术Pacific Biosciences single molecule sequencing,每个纳米孔底部固定一个已经结合了引物和模板的DNA聚合酶分子。每次测序反应加入一种荧光标记的dNTP核苷酸，聚合酶在检测空间内将其捕获后产生光曝。通过连续实时检测每个孔内的荧光信号，就快速测定了每个孔内的模板序列,高通量测序技术Pacific Sciences

10、 single molecule sequencing,优点：读长长(max 15 kb)缺点：错误率高(单次反应错误率15%。经改进后使用多次循环重复，错误率降低到1%)，通量低（与读长有关）,SMAT Cells,Comparison of 5 NGS techniques,*最大数据产出量往往不是最大读长的文库HiSeq 2500和Ion Proton均号称1天测1个30 x的人类基因组，成本$1000,高通量测序技术的主要应用,DNA测序基因组deno测序基因组重测序宏基因组(Metagenome)测序外显子组测序RNA测序转录组测序表达谱测序小RNA测序降解组测序表观基因组测序Ch

11、ip-seqClip-seq,生物信息学在高通量测序数据中的主要应用,常用生物信息学分析平台与资源,常用编程分析平台：Perl/BioPerlPython/BioPythonR/BioconductorJAVA/BioJava常用网上资源：NCBI SRA Sequence Read ArchiveUCSC Genome BrowserSEQanswers WiKi&Forum for NGS,常用基因组拼接软件,VelvetRayABySSSOAPdenovoSSAKESHARCGSMIRAEdena,基因组比对软件,BLASTBLATMAQSOAPBowtieBWASSAHAELAND,S

12、NP 分析软件,SAMToolsSOAPsnpNGS-BackboneMAQSeqMan NGenCLCBio Genomics,生物信息学在基因组分析方面的应用基因组de novo测序,对未知基因组序列的物种取样：动物：血液、肌肉植物：叶片（黄化叶，组培植株）估算基因组复杂度（大小、重复序列比例、杂合度）测序技术：Illunima paired-end为主 Sanger、454、SOLiD为辅，PacBio目前也开始用于基因组测序补洞文库构建尽量随机打断,WGS(whole genome shortgun),Coverage depth（覆盖深度or测序深度）：每个碱基被测序的平均次数，是

13、用来衡量测序数据量的首要参数。测序总数据量/基因组大小Coverage ratio（覆盖率）：被测序到的碱基占全基因组大小的比率。覆盖比率随覆盖深度升高而提高，亦受测序bias的影响，如illumina测序会受到GC bias的影响，而导致测序不均匀。理论上（完全随机打断）测序深度达到20 x即可覆盖整个基因组。实际工作中一般需要50 x以上（100 bp读长）。Reads长度越长越好。,De novo assembly,Paired-end readsContigMate-end reads or long readsScaffoldGenetic map,FISH.Chromosome,基

14、因组注释,蛋白编码基因注释重复序列注释非编码RNA注释，主要是miRNA,基因组注释流程,全基因组成功测序案例,互叶梅基因组（国际互叶梅基因组测序项目，2013）The Amborella Genome and the Evolution of Flowering Plants完全使用NGS测序组装最原始的被子植物互叶梅Amborella已被确定是所有其他存活被子植物的单一姊妹物种，是其他被子植物比较的关键参照物。Amborella植物测序基因组解决了“达尔文难解之谜”为什么几百万年前花在地球上突然激增的问题。基因组序列为地球生命史上重大事件提供了理论参考：开花植物的起源。,全基因组测序不成功

15、案例,麻风树基因组（日本，2011）Sanger结合NGS组装完成度低只进行了基本的基因组注释。发现许多与脂质合成及抗病相关的基因。推测这些都是麻风树不断适应干燥环境获得的性质。,重测序(Resequencing),对已有参考基因组物种的不同基因型或不同个体的全基因组或部分区段进行测序，以获得个体之间的基因组和功能差异。用途：了解物种的起源和演化历程理解疾病的成因理解动植物性状的分子机制,全基因组关联分析(Genome-wild association study,GWAS),SNP检测，注释和统计Indel 检测，注释和统计SV检测，注释和统计CNV 检测，注释和统计,变异检测,SNP ca

16、lling,考虑测序错误等位基因的SNP(考虑个体测序深度)A C SNV vs SNPSNV(single nucleotide variation)：单个个体中出现的单核苷酸变异。但是在癌症研究中，SNV往往指somatic mutation（体细胞突变）SNP(single nucleotide polymorphism)：在一个群体中出现一定频率（有人认为5%）的单核苷酸变异群体SNP calling,Short InDel 检测,寻找SV(structure variation),Copy number variation(CNV)需要一定的测序覆盖度(10 x)，mapping d

17、epth也需要仔细检查,DGE,生物信息学在RNA omics方面的应用RNA高通量测序,DGE,RNA测序转录组测序,转录组测序简介,转录组即特定细胞在某一功能状态下所能转录出来的所有RNA的总和，包括mRNA和非编码RNA(Non-codingRNA)。第二代测序系统可精确检测单个碱基，并且不受到研究中先验信息的干扰，科研人员能够快速地获得某一物种特定器官或组织在某一状态下几乎所有mRNA转录本序列，从而能够开展：UTRs区域界定、可变剪切研究、低丰度新转录本发现、融合基因鉴定、cSNP（编码序列单核苷酸多态性）研究等。,转录组研究内容,转录组数据评估基因表达注释差异表达基因鉴定、聚类、G

18、ene ontology、KEGG pathway分析基因结构优化新转录本可变剪接融合基因SNP,转录组测序流程,无参考序列测序流程,有参考序列测序流程,转录组主要分析内容,基因融合分析,基因嵌合分析流程,MIPOL1-DGKB基因融合模式,Genomic intergenic region,Readscluster,Paired Readsdistribution,优化基因结构鉴定新的转录本,Paired-End(PE)Reads,Reads 比对到参考序列基因间区域,鉴定可变剪接（Alternative Splicing）,exon1,exon2,exon3,exon1,exon2,exo

19、n3,exon1,exon3,common reads,junction reads,mRNA,分析RNA水平SNP,转录组重测序比对软件：SOAPDe novo 转录组测序:组装软件：SoapDenovo比对软件：SoapSNP,DGE,RNA测序小RNA测序,Small RNA:是长度在18-40nt的非编码RNA，在基因表达调控中发挥着重要的作用。,小RNA的产生,总RNA,通过切胶回收,测序,比对,注释和预测,Small RNA测序,Small RNA分析,small RNA 的长度分布；rRNA、tRNA、snRNA、snoRNA、miRNA、piRNA、siRNA的注释；物种特有的

20、miRNA预测；miRNA的靶基因预测；对预测的靶基因进行GO分析和KEGG分析；对已知miRNA进行样品间差异分析和聚类分析。,Small RNA研究技术比较,DGE,RNA测序降解组测序,降解组：含有5单磷酸的mRNA降解片段的集合。,降解组测序,高通量测序在RNA研究中的应用,64,PE,paired-end sequencing;SE,single-end sequencing;O,yes;X,no,ChIP-Seq,ChIP-Chromatin Immunoprecipitation染色质免疫共沉淀，是指通过蛋白免疫相互作用，用抗体把和染色质相互作用的蛋白，如组蛋白、转录因子等，沉淀

21、下来，从而获取与其相结合的DNA序列。ChIP-Seq就是通过高通量测序对ChIP所得到的序列进行测序，从而进行蛋白和DNA相互作用研究。,ChIP-Seq测序流程,ChIP-Seq分析内容,ChIP Sequencing结果与参考基因组序列进行比对ChIP Sequencing reads在全基因组的分布唯一比对reads在repeats区域的分布唯一比对reads在各基因功能元件上的分布唯一比对reads的全基因组覆盖深度全基因组peak 扫描peak扫描peak长度分布统计peak的全基因组覆盖度peak在基因功能元件上的分布特征Peak相关基因分析筛选与GO功能富集分析多个样品的差异分析基于peak相关基因的差异分析基于peak的差异分析,ChIP-Seq分析结果示例,

展开阅读全文