《基因组序列组装的理论与方法(简介).ppt》由会员分享,可在线阅读,更多相关《基因组序列组装的理论与方法(简介).ppt(48页珍藏版)》请在三一办公上搜索。
1、基因组序列组装-理论与方法,北京大学生物信息中心科学院北京基因组研究所李松岗,两种测序策略,分级鸟枪法(BAC TO BAC)基因组DNA 切成大片段 构建BAC文库挑选 构建小片段shotgun文库 测序 组装BAC序列 组装基因组序列全基因组鸟枪法基因组DNA 构建不同长度shotgun文库 测序 组装基因组序列,基因组测序与组装示意图,基于BAC方法的 优缺点,优点:组装被局限在BAC的范围内,受重复序列影响小,对计算能力要求不高;缺点:需要大量前期生物学研究工作,效率低,成本高。,全基因组鸟枪法优缺点,优点:不需要生物学前期准备,速度快,成本低;缺点:组装是在全基因组范围内进行,数据量
2、大,易产生错拼;对计算机软硬件要求均高。,对拼接软件的要求,能充分利用正反向测序的配对信息,避免重复序列造成的错误拼接能处理数以百万甚至千万计的数据 程序并行化 高效率比对,能够采用全基因组鸟枪法的关键技术进步:毛细管测序仪的普遍使用计算机能力的迅速提高,Hierarchical Shotgun(HS),Whole Genome Shotgun(WGS),the sequencing of the human genome is likely to be the only large sequencing project carried to completion by the methods
3、 described in this issue.Maynard V.Olson,The maps:Clone by clone by clone,Nature 409,816-818(2001),Shotgun法序列拼接,Consensus,Mis-Assembly(Inverted),术语鸟枪法测序数据的组装鸟枪法文库:目标基因组一定长度随机片段克隆的集合。正反向测序对:从同一个克隆片段两端分别测序所得到的一对序列。.插入片段长度:克隆载体中插入的外源DNA片段长度。片段连接群(contig):用识别互相重叠的方法对测序数据进行拼接的结果。.Scaffold:用正反向测序对连接的非重叠片段
4、连接群。LW-洞:由于没有测序数据覆盖而在组装结果中留下的洞。,重复序列分析覆盖度:基因组被测序数据覆盖的次数。重复数:一段DNA序列在基因组中出现的次数。深度:一段DNA序列在鸟枪法测序数据集中出现次数。例如一个转座子在基因组中出现N次,测序数据集的覆盖度为C,则这个转座子的平均深度为NC。20-mer 重复序列:任何深度超过为该数据集确定的重复序列标准的20-bpDNA片段。是数学定义的重复序列。重复序列洞:由于屏蔽重复序列而在组装结果中留下的洞。,组装结果的评价标准N50 大小:把组装出的contigs 或 scaffolds从大到小排列,当其累计长度刚刚超过全部组装序列总长度一半时,最
5、后一个contig或scaffold的大小。单碱基错误率:与参考序列比较后发现的小尺度上的不同所占的比例。所谓小尺度,在这里通常指小于标准测序长度,即500bp。实际上常常只是几个碱基。错误组装的Contig:测序数据组装中出现的错误。由定义,它涉及的片段一般大于500-bp。包括与参考序列相比,插入、删除,以及在方向和次序上不同的片段。错误组装的Scaffold:把非重叠contig连接在一起时出现的错误。包括嵌套,错误的方向和顺序等。,Shotgun Sequencing Assembler Concepts,RePS:全基因组鸟枪法测序数据组装软件包,特点:通过屏蔽在鸟枪法测序数据中发现
6、的重复序列来完成组装。,RePS的流程图,RePS2的新流程图,识别重复序列的数学模型,重复序列识别:,若repeat有m个拷贝,且已知随机序列覆盖深度为0,1,2的概率:g0,g1,g2,则一次抽样repeat覆盖深度为0,1,2,的概率P0,P1,P2,为:,n次抽样,其中i次以上深度在j以上的概率Pij,设一次抽样深度在j以上和以下的概率分别为:Pj,Pj+;,n次抽样,其中i次以上深度在j以上则认为是repeat,此时犯两类错误的概率 为:,设repeat在基因组中的比例为b,出现概率为P,非repeat出现概率为P*,则:,Tradeoff between contig size a
7、nd accuracy of assembly,重复序列识别效率,MDR(数学定义的重复序列)与 BDR(生物定义的重复序列),BDR(25%),BDR(50%?),MDR(42.2%),重复序列的检测与处理,插入片段大小引起的错误组装,人与水稻基因组中重复序列分布的差别,Contigs:127,550(N50=6,688 bp),Scaffolds:102,444(N50=11,764 bp),Quality:546 bp at Q20,插入片段长度的搭配,一般情况下,可采用如下设计:,CAP3(1999),特点:删去read两端低质量部分;利用质量数据,识别重叠序列;进行多序列比对,得到一
8、致序列;利用正反向数据纠正组装错误,构建scaffold。使用情况:仅使用数个BAC进行了测试。,果蝇组装软件(2000),特点:组装前数据预处理;用数据库屏蔽重复序列;采用类似BLAST的方法找出重叠部分;选择不冲突的重叠构建contigs,识别重复序列边界;用正反向信息构建scaffolds,填洞。使用情况:用于果蝇基因组组装。,用于人类基因组组装时的改进(2001),构建contigs后,利用一个统计模型识别低拷贝重复序列;采用两种方式利用已公布的人类基因组计划数据,即1.把人类基因组计划数据分解成“人工reads”,进行组装;2.利用人类基因组计划数据的定位对shotgun数据进行分组
9、,然后组装。,ARACHNE(2002),特点:组装前通过多序列比对纠正测序错误;考虑质量数据,对每对重叠reads打分;通过分析reads重叠情况识别重复序列的边界,组装的contigs避免越过边界;识别重复序列contigs;构建scaffolds,填补空洞。使用情况:使用数个物种,包括人21、22染色体数据进行了检验。,The Phusion Assembler(2003),特点:输入数据包括正反向信息,插入片段长度在2-200kb之间;组装前先对数据进行分组,然后并行处理;使用phrap进行组装,组装过程中利用正反向信息对contig进行延伸或打断;根据重叠合并contigs;利用正反
10、向信息构建scaffolds。使用情况:用于小鼠基因组,7.5x,2.6Gb,479 scaffolds,Table 2.Insert Sizes,Number of Reads and Effective CloneCoverage for the Mouse WGS Data Set,欧拉图方法(2001),特点:放弃传统方法,用图论解决序列组装问题;每个read作为一个顶点,两个reads之间有重叠则有边连接。组装问题就化为找一条仅通过每个顶点一次的通路Hamilton问题。把重复序列视为粘在一起的边,可把上述图简化,问题变为找仅通过每条边一次的通路Euler问题。,具体步骤,纠正测序错误把read分为长为 L 的字。如果一个字属于M个以上reads,称为坚固的;否则称为弱的。纠正错误的算法,就是要通过最少的改变,使弱的字变为坚固的。通过这种方法,纠正了97.7%的测序错误,把每个read的平均错误率从4.8降到了0.11。,构建de Bruijn图顶点:长为L-1的字边:长为L的字,代表一条从前一个L-1字到后一个L-1字的有向边这样,就把测序数据转换成了de Bruijn图,组装问题变成了找Euler路径的问题。这一问题已有解法。使用情况:这一方法成功地用于一个多重复序列的细菌基因组。,