生物竞赛生物信息学部分核酸序列比较ppt课件.ppt

资源描述

《生物竞赛生物信息学部分核酸序列比较ppt课件.ppt》由会员分享，可在线阅读，更多相关《生物竞赛生物信息学部分核酸序列比较ppt课件.ppt（43页珍藏版）》请在三一办公上搜索。

1、1,序列比较第一部分,2,1 认识序列,序列（sequence）就是个字符串（string）。s=abcdefghijklmnopqrstuvwxyzsi代表序列s的第i个字符，比如s4=ds=abcde，序列s是序列s的子序列（substring）,3,nameCTCCTGACCTCAGGCGATTCGCCCGCCTCGGCCTCCCAAAGTGCTAGGATTACAGGCGTGAGCCACCACGCCCGGCCACACTAACTTTTTAAGAGCCAAGAGTTCGATCGGTAGCGGGAGCGGAGAGCGGACCCCAGAGAGCCCTGAGCAGCCCCACCACCACCGCTG

2、GCCTAGCTACCATCACACCCCGGGAGGAGCCGCAGCTGCCGCAGCCGGCCCCAGTCACCATCACCACAACCTTGAGCAGCGAGGCCGAGACCCAGCAGCCGCCCGCCGCTTGCCGCTCGCCGCCCCCCGCCCTCAGCGCCGGTGACACCACGCCCGGCACTACGGGCAGCGGCACAGGAAACGGTGGCCCGGGAGGCTTCACATCAGCAGCACCTGCCGGCGGGGACAAGAAGGTCATCGCAACGAAGGT核酸序列：由4个不同的字母（碱基）排列组合而成。（DNA序列，RNA序列）FASTA格式：第一行：大

3、于号加名称或其它注释第二行以后：每行60个字母（也有80的，不一定）,1 认识序列：核酸序列,4,nameMHHHHHHSSGRENLYFQGKLPEPQFYAEPHTYEEPGRAGRSFTREIEASRIHIEKIIGSGDSGEVCYGRLRVPGQRDVPVAIKALKAGYTERQRRDFLSEASIMGQFDHPNIIRLEGVVTRGRLAMIVTEYMENGSLDTFLRTHDGQFTIMQLVGMLRGVGAGMRYLSDLGYVHRDLAARNVLVDSNLVCKVSDFGLSRVLEDDPDAAXTTTGGKIPIRWTAPEAIAFRTFSSASDVWSFGVVMWEV

4、LAYGERPYWNMTNRDVISSVEEGYRLPAPMGCPHALHQLMLDCWHKDRAQRPRFSQIVSVLDALIRSPESLRATATVS蛋白质序列：由20个不同的字母（氨基酸）排列组合而成。FASTA格式：第一行：大于号加名称或其它注释第二行以后：每行60个字母（也有80的，不一定）,1 认识序列：蛋白质序列,5,在麻将连连看中，你需要用眼睛从一推麻将牌中找出一对相同的麻将牌。,2 序列相似性,数据库中的序列相似性搜索,6,对于一个蛋白质或核酸序列，你需要从序列数据库中找到与它相同或相似的序列。不可能再用眼睛去比较每一对序列，因为数据库中有太多序列，甚至用眼睛比较一对序列都

5、是不可能做到的。,BLAST,2 序列相似性,数据库中的序列相似性搜索,7,序列相似性的重要性,相似的序列往往起源于一个共同的祖先序列。它们很可能有相似的空间结构和生物学功能，因此对于一个已知序列但未知结构和功能的蛋白质，如果与它序列相似的某些蛋白质的结构和功能已知，则可以推测这个未知结构和功能的蛋白质的结构和功能。,相似的序列,相似的结构相似的功能,2 序列相似性,8,结构相似？功能相似？,序列相似性的重要性,相似的序列往往起源于一个共同的祖先序列。它们很可能有相似的空间结构和生物学功能，因此对于一个已知序列但未知结构和功能的蛋白质，如果与它序列相似的某些蛋白质的结构和功能已知，则可以推测

6、这个未知结构和功能的蛋白质的结构和功能。,2 序列相似性,9,结构相似？功能相似？,序列相似性的重要性,相似的序列往往起源于一个共同的祖先序列。它们很可能有相似的空间结构和生物学功能，因此对于一个已知序列但未知结构和功能的蛋白质，如果与它序列相似的某些蛋白质的结构和功能已知，则可以推测这个未知结构和功能的蛋白质的结构和功能。,2 序列相似性,10,一致度：如果两个序列（蛋白质或核酸）长度相同，那么它们的一致度定义为他们对应位置上相同的残基（一个字母，氨基酸或碱基）的数目占总长度的百分数。相似度：如果两个序列（蛋白质或核酸）长度相同，那么它们的相似度定义为他们对应位置上相似的残基与相同的残基的数

7、目和占总长度的百分数。问题：哪个残基与哪个残基算作相似答：残基两两相似的量化关系被替换记分矩阵所定义。,序列一致度（identity）与相似度（similarity）,2 序列相似性,11,1.等价矩阵（unitary matrix）：最简单的替换记分矩阵，其中，相同核苷酸之间的匹配得分为1，不同核苷酸间的替换得分为0。由于不含有碱基的理化信息和不区别对待不同的替换，在实际的序列比较中较少使用。2.转换-颠换矩阵（transition-transversion matrix）：核酸的碱基按照环结构特征被划分为两类，一类是嘌呤（腺嘌呤A、鸟嘌呤G），它们有两个环；另一类是嘧啶（胞嘧啶C、胸腺嘧啶

8、T），它们只有一个环。如果DNA碱基的替换保持环数不变，则成为转换，如A G、C T；如果环数发生变化，则成为颠换，如A C、A T等。在进化过程中，转换发生的频率远比颠换高。为了反映这一情况，通常该矩阵中转换的得分为-1，而颠换的得分为-5。3.BLAST矩阵：经过大量实际比对发现，如果令被比对的两个核苷酸相同时得分为+5，反之为-4，则比对效果较好。这个矩阵广泛地被DNA序列比较所采用。A T C G A T C GA T C GA 1 0 0 0 A 1-5-5-1 A 5-4-4-4 T 0 1 0 0 T-5 1-1-5 T-4 5-4-4C 0 0 1 0 C-5-1 1-5 C-

9、4-4 5-4G 0 0 0 1 G-1-5-5 1 G-4-4-4 5,3 替换记分矩阵,DNA序列的替换记分矩阵,12,1.等价矩阵（unitary matrix）：与DNA等价矩阵道理相同，相同氨基酸之间的匹配得分为1，不同氨基酸间的替换得分为0。在实际的序列比对中较少使用。2.PAM矩阵（Dayhoff突变数据矩阵）：PAM矩阵基于进化原理。如果两种氨基酸替换频繁，说明自然界易接受这种替换，那么这对氨基酸替换得分就应该高。PAM矩阵是目前蛋白质序列比较中最广泛使用的记分方法之一，基础的PAM-1矩阵反应的是进化产生的每一百个氨基酸平均发生一个突变的量值（统计方法得到）。PAM-1自乘n

10、次，可以得到PAM-n，即发生了更多次突变。3.BLOSUM矩阵（blocks substitution matrix）：BLOSUM矩阵是通过关系较远的序列来获得矩阵元素的。PAM-1矩阵的产生是基于相似性较高（85%）的序列比对，那些进化距离较远的矩阵，如PAM-250，是通过PAM-1自乘得到的。即，BLOSUM矩阵的相似性是根据真实数据产生的，而PAM矩阵是通过矩阵自乘外推而来的。和PAM矩阵一样，BLOSUM矩阵也有不同编号，如BLOSUM-80，BLOSUM-62。80代表该矩阵是由一致性80%的序列计算而来，同理，62是指该矩阵由一致性62%的序列计算而来。,3 替换记分矩阵,蛋

11、白质序列的替换记分矩阵,13,1.等价矩阵（unitary matrix）：与DNA等价矩阵道理相同，相同氨基酸之间的匹配得分为1，不同氨基酸间的替换得分为0。在实际的序列比对中较少使用。2.PAM矩阵（Dayhoff突变数据矩阵）：PAM矩阵基于进化原理。如果两种氨基酸替换频繁，说明自然界易接受这种替换，那么这对氨基酸替换得分就应该高。PAM矩阵是目前蛋白质序列比对中最广泛使用的记分方法之一，基础的PAM-1矩阵反应的是进化产生的每一百个氨基酸平均发生一个突变的量值（统计方法得到）。PAM-1自乘n次，可以得到PAM-n，即发生了更多次突变。3.BLOSUM矩阵（blocks substit

12、ution matrix）：BLOSUM矩阵是通过关系较远的序列来获得矩阵元素的。PAM-1矩阵的产生是基于相似性较高（85%）的序列比对，那些进化距离较远的矩阵，如PAM-250，是通过PAM-1自乘得到的。即，BLOSUM矩阵的相似性是根据真实数据产生的，而PAM矩阵是通过矩阵自乘外推而来的。和PAM矩阵一样，BLOSUM矩阵也有不同编号，如BLOSUM-80，BLOSUM-62。80代表该矩阵是由一致性80%的序列计算而来，同理，62是指该矩阵由一致性62%的序列计算而来。,3 替换记分矩阵,蛋白质序列的替换记分矩阵,PAM-250矩阵对角线上的数值为匹配氨基酸的得分；其他位置上，0的得

13、分代表对应氨基酸对为相似氨基酸。,14,1.等价矩阵（unitary matrix）：与DNA等价矩阵道理相同，相同氨基酸之间的匹配得分为1，不同氨基酸间的替换得分为0。在实际的序列比对中较少使用。2.PAM矩阵（Dayhoff突变数据矩阵）：PAM矩阵基于进化原理。如果两种氨基酸替换频繁，说明自然界易接受这种替换，那么这对氨基酸替换得分就应该高。PAM矩阵是目前蛋白质序列比对中最广泛使用的记分方法之一，基础的PAM-1矩阵反应的是进化产生的每一百个氨基酸平均发生一个突变的量值（统计方法得到）。PAM-1自乘n次，可以得到PAM-n，即发生了更多次突变。3.BLOSUM矩阵（blocks su

14、bstitution matrix）：BLOSUM矩阵是通过关系较远的序列来获得矩阵元素的。PAM-1矩阵的产生是基于相似性较高（85%）的序列比对，那些进化距离较远的矩阵，如PAM-250，是通过PAM-1自乘得到的。即，BLOSUM矩阵的相似性是根据真实数据产生的，而PAM矩阵是通过矩阵自乘外推而来的。和PAM矩阵一样，BLOSUM矩阵也有不同编号，如BLOSUM-80，BLOSUM-62。80代表该矩阵是由一致性80%的序列计算而来，同理，62是指该矩阵由一致性62%的序列计算而来。,3 替换记分矩阵,蛋白质序列的替换记分矩阵,15,BLOSUM-62对角线上的数值为匹配氨基酸的得分；其

15、他位置上，0的得分代表对应氨基酸对为相似氨基酸。,3 替换记分矩阵,蛋白质序列比对的替换记分矩阵,16,3 替换记分矩阵,蛋白质序列替换记分矩阵,PAM-？还是 BLOSUM-？BLOSUM-80 BLOSUM-62 BLOSUM-45 PAM-1 PAM-120 PAM-250亲缘关系较近的亲缘关系较远的序列之间的比对序列之间的比对对于关系较远的序列之间的比较，由于PAM-250是推算而来，所以其准确度受到一定限制，BLOSUM-45更具优势。对于关系较近的序列之间的比较，用PAM或BLOSUM矩阵做出的比对结果，差别不大。最常用的：BLOSUM-62,17,一致度：如果两个序列（蛋白质

16、或DNA）长度相同，那么它们的一致度定义为他们对应位置上相同的残基（一个字母，氨基酸或碱基）的数目占总长度的百分数。相似度：如果两个序列（蛋白质或DNA）长度相同，那么它们的相似度定义为他们对应位置上相似的残基与相同的残基的数目和占总长度的百分数。问题：哪个残基与哪个残基算作相似答：残基两两相似的量化关系被替换记分矩阵所定义。,序列一致度（identity）与相似度（similarity）,2 序列相似性,序列 1:CLHK序列 2:CIHL,一致度=2/4=50%相似度=3/4=75%,18,序列一致度（identity）与相似度（similarity）,2 序列相似性,BLOSUM-62对

17、角线上的数值为匹配氨基酸的得分；其他位置上，0的得分代表对应氨基酸对为相似氨基酸。,19,一致度：如果两个序列（蛋白质或DNA）长度相同，那么它们的一致度定义为他们对应位置上相同的残基（一个字母，氨基酸或碱基）的数目占总长度的百分数。相似度：如果两个序列（蛋白质或DNA）长度相同，那么它们的相似度定义为他们对应位置上相似的残基与相同的残基的数目和占总长度的百分数。问题：哪个残基与哪个残基算作相似答：残基两两相似的量化关系被替换记分矩阵所定义。,序列一致度（identity）与相似度（similarity）,2 序列相似性,序列 1:CLHK序列 2:CIHL,一致度=2/4=50%相似度=3/

18、4=75%,20,一致度：如果两个序列（蛋白质或DNA）长度相同，那么它们的一致度定义为他们对应位置上相同的残基（一个字母，氨基酸或碱基）的数目占总长度的百分数。相似度：如果两个序列（蛋白质或DNA）长度相同，那么它们的相似度定义为他们对应位置上相似的残基与相同的残基的数目和占总长度的百分数。问题：哪个残基与哪个残基算作相似？答：残基两两相似的量化关系被替换记分矩阵所定义。,序列一致度（identity）与相似度（similarity）,2 序列相似性,如果两个序列的长度不同怎么计算一致度与相似度？,seq 1:CLHKAseq 2:CIHL,21,比较两个序列的方法：打点法、序列比对法打点法

19、：最简单的比较两个序列的方法，理论上可以用来完成。,Seq1:THEFASTCATSeq2:THEFATCAT,T H E F A S T C A TT x x xH xE xF xA x xT x x xC xA x xT x x x,length(seq1)=10length(seq2)=910 x 9=90 次比较,Seq 1,Seq 2,4 序列两两比较：打点法,22,对角线及对角线的平行线代表两条序列中相同的区域,1.THEFA2.TCAT3.AT,Seq1:THEFASTCATSeq2:THEFATCAT,T H E F A S T C A TT x x xH xE xF xA

20、x xT x x xC xA x xT x x x,Seq 1,Seq 2,4 序列两两比较：打点法,23,Seq1:THEFASTHE,T H E F A S T H ET x xH x xE x xF xA xS xT x xH x xE x x,可以用一条序列自己对自己做打点，从而可以发现序列中重复的片段。这样的点矩阵必然是对称的，并且有一条主对角线。在横向或纵向上，与主对角线平行的小对角线所对应的序列片段就是重复的部分。,4 序列两两比较：打点法,24,打点法在线软件：,4 序列两两比较：打点法,http:/myhits.isb-sib.ch/cgi-bin/dotlet,25,输入打

21、点序列（注意，只能输入纯序列，不能是FASTA格式的。）,4 序列两两比较：打点法 Dotlet,seq1,以多长的序列水平序列垂直序列替换记分矩阵为单位打一个点窗口显示比例,26,4 序列两两比较：打点法 Dotlet,seq1序列自己和自己比较：该序列前一半和后一般相似度极高,相似度：低高分值：-60 165,27,4 序列两两比较：打点法 Dotlet,seq2序列和seq3序列比较：两条序列非常相似,28,4 序列两两比较：打点法 Dotlet,seq4序列和seq4序列比较：该序列中有串联重复序列（tandem repeat）,29,比较两个序列的方法：打点法、序列比对法

22、,5 序列两两比较：序列比对法,序列比对（alignment），也叫对位排列、联配、对齐等。运用特定的算法找出两个或多个序列之间产生最大相似度得分的空格插入和序列排列方案。序列s和t的比对：把s和t这两个字符串上下排列起来，在某些位置插入空格，然后依次比较它们在每一个位置上字符的匹配情况，从而找出使这两条序列产生最大相似度得分的排列方式和空格插入方式。序列s：LQRHKRTHTGEKPYE-CNQCGKAFAQ-序列t：LQRHKRTHTGEKPYMNVINMVKPLHNS,多序列比对双序列比对,全局比对局部比对,30,s(0,0)=0s(0,j)=gap*j,1=j=ms(i,0)=gap

23、*i,1=i=n s(i-1,j-1)+w(i,j)s(i,j)=max s(i-1,j)+gap s(i,j-1)+gap,Needleman-Wunsch算法，1970年，Saul Needleman和Christian Wunsch两人首先将动态规划算法应用于两条序列的全局比对，这个算法后称为Needleman-Wunsch算法。,替换记分矩阵,得分矩阵,0 1 2 3 4 5 序列 p,0123序列 q 4,对于：序列p：ACGTC序列q：AATCm=length(p)n=length(q)gap=-5s(i,j)是按照替换记分矩阵得到的前缀q1i与p1j最大相似性的得分。w(i,j)

24、是字符qi和pj按照替换记分矩阵计算的得分,5.1 双序列比对：全局比对,31,s(0,0)=0s(0,j)=gap*j,1=j=ms(i,0)=gap*i,1=i=n s(i-1,j-1)+w(i,j)s(i,j)=max s(i-1,j)+gap s(i,j-1)+gap,Needleman-Wunsch算法，1970年，Saul Needleman和Christian Wunsch两人首先将动态规划算法应用于两条序列的全局比对，这个算法后称为Needleman-Wunsch算法。,替换记分矩阵,得分矩阵,0 1 2 3 4 5 序列 p,0123序列 q 4,对于：序列p：ACGTC序列

25、q：AATCm=length(p)n=length(q)gap=-5s(i,j)是按照替换记分矩阵得到的前缀q1i与p1j最大相似性的得分。w(i,j)是字符qi和pj按照替换记分矩阵计算的得分,5.1 双序列比对：全局比对,32,s(0,0)=0s(0,j)=gap*j,1=j=ms(i,0)=gap*i,1=i=n s(i-1,j-1)+w(i,j)s(i,j)=max s(i-1,j)+gap s(i,j-1)+gap,Needleman-Wunsch算法，1970年，Saul Needleman和Christian Wunsch两人首先将动态规划算法应用于两条序列的全局比对，这个算法后

26、称为Needleman-Wunsch算法。,替换记分矩阵,得分矩阵,0 1 2 3 4 5 序列 p,0123序列 q 4,对于：序列p：ACGTC序列q：AATCm=length(p)n=length(q)gap=-5s(i,j)是按照替换记分矩阵得到的前缀q1i与p1j最大相似性的得分。w(i,j)是字符qi和pj按照替换记分矩阵计算的得分,5.1 双序列比对：全局比对,33,s(0,0)=0s(0,j)=gap*j,1=j=ms(i,0)=gap*i,1=i=n s(i-1,j-1)+w(i,j)s(i,j)=max s(i-1,j)+gap s(i,j-1)+gap,Needleman

27、-Wunsch算法，1970年，Saul Needleman和Christian Wunsch两人首先将动态规划算法应用于两条序列的全局比对，这个算法后称为Needleman-Wunsch算法。,替换记分矩阵,得分矩阵,0 1 2 3 4 5 序列 p,0123序列 q 4,对于：序列p：ACGTC序列q：AATCm=length(p)n=length(q)gap=-5s(i,j)是按照替换记分矩阵得到的前缀q1i与p1j最大相似性的得分。w(i,j)是字符qi和pj按照替换记分矩阵计算的得分,5.1 双序列比对：全局比对,34,s(0,0)=0s(0,j)=gap*j,1=j=ms(i,0)

28、=gap*i,1=i=n s(i-1,j-1)+w(i,j)s(i,j)=max s(i-1,j)+gap s(i,j-1)+gap,Needleman-Wunsch算法，1970年，Saul Needleman和Christian Wunsch两人首先将动态规划算法应用于两条序列的全局比对，这个算法后称为Needleman-Wunsch算法。,替换记分矩阵,得分矩阵,0 1 2 3 4 5 序列 p,0123序列 q 4,对于：序列p：ACGTC序列q：AATCm=length(p)n=length(q)gap=-5s(i,j)是按照替换记分矩阵得到的前缀q1i与p1j最大相似性的得分。w(

29、i,j)是字符qi和pj按照替换记分矩阵计算的得分,5.1 双序列比对：全局比对,s(0,0)+w(1,1)=0+10=10s(1,1)=max s(0,1)+gap=-5+-5=-10 s(1,0)+gap=-5+-5=-10,35,s(0,0)=0s(0,j)=gap*j,1=j=ms(i,0)=gap*i,1=i=n s(i-1,j-1)+w(i,j)s(i,j)=max s(i-1,j)+gap s(i,j-1)+gap,Needleman-Wunsch算法，1970年，Saul Needleman和Christian Wunsch两人首先将动态规划算法应用于两条序列的全局比对，这个算

30、法后称为Needleman-Wunsch算法。,替换记分矩阵,得分矩阵,0 1 2 3 4 5 序列 p,0123序列 q 4,对于：序列p：ACGTC序列q：AATCm=length(p)n=length(q)gap=-5s(i,j)是按照替换记分矩阵得到的前缀q1i与p1j最大相似性的得分。w(i,j)是字符qi和pj按照替换记分矩阵计算的得分,5.1 双序列比对：全局比对,s(0,1)+w(1,2)=-5+-3=-8s(1,2)=max s(0,2)+gap=-10+-5=-15 s(1,1)+gap=10+-5=5,36,s(0,0)=0s(0,j)=gap*j,1=j=ms(i,0)

31、=gap*i,1=i=n s(i-1,j-1)+w(i,j)s(i,j)=max s(i-1,j)+gap s(i,j-1)+gap,Needleman-Wunsch算法，1970年，Saul Needleman和Christian Wunsch两人首先将动态规划算法应用于两条序列的全局比对，这个算法后称为Needleman-Wunsch算法。,替换记分矩阵,得分矩阵,0 1 2 3 4 5 序列 p,0123序列 q 4,对于：序列p：ACGTC序列q：AATCm=length(p)n=length(q)gap=-5s(i,j)是按照替换记分矩阵得到的前缀q1i与p1j最大相似性的得分。w(

32、i,j)是字符qi和pj按照替换记分矩阵计算的得分,5.1 双序列比对：全局比对,37,s(0,0)=0s(0,j)=gap*j,1=j=ms(i,0)=gap*i,1=i=n s(i-1,j-1)+w(i,j)s(i,j)=max s(i-1,j)+gap s(i,j-1)+gap,Needleman-Wunsch算法，1970年，Saul Needleman和Christian Wunsch两人首先将动态规划算法应用于两条序列的全局比对，这个算法后称为Needleman-Wunsch算法。,替换记分矩阵,得分矩阵,0 1 2 3 4 5 序列 p,0123序列 q 4,对于：序列p：ACG

33、TC序列q：AATCm=length(p)n=length(q)gap=-5s(i,j)是按照替换记分矩阵得到的前缀q1i与p1j最大相似性的得分。w(i,j)是字符qi和pj按照替换记分矩阵计算的得分,5.1 双序列比对：全局比对,38,对于：序列p：ACGTC序列q：AATC:字符对字符:字符对空位箭头指着的序列为空位:字符对空位箭头指着的序列为空位,0 1 2 3 4 5 序列 p,0123序列 q 4,序列p：A C G T C 序列q：A-A T C 全局序列比对结果,Needleman-Wunsch算法，1970年，Saul Needleman和Christian Wunsch两人

34、首先将动态规划算法应用于两条序列的全局比对，这个算法后称为Needleman-Wunsch算法。,5.1 双序列比对：全局比对,得分矩阵,39,全局比对全局比对局部比对序列a：ASTDTPYMNVIPPCDEEFV序列b：ATPY-ELFFV序列a：PYMNVI序列c：-PYINVF-序列c：-PYINVF-序列c：PYINVF比对得分：-46比对得分：8比对得分：24,s(0,0)=0s(0,j)=0,1=j=ms(i,0)=0,1=i=n 0 s(i-1,j-1)+w(i,j)s(i,j)=max s(i-1,j)+gap s(i,j-1)+gap,对于：序列p：ACGTCm=leng

35、th(p)序列q：TCn=length(q)gap=-5s(i,j)是按照替换记分矩阵得到的前缀q1i与p1j最大相似性的得分。w(i,j)是字符qi和pj按照替换记分矩阵计算的得分,5.2 双序列比对：局部比对,全局比对（global alignment）：用于比较两个长度近似的序列局部比对（local alignment）：用于比较一长一短两条序列,40,s(0,0)=0s(0,j)=0,1=j=ms(i,0)=0,1=i=n 0 s(i-1,j-1)+w(i,j)s(i,j)=max s(i-1,j)+gap s(i,j-1)+gap,0 1 2 3 4 5 序列 p,01序列 q 2,

36、对于：序列p：ACGTC序列q：TCm=length(p)n=length(q)gap=-5s(i,j)是按照替换记分矩阵得到的前缀q1i与p1j最大相似性的得分。w(i,j)是字符qi和pj按照替换记分矩阵计算的得分,5.2 双序列比对：局部比对,全局比对（global alignment）：用于比较两个长度近似的序列局部比对（local alignment）：用于比较一长一短两条序列1981年 Temple Smith 和 Michael Waterman 对局部比对进行了研究，产生了Smith-Waterman算法。,得分矩阵,替换记分矩阵,41,s(0,0)=0s(0,j)=0,1=j

37、=ms(i,0)=0,1=i=n 0 s(i-1,j-1)+w(i,j)s(i,j)=max s(i-1,j)+gap s(i,j-1)+gap,0 1 2 3 4 5 序列 p,01序列 q 2,对于：序列p：ACGTC序列q：TCm=length(p)n=length(q)gap=-5s(i,j)是按照替换记分矩阵得到的前缀q1i与p1j最大相似性的得分。w(i,j)是字符qi和pj按照替换记分矩阵计算的得分,5.2 双序列比对：局部比对,全局比对（global alignment）：用于比较两个长度近似的序列局部比对（local alignment）：用于比较一长一短两条序列1981年

38、Temple Smith 和 Michael Waterman 对局部比对进行了研究，产生了Smith-Waterman算法。,替换记分矩阵,得分矩阵,42,序列p：T C 序列q：T C 局部序列比对结果：17 序列p：A C G T C 序列q：-T C 全局序列比对结果：2,全局比对（global alignment）：用于比较两个长度近似的序列局部比对（local alignment）：用于比较一长一短两条序列1981年 Temple Smith 和 Michael Waterman 对局部比对进行了研究，产生了Smith-Waterman算法。,0 1 2 3 4 5 序列 p,01

39、序列 q 2,得分矩阵,对于：序列p：ACGTC序列q：TC:字符对字符:字符对空位箭头指着的序列为空位:字符对空位箭头指着的序列为空位,5.2 双序列比对：局部比对,43,如果两个序列长度相同：一致度（identity）=（一致字符的个数/全局比对长度）100%相似度（similarity）=（一致及相似的字符的个数/全局比对长度）100%序列1：CVHKA identity=(3/5)*100%=60%序列2：CIHKT similarity=(3+1)/5)*100%=80%如果两个序列长度不相同：一致度（identity）=（一致字符的个数/全局比对长度）100%相似度（similarity）=（一致及相似的字符的个数/全局比对长度）100%序列1：CVHKAT identity=(4/6)*100%=67%序列2：CIHK-T similarity=(4+1)/6)*100%=83%,无论两个序列长度是否相同，都要先做双序列全局比对，然后根据比对结果及比对长度计算它们的一致度和相似度。,5.2 双序列比对：局部比对,

展开阅读全文

生物竞赛 生物信息学部分 核酸序列比较ppt课件.ppt

生物竞赛生物信息学部分核酸序列比较ppt课件.ppt