第五章分子系统发育分析课件.ppt

上传人:小飞机 文档编号:1545810 上传时间:2022-12-03 格式:PPT 页数:97 大小:2.18MB
返回 下载 相关 举报
第五章分子系统发育分析课件.ppt_第1页
第1页 / 共97页
第五章分子系统发育分析课件.ppt_第2页
第2页 / 共97页
第五章分子系统发育分析课件.ppt_第3页
第3页 / 共97页
第五章分子系统发育分析课件.ppt_第4页
第4页 / 共97页
第五章分子系统发育分析课件.ppt_第5页
第5页 / 共97页
点击查看更多>>
资源描述

《第五章分子系统发育分析课件.ppt》由会员分享,可在线阅读,更多相关《第五章分子系统发育分析课件.ppt(97页珍藏版)》请在三一办公上搜索。

1、第五章 分子系统发育分析,5.1 分子进化的基本概念5.2 分子进化模型与序列分歧度计算5.3 分子系统树的构建5.4 分子系统树的检验5.5 分子系统发育分析软件及应用,5.1 分子进化的基本概念,系统发生(phylogeny)是指生物形成或进化的历史系统发生学(phylogenetics)研究物种之间的进化关系 系统发生树(phylogenetic tree)表示形式,描述物种之间进化关系,5.1 分子进化的基本概念,同源性与相似性关于现代人起源的研究:线粒体DNA所有现代人都是一个非洲女性的后代,分类单元(物种或序列),物种之间的进化关系,有根树与无根树,有根树的数目,无根树的数目,有根

2、树与无根树的数目,5.2 分子进化模型与序列分歧度计算,5.2.1 核苷酸序列进化5.2.2 蛋白质编码序列进化5.2.3 核苷酸序列分歧度5.2.4 蛋白质编码序列分歧度,5.2.1 核苷酸序列进化,Jukes and Cantor(1969)的单参数模型,在t时间内DNA序列上某个位点的碱基由A突变到G的概率为,在t时间内DNA序列上某个位点的碱基为A保持不变的概率为,Jukes and Cantor(1969)的单参数模型,在t+t时间内核苷酸在某个位点上碱基为A保持不变的概率为,表示在0到t这段时间内DNA序列上某个位点的碱基为A保持不变的概率,因此,在0到t这段时间内DNA序列上某个

3、位点的碱基保持不变的概率为,因此,在0到t这段时间内DNA序列上某个位点的碱基发生突变的概率为,下面考虑在0到t这段时间内DNA序列上某个位点的碱基发生突变的平均次数,设 表示0到t这段时间内DNA序列上某个位点的碱基发生突变的次数为n的概率,则,突变率,即在0到t这段时间内DNA序列上某个位点的碱基发生突变的次数服从泊松分布, 平均次数为 ,方差也为 。,两条DNA序列分歧度的计算,AACGACGATCG,AAGGACGATCG: Species 2,AACGATGATCG: Species 1,t,t,The time is 2t between Species 1 and Species

4、 2 定义两条DNA序列间的分歧度为K=2t 对于Jukes and Cantor模型,Sp1: AAG CCT CGG GGC CCT TAT TTT TTG | | | | | | | |Sp2: AAT CTC CGG GGC CTC TAT TTT TTTp = 0.25K = 0.304099Genetic distances are scaled to be the number of substitutions per site.,Kimura(1980)的两参数模型,碱基的转换(transition) 碱基的颠换(transversion),(1)(2)(3)(4),(1)(3

5、),代入(1)式,得,推导KK80,AACGACGATCG,AAGGACGATCG: Species 2,AACGACTATCG: Species 1,t,t,The time is 2t between Species 1 and Species 2 定义两条DNA序列间的分歧度为K=2t=2(+2)t 设Ns为转换数,Nv为颠换数,则Ps=P=Ns/L, Pv=Q=Nv/L,Sp1: AAG CCT CGG GGC CCT TAT TTT TTG | | | | | | | |Sp2: AAT CTC CGG GGC CTC TAT TTT TTTWhat are P and Q?P =

6、4/24, Q = 2/24,K值的取样误差,其中,P = 4/24Q = 2/24p = 6/24L = 24,Implications of substitutions in protein-coding regions,Nonsynonymous substitution:,Thr Tyr Leu LeuACC TAT TTG CTG,ACC TCT TTG CTG Thr Ser Leu Leu,Synonymous substitution:,Thr Tyr Leu LeuACC TAT TTG CTG,ACC TCC TTG CTG Thr Tyr Leu Leu,The rate

7、s of nucleotide substitutions in the third position are much higher than in the first and second positions, due to redundancy in the third position:,Changes in the first and second position frequently changes the resulting amino acid, while changes in the third position are typically synonymous.,Cou

8、nting the number of synonymous & nonsynonymous substitutions between a pair of homologous sequences:,In the “evolutionary method,” we take into account all possible evolutionary pathways between each pair of homologous codons.sd and nd are the number of synonymous & nonsynonymous substitutions per c

9、odon.For GTT (Val) and GTA (Val), there is one synonymous difference and no nonsynonymous differences. Therefore, sd and nd are 1 & 0, respectively.It is more complicated when there are multiple substitutions per codon:,Multiple substitutions per codon:,There are 6 pathways between TTG and AGA:,TTG(

10、Leu) ATG(Met) AGG(Arg) AGA(Arg)TTG(Leu) ATG(Met) ATA(Ile) AGA(Arg)TTG(Leu) TGG(Trp) AGG(Arg) AGA(Arg)TTG(Leu) TGG(Trp) TGA(Ter) AGA(Arg)TTG(Leu) TTA(Leu) ATA(Ile) AGA(Arg)TTG(Leu) TTA(Leu) TGA(Ter) AGA(Arg),Subs:S, N,1,20,31,2*1,2*,We can ignore 4 & 6, which involve stop codons. sd and nd are then a

11、nd 9/4, respectively.,The total number of substitutions,The total number of substitutions are Sd and Nd, which are the sums of sd and nd for all codons in the compared sequences.Note that Sd + Nd is equal to the total number of nucleotide differences between the two sequences compared.Since some sub

12、stitutions might be more common due to transition-transversion bias, we can modify our estimates with parameters for these rates,The proportion of substitutions,While Sd and Nd provide us with information about the number of substitutions, we are more interested in the relative rates of these substi

13、tutions between different genes.Therefore, we estimate the proportion of differences:Ks = Sd/S S+N=3C (the total number of codons).The rates Ks&KA are estimated using the Jukes-Cantor method, assuming equal nucleotide frequency and no transition-transversion bias. Addl parameters can be added if the

14、se assumptions are not valid.,One substitution in the codon:,Seq 1 Ser Thr Glu Met Cys Leu TCG ACA GAG ATG TGT TTASeq 2 TCG ACA GAG ATG TGT CTT Ser Thr Glu Met Cys Leu,Several pathways problem1. TTA CTA CTT2. TTA TTT CTT,Two substitution in the codon,Several pathways problemLeu Leu Leu1. TTA CTA CTT

15、2. TTA TTT CTTLeu Phe Leu, Sd=2 Nd=0, Sd=0 Nd=2,Average pathways Sd=(2+0)/2=1Nd=(0+2)/2=1,Seq 1 Ser Thr Glu Met Cys LeuTCG ACA GAG ATG TGT TTASeq 2 TCG ACA GAG CGC TGT TTASer Thr Glu Arg Cys Leu,Several pathways problem1. ATG ATC AGC CGC2.ATG ATC CTC CGC3. ATG AGG AGC CGC4. ATG AGG CGG CGC5. ATG CTG

16、 CTC CGC6. ATG CTG CGG CGC,Three substitution in the codon,Several pathways problem Met Ile Ser Arg1. ATG ATC AGC CGC Met Ile Leu Arg2. ATG ATC CTC CGC Met Arg Ser Arg3. ATG AGG AGC CGC Met Arg Arg Arg4. ATG AGG CGG CGC Met Leu Leu Arg5. ATG CTG CTC CGC Met Leu Arg Arg6. ATG CTG CGG CGC, Sd=0 Nd=3,A

17、verage pathwaysSd=(0+0+0+2+1+1)/6=0.67Nd=(3+3+3+1+2+2)/6=2.33, Sd=0 Nd=3, Sd=0 Nd=3, Sd=2 Nd=1, Sd=1 Nd=2, Sd=1 Nd=2,Calculate the numbers of synonymous and nonsynonymous sites,苯基丙氨酸,半胱氨酸,Ser Thr Glu Met Cys LeuS1TCA ACT GAG ATG TGT TTANNS NNS NN1/3S NNN NN1/2S 1/3SN1/3S 2/3N 1/2N 2/3N 2/3NSer Thr G

18、lu Ile Cys LeuS2TCA ACA GAG ATA TGT CTANNS NNS NN1/3S NN2/3S NN1/2S 1/3SNS 2/3N 1/3N 1/2N 2/3N,Example:,S=4.1667N=13.8333Sd= 0+1+0+0+0+1 = 2Nd= 0+0+0+1+0+0 = 1,Divergence for Synonymous and Nonsynonymous using Jukes and Cantors Model in This Example,5.3 分子系统树的构建,5.3.1 距离矩阵法5.3.2 简约法,UPGMA法邻接法Fitch-M

19、argoliash法,最大简约法进化简约法其他方法方法比较,5.3.1.1 距离矩阵法UPGMA法,设类群OTUp和OTUq中含有np和nq个原始类群,并且它们聚合成类群OTUr,则OTUr与OTUi间的距离dr,i为,例51,Unweighted Pair-Group Method using Arithmetic averages,第一步:将OTU1和OTU2聚合为OTUr1, 则,第二步:将OTUr1和OTU3聚合为OTUr2, 则,第三步:将OTUr2和OTU4聚合为OTUr3, 结束。,用UPGMA法构建的系统树,5.3.1.2 距离矩阵法邻近法,邻近法的计算步骤,对于所有的分类单元

20、i,计算 选择一对分类单元i 和j ,使 最小将i和j归并为新的类 (ij),在树中添加一个新的节点,代表新生成的分类,计算从i和j到新节点的分支长度:计算新类与其它类的距离:如果有两个以上的分类存在,则继续执行循环;否则用长度为Di,j的分支连接剩余的两个类 。,例5-2 5个分类群5S rRNA的例子,0.30930.3387670.3958670.4524670.420533,设,0.1114,0.1681,0.1222,0.1798,0.1798,0.1222,0.2719,0.2719,0.26310.27850.28690.3551,BsuBst u1 Mlu,设,0.0492,0

21、.0730,u2Bst Mlu,u2 Bst Mlu,0.30580.32040.3970,u2Bst Mlu,设,0.0646,0.0500,0.1412,5.3.1.3 距离矩阵法 Fitch-Margoliash法,距离定义:某个分类单元到一个合并类的距离定义为这个分类单元到这个合并类中的分类单元的平均距离,A,例53 设AD 4个类群间的距离为:,B,:, + ,调整,5.3.2.1 最大简约法,推断序列中碱基替换的数为最小的进化树适用于较短的、相似度较高的序列算法并不复杂,但能保证获得最优树常用的软件有PAUP和PHYLIP以一个例子说明最大简约法,Adapted from Li a

22、nd Graur 1991,四条序列可能有3种无根树一些位点有信息,这些点偏爱其中的一棵树,信息位点的字母至少在两条序列中出现只须分析信息位点,如位点5、7、9,G,树1 树2 树3,A,A,A,A,A,C,树1 树2 树3,T,T,C,A,T,G,树1 树2 树3,A,A,A,A,A,A,树1 树2 树3,A,A,G,A,A,位点5,位点7,位点9,碱基替换总数,4 5 5,5.3.2.2 进化简约法,以四个分类群为例说明考虑三种可能的系统树,分别称为X型、Y型、Z型:,将每个位点的碱基转换成单位矢量,1111,1333,1331,1133,1112,1234,1331,E: 1133u:

23、1234H: 1233J: 1134,F: 1313v: 1324L: 1323N: 1314,G: 1331w: 1342Q: 1332 S: 1341,计算树型X、Y、Z的净支持率:,其中,用自由度 的 检验来估计统计显著性:,5.3.2.3 最大似然法,最大似然法的理解,分子系统发育分析软件及应用,PHYLIPPAUP,http:/evolution.genetics.washington.edu/phylip.html发布最广、用户最多,由Felsenstein开发含有34个DOS程序,界面单调,http:/paup.csit.fsu.edu/完善的最大简约法和进化简约法增加了最大似然

24、法和距离矩阵法有Windows版本,Output format optionsphlipy format,PHYLIP的使用,数据格式 (phylip数据由clastal X产生),PHYLIP的使用,距离方法执行DNADIST,距离方法执行DNADIST,距离方法执行NEIGHBOR,距离方法执行TreeView,PHYLIP的使用,最大简约法执行DNAPARS,最大简约法执行DNAPARS,最大简约法执行TreeView,PHYLIP的使用,最大似然法执行DNAML,最大似然法执行DNAML,最大似然法执行TreeView,作 业,1. 分别用单参数模型和两参数模型计算下面两个核苷酸序列的

25、分歧度S1 cgcggccgctggcctgtgcctggg | | | | | S2 cgcgtccactggcctgagccttgg,作 业,2. 计算下列两个蛋白质编码序列的同义差异值和非同义差异值、同义位点的数目和非同义位点的数目、同义变化的分歧度和非同义变化的分歧度。 Ser Thr Glu Met Cys Leu Seq 1 TCA ACT GAG ATG TGT TTA Seq 2 TCA ACA GAG ATA TGT CTA Ser Thr Glu Ile Cys Leu,作 业,3. 设有5个分类单元两两之间的距离矩阵如下:,试分别用UPGMA法、邻近法和Fitch-Margoliash法构建系统进化树,ABCDE,A B C D E,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号