《分子进化与系统发育分析ppt课件.ppt》由会员分享,可在线阅读,更多相关《分子进化与系统发育分析ppt课件.ppt(92页珍藏版)》请在三一办公上搜索。
1、生物信息学,第四章 分子进化与系统发育分析,Tree of Life,重建所有生物的进化历史并以系统树的形式加以描述,生物进化理论,达尔文进化论:进化:变异的遗传自然选择:解释为何演变发生的机制种群中个体变异的遗传学基础:孟德尔遗传孟德尔豌豆实验:杂交的表现特征是基因表达的结果,而不是基因杂交遗传中性进化论:并非所有种群中保留下来的突变都由自然选择所形成;大多数突变是中性或接近中性,不妨碍种群的生存与繁衍。,研究生物进化历史的途径,1. 最确凿证据是:生物化石! 零散、不完整2.比较形态学、比较解剖学和生理学等:确定大致的进化框架 细节存很多的争议,分子进化,1964年,Linus Pauli
2、ng提出分子进化理论;从物种的一些分子特性出发,从而了解物种之间的生物系统发生的关系。 发生在分子层面的进化过程:DNA, RNA和蛋白质分子 基本假设:核苷酸和氨基酸序列中含有生物进化历史的全部信息。,分子进化的模式,DNA突变的模式:替代,插入,缺失,倒位; 核苷酸替代:转换 (Transition) & 颠换 (Transversion) 基因复制:多基因家族的产生以及伪基因的产生A. 单个基因复制 重组或者逆转录B. 染色体片断复制C. 基因组复制,DNA突变的模式,核苷酸替代:转换 & 颠换,转换:嘌呤被嘌呤替代,或者嘧啶被嘧啶替代 颠换:嘌呤被嘧啶替代,或者嘧啶被嘌呤替代,基因复制
3、:单个基因复制,重组,逆转录,基因复制:基因组复制,研究结果:克鲁雄酵母中的同源基因数量与酿酒酵母相比为1:2,物种分类及关系:从物种的一些分子特性出发,构建系统发育树,进而了解物种之间的生物系统发生的关系 tree of life 大分子功能与结构的分析:同一家族的大分子,具有相似的三级结构及生化功能,通过序列同源性分析,构建系统发育树,进行相关分析;功能预测 进化速率分析:例如,HIV的高突变性;哪些位点易发生突变?,分子进化研究的目的,Tree of Life: 16S rRNA,Out of Africa,53个人的线粒体基因组(16,587bp),人类迁移的路线,同源物定义,Orth
4、olog (直系同源物):两个基因通过物种形成的事件而产生,或源于不同物种的最近的共同祖先的两个基因,或者两个物种中的同一基因,一般具有相同的功能。Paralog (旁系同源物):两个基因在同一物种中,通过至少一次基因复制的事件而产生。常常具有不同功能。Xenolog (异系同源物):由某一个基因水平转移事件而得到的同源序列。水平转移的基因功能主要根据在前后宿主中变化而确定,然而功能却常常相似。,直系同源物 vs. 旁系同源物,异源基因或水平转移基因xenologous or horizontally transferred genes,同源性与相似性,相似性 (Similarity)序列比对
5、过程中用来描述检测序列和目标序列之间相似DNA碱基或氨基酸残基序列所占比例;定量描述;同源性 (Homology)两个基因或蛋白质序列具有共同祖先的结论;定性判断;相似不一定同源,同源不一定相似。氨基酸序列相似性超过30%,很可能同源。,序列同源性模型中的进化假设,所有的生物都起源于同一个祖先;序列不是随机产生,而是在进化上,不断发生着演变;基本假设: 序列保守性 结构保守性 注意:反之未必 序列保守性 结构保守性,本章内容提要,第一节,密码子偏好及分析第二节,氨基酸序列的进化演变第三节,分子系统发育分析第四节,分子系统发育分析软件介绍,第一节,密码子偏好及分析,密码子(codon): 在随机
6、或者无自然选择的情况下,各个密码子出现频率将大致相等; 密码子偏好:各个物种中,编码同一氨基酸的不同同义密码子的频率非常不一致; 可能的原因:密码子对应的同功tRNA丰度的不同 - Anticodon,标准密码子,大肠杆菌RNA聚合酶,大肠杆菌RNA聚合酶 (2),密码子偏好非常明显;例如 同为编码Leu的同义密码子CUA和CUG,二者出现的次数显著不等,CUA(1次), CUG(141次); 再如:编码Arg的四个密码子CGU, CGC, CGA, CGG, 出现次数分别为:89,46,1,0. 提示:对应CGG的同功tRNA可能不存在!,tRNA & Anticodon,每一个密码子,对应
7、一个tRNA; tRNA通过Anticodon来识别codon,联系mRNA和氨基酸序列的合成; 密码子的使用偏好:由密码子对应的tRNA的进化及丰度来决定。,碱基出现的频率,1. 假如:每个核苷酸位点上的替代是随机发生的,则A,T,C,G出现的频率应该大致相等。2. 实际情况:DNA受到自然选择的压力,各个位点的碱基出现频率并不相等。3. 需要解决的问题:A. 每个位点上受到什么样的选择压力?B. 各个位点的碱基频率反映了什么样的规律?4. 表征/统计的方法:计算G+C的含量,并进行比较,分子进化的理论,自然选择理论:阳性选择:促进有益突变;定向选择:固定有益的等位基因;平衡选择:保持多态性
8、;阴性选择(净化选择):清除有害突变;中性理论:阳性选择:少有;阴性选择:普遍存在;中性进化:普遍存在;,同义替代 vs. 非同义替代,64个密码子,编码20个氨基酸,同义替代,非同义替代,基因的编码区和非编码区,基因的DNA由编码区(Coding region)和非编码区(Non-coding region)构成;编码区可以转录信使RNA,进而调控蛋白质的合成;非编码区不能转录成信使RNA,但是它可以调控遗传信息的表达;原核基因:编码区全部编码蛋白质;真核基因:编码区分为外显子和内含子,只有外显子能编码蛋白质;,分子进化选择压力,进化选择压力:A. 编码区:阳性选择 1%;阴性选择19%;中
9、性进化80%;B. 非编码区:100%的中性进化中性进化:同义突变, 约占核苷酸置换总数的四分之一;非编码区DNA序列的突变对蛋白质的合成很少有影响。,编码区:密码子,1. 对于同义的密码子,第一位少部分可以允许不同,例如,编码Ser的六个密码子:TCT, TCC, TCA, TCG, AGT, AGC2. 第二位必须相同3. 第三位绝大多数可以不同 近似随机;4. 因此:A. 第一位:阴性进化占大部分,中性进化占小部分B. 第二位:阴性进化C. 第三位:阴性进化占小部分,中性进化占大部分,密码子偏好的应用及计算,基本假设:在高表达的基因中,密码子的选择,更倾向于使用“优化”的同义密码子 推论
10、1:给定一个物种的一些高表达的基因,我们可以估算优化的同义密码子的分布 推论2:接着,我们可以对给定的一个未知基因的序列进行密码子分布的分析,预测该基因的表达量! 推论3:对于一个表达量很低的基因,我们是否能够通过将少量的密码子改变成优化密码子,从而显著提高基因的表达量?,RSCU,相对同义密码子使用度(relative synonymous codon usage, RSCU) 定义:观测到的某一同一密码子的使用次数,除以“期望”的该密码子出现次数,编码第i个氨基酸的第j个密码子的出现次数,编码第i氨基酸的同义密码子的数目,编码第i个氨基酸的第j个密码子的RSCU值,密码子相对适应度The
11、relative adaptiveness of a codon,编码第i个氨基酸的第j个同义密码子的“相对适应性”: 即该同义密码子的观察值,除以编码该氨基酸的同义密码子的最大值,大肠杆菌 & 酵母,CAI:密码子适应指数Codon Adaptation Index,L为基因中所使用的密码子数,CAI值介于01之间, 该值越大表示偏性越强;CAI值一般用来预测种内基因的表达水平,以及预测外源基因的表达水平。不同物种CAI的计算依赖于各自的参考数据集。,大肠杆菌和酵母:部分基因的CAI,异源基因:在其他物种中的CAI,第二节,氨基酸序列的进化演变,分子进化的分析:基于氨基酸序列的分析早于DNA
12、序列 优势:氨基酸序列更为保守,对年代跨度大的进化分析有帮助;数学模型较DNA远为简单 p距离:p-distance 泊松校正,d距离,P-distance,两条蛋白质序列之间的氨基酸差异数为nd, 序列的氨基酸数目均为n,则P距离:,不同物种的血红蛋白链中差异氨基酸的数目及比例:(长度:140aa),所有的插入/缺失均删除,PC:泊松校正,序列差异的百分比(p)与分歧时间t的关系:t较短的时候,回复突变较少,两者大致成线性关系;当t较大时,回复突变增多,二者成非线性关系基本假设:令r为某一位点每年的氨基酸替代率,并假设所有位点的r都相同 在时间t年之后,每个位点替代的平均数为:rt给定一个位
13、点,氨基酸替代数k(k=0,1,2,3,)的可能性遵循泊松分布,即 因此,某一位点氨基酸不变的概率为,泊松距离,祖先序列未知:不知道当前的序列从何演化而来 解决方案:对两条已经有t年分化的序列,一条序列某位点无替代的概率为: ,两条序列同源位点均无替代概率为: 此概率可用1-p估计:q=1-p; 两个序列间每个位点氨基酸替代总数(d=2rt):d=-ln(1-p),即泊松距离,P-距离 vs. 泊松距离,第三节,分子系统发育分析,1. 系统发育树:分子进化树/分子进化分析2. 通过进化树的构建,分析分子之间的起源关系,预测分子的功能。3. 建树方法:A. 最大简约法 (Maximum Pars
14、imony)B. 距离法 (distance-based methods)C. 最大似然性法 (Maximum Likelihood)D. 贝叶斯(Bayesian)推断,系统发育树: 术语,Taxon A,Taxon B,Taxon C,Taxon D,1,1,6,遗传变化,Taxon A,Taxon B,Taxon C,Taxon D,时间,Taxon A,Taxon B,Taxon C,Taxon D,无意义,分支图 进化树 时间度量树,以上三种类型的系统发育树表示相同的分支状况,相同的进化关系,系统发育树:三种类型,遗传变化,无意义,时间,遗传变化,无意义,以上三种类型的系统发育树表示
15、相同的分支状况,相同的进化关系,时间,遗传变化,无意义,以上三种类型的系统发育树表示相同的分支状况,相同的进化关系,时间,遗传变化,无意义,分支图 进化树 时间度量树,树只代表分支的拓扑结构,通过外类群来确定树根,根,有根树,外类群,无根树,有根树,外类群,通过外类群来确定树根,有根树,外类群,通过外类群来确定树根,有根树,外类群,通过外类群来确定树根,有根树,无根树,无根树和有根树:潜在的数目,#Taxa 无根树 有根树,3 1 34 3 155 15 1056 105 9457 945 10,39530 3.58X1036 2.04X1038,Taxa增多,计算量急剧增加,因此,目前算法都
16、为优化算法,不能保证最优解,多序列比对(自动比对,手工校正),选择建树方法以及替代模型,建立进化树,进化树评估,系统发育树重建分析步骤,1. 最大简约法 (maximum parsimony, MP)适用序列有很高相似性时2. 距离法 (distance)适用序列有较高相似性时3. 最大似然法 (maximum likelihood, ML)可用于任何相关序列集合计算速度:距离法 最大简约法 最大似然法,系统发育树重建的基本方法,1. 最大简约法 (MP),根据信息位点提供的各序列间的替换情况,在所有可能的树中筛选含最小替换数的树的方法。理论基础为奥卡姆剃刀 (Ockham)原则:计算所需替换
17、数最小的那个拓扑结构,作为最优树。 在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候,最大简约法能够推导获得一个很好的进化树。 优点:不需要在处理核苷酸或者氨基酸替代的时候引入假设 (替代模型) 缺点:分析序列上存在较多的回复突变或平行突变,而被检验的序列位点数又比较少的时候,可能会给出一个不合理的或者错误的进化树推导结果。,信息位点:能将所有可能的树区别出来的位点。 信息位点是指那些至少存在2个不同碱基/氨基酸且每个不同碱基/氨基酸至少出现两次的位点。,信息位点 (Sites are informative),上例,Position 5, 7, 9为信息位点; 基于p
18、osition 5的三个MP树: Tree 1长度为1,Tree 2 & 3长度为2 Tree 1最为简约:总长=4 Tree 2长5;Tree 3长6 计算结果:MP tree的最优结果为tree 1,2. 距离法,又称距离矩阵法,首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵。再依据进化距离,分别依次将序列合并聚类,构建进化树。,简单的距离矩阵,由进化距离构建进化树的方法有很多,常见有:(1) Fitch-Margoliash Method (FM法): 对短支长非常有效(2) Neighbor-Joining Method (
19、NJ法/邻接法):求最短支长,最通用的距离方法(3) Neighbors Relaton Method(邻居关系法) (4) Unweighted Pair Group Method with Arithmetic Mean (UPGMA,非加权组平均法),通过距离矩阵建树的方法,(1) Fitch-Margoliash方法 (FM法),= D和E最接近!,示例,分成三组:D, E, 以及ABC,(1) FM法示例,DE距离=d+e=10 (1)D到ABC间的平均距离=d+m = 32.7 (2)E到ABC间的平均距离=e+m = 34.7 (3)(2)-(3)+(1)d=4,e=6,分成三组
20、:C, DE, 以及AB,= C最接近DE!,c+g+(e+d)/2=19 (1)c+f+(a+b)/2=40 (2)(e+d)/2+(a+b)/2+f+g=41 (2)(1)+(2)-(3)= c=9= g=5,由:(a+b)/2+f+g+(d+e)/2=41 得:f=20由:a+f+c=39 得:a=10,则b=12,N-J/邻接法,与FM方法非常类似 保证总的支长最短,总支长:a+b+c+d+e=314/4=78.5,找到距离最近的两个点,1.任意两个节点选为相邻序列的总支长计算公式:,2.计算SAB, SBC, SCD, SDE等数值,3.该例中, SAB最小,把A、B看成一个新的复合
21、序列,构建一个新的距离表,重复以上过程,计算A, B的分支长度,d=e=10/2=5,UPGMA法,c=19/2=9.5g=c-d=9.5-5=4.5,a=b=22/2=11,f1+a=f2+c=40.5/2=20.25f1=9.25 , f2=11.75,最大似然法 (ML),最大似然法(maximum likelihood, ML): 最早应用于对基因频率数据的分析上 选取一个特定的替代模型来分析给定的一组序列数据,使得获得的每一个拓扑结构的似然率都为最大值,然后再挑出其中似然率最大的拓扑结构作为最优树; 在最大似然法的分析中,所考虑的参数并不是拓扑结构而是每个拓扑结构的枝长,并对似然率求
22、最大值来估计枝长; 缺点:费时,每个步骤都要考虑内部节点的所有可能性 改进:启发式算法,分枝交换搜索等,构建进化树的一般原则,1. 可靠的待分析数据2. 准确的多序列比对3. 选择合适的建树方法:A. 序列相似程度高,MP首先B. 序列相似程度较低,ML首先C. 序列相似程度太低,无意义4. 一般采用两种及以上方法构建进化树,无显著区别可接受,构建进化树的一般原则 (2),选择一个或多个已知与分析序列关系较远的序列作为外类群; 外类群可以辅助定位树根; 外类群序列必须与剩余序列关系较近,但外类群序列与其他序列间的差异必须比其他序列之间的差异更显著。,外类群(Outgroup),外类群,进化树的
23、可靠性分析,单纯由预先获得的多序列比对结果数据所推导出的进化树有时并不一定可靠。改进办法:引进一些统计分析来寻找更优的进化树,检验结果的可靠性。最常见的就是bootstrap评估。,从排列的多序列中随机有放回的抽取某一列,构成相同长度的新的排列序列; 重复上面的过程,得到多组新的序列; 对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性。一般Bootstrap的值70,则认为构建的进化树较为可靠。,自展法- 进化树的可靠性分析Bootstrap Method,第四节,系统发育分析软件介绍,相关软件,Phylip软件包介绍,由华盛顿大学遗传学系开发,免费的系统发育分析软
24、件包。目前最广泛使用的系统发生分析程序,主要包括以下几个程序组:分子序列组,距离矩阵组,基因频率组,离散字符组,进化树绘制组。访问及免费下载地址:http:/evolution.genetics.washington.edu/phylip.html,Phylip软件包介绍,Phylip包含了35个独立的程序,这些独立的程序都实现特定的功能,这些程序基本上包括了系统发生分析的所有方面。多种不同平台的版本(包括windows,Macintosh,DOS,Linux,Unix和OpenVMX)。 Phylip软件包的文档是非常详细的,对于每个独立的程序,都有一个独立的文档,详细的介绍了该程序的使用及
25、其说明。,Phylip软件包的应用,1,根据你的分析数据,选择适当的程序 如,你分析的是DNA数据,就在核酸序列分析类中选择程序(dnapenny,dnapars,dnamove,dnaml,dnamlk,dnainvar,dnadist,dnacomp )2. 选择适当的分析方法如你分析的是DNA数据,可以选择简约法(DNAPARS),似然法(DNAML, DNAMLK),距离法等(DNADIST)。3. 进行分析 选择好程序后,执行,读入分析数据,选择适当的参数,进行分析,结果自动保存为outfile,outtree。,outfile是一个记录文件,记录了分析的过程和结果,可以直接用文本编
26、辑器(如写字板)打开。 outtree是分析结果的树文件,可以用phylip提供的绘树程序打开查看,也可以用其他的程序来打开,如treeview等。,Phylip软件包的应用,现有8段protein序列:P1MPRFAANLSMMFTEVPFIERFAAARKAGFDAVEFLFPYNYSTLQIQKQLEP2MPRFEANLSMMFTEVPFAERFADARKAGFDAVEFLFPYCYSDLQIQCQLEP3WPRFEANLSMMFTEVPFAERFADARKIGFDAEEFLFPYCYSDLQIQCQLEP4MPCFAANLSMMFTEVPFIERFAAARKAGFDAVEFLFPYNY
27、STLQIQKQLEP5MPRFEANLSMEFTAVPFIERFADARKAGFDAVEFLFPYCYSTLQIQKQLEP6MPRFEANLSMMFTEVPFAERFADARKAGFDAEEFLFPYCYSDLQIQCQLEP7MPRFEANLSMEFTEVPFIERFADARKAGFDAVEFLFPYCYSTLQIQKQLEP8WPRFEANLSMMFTEVPFAERFADARKAGFDAEEFLFPYCYSDLQIQCQLE,示例:Phylip软件包构建进化树,第一步:使用CLUSTALX多序列比对,输出格式为 *.PHY,输出的*.PHY文件:8和50分别表示8个序列和每个序列有50
28、个碱基,第二步:双击打开SEQBOOT ,按路径输入刚才生成的 *.PHY文件;设定适当参数;输出outfile文件。,重命名Outfile文本文件为Outfile1,打开如下:(包括了100个replicates),第三步:打开PROTPARS(最大简约性法),输入Outfile1文件后如下显示:设定适当参数;运行输出outfile和treefile文件。,重命名Outfile文本文件为Outfile2,打开如下:(包括了100个replicates的结果),第四步:打开CONSENSE程序,输入outfile2,运行输出outfile和treefile文件。分别重命名为outfile3和treefile3.tre,获得的结果文件中,文本文件outfile3显示如下:,outfile,树文件outtree3.tre用TREEVIEW软件打开显示:,outtree,