《《生物信息进化》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《生物信息进化》PPT课件.ppt(60页珍藏版)》请在三一办公上搜索。
1、,第五章 系统发生分析,第一节 基本概念,基本概念:系统发生(phylogeny)是指生物形成或进化的历史系统发生学(phylogenetics)研究物种(遗传学特征)之间的进化关系,认为特征相似的物种在遗传学上接近.系统发生的结果常以系统发生树表示;系统发生树(phylogenetic tree)表示形式,描述物种(遗传学特征:形态,基因序列,蛋白质序列等等)之间进化关系,第一节 基本概念,系统发生树:物种(遗传特征)之间的关系;进化树:从低等到高等,有始有终,经典系统发生学主要是物理或表型特征如生物体的大小、颜色、触角个数即通过表型比较来推断生物体的基因型(genotype),研究物种之间
2、的进化关系.有时候亲缘关系远的物种也能进化出相似的表型,所谓的趋同进化(convergent evolution).所以表型为依据的进化分析有时候并不正确.如是否有眼睛?,现代系统发生学利用从遗传物质中提取的信息作为物种特征具体地说就是核酸序列或蛋白质分子,根据现有生物基因或物种多样性重建生物的进化史是一个非常重要的问题.根据核酸和蛋白质的序列信息,可以推断物种之间的系统发生关系.基本原理:从一条序列变为另一条序列所需要的变换越多,两条序列的相关性就越小,从共同祖先分歧的时间越早,进化距离越大;反之,两个序列越相似,它们之间的进化距离可能越小.,所有的生物都可以追溯到共同的祖先,生物的产生和分
3、化就象数一样地生长,分叉,以树的形式来表示生物之间的进化关系是非常自然的事.,系统发生树是一种二叉树(每个节点最多有两个子节点),由一系列的节点(nodes)和分支(branches)组成,每个节点代表一个分类单元(物种或序列),节点之间的连线表示物种之间的进化关系.枝长branch length 通常代表在该分枝中曾发生过的变化数.,系统树可以是有根的rooted 也可以是无根的(unrooted).在有根树中存在一个被称为根特殊节点由此导向任何别的节点都只有唯一图.每一途径中的方向与进化时间相对应.而根则是所有正被研究的的共同祖先.无根树是一种只将各间的关系具体化而未定义进化途径的树图.,
4、系统发生树性质:(1)如果是一棵有根树,则树根代表在进化历史上是最早的、并且与其它所有分类单元都有联系的分类单元;(2)如果找不到可以作为树根的单元,则系统发生树是无根树;(3)从根节点出发到任何一个节点的路径指明进化时间或者进化距离。,直系同源(orthologs):同源的基因是由于共同的祖先基因进化而产生的.旁系同源(paralogs):同源的基因是由于基因复制产生的.,直系同源与旁系同源,必须了解的概念:,paralogs,orthologs,paralogs,orthologs,思考:用于分子进化的序列必须是直系 or 旁系同源才能真实反映进化过程?,Bacterium 1,Bacte
5、rium 3,Bacterium 2,Eukaryote 1,Eukaryote 4,Eukaryote 3,Eukaryote 2,Bacterium 1,Bacterium 3,Bacterium 2,Eukaryote 1,Eukaryote 4,Eukaryote 3,Eukaryote 2,Phylograms show branch order and branch lengths进化树,有分支和支长信息,.进化分支图,进化树,Cladograms show branching order-branch lengths are meaningless进化分支图,只用分支信息,无支长
6、信息。,Rooted by outgroup,archaea,archaea,archaea,bacteria outgroup,root,eukaryote,eukaryote,eukaryote,eukaryote,无根树,archaea,archaea,archaea,有根树,无根树,外围群,有根树,外围群,第二节 系统发生分析步骤,(1)序列比对(2)确定替换模型(3)构建系统发生树(4)评价所建立的树,两类数据:距离离散特征 离散特征数据可分为 二态特征例如:DNA序列上的某个位置如果是剪切位点 多态特征例如:某一位置可能的碱基有、或,系统发生树的构建方法分为两大类:基于距离的构建方
7、法非加权组平均法 邻近归并法 Fitch-Margoliash法 最小进化方法 基于离散特征的构建方法最大简约法 最大似然法 进化简约法 相容性方法,1.最大简约法(MP),最大简约法(maximum parsimony,MP)最早源于形态性状研究,现在已经推广到分子序列的进化分析中。最大简约法的理论基础是奥卡姆(Ockham)哲学原则,这个原则认为:解释一个过程的最好理论是所需假设数目最少的那一个。对所有可能的拓扑结构进行计算,并计算出所需替代数最小的那个拓扑结构,作为最优树。,最大简约法利用存在序列之间的差异的位点,即信息位点:由位点产生的突变数目把一棵树与另一棵树区分开来的位点.对于一个
8、信息位点要求至少有两种不同的序列,而且每个序列至少出现2次.,最大简约法就是寻找长度最小,代价最小(替换的次数最少)的树.我们只考虑信息位点.(以5为例)try,2.距离法,距离法又称距离矩阵法,首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵。进化树的构建则是基于这个矩阵中的进化距离关系。,10条核酸序列的距离矩阵,例,如果有三个物种,其两两距离如下:dab=0.5 dac=0.9 dbc=0.9,通过求解方程,得到如图所示的一棵树。,u,v,a,b,c,0.2,0.25,0.25,0.45,一种简单的距离矩阵,由进化距离构建进化树
9、的方法有很多,常见有:1.Fitch-Margoliash Method(FM法)2.Neighbor-Joining Method(NJ法/邻接法)3.Neighbors Relaton Method(邻居关系法)4.Unweighted Pair Group Method(UPGMA法),通过矩阵建树的方法,2.1 非加权分组平均法(Unweighted Pair Group Method with Arithmetic mean,UPGMA),在非加权分组平均法中,在计算新分类到其它分类之间的平均距离时按照各分类中分类单元的数目进行加权处理。,UPGMA法,d=e=10/2=5,c=19
10、/2=9.5g=c-d=9.5-5=4.5,d(DE)A=(AE+AD)/2=(41+39)/2=40,a=b=22/2=11,d(CDE)A=(AE+AD+AC)/3=(41+39+39)/3=39.5,f1+a=f2+c=40.5/2=20.25f1=9.25,f2=11.75,选择外类群(Outgroup),选择一个或多个已知与分析序列关系较远的序列作为外类群外类群可以辅助定位树根外类群序列必须与剩余序列关系较近,但外类群序列与其他序列间的差异必须比其他序列之间的差异更显著。,bacteria outgroup,eukaryote,eukaryote,eukaryote,eukaryot
11、e,archaea,archaea,archaea,外围群,可靠性分析,自展法,通过系统发生分析推断出来的树的不同部分可能有不同的置信度,造成统计误差的一个原因是数据采样误差.因此对分析的对象多次采样,比较不同样本得到的估计值.具体做法:从原始数据中采集部分数据组新的数据集,构建系统发生树,重复该过程,产生千百的重采样数据集,并同时生成对应的自展树,检验自展树对最终系统发生树各分支的支持率.最后计算出来的数值为自展值(Bootstrap value).,进化树的可靠性分析,自展法(Bootstrap Method),将最终系统树与各个自展树进行比较,其中在各个自展树中都出现或大量出现的那些部分
12、将具有高的置信度.比较耗时.,课堂练习:下列哪些位点是信息位点?位点1 2 3 4 5 6序列1 C A G G T A序列2 C A G A C A序列3 C G G C T A序列4 T G G T C G,课堂练习:2)下列系统发生树建立的方法中,基于序列特征分析的是?基于距离的是?A.neighbor-joining methodB.UPGMAC.Maximum parismonyD.Maximum likelihood,课堂练习:3)给定一个距离距阵,请用UPGMA法构建系统发生树.,A B C D E,A-8 4 6 8B-8 8 4C-6 8D-8,或者:假设序列A-E如下:A:
13、aagcttactgaatgggcB:aagcatactgaatcggcC:aatcatactgaatgccgD:aatcatactgtttgccgE:tttcatagtcaatgcca 假设序列之间的距离为序列转换需要的碱基替换次数.试用UPGMA法绘制树.,常用系统发生树软件:ClustalW/X,Philip,MEGA,DNAstar查看软件:Treeview,MEGA,专业软件,1)流程:1)ClustalX多序列比较;2)用ClustalX程序直接绘制NJ树;3)用Treeview程序打开.,2)流程:1)ClustalX多序列比较;2)用MEGA程序转换格式;3)选择构建方法;4)
14、MEGA查看.,For sequences:OsSRZ1MNRKPGDWDCRACQHLNFSRRDLCQRCGGPRGAADRGSGGGGDYANFGGRGGSSFGGGFGTGSDVRPGDWYCNCGAHNFASRSSCFKCAAFKDDAAVNSGGAGAFDGGDMSRSRGYGFGSGAVRASRPGWKSGDWICTRSGCNEHNFASRMECFRCNAPRDSGTEVOsSRZ2MNIQRKPGDWNCKSCQHLNFSRRDYCQRCHTPRQDLPLGDGYVPGGVLSSLDIRPGDWYCNCGYHNFASRASCFKCGAIVKDLPAGQGGGVANGDFARAL
15、DSSAVRAGWKAGDWICTRPGCNVHNFASRIECYRCNAPREAGNVKOsSRZ3METKAAAMAMRKPGDWSCRSCQYVNFCKREACQRCGEAKLGVERTDYAAMGGGWEVKPGDWCCRCCAVNNYASRGSCFKCGAAKNDSAAAVAQGWGFSVASQAGWKNGDWICPRMECNVQNYANRTECFRCNFPRYYVDAtSRZ1MSRPGDWNCRSCSHLNFQRRDSCQRCGDSRSGPGGVGGLDFGNFGGRAMSVFGFTTGSDVRPGDWYCTVGNCGTHNFASRSTCFKCGTFKDETGAGGGGGGIGG
16、PAMFDADIMRSRVPGNGGRSSWKSGDWICTRIGCNEHNFASRMECFRCNAPRDFSNRTSFAtSRZ2MNRPGDWNCRLCSHLNFQRRDSCQRCREPRPGGISTDLLSGFGGRPVSSSFGFNTGPDVRPGDWYCNLGDCGTHNFANRSSCFKCGAAKDEFSCSSAAATTGFMDMNVGPRRGLFGFGGSSSGGGGTGRSPWKSGDWICPRSGCNEHNFASRSECFRCNAPKELATEPPYAtSRZ3MSWTGGDWLCGACQHANFKKRESCQKCGYPKFGGVDVSTYLYNRTEVMAGDWYCGALNCGSHNYASRTSCYRCGMIKVEYTEQYYGAQMVAYGNDGAACPPGWKTGDWVCPRVGCGVHNYASRAECFKCKTTRDYGGV,Step OK?,Step OK?,Step OK?,生成.phb文件,操作.,Part II流程:1)ClustalX多序列比较;2)用MEGA程序转换格式;3)选择构建方法;4)MEGA查看.For example,方法(2)仍然进行多序列比对,获得.aln文件,方法(2),生成.MEG文件,方法(2),方法(2),方法(2),方法(2),方法(2),