LECTURE 5 种下数据分析方法资料课件.ppt

资源描述

《LECTURE 5 种下数据分析方法资料课件.ppt》由会员分享，可在线阅读，更多相关《LECTURE 5 种下数据分析方法资料课件.ppt（74页珍藏版）》请在三一办公上搜索。

1、种下数据分析方法Data Analysis at Intraspecies Level,黄原2010-3,主要内容,1.大进化与小进化的联系与区别2.用于种下研究的分子标记和数据类型3.种下遗传多样性和分化参数及应用4.种下系统发育分析及应用5.种界确定,1.大进化与小进化的联系与区别,进化模式不同,大进化=种上分类单元进化：树状分歧进化为主。种间由于生殖隔离和突变以及分歧导致有完全不同的基因型的固定，从而形成非重叠的基因库（non-overlapping gene pools）和相互的单系性(reciprocally monophyletic lineages)。小进化=种下进化：网状形式的

2、进化种内群体内/间的个体因随机交配有发生重组的机会，从而使个体的基因谱系呈现网状关系（reticulating relationships=tokogeny)。,种间树状进化遗传分歧,种内网状进化遗传多态性,研究内容的区别,种下研究(1)群体遗传结构（population genetic structure)(2)群体分化（population subdivision)(3)谱系生物地理学（phylogeography）(4)分子进化动力(the forces of molecular evolution)(5)个体/群体/亚种系统发育关系(individuals/populations/s

3、ubspecies phylogenetic analysis)种上研究(1)种界确定（species boundary delimitation）(2)分类单元单系性检验（testing taxa monophyly）(3)系统发育关系重建（phylogenetic relationship among taxa）(4)性状进化（character evolution）,研究方法的区别,采用分子标记不同抽样策略不同（Sampling strategy）数据分析方法不同,Molecules and their useful rangesin phylogenetic relationship

4、s,Species Genera FamilyOrderClassDivisions,Spacersits,mt DNA,Nu rDNA,Taylor,et al.,1991,;more sufficient statistically significant results,;sufficient statistically significant results,2.用于种下研究的分子标记和数据类型,分子标记,SNPSSRRAPDAFLP,单核苷酸多态性SNP：single nucleotide polymorphisms,SNP是指由于单个核苷酸的变异所引起的DNA序列多态性。A sin

5、gle base change,occurring in a population at a frequency of 1%is termed a single nucleotide polymorphism(SNP).When a single base change occurs at 1%it is considered to be a mutation.,微卫星Microsatellites,Design primers to“flanking regions”,微卫星基因分型原理 Li(1998).,随机扩增多态性DNA RAPD:randomly amplified polymor

6、phic DNA,RAPD profile of DNA from 23 samples,AFLP:amplified fragment length polymorphism,Digestion of DNA with two enzymesLigation of adaptersPrimers complementary to adapters and to 3 region of some of the fragments,AFLP Gel,分子标记的性质,显示方式：共显性(codominant)标记可以识别所有的等位基因，包括杂合子和隐性等位基因。显性(dominant)标记只能识别显

7、性等位基因，无法区分杂合子和隐性等位基因的纯合子。座位数目：单座位(single locus)标记可以识别等位基因。多座位(multiple loci)标记一般无法识别等位基因。,遗传方式,父系遗传标记Y ChromosomeHaploid,none or little recombination1.91095.410 9 per site per year 母系遗传标记Mitochondrial DNAHaploid,none or little recombination3.5108 per site per year 双亲遗传标记nDNADiploid,undergoes recombi

8、nation,基因型与基因分型（genotype and genotyping）,一个个体在某一座位上所拥有的一对等位基因类型被称作基因型(genotype)。检定个体在特定座位上的基因型的方法被称作基因分型(genotyping)。,单倍型与单倍型分型haplotype and haplotyping,单倍型是指在一条DNA上多态性的分子标记的不同等位基因之间的组合。单倍型分型：,单倍型分型方法,对于位于Y染色体或mtDNA以及男性X染色体上的任何标记，每种基因型均为单倍型。对于位于常染色体及女性X染色体上的标记，如果研究的座位为纯合子，则可以直接得到单倍型；如果研究的座位为杂合子，则得到2

9、个联合的单倍型。可以通过3种方法获得单倍型。,二倍体标记的单倍型分型方法,从二倍体的基因型推导单倍型的方法：等位基因分离法：等位基因特异性PCR；克隆法；体细胞杂交法。统计推论法：Clarck算法；最大似然法；贝叶斯法。家系分析法：,单倍型块Haplotype Blocks,染色体在一代代的传递中同源片段发生重组,多代之后祖先染色体片段的原有排布已被打乱。那些没有被重组打破的区域相互间被重组区域隔开,这些区域就是单倍型块。单倍型块的长度一般为3 92 kb。人类基因组的65%-85%是以单倍型块方式组织起来的.,识别单倍型的意义,构建基因树的基础识别致病基因理解重组和LD模式,单倍型的起源与进

10、化,位于Y染色体和mtDNA上的单倍体分子标记无重组，因而单倍型多样性仅仅是由于突变产生。二倍体分子标记的单倍型的起源有突变和重组二种原因。如果重组是随机发生的，则n个等位基因可以有2n种单倍型。任何2个标记之间发生重组的可能性取决于它们的相互距离和位置。不同座位的等位基因之间由于重组降低而导致的association称为连锁不平衡（linkage disequilibrium，LD）。,3.种下遗传多样性和分化参数及应用,物种遗传变异程度的度量,测量遗传变异参数的方法随所研究标记的类型和遗传方式而异。一般地，物种的遗传变异可以从三个方面来描述：遗传多样性：遗传变异的量遗传分化：遗传变异在群体

11、之间的分布遗传距离：遗传变异在成对群体之间的数量。,遗传多样性,遗传多样性通常用于描述生物学实体（个体，群体和物种）内存在的遗传变异。杂合度和多态性水平是2个在个体、群体和物种3个水平上定量描述多样性的参数。广义的多样性包括2个组分：丰富度（richness）和均匀度（evenness）。前者测量变异的数量，后者指示变异的分布。,等位基因丰富度的测量,1 等位基因多样性（allelic diversity）或丰富度（allelic richness）：每个座位上出现的等位基因数量的平均值。计算时也包括单态座位。可以以群体或物种为单位计算。2 多态座位百分数：当一个座位上最常见的等位基因的频率0

12、.95时该座位称多态座位。多态座位的定义是人为的，在当代文献中，只要表现出任何水平的变异就认为是多态座位，而并不特别强调0.95或0.99的标准。3 多态座位的平均等位基因数（mean number of alleles per polymorphic locus）：计算方法同上但不包括单态座位。4 平均观测杂合度（mean observed heterozygosity，Ho）：在所观测的座位上杂合子的数量占所有检测座位的比例。该参数广泛用于二倍体生物的共显性标记中，显然，单倍体生物是无杂合性可言的。当用于多倍体生物时对数据的解释须十分谨慎。该参数对显性标记不适合，因为无法识别出杂合性的个体

13、。5 平均期望杂合度(Expected heterozygosity He)，是根据哈温定律所估算的期望值：He=1/mPij(1-Pij)M：基因座总数N：各基因位上的等位基因数Pij：第i个基因座的第j个等位基因的频率。,Neis基因多样性参数（gene diversity statistics）,基因多样性首先由Nei（1973）提出，通常被看作是期望杂合度（expected heterozygosity）。Nei（1973）提出的基因多样性的计算：HT为总的期望杂合度，p为k个等位基因中的第i个在所有群体中的平均频率。基因多样性被广泛使用，但该参数也存在缺陷。如其值在0-1之间变化，随

14、着一个座位上的等位基因频率接近相等时，它变得不灵敏，此外，该参数严重依赖于2个最常见等位基因的频率。,单倍体基因组的考虑,单倍体基因组的标记在计算基因多样性参数时也用同样的方法，如计数单倍型的数目。对于单倍体标记独特的参数是计算单倍型多样性（haplotype diversity）。,群体遗传分化的度量,1 Neis GST 2 Wrights F-statistics,Neis GST,总遗传多样性（HT）是以期望的总杂合度来度量的。HT可以分解成存在于群体内部的基因多样性部分HS和存在于群体间的基因多样性的部分DST（Nei,1973）。即 HTHSDST HS为每一群体内的期望杂合度的平

15、均值，即其中p为每个群体中第k个座位上的第i个等位基因的平均频率（在所有群体中的均值）。多样性指数HT、HS、DST可以用于计算遗传分化参数GST，GST定义为群体之间相对于群体混合后（即总群体）的基因多样性，Nei（1973）称为基因分化系数（coefficient of gene differentiation）：GSTDST/HT GST值在01之间变化，当HTHS时 GST0，表示等位基因频率在所有群体中相同，群体之间没有遗传分化；当HS0时 GST1，亦即群体内部无变异，而每个群体都固定了不同的等位基因，因而群体达到了最大的分化，所有检测的变异都分布在不同的群体中。在动物中，活动哪

16、里强的鸟类的GST值是脊椎动物中最低的；同样能够飞行的昆虫是无脊椎动物中最低的。,Wrights F-statistics,多样性指数HT、HS也可以用于计算每个个体的平均观测杂合度HI，也可以用于F-统计值来分析群体的遗传结构。Wright描述的HT和HS分别是在假定处于哈代-温伯格平衡时的全部群体的总的期望杂合度和群体内的平均期望杂合度，因而Wright和Nei对HT和HS的定义是不同的，尽管他们二人所使用的符号和计算公式相同。Wright基于在个体、群体和总群体（total population）3个水平上的变异情况提出3种分析方法。,Wrights F-statistics,Wrigh

17、ts F-statistics,Wrights F-statistics,Wrights F-statistics,遗传距离的计算,Neis遗传距离Chord distanceJaccard相似系数核苷酸多样度,1.Average number of pairwise nucleotide differences between seqs.,2.Normalize to the length of the sequences(L),核苷酸多样度 nucleotide diversity,1.ACAGCATTAGCA2.ATAGCAATAGCT3.ATAGCAATACCT,(1/3)*(3+1+

18、4)=8/3(8/3)/12=0.222A pair of sequences are on average 22.2%different,Example:,#of pairs,#of differences between sequences,遗传数据的分析方法,多元分析方法 Multidimensional Scaling，MS Principal Components Analysis，PCA谱系生物地理学（phylogeography）分析 Genetic boundary analysis Spatial autocorrelation Nested cladistic analys

19、is系统发育分析方法,遗传多样性的应用,遗传变异参数可以应用于估计基因流、遗传结构、分类学、识别遗传瓶颈、群体演化历史、群体大小历史过程及保育生物学等方面。哈迪-温伯格平衡是遗传变异应用的基础，已经发展了多种成熟的方法了分析偏离哈代-温伯格平衡的因素。溯祖理论（coalescent theory）是遗传变异应用的基础。,一个典型的群体基因型数据的分析内容,1.多态性、遗传多样性和杂合度水平分析（Levels of polymorphism，genetic diversity and heterozygosity）2.观测基因型与哈迪-温伯格平衡的符合及数据同质性（Conformity to H

20、ardy-Weinberg equilibrium and homogeneity of data）3.使用F-统计值进行的群体遗传结构分析(Hierarchical analysis of genetic structure with F-statistics，including level of significance)4.使用遗传距离分析群体遗传结构和群体之间关系（Analysis of genetic structure with pairwise genetic distance，phenogram)5.多变量因子分析Multivariate analysis(Principle

21、Component Analysis or Factor analysis).6.连锁分析（Linkage analysis）,4.种下系统发育分析及应用,基因谱系Gene Genealogy,来自同一个物种内由微进化（microevolutionary）过程产生的不同等位基因拷贝序列构建的树状图称为基因谱系（gene genealogy），以区别于来自不同物种序列、反映大进化（macroevolutionary）过程的系统树。基因谱系上的基因序列代表了群体中存在的不同等位基因/单倍型，它们可以存在于不同个体、也可以是同一个体。,基因谱系构建,构建基因谱系的方法与构建普通的系统树完全一样，所不

22、同的只是对等位基因序列的确定。从等位基因序列构建树状图的最大障碍是重组问题，因为重组事件将2个不同的等位基因的部分混合成一个新等位基因，从而使等位基因之间的关系表现为网络关系，而不是树状分支关系。这种关系违反了系统发育分析的基本假设。如果重组频率不太高的话，可以识别出从来没有发生过重组的局部的单倍型模块（haplotype blocks）。,基因谱系与系统树,二种水平的系统发育分析的区别：1)抽样的一个现存群体可以是某些群体的祖先，而在物种以上的比较中祖先一般是不存在的。2)祖先群体与后代群体一样可以产生新的突变。3)由于重组形成等位基因或单倍型之间的网状关系(tokogeny)而非二分歧树。

23、4)群体水平上序列的分歧程度较低，传统的系统发育分析方法在应用这样的数据建立的系统发育树的准确性较低。,基因谱系,在分析群体数据时，我们需要一种新的能够考虑群体数据特征的系统发育分析方法。传统的二分歧树模型不能用于基因谱系的建立，网络方法更符合群体水平的谱系关系。目前已经提出了多种网络系统发育分析方法，Posada和Crandall（2001）对这些方法进行了总结。这些方法中以基于算法的方法占大多数，基于优化标准的方法较少。,基因谱系,单倍型的进化历史有树状和网络状二种，从来没有发生过重组的DNA片段与种间分歧的序列一样为树状，而大多数单倍型之间有网状的进化关系或多歧分枝（同时形成的单倍型）。

24、因而单倍型之间的谱系关系可以用多种不同的图示表示，如cladogram，phylogram或haplotypic tree。当有重组和基因水平转移是树状图不能很好地表达他们之间的关系，这种情况下用网络更好。,最小生成网络法,最小生成网络法（minimum-spanning network，MSN），软件包ARLEQUIN V2.0中有此算法（Schneider等，2000）。这是一种从成对单倍型之间的距离矩阵中构建最小生成树（minimum-spanning tree，MST）的算法（Rohlf，1973）经过改进以在一个图上包含所有可能的MST的方法（Excoffier and Smouse

25、，1994）。多个最小生成树只在取样的单倍型之间才有连接，没有推论未取样单倍型的能力。,统计简约法TCS,统计简约法（statistical parsimony），Templeton等，1992。软件包TCS V1.13（Clement等，2000）中有此算法。该法首先寻找未校正的距离中不低于5%的概率（称为简约上限，parsimony limit）违反简约性原则的距离，接着从具有最小距离的单倍型开始迭代地建立各单倍型之间地连接，直到所有的单倍型都连上，或者对应于简约上限距离的单倍型连通上为止。尽管应用TCS可以推论遗失的单倍型节点，但在文献中还没有正式的描述推论的算法。,中值连接法,中值连接

26、法（median-joining network，MJN），软件包NETWORKS V2.0（Bandelt等，1999）中有此算法。该法首先将所有的MSTs根据类似于Excoffier and Smouse（1994）提出的算法联合在单一网络上（MSN），接着应用简约性标准推论出MSN上遗失的单倍型节点并将其添加到MSN上，以使MSN的总树长最小。,最简约树联合法,最简约树联合法（union of most parsimonious trees，UMP），由Cassens等（2005）提出。该法需要二个连续的步骤，首先，采用MP法分析数据并保存MPT及其分支长度信息；接着使用下述算法将所有保

27、存的MPTs联合在一个图上。算法是：将所有MPTs连通到单一网络上；将不同MPTs上具有相同的分枝、单倍型或分枝单倍型（无论是取样的单倍型还是推论的单倍型）合并，在这个过程中，从一棵或多棵MPTs上获得的独特的谱系路径的环（cycles）仍然维持不变。,基因谱系的应用,（1）基因谱系可以用于检验自然选择作用（2）中性理论的检验（3）基因流估计（4）从基因谱系推论群体进化（5）从基因谱系推论群体参数,基因谱系应用的理论基础,哈迪-温伯格（Hardy-Wenberg equilibrium）中性理论（neutral theory）溯祖理论（coalescent theory）,判断群体分化,Pon

28、s and Petit（1996）提出了利用DNA序列数据判断群体分化的方法：从DNA序列中计算出Gst和Nst二个参数，Gst仅考虑单倍型频率，而Nst考虑单倍型之间的相似性，数据集中有显著遗传分化发生可以通过比较Nst接近于0来检验，而Gst和Nst差异的统计学显著性提供了单倍型的系统发育及其地理分布信息，即当NstGst时，有着密切相关的单倍型多在同一群体而不是不同群体中存在。,单倍型谱系与地理分布的关系,单倍型谱系树：根据单倍型的序列信息建立的基因树。单倍型的地理分布：识别出的单倍型在地理空间的分布式样。如果单倍型树与地理分布一致，则NstGst。如果单倍型之间没有特定的关系，则Nst

29、Gst。如果关系密切的单倍型之间不在相同分布区域的群体中出现，则NstGst。,基因流估计,传统方法是应用等位酶、SSR等无序分子标记，在中性模型下（假定群体处于基因流和漂变作用的平衡状态）计算群体遗传结构相关参数进行间接估计。群体等位基因的地理变异被用于计算联合参数Nm（作为群体之间每世代迁移个体的平均数）。Nm大于1表示基因流的效应大于漂变的效应，Nm小于1说明基因流受到限制，或无基因流。,基因流估计,Templeton法常称为嵌套进化枝分析（nested clade analysis），该法将地理分布信息叠加到基因谱系上，采用严密的统计学方法来检验地理分布与基因谱系的关联强度，并由此来解

30、释造成这种原因的进化过程。具体做法是：首先，采用统计简约法建立无根支序图（cladogram），从这个基因树上可以形成一系列的嵌套的进化枝。然后，将地理信息叠加到支序图上，计算出进化枝距离（clade distance，Dc）和嵌套进化枝距离（nested clade distance，Dn）。进化枝距离Dc是从进化枝地理中心到各进化枝成员的平均空间距离（km），而嵌套进化枝距离是嵌套进化枝地理中心到嵌套进化枝各成员之间的平均空间距离。最后，采用排列检验（permutation test）确定对这种模式的支持度。,从基因谱系估计群口历史,Grant and Bowen（1998）通过比较mtD

31、NA单倍型和核苷酸多态性（nucleotide diversity）作为估算群口历史（demographic）的方法,5.种界确定,种界确定问题,系统生物学的两大主要任务就是为物种定界和重建它们的系统发育关系。超越主观判断，发展种界确定的客观操作方法一直都是一个挑战。传统分类学家用宏观的形态学数据来为物种定界；之后随着分子生物学技术的发展，分子数据也逐步应用到种界确定上来，最近，很多研究提出了用DNA序列数据来检验传统的、形态学上的分类，尤其是线粒体DNA（mtDNA）的分析。,种界确定的分子方法分类,不依赖于系统树的方法：（1）杂交带屏障法（2）遗传距离与地理距离关联法（3）绝对遗传距离法（

32、4）重组域法（5）群体聚集分析依赖于系统树的方法：（6）分支单倍型聚集法（7）谱系排它性标准（8）内聚性检验法,遗传距离与地理距离关联法,Good与Wake所提出的方法是直接根据“遗传距离-地理距离图”来检测物种界限。这里的遗传距离根据异型酶座位来计算。在该方法中需要对取样样本进行两两比较，在“遗传距离-地理距离直角坐标系”上标出每对比较的结果，然后对所得到的结果做拟合趋势线。若拟合趋势线过坐标原点，则表明基因交流的程度和地理距离相关，取样样本可被认为是同一物种；相反，若拟合趋势线严重偏离坐标原点，则表明样本相互之间基因交流程度与地理距离之间的分歧度不同，取样样本可能包含了多个物种。在用这种方

33、法时可以事先在总样本内定义几个子集，这样在总样本包含多个物种时同时可以检测出哪些样本属于同一物种。,Good&Wake的遗传距离法。(a)表示取样样本之间两两比较的遗传距离-地理距离散点图；(b)表示事先定义的两个子集A、B内部的拟合趋势线；(c)表示所有样本整体散点图的拟合趋势线。根据Good&Wake的观点，子集A、B分别为独立的物种，整体取样包含多个物种。,绝对遗传距离法,Highton于1990年提出了另一个根据遗传距离来为物种定界的方法。该方法不考虑地理距离，而是从样本之间的遗传距离的分布频率来为物种定界。Highton认为样本之间的遗传距离是由不同程度的生殖隔离所产生的，并指出Ne

34、i D0.15时所比较的两个样本属于同一物种，而Nei D0.15时则认为该属于不同的物种。这个观点可以通过D距离的分布频率柱状图来进行直观判断。若取样样本D值频率分布只在Nei D0.15有一个峰值，则可认为取样样本属于同一物种；相反，若D值频率分布在Nei D0.15和Nei D0.15处分别有一个峰值，即分布图为双峰是则认为取样样本包含不止一个物种。,Highton的遗传距离法。若结果只有黑线所表示的一个峰值，则所有取样样本是一个物种；而若结果如整个图所示的那样有两个峰值则表明取样样本不止包含一个物种。,重组域法（Field for Recombination,FFR）,重组域法是Doy

35、le于1995年提出的根据等位基因的异质性是否连续来为物种定界的一种方法。该方法认为有性生殖物种种界与等位基因重组范围是一致的。这个方法识别取样样本之间的一个给定座位等位基因差异是否连续。Doyle认为若样本间等位基因有重叠则表明相互之间有基因交流，在同一个体中同时存在的等位基因属于同一等位基因库，拥有同一等位基因库中的等位基因的样本属于同一个物种。为了使检验的种界更好地和真实种界吻合，可以同时考察多个座位的重组域，然后综合不同座位重组域的划分情况来综合考虑种界的划分。,重组域方法。（a）表示使用单座位为物种定界，样本1、2、3、4、5属于同一物种，6、7、8属于另一物种。（b）表示联合考虑两

36、个座位为物种定界，座位1划分出3个不同重组域，座位2也划分出3个不同重组域，但它们所划分的界限并非一致，综合分析这7个样本分属两个物种。,杂交带屏障法（Hybrid Zone Barrier,HZB）,该方法首先是由Porter提出的，主要用来检测同域物种之间的种界。该方法依赖于基因流动和遗传变异（异型酶技术）之间的平衡关系：Nm(1-FST)/4FSTPorter指出，Nm能合理地评估基因交流，并给出了Nm值、基因流动、种界确定三者之间的关系：当Nm0.5时则可认为取样样本属于同一物种。其中，Nm1.0表明基因交流很频繁，是造成样本之间遗传相似性的主要原因；0.5Nm1.0表明样本之间的基因

37、交流很弱，但也足够允许选择偏向性等位基因的快速交换了。当Nm0.5时,同域样本之间几乎或完全遗传隔离,取样样本被认为包含了互相独立的多个物种。,谱系排他性方法,由Baum和Shaw于1995年提出。在概念上系谱排他方法起源于溯祖理论（coalescent theory）。溯祖理论关注于追踪遗传变异现存样本的系谱历史，并经常应用于表征有性物种的多个非连锁座位上。因此，我们可以推断，当系谱有机体分歧时间足够长时，通过中性选择，非连锁基因应该获得与谱系历史相协调的特征，而若系谱有机体之间是杂交遗传那么它们之间将不可能达到这个协调。在应用过程中，这个方法需要重建非连锁座位的基因谱系，然后根据每个座位的谱系关系建立一棵严格合一树来定义它们之间的和谐之处。物种通过合一树的排外节点来定义。,谱系排他性方法。f-k是一个排外分枝，可定义为一个物种。,

展开阅读全文