第十一章多元统计分析.ppt

资源描述

《第十一章多元统计分析.ppt》由会员分享，可在线阅读，更多相关《第十一章多元统计分析.ppt（68页珍藏版）》请在三一办公上搜索。

1、第十一章多元统计分析,什么是多元统计分析？能够分析多个指标、多个变量集合之间关系以及这些变量个体之间关系的统计方法。,可归结为两类问题：1）解决研究对象的归属问题聚类分析、判别分析2）降低变量维数、变量独立性主成分分析、因子分析、典型相关分析,第一节聚类分析,线粒体夏娃学说出自2个实验室的研究成果，即埃摩里大学的道格拉斯华莱士（DouglasWallace）和他的同事的实验室和伯克利加利福尼亚大学的阿伦威尔逊（AllanWilson）和他的同事的实验室，他们仔细检查细胞内叫做线粒体的细小器官中的遗传物质脱氧核糖核酸（DNA）。当人类新的胚胎形成，胚胎细胞的线粒体只来自卵子，因此线

2、粒体DNA只由母系遗传。,夏娃学说,由于一些技术上的原因，线粒体DNA特别适合经过一代代的追溯去探究进化的过程。由于DNA是通过母系遗传的，因而追溯过程最后会导向一位单一的女性祖先。按照分析的结果，现代人可以追溯其祖先到大概15万年前住在非洲的一个女人。,夏娃学说引起了许多争议，但是随著遗传学技术的不断成熟，这些争议陆陆续续地尘埃落定。运用遗传学技术研究人类群体的进化，就是利用一些遗传标记来追溯人类群体起源迁移事件发生的大致时间及路线。,目前研究早期人类进化和迁移最理想的遗传标记，公认是Y染色体拟常染色体非重组区段的SNP标记（NRY）。这是由于人体内只存在一份父系遗传Y染色体非重组区，可以有

3、效地排除交换重组的混血干扰；同时SNP突变率低更能稳定地遗传，可以忠实地记录进化事件；再由于以单倍体存在的Y染色体，其有效群体大小只有常染色体位点的1/4，所以易产生人群特异性的单倍型。,2001年斯坦福大学的昂德希尔（Peter A.Underhill）等人利用变性高效液相层析技术（DHPLC），分析得到了218个 Y染色体非重组区（NRY）位点构成的131个单倍型，在对全球1,062个代表性个体考察结果显示明显的群体亲缘关系。这是目前遗传学技术发展的可用於人类进化和起源研究最多的遗传标记，通过对这218个NRY在全世界各地区代表群体中多态性分布清晰展示了现代人类的种群大致聚类树。,Y染色体

4、非重组区单倍型系统树2001，Stanford University，Peter A.Underhill,很显然，最早的分支都发生在非洲人群中，而後再分出欧洲和亚洲。美洲和澳洲的分化都发生在亚洲的分化之下。这说明人类从非洲人群分出欧洲和亚洲人群，美洲和澳洲人群又起源於亚洲人群。这就是与夏娃学说相印证的亚当学说。根据突变的速率计算出来的非洲人群分化出欧亚人群的大致时间是十多万年。,1、样本表示与相似性系数,Q矩阵Q型聚类,R矩阵R型聚类,如何计算相似矩阵的矩阵元？,对于样本中的两个同维向量：,1、数据的变换处理,所谓数据变换，就是将原始数据矩阵中的每个元素，按照某种特定的运算把它变成为一个新值，

5、而且数值的变化不依赖于原始数据集合中其它数据的新值。,(1)中心化变换,中心化变换是一种坐标轴平移处理方法，每列数据之和为0，这是一种很方便地计算方差与协方差的变换。,（2）极差规格化变换,经过规格化变换后，数据矩阵中每列即每个变量的最大数值为1，最小数值为0，其余数据取值均在01之间；并且变换后的数据都不再具有量纲，便于不同的变量之间的比较。,（3）标准化变换,经过标准化变换处理后，每个变量即数据矩阵中每列数据的平均值为0，方差为1，且也不再具有量纲，同样也便于不同变量之间的比较。,（4）对数变换对数变换是将各个原始数据取对数，将原始数据的对数值作为变换后的新值。即：,（5）指数变换,用来

6、衡量样本间（或特征间）相似性关系的两种系数：1）相似系数 2）相异系数,1）相似系数,相似系数：衡量全部样本或全部变量中任何两部分相似程度的指标。性质越接近的变量或样品，它们的相似系数越接近于1或 l；而彼此无关的变量或样品它们的相似系数则越接近于0，相似的为一类，不相似的为不同类。,（1）内积系数：,适用范围：量纲相同数据相差不大,结论：夹角越小，cos的值越接近1，两向量越相似。,（2）夹角余弦：,(3)方差-协方差（variance-covariance),对原始资料进行标准化：对内积的中心化处理。,（4）相关系数（correlation coefficient),是离差标准化后，两向

7、量的内积。思考：夹角cos与相关系数的关系？,（5）指数相似系数：,为第k个变量的方差,指数相似系数消除了不同变量的单位不同的影响，也消除了不同变量的自身变异不同的影响。,相似系数性质：,当且仅当XiaXj 时，cij1，其中Xi 和Xj 分别是第 i 样本和第 j 样本的观察值向量，a0为常数；,对于一切 Xi 和 Xj，|cij|1；,对于一切Xi和Xj，cijcji。,相异系数：衡量全部样本或全部变量中任何两部分相异程度的指标。将每一个样本看作 p 维空间的一个点，并用某种度量测量点与点之间的距离，距离较近的归为一类，距离较远的点应属于不同的类。,2）相异系数（距离系数）,样本和明氏距

8、离为：,g=1，绝对值距离g=2，欧氏距离g=，切比雪夫距离,(1)明氏距离(Minkowski明考夫斯基distance),缺点：明氏距离的值与各指标的量纲有关：各变量计量单位的不同使此距离的实际意义难以说清，距离的数值依赖于各变量计量单位的选择。没考虑各个变量之间的相关性和重要性：明考夫斯基距离是把各个变量都等同看待，将两个样品在各个变量上的离差简单地进行了综合。,(2)杰氏距离这是杰斐瑞和马突斯塔(Jffreys&Matusita)定义的一种距离：,(3)兰氏距离这是兰思和维廉姆斯(Lance&Williams)所给定的一种距离：这是一个自身标准化的量，由于它对大的奇异值不敏感，这样

9、使得它特别适合于高度偏倚的数据。没有考虑指标之间的相关性。,(4)马氏距离（又称为广义欧氏距离）这是印度著名统计学家马哈拉诺比斯(P.C.Mahalanobis)所定义的一种距离，其计算公式为：,这里,在实践应用中，若总体协方差矩阵未知，则可用样本协方差矩阵作为估计代替计算。,优点：考虑了观测变量之间的相关性。消除了各个观测指标不同量纲的影响。注意：如果各变量之间相互独立，观测变量的协方差矩阵是对角矩阵。在聚类时用各个类的样本来计算各自的协方差矩阵。,（5）斜交空间距离,由于各变量之间往往存在相关性，用正交空间的距离来计算样本间的距离易变形，所以可以采用斜交空间距离：当各变量之间不相关时，斜交

10、空间退化为欧氏距离。rlk 是数据标准化下样本l与k的相关系数。,（6）Orloci距离,这里和分别是第 i 样本和第 j 样本向量的模。,（7）发散性系数,（8）堪培拉距离,z为两事例同一变量的观察值都是0的变量数,（9）不匹配百分率,p1：两样本的观察值相同的变量数。p2：两事例的观察值不同的变量数。p1p2p：变量总数。不匹配系数：两事例观察值不同的变量占总变量数的比重。一般用于指标变量。,性质：,2、聚类分析,根据一批样品的许多观测指标，按照一定的数学公式具体地计算一些样品或一些参数（指标）的相似程度，把相似的样品或指标归为一类。,1、规定样品之间的距离dij，共有个。将列表记

11、为 D(0)表，该表是一张对称表。,2、选择 D(0)表中最小的非零数，不妨假设dpq，于是将Gp和Gq合并为一类，记Gr=Gp,Gq。,3、利用递推公式计算新类与其它类之间的距离。分别删除D(0)表的第p，q行和第p，q列，并新增一行和一列添上的结果，产生D(1)表。,（一）聚类方法,D(0)表,1、最长距离法,（二）常用的聚类方法,【例】设抽取五个样品，每个样品只有一个变量，它们是1，2，3.5，7，9。,G6与G3，G4和G5的距离如何计算？d(6,3)=maxd(1,3),d(2,3)=2.5,2、类平均法,两类间样品的绝对距离的平均数。,两类间样品的平方距离的平均数。,【例】：采用

12、绝对距离平均计算距离矩阵：,d=e=10/2=5,c=19/2=9.5g=c-d=9.5-5=4.5,Distance(C,DE)=(18+20)/2=19,a=b=22/2=11,f1+a=f2+c=40.5/2=20.25f1=9.25,f2=11.75,a=b=22/2=11,c=19/2=9.5g=c-d=9.5-5=4.5,3、重心法,4、最短距离法,5、离差平方和法,以上聚类方法的计算步骤完全相同，仅类与类之间的距离定义不同。Lance和Williams于1967年将其统一为：,（三）聚类方法选择,最短距离法比较简单，使用较多，但该方法使得空间收缩。最长距离法与最短距离法正好相反，

13、合并后产生空间扩张。重心法较好，但计算繁琐，且没有充分利用样本信息。最常用类平均法。,（四）系统聚类的主要步骤,1、选择变量（1）和聚类分析的目的密切相关（2）反映要分类变量的特征（3）在不同研究对象上的值有明显的差异（4）变量之间不能高度相关,2、计算相似性相似性是聚类分析中的基本概念，他反映了研究对象之间的亲疏程度，聚类分析就是根据对象之间的相似性来分类的。,3、聚类选定了聚类的变量，计算出样品或指标之间的相似程度后，构成了一个相似程度的矩阵。这时主要涉及两个问题：（1）选择聚类的方法（2）确定形成的类数,4、聚类结果的解释和证实对聚类结果进行解释是希望对各个类的特征进行准确的描述，

14、给每类起一个合适的名称。这一步可以借助各种描述性统计量进行分析，通常的做法是计算各类在各聚类变量上的均值，对均值进行比较，还可以解释各类区别的原因。,聚类注意事项：(1)变量之间的聚类：常用相似系数来测度(2)样品之间的聚类：常用距离来测度(3)对大样本的聚类问题，不适宜选择斜交空间距离(4)如若在进行聚类分析之前已经对变量的相关性作了处理，则通常就可采用欧氏距离(5)若选用离差平方和法，则距离只能选用欧氏距离。,其它聚类方法：动态聚类：一种比较成功的聚类方法。然而当样本点数量十分庞大时，则是一件非常繁重的工作，且聚类的计算速度也比较慢。模糊聚类：模糊数学图论聚类：图论信息聚类：信息论,小结,聚类分析是一种探索性技术，对于同一问题，可获得多种结果，解释需要结合专业知识。,

展开阅读全文