《典型相关》课件.ppt_三一办公31ppt.com

资源描述

《《典型相关》课件.ppt》由会员分享，可在线阅读，更多相关《《典型相关》课件.ppt（135页珍藏版）》请在三一办公上搜索。

1、Canonical Correlation Analysis,典型相关分析,引言,典型相关分析是研究两组变量之间相关关系的一种统计方法。在科学研究中常需要分析一组个指标与另一组个指标的相关关系，简单的方法两两指标间分别统计简单相关关系，得到个相关系数，用这些相关系数反映两组变量间的关系。但这样做即繁琐又抓不住要领。更有效的方法是类似主成分分析，考虑每组变量的线性组合，从这两族线性组合中找出最相关的组合变量，通过少数几个综合变量来反映两组变量间的相关关系，这样就可以抓住它们的主要关系，而且简明。这就是典型相关分析的基本思想。,1.两个随机变量Y与X 简单相关系数2.一个随机变量Y与一组随机变量X

2、1,X2,Xp 多重相关(复相关系数)3.一组随机变量Y1，Y2，Yq与另一组随机变量X1，X2，Xp 典型(则)相关系数,何时采用典型相关分析,典型相关分析示意图,X1,Y1,Y2,Y3,Y4,Y5,X2,X3,X4,X5,X6,X,Y,U1U2U3U4U5,V1V2V3V4V5,CanR1CanR2CanR3CanR4CanR5,典型相关和典型相关变量的定义,典型相关变量的一般求法,第一对典型相关变量的求法,典型相关变量的性质,例子（数据tv.txt),业内人士和观众对于一些电视节目的观点有什么样的关系呢？该数据是不同的人群对30个电视节目所作的平均评分。观众评分来自低学历(led)、高学

3、历(hed)和网络(net)调查三种,它们形成第一组变量；而业内人士分评分来自包括演员和导演在内的艺术家(arti)、发行(com)与业内各部门主管(man)三种，形成第二组变量。人们对这样两组变量之间的关系感到兴趣。,计算结果,下面一个表给出了特征根(Eigenvalue)，特征根所占的百分比(Pct)和累积百分比(Cum.Pct)和典型相关系数(Canon Cor)及其平方(Sq.Cor)。看来，头两对典型变量(V,W)的累积特征根已经占了总量的99.427%。它们的典型相关系数也都在0.95之上。,计算结果,对于众多的计算机输出挑出一些来介绍。下面表格给出的是第一组变量相应于上面三个特征

4、根的三个典型变量V1、V2和V3的系数，即典型系数(canonical coefficient)。这些系数以两种方式给出；一种是没有标准化的原始变量的线性组合的典型系数(raw canonical coefficient)，一种是标准化之后的典型系数(standardized canonical coefficient)。标准化的典型系数直观上对典型变量的构成给人以更加清楚的印象。,可以看出，头一个典型变量V1相应于前面第一个（也是最重要的）特征值，主要代表高学历变量hed；而相应于前面第二个（次要的）特征值的第二个典型变量V2主要代表低学历变量led和部分的网民变量net，但高学历变量在这里

5、起负面作用。,计算结果,类似地，也可以得到被称为协变量(covariate)的标准化的第二组变量的相应于头三个特征值得三个典型变量W1、W2和W2的系数：。,例子结论,从这两个表中可以看出，V1主要和变量hed相关，而V2主要和led及net相关；W1主要和变量arti及man相关，而W2主要和com相关；这和它们的典型系数是一致的。由于V1和W1最相关，这说明V1所代表的高学历观众和W1所主要代表的艺术家(arti)及各部门经理(man)观点相关；而由于V2和W2也相关，这说明V2所代表的低学历(led)及以年轻人为主的网民(net)观众和W2所主要代表的看重经济效益的发行人(com)观点相

6、关，但远远不如V1和W1的相关那么显著（根据特征值的贡献率）。,（二）典型相关系数计算实例,求X，Y变量组的相关阵R=,1985年中国28 省市城市男生(1922岁)的调查数据。记形态指标身高(cm)、坐高、体重(kg)、胸围、肩宽、盆骨宽分别为X1，X2，X6；机能指标脉搏(次/分)、收缩压(mmHg)、舒张压(变音)、舒张压(消音)、肺活量(ml)分别为Y1，Y2，Y5。现欲研究这两组变量之间的相关性。,简单相关系数矩阵,Corr（X）R11,Corr（Y）R22,Corr（Y，X）R21,Corr（X，Y）R12,简单相关系数公式符号,Corr（X）R11,Corr（Y）R22,Corr

7、（Y，X）R21,Corr（X，Y）R12,（一）求解典型相关系数的步骤,求X，Y变量组的相关阵R=求矩阵A、B 可以证明A、B有相同的非零特征根3.求A或B的i（相关平方）与CanRi，i1,m4.求A、B关于i的特征根向量即变量系数,2.求矩阵A、B,A矩阵(pp),B矩阵(qq),3.求矩阵A、B的（相关系数的平方）,A、B有相同的非零特征值,B矩阵求（典型相关系数的平方）,5个与典型相关系数,4.求A、B关于i的变量系数（求解第1典型变量系数）,求解第2典型变量系数,求解第5典型变量系数,5组（标准化）典型变量系数(X),5组（标准化）典型变量系数(X),由标准化典型变量系数获得原变量

8、X对应的粗典型变量系数,粗典型变量系数可由标准典型变量系数与相应的标准差之比获得。,5组（标准化）典型变量系数(Y),（三）典型相关系数的特点,两变量组的变量单位改变，典型相关系数不变，但典型变量系数改变。（无论原变量标准化否，获得的典型相关系数不变）第一对典则相关系数较两组变量间任一个简单相关系数或复相关系数之绝对值都大，即CanR1max(|Corr(Xi,Yj)|)或CanR1max(|Corr(X,Yj)|)max(|Corr(Xi,Y)|),（四）校正典型相关系数（Adjusted Canonical Correlation）,为了使结果更加明了，增加大值或小值，减少之间大小的值，将

9、典型变量系数旋转，可得到校正的典型相关系数。缺点：1.可能影响max（U1,V1）；2.影响（U1,V1）与其他典型变量间的独立性。,（五）典型相关系数的标准误,（六）E1H的特征值（见典型判别、MANOVA，E误差项，H组间变异）,Eigenvalues of Inv(E)*H=CanRsq/(1-CanRsq),Eigenvalue Difference Proportion Cumulative 1 3.2422 2.0510 0.6546 0.6546 2 1.1912 0.8379 0.2405 0.8951 3 0.3533 0.2097 0.0713 0.9665 4 0.143

10、6 0.1212 0.0290 0.9955 5 0.0225 0.0045 1.0000,（七）典型相关系数的假设检验,全部总体典型相关系数均为0部分总体典型相关系数为0,1.全部总体典型相关系数为0,F近似检验（SAS结果）,Test of H0:The canonical correlations in the current row and all that follow are zeroLikelihood Approximate Ratio F Value Num DF Den DF Pr F1 0.06798466 2.24 30 70 0.00302 0.28840509 1.

11、38 20 60.649 0.16863 0.63195301 0.80 12 50.561 0.65044 0.85521598 0.54 6 40 0.77295 0.97803479 0.24 2 21 0.7920,F近似检验（计算公式）,多变量统计量与F近似检验,Multivariate Statistics and F ApproximationsStatistic Value F Value Num DF Den DF Pr FWilks Lambda 0.06798 2.24 30 70 0.0030Pillais Trace 1.71651 1.83 30 105 0.013

12、3Hotelling-Lawley Trace 4.95277 2.62 30 35.396 0.0032 Roys Greatest Root 3.24221 11.35 6 21.0001 NOTE:F Statistic for Roys Greatest Root is an upper boun.,多变量统计量的计算公式,2.部分总体典型相关系数为0仅对较小的典型相关作检验,卡方近似检验,部分总体F近似检验（计算公式）,与原变量间的相关程度和典型变量系数有关。,典型变量与原变量的亲疏关系,原变量与自已的典则变量原变量与对方的典则变量之间的相关系数。,三、典型结构分析,原变量在典型变

13、量上的负荷(即原变量与典型变量间的相关系数),三、典型结构分析,负荷矩阵的表达,左上角的矩阵 X1=0.9050U1-0.0806U2+0.3777U3-0.1487U4+0.0887U5 X2=0.8616U1+0.0112U2+0.4152U3-0.0360U4+0.2412U5X6,右下角的矩阵 Y1=-0.4130 V1-0.0848V2+0.7353V3+0.4530V4+0.2764V5 Y2=0.4533V1+0.8452V2+0.0968V3+0.1433V4+0.2240V5.Y5,各典型变量的意义解释,等于该变量与自己这方典则变量的相关系数与典则相关系数的乘积,原变量与对方

14、典型变量的相关,原变量与对方典型变量的相关,右上角和左下角反映了原变量和对方的典型变量间关系，为利用对方的典型变量来预测原变量(回归)提供依据,四、典型变量的冗余分析（Canonical Redundancy Analysis）,该方法由Stewart and Love 1968;Cooley and Lohnes 1971;van den Wollenberg 1977)发展。以原变量与典型变量间相关为基础。通过计算X、Y变量组由自己的典型变量解释与由对方的典型变量解释的方差百分比与累计百分比，反映由典型变量预测原变量的程度。,X原变量的相关被典型变量解释的百分比,Y原变量的相关被典型变量解

15、释的百分比,U1，U2，U5并没有完全概括X变量的全部信息（97.24），而V1，V2，V5 却概括了Y变量的全部信息（100）；V1，V2，V5中仅蕴含X变量信息的48.44%，而U1，U2，U5中仅蕴含Y变量信息的43.96%。,实例冗余分析的解释,五、基于典型变量的回归,SAS输出结果,Squared Multiple Correlations Between the VAR Variables and the First M Canonical Variables of the WITH Variables M 1 2 3 4 5 X1 0.6260 0.6296 0.6668 0.6

16、696 0.6697 X2 0.5674 0.5674 0.6124 0.6126 0.6139 X3 0.6697 0.6846 0.6852 0.6960 0.6960X4 0.3701 0.4253 0.5010 0.5138 0.5142 X5 0.0141 0.1684 0.1687 0.1758 0.1878 X6 0.0452 0.1511 0.1515 0.2217 0.2251 Squared Multiple Correlations Between the WITH Variables and the First M Canonical Variables of the

17、VAR VariablesM 1 2 3 4 5Y1 0.1303 0.1342 0.2754 0.3012 0.3028Y2 0.1571 0.5454 0.5479 0.5505 0.5516Y3 0.3366 0.3612 0.3626 0.3634 0.3745Y4 0.2503 0.2512 0.2582 0.3129 0.3175Y5 0.6390 0.6391 0.6438 0.6493 0.6516,用对方典型变量V解释原X变量的确定系数,用对方典型变量U解释原Y变量的确定系数,九、SAS计算程序,PROC CANCORR ALL VPREFIX=u WPREFIX=v OUT

18、=b1 OUTSTAT=b2;VAR x1 x2 x3 x4 x5;WITH y1 y2 y3 y4 y5 y6;RUN;,健身俱乐部生理量测量资料与运动表现成绩之相关性分析,x1:体重(磅)(Weight)x2:腰围(英吋)(Waist)x3:每分钟脈博跳动次数(Pulse)y1:拉单杠次数(Chins)y2:仰臥起坐次数(Situps)y3:跳跃次数(Jumps),生理与运动表現资料,SAS过程,vprefix=PHYS vname=Physiological Measurementswprefix=EXER wname=Exercises;var weight waist pulse;w

19、ith chins situps jumps;run;,data fit;,input weight waist pulse chins situps jumps;,cards;,(数据略),proc cancorr data=fit all；,例.某健身房对20个中年人测量三个生理变量：WEIGHT(体重)、WAIST(腰围)、PULSE(脉膊)和三个训练变量：CHIWS(引体向上)、SITVPS(起坐次数)、JVMPS(跳跃次数).试分析这两组变量间的相关性.为此，我们可采用下述SAS程序data fit;input weight waist pulse chins situps jump

20、s;cards;(数据略);proc cancorr data=fit all;/*PROC CANCORR 语句指示SAS对数据集FIT作典型相关分析，其中ALL选项要求输出所有计算结果*/var weight waist pulse;/*varwith给出前后两组分析变量*/with chins situps jumps;run;,SASMeans and Standard Deviations3 Physiological Measurements3 Exercises20 Observations,SAS同一种类的原始变量的相关Correlations Among the Origin

21、al VariablesCorrelations Among the Physiological Measurements,SAS同一种类(运动)的原始变量的相关,相关矩陣中不同組间絕对值最大相关为腰围(x2)与仰臥起坐(y2)，其相关系数是0.6456，但x組內最大相关是体重(x1)与腰围圍(x2)的0.8702，而y組內最大相关是y1与y2的0.6957最大典型相关為 r1=0.7956，但P值=0.0635未达显著水平，第二組典型相关为r2=0.2006，第三典型相关为r3=0.07257单位不同因此以标准化资料较合适,典型相关的解釋,典型相关的解釋,X組的第一組典型变量 1-0.775

22、4X1+1.5793X2-0.0591X3系数的正负值应与相关系数相同，否則该变量称为suppressor variable体重变量(X1)的问题Y組的第一組典型变量 1-0.3495Y1 1.0540Y2+0.7164Y3 跳跃变量(Y3)的问题,典型相关的解釋,第一組典型变异解釋對方变量之变异比例分別为0.2854与0.2584运动变量的第一組典型变量对体重的解釋能力为0.2438，对腰圍的解釋能力为0.5421，对脈搏的解釋能力为0.0701生理变量(x組)的第一組典型变量对拉单杠的预测能力是0.3351，对仰臥起坐的预测能力是0.4233，对跳跃次数预测能力只有0.0167,典型相关結

23、果摘要表,典型变量的特征值与典型相关,y組典型变量权与负荷,x組典型变量权重与负荷,解释变异百分比,重叠系数,可以研究的課題,智能表現(語文、數理)與體能(健康體能、運動體能)的相關研究智商(有多的面向)與情緒智商(有多的面向)的相關研究問卷調查結果間的相關研究？,利用分析员应用系统进行典型相关分析,SolutionnalysisAnalyst(出现空白数据表)FileOpen By Sas Name(在Make one selection窗口中)work 选中数据名(数据data fit见V8文件)(OK)Statistics MultivariateCanonical Correlatio

24、n进入典型相关分析主窗口Canonical Correlation第一组原始变量weight,vaist,pulseSet 1 第二组原始变量chine,situps,jumpsSet 2OK,七、典型判别的思想,设有分别来自q2个总体的q份样本，每份样本都有关于X1，X2，Xp的观察值，p q，样本量为ni，i=1，2，q。现欲以此为训练样本，从中学习出判别规则。,定义q-1个类别变量Y1，Y2，Yq-1，它们取值0或1，而且规定q个类别与Y1，Y2，Yq-1的取值对应如下:,第i对标准化典型变量与典型判别函数,典型判别的步骤,八、简单实例计算,简单实例计算,1.计算简单相关矩阵,简单实例计

25、算,2.计算A、B矩阵,简单实例（P293页9.2题）计算,3.计算A、B矩阵的特征值i，即得典型相关系数的平方,A、B有相同的非零特征值分别为：0.623096，0.006679,简单实例（P293页9.2题）计算,4.计算典型相关系数及其标准误,典型相关系数的标准误分别为：0.076935，0.202761,典型相关系数为：0.789364，0.081723,5.E-1H的特征值,分别为：1.6532,0.0067,6.似然比统计量及其F检验（即典型相关系数的假设检验）,Test of H0:The canonical correlations in the current row and

26、 all Eigenvalues of Inv(E)*H that follow are zero=CanRsq/(1-CanRsq)Likelihood Approximate Eigenvalue Difference Proportion Cumulative Ratio F Value Num DF Den DF Pr F 1 1.6532 1.6465 0.9959 0.9959 0.37438667 6.66 4 42 0.0003 2 0.0067 0.0041 1.0000 0.99332139 0.15 1 22 0.7042,7.典型相关系数的多变量统计量及其假设检验,Mu

27、ltivariate Statistics and F Approximations Statistic Value F Value Num DF Den DF Pr F Wilks Lambda 0.37438667 6.66 4 42 0.0003 Pillais Trace 0.62977475 5.06 4 44 0.0019 Hotelling-Lawley Trace 1.65991998 8.60 4 24.198 0.0002 Roys Greatest Root 1.65319646 18.19 2 22.0001 NOTE:F Statistic for Roys Grea

28、test Root is an upper bound.NOTE:F Statistic for Wilks Lambda is exact.,简单实例（P293页9.2题）计算,8.求A、B关于i的特征向量，即典型变量系数,Canonical Correlation Analysis Standardized Canonical Coefficients for the VAR Variables u1 u2 x1 0.5667-1.3604 x2 0.5069 1.3838 Standardized Canonical Coefficients for the WITH Variables

29、 v1 v2 y1 0.5184-1.7857 y2 0.5233 1.7842,矩阵A的第1特征值为0.623096,简单实例（P293页9.2题）计算,典型变量的表达式,9.典型结构分析（可观察典型变量的意义）,u1 u2 x1 0.9390-0.3439 x2 0.9231 0.3845 v1 v2 y1 0.9596-0.2814 y2 0.9604 0.2788 v1 v2 x1 0.7412-0.0281 x2 0.7287 0.0314 u1 u2 y1 0.7575-0.0230 y2 0.7581 0.0228,10.冗余分析（对方典型变量可解释的信息）,Canonical

30、Redundancy Analysis Standardized Variance of the VAR Variables Explained by Their Own The Opposite Canonical Variables Canonical Variables Canonical Variable Cumulative Canonical Cumulative Number Proportion Proportion R-Square Proportion ProportionX 1 0.8669 0.8669 0.6231 0.5402 0.5402 2 0.1331 1.0

31、000 0.0067 0.0009 0.5411 Y 1 0.9215 0.9215 0.6231 0.5742 0.5742 2 0.0785 1.0000 0.0067 0.0005 0.5747,11.基于典型变量回归的确定系数,Squared Multiple Correlations Between the VAR Variables and the First M Canonical Variables of the WITH Variables M 1 2 x1 0.5494 0.5502 x2 0.5310 0.5320 M 1 2 y1 0.5737 0.5743 y2 0.

32、5747 0.5752,九、SAS计算程序（1）,PROC CANCORR ALL VPREFIX=u WPREFIX=v OUT=b1 OUTSTAT=b2;VAR x1 x2;WITH y1 y2;RUN;,九、SAS计算程序（2）,DATA canocorr(TYPE=CORR);INPUT _NAME_$x1 x2 y1 y2;_ TYPE_=CORR;CARDS;x110.734560.719150.70398x20.7345610.690380.70855y10.719150.6903810.84307y20.703980.708550.843071;PROC CANCORR DATA=canocorr ALL EDF=24;*EDF=n-1;VAR x1 x2;WITH y1 y2;RUN;,谢谢！,

展开阅读全文