应用多元统嫛分析.ppt

上传人:牧羊曲112 文档编号:5723437 上传时间:2023-08-14 格式:PPT 页数:57 大小:685.50KB
返回 下载 相关 举报
应用多元统嫛分析.ppt_第1页
第1页 / 共57页
应用多元统嫛分析.ppt_第2页
第2页 / 共57页
应用多元统嫛分析.ppt_第3页
第3页 / 共57页
应用多元统嫛分析.ppt_第4页
第4页 / 共57页
应用多元统嫛分析.ppt_第5页
第5页 / 共57页
点击查看更多>>
资源描述

《应用多元统嫛分析.ppt》由会员分享,可在线阅读,更多相关《应用多元统嫛分析.ppt(57页珍藏版)》请在三一办公上搜索。

1、1,应用多元统计分析,第十章 典型相关分析,2,第十章 典型相关分析目 录,10.1 总体典型相关10.2 样本典型相关10.3 典型冗余分析,3,第十章 典型相关分析,相关分析是研究多个变量与多个变量之间的相关关系.如研究两个随机变量之间的相关关系可用简单相关系数表示;研究一个随机变量与多个随机变量之间的相关关系可用全相关系数表示.1936年Hotelling首先将相关分析推广到研究多个随机变量与多个随机变量之间的相关关系,故而产生了典型相关分析,广义相关系数等一些有用的方法.,4,第十章 典型相关分析 什么是典型相关分析,在实际问题中,经常遇到要研究一部分变量和另一部分变量之间的相关关系,

2、例如:在工业中,考察原料的主要质量指标(X1,.,Xp)与产品的主要质量指标(Y1,.,Yq)间的相关性;在经济学中,研究主要肉类的价格与销售量之间的相关性;在地质学中,为研究岩石形成的成因关系,考察岩石的化学成份与其周围围岩化学成份的相关性;在气象学中为分析预报24小时后天气的可靠程度,研究当天和前一天气象因子间的相关关系;,5,第十章 典型相关分析 什么是典型相关分析,在教育学中,研究学生在高考的各科成绩与高二年级各主科成绩间的相关关系;在婚姻的研究中,考察小伙子对追求姑娘的主要指标与姑娘想往的小伙子的主要尺度之间的相关关系;在医学中,研究患某种疾病病人的各种症状程度与用科学方法检查的一些

3、结果之间的相关关系;在体育学中,研究运动员的体力测试指标与运动能力指标之间的相关关系等.,6,第十章 典型相关分析 什么是典型相关分析,一般地,假设有一组变量X1,.,Xp 与另一组变量Y1,.,Yq(也可以记为Xp+1,.,Xp+q),我们要研究这两组变量的相关关系,如何给两组变量之间的相关性以数量的描述,这就是本章研究的典型相关分析.当p=q=1时,就是研究两个变量X与Y之间的相关关系.简单相关系数是最常见的度量.其定义为,7,第十章 典型相关分析 什么是典型相关分析,当p 1,q=1时(或 q 1,p=1),设,则称,为Y与(X1,Xp)的 全相关系数.,其实Y对X的回归为,且,并称R为

4、全相关系数.,def=,8,第十章 典型相关分析 什么是典型相关分析,当p,q1时,利用主成分分析的思想,可以把多个变量与多个变量之间的相关化为两个新变量之间的相关.也就是求=(1,p)和=(1,q),使得新变量:V=1X1+pXp=X W=1Y1+qYq=Y之间有最大可能的相关,基于这个思想就产生了典型相关分析(Canonical correlatinal analysis).,9,第十章10.1 总体典型相关,设X=(X1,.,Xp)及Y=(Y1,.,Yq)为随机向量(不妨设pq),记随机向量,Z=,XY,Z的协差阵为,其中 11是X的协差阵,22是Y的协差阵,12=21是X,Y的协差阵.

5、,10,第十章10.1 总体典型相关,我们用X和Y的线性组合V=aX和W=bY之间的相关来研究X和Y之间的相关.我们希望找到a和b,使(V,W)最大.由相关系数的定义:,又已知,11,第十章10.1 总体典型相关,故有,对任给常数c1,c2,d1,d2,显然有(c1V+d1,c2W+d2)=(V,W)即使得相关系数最大的V=aX和W=bX并不唯 一.故加附加约束条件 Var(V)=a11 a=1,Var(W)=b22 b=1.,问题化为在约束条件Var(V)=1,Var(W)=1下,求a和b,使得(V,W)=a12 b达最大.,12,第十章10.1 总体典型相关典型相关变量和典型相关系数的定义

6、,定义 设X=(X1,.,Xp)及Y=(Y1,.,Yq)为随机向量(不妨设pq),记Z=(X,Y).设随机向量 Z的均值为0,协差阵0.如果存在a1=(a11,alp)和b1=(b11,.,blq)使得,则称 a1 X,b1Y是X,Y的第一对典型相关变量,它们之间的相关系数称为第一个典型相关系数.,13,第十章10.1 总体典型相关典型相关变量和典型相关系数的定义,如果存在ar=(ar1,arp)和br=(br1,.,brq)使得(r=2,m;m=p):(1)arX,brY和前面r-1对典型变量都 不相关;(2)Var(arX)=1,Var(brY)=1;(3)Vr=arX,Wr=brY 的相

7、关系数最大.则称 Vr,Wr 为X,Y的第r对典型相关变量,它们之间的相关称为第r个典型相关系数.,14,第十章10.1 总体典型相关典型相关变量和典型相关系数的一般求法,典型相关变量和典型相关系数的一般求法,从第一对典型相关变量的解法中,我们知道求第一对典型相关变量和第一个典型相关系数的问题,就是求解TT的最大特征根和相应的特征向量.不仅如此,求解第r对典型相关变量和典型相关系数,类似地是求TT的第r个(从大到小排序的)特征根和相应特征向量.,15,第十章10.1 总体典型相关典型相关变量和典型相关系数的一般求法,定理 设Z=(X,Y),其中 X=(X1,.,Xp)为p维随机向量,Y=(Y1

8、,.,Yq)为q维随机向量,(不妨设pq).已知E(Z)=0,D(Z)=(0),记,定义,16,第十章10.1 总体典型相关典型相关变量和典型相关系数的一般求法,并设p阶方阵TT 的特征值依次为,相应的单位特征向量记为lk(k=1,2,p),则 Vk=akX,Wk=bkY为X,Y的第k对典型相关变量,k为第k个典型相关系数.,17,第十章10.1 总体典型相关典型相关变量的性质,性质(1):设Vi和Wi为X和Y的第i对典型相关变量(i=1,.,p).令V=(V1,.,Vp),W=(W1,Wp),则,这表明X的典型变量V1,.,Vp都是不相关的,Y的典型变量W1,.,Wp也都是不相关的;同时说明

9、Vi和Wj(ij)也是不相关的,而Vi和Wi是相关的,且相关系数为i.,其中,18,第十章10.1 总体典型相关典型相关变量的性质,性质(2):原始变量与典型变量的相关性 原始变量与典型变量之间的相关系数阵,也称为典型结构。令 V=(V1,.,Vp)=AX(A=(a1,ap),W=(W1,.Wp)=BY(B=(b1,bp),则 COV(X,V)=COV(X,AX)=11A,COV(X,W)=COV(X,BY)=12B,COV(Y,V)=COV(Y,AX)=21A,COV(Y,W)=COV(Y,BY)=22B.,19,第十章10.1 总体典型相关典型相关变量的性质,性质(3):设X和Y分别为p维

10、和q维随机向量,令X*=CX+d,Y*=GY+h;其中C为pp非退化阵,d为p1向量,G为qq非退化阵,h为q1的向量,则:X*和Y*的典型相关变量为(a*i)X*,(b*i)Y*,其中a*i=C-1ai,b*i=G-1bi(i=1,p)ai,bi是X和Y的第i对典型相关变量的系数.线性变换不改变相关性.即,(i=1,p),20,第十章10.1 总体典型相关例,已知标准化随机向量X=(X1,X2)和Y=(Y1,Y2)的相关阵R为,试求X,Y的典型相关变量和相关系数.解:,其中,21,第十章10.1 总体典型相关例,因,与,具有相同的特征值.且(1)2=42/(1+)(1+),2=0.M1 对应

11、于(1)2的单位特征向量为,22,第十章10.1 总体典型相关例,由上式求出c后,即得,类似可得,设a=(c,c)满足aR11a=1,或由下式得到:,23,第十章10.1 总体典型相关例,第一对典型相关变量为,24,第十章10.1 总体典型相关例,因|,这表明第一典型相关系数一般大于原来变量之间的相关系数:(Xi,Yj)=(i,j=1,2).,第一个典型相关系数为,25,第十章 10.1 总体典型相关例10.1.3,设Y是一个随机变量,X=(X1,Xq)是q-维随机向量(q 1),且已知,试计算Y与X这两组变量的第一对典型相关变量和第一个典型相关系数.,解:此例中第一组变量的个数p=1,第二组

12、变量的个数q1.这时1阶矩阵M1为,26,第十章 10.1 总体典型相关例10.1.3,显然M1的特征值为R2,对应的特征向量l=1.故第一典型相关系数1=R,且R就是Y与X的全相关系数.,设a满足:,由定理10.1.1,可知:,27,第十章 10.1 总体典型相关例10.1.3,第一对典型相关变量为,其中:,显然有:,28,第十章10.1 总体典型相关作业,练习1:试证明总体典型变量的 性质(3).习题十(P366-P368)10-1,,29,第十章10.2 样本典型相关,设总体Z=(X1,.,Xp,Y1,Yq).在实际问题中,总体的均值E(Z)=和协差阵D(Z)=通常是未知的,因而无法求得

13、总体的典型相关变量和典型相关系数.首先需要根据观测到的样本资料阵对其进行估计.已知总体Z的n个样品:,30,第十章10.2 样本典型相关,样本资料阵为,x11 x12 x1p y11 y12 y1qx21 x22 x2p y21 y22 y2q.xn1 xn2 xnp yn1 yn2 ynq,若假定ZN(,),则协差阵的最大似然估计为,Z(1)Z(2)=.Z(n),def=,*,31,第十章10.2 样本典型相关,我们从协差阵的最大似然估计S*(或样本协差阵S)出发,按上节的方法可以导出样本典型相关变量和样本典型相关系数.还可以证明样本典型相关变量和样本典型相关系数是总体典型相关变量和样本典型

14、相关系数的极大似然估计.也可以从样本相关阵R出发来导出样本典型相关变量和样本典型相关系数.设样本相关阵R=(rij),其中rij=sij/(sii sjj)1/2 sij为样本协差阵S的元素.,32,第十章10.2 样本典型相关,把R和S剖分为:,令,如记X,Y为原始随机向量,X*,Y*为标准化后的随机向量,则 X=D1 X*X*=D1-1 X Y=D2 Y*Y*=D2-1 Y,或,33,第十章10.2 样本典型相关,且 S11=D1 R11 D1 S22=D2 R22 D2 S12=D1 R12 D2 S21=D2 R21 D1,相应的单位正交特征向量为 lr(r=1,p),则,求TT的特征

15、值依次记为,令,34,第十章10.2 样本典型相关,为X*,Y*的第r对典型相关变量.由性质3可得,35,第十章10.2 样本典型相关,故而,为X,Y的第r对典型相关变量.如果由S 阵计算,则,36,第十章10.2 样本典型相关,Vr,Wr(r=1,2,p)为X,Y的第r对样本典型相关变量,r为第r个样本典型相关系数.当qp 时,可从TT矩阵(qq)出发,求特征值和单位特征向量,然后先求br,再得到ar(r=1,q).,37,第十章10.3 典型冗余分析,由样本观测数据阵Z计算样本协差阵S是总体协差阵的最大似然估计.由S阵求出样本典型变量后,进一步可以来计算原始变量与r对典型变量之间的相关系数

16、阵(或称典型结构).假定两组原始变量均为标准化变量.若记,38,第十章10.3 典型冗余分析,R(Y,W),R(X,V),39,第十章10.3 典型冗余分析,分别计算两组原始标准化变量X,Y与典型变量V,W之间的相关系数阵R(X;V),R(Y;W),R(X;W),R(Y;V)中各列相关系数的平方和,还将得出下面一些有关的概念.设rk(12)=rmin(p,q).记 Rd(X;Vk)=,并称为 Vk解释本组总变差p的百分比.,40,第十章10.3 典型冗余分析,类似可以定义 Rd(Y;Wk),Rd(X;Wk),Rd(Y;Vk)以及 Rd(X;V1 Vm),Rd(X;W1 Wm),Rd(Y;W1

17、Wm),Rd(Y;V1 Vm).用来表示一个或几个典型变量解释本组或另一组总变差的百分比.,41,第十章10.3 典型冗余分析,典型冗余分析就是讨论典型变量解释另一组变量总变差百分比的问题.在典型相关分析中,因所提取的每对典型成分保证其相关程度达最大,故每个典型成分不仅解释了本组变量的信息,还解释了另一组变量的信息.典型相关系数越大,典型成分解释对方变量组变差的信息也将越多.,42,第十章10.3 典型冗余分析,Rd(X;Wk)(或Rd(Y;Vk)的值表示Wk(或Vk)解释另一组原始变量总变差的百分比.以下公式给出利用典型变量解释本组变差的百分比来计算解释另一组变差百分比:,Rd(X;Wk)=

18、,Rd(X;Vk),Rd(Y;Vk)=,Rd(Y;Wk),43,第十章10.3 典型冗余分析,证明:由(10.2.1)关系式:,因此,Rd(Y;Vk)=,Rd(Y;Wk)。,在标准化情况下,,因此,44,第十章10.3 典型冗余分析,Rd(X;Wk)的大小表示第一组原始变量抽取的典型变量(Vk)解释的变差被第二组中典型变量(Wk)重复解释的百分比,简称为第一组典型变量的冗余测度;Rd(Y;Vk)表示第二组原始变量抽取的典型变量(Wk)解释的变差被第一组中典型变量(Vk)重复解释的百分比,简称为第二组典型变量的冗余测度.,45,第十章10.3 典型冗余分析,冗余测度体现了两组变量间的相关程度.冗

19、余测度的大小表示这对典型变量能够对另一组变差相互解释的程度大小.它将为进一步讨论多对多建模提供一些有用信息.,46,第十章10.3 典型冗余分析 例,例10.3.1(康复俱乐部20名成员测试数据的典型相关分析):康复俱乐部对20名中年人测量了三个生理指标:WEIGHT(体重),WAIST(腰围),PULSE(脉膊)和三个训练指标:CHINS(拉单杠次数),SITUPS(仰卧起坐次数),JUMPS(跳高).试分析生理指标和训练指标这二组变量间的相关性.解 首先用DATA步把测试数据生成SAS数据集d1031,它有20个观测,6个变量.SAS程序如下:proc cancorr data=d1031

20、 all vprefix=v wprefix=w vname=生理指标 wname=训练指标;var weight waist pulse;with chins situps jumps;run;,47,第十章10.3 典型冗余分析 例的输出结果,48,第十章10.3 典型冗余分析例的输出结果,第一典型相关系数1=0.795608第二典型相关系数2=0.200556,49,第十章10.3 典型冗余分析 例的输出结果,V1=-0.7754 体重*+1.5793 腰围*0.0591 脉搏*W1=-0.3495 引体向上*-1.0540 起坐次数*+0.7164 跳跃次数*,50,第十章10.3 典

21、型冗余分析例的输出结果,R(X:V)=,计算X与V的相关系数阵R(X;V)中每一列元素的平方和,得 Rd(X;V1)=0.62062+0.92542+(-0.3328)2/3=0.4508 Rd(X;V2)=(-0.7724)2+(-0.3777)2+0.04152/3=0.2470 Rd(X;V3)=(-0.1350)2+(-0.0310)2+0.9421 2/3=0.3022第一组抽取的V1解释本组总变差p=3的百分比约为45%.,51,第十章10.3 典型冗余分析例的输出结果,R(Y:W)=,计算Y与W的相关系数阵R(Y;W)中每一列元素的平方和得 Rd(Y;W1)=(-0.7276)2

22、+(-0.8177)2+(-0.1622)2/3=0.4081 Rd(Y;W2)=0.23702+0.57302+0.95862/3=0.4345 Rd(Y;W3)=(-0.6438)2+0.05442+(-0.2339)2/3=0.1574第二组抽取的W1解释本组总变差q=3的百分比约为40.81%.,52,第十章10.3 典型冗余分析例的输出结果,R(X:W)=,计算X与W的相关系数阵R(X;W)中每一列元素的平方和得 Rd(X;W1)=0.49382+0.73632+(-0.2648)2/3=0.2854 Rd(X;W2)=(-0.1549)2+(-0.0757)2+0.00832/3=

23、0.0099 Rd(X;W3)=(-0.0098)2+(-0.0022)2+0.06842/3=0.0016第二组抽取的W1解释第一组总变差p=3的百分比约为28.54%.这就是第一组典型变量的冗余测度.,53,第十章10.3 典型冗余分析例的输出结果,R(Y:V)=,计算X与W的相关系数阵R(Y;V)中每一列元素的平方和得 Rd(Y;V1)=(-0.5789)2+(-0.6506)2+(-0.129)2/3=0.2584 Rd(Y;V2)=0.04752+0.11492+0.19232/3=0.0175 Rd(Y;V3)=0.04672+0.0042+(-0.017)2/3=0.0008第一

24、组抽取的V1解释第二组总变差q=3的百分比约为25.84%.这就是第二组典型变量的冗余测度.,54,第十章10.3 典型冗余分析例的输出结果,X与V的相关系数阵R(X;V)中各列元素的平方和,X与W的相关系数阵R(X;W)中各列元素的平方和,55,第十章10.3 典型冗余分析例的输出结果,Y与W的相关系数阵R(Y;W)中各列元素的平方和,Y与V的相关系数阵R(Y;V)中各列元素的平方和,56,第十章10.3 典型冗余分析例的输出结果,X与W的相关系数阵R(X;W)中各行元素的平方和,Y与V的相关系数阵R(Y;V)中各行元素的平方和,57,第十章10.3 典型冗余分析例的输出结果,从上页第2张表格给出训练指标组中各个变量被生理指标变量组提取的前M个(M=1,2,3)典型变量V1,VM解释变差的累计百分比(即R(Y,V)中各行前M个元素的平方和),可以看出只有CHINS(0.3351)和 SITUPS(0.4233)可被对方变量组的第一典型变量V1 预测,V1对JUMPS(0.0167)几乎没有预测能力.类似地,从上页第1张表格可得出,来自训练指标的第一典型变量W1对WAIST(0.5421)有相当好的预测能力,对WEIGHT(0.2438)较差,而对PULSE(0.0701)几乎没有预测能力.,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号