《主成分分析讲解.ppt》由会员分享,可在线阅读,更多相关《主成分分析讲解.ppt(43页珍藏版)》请在三一办公上搜索。
1、2023/6/11,Dept.of Epidemio&Biostat,SPH,1,主成分分析,Principal Component Analysis,2023/6/11,Dept.of Epidemio&Biostat,SPH,2,统计学研究的核心问题?,没有变异就没有统计学,变 异VARIATION,变异性的度量?,方差 Variance,2023/6/11,Dept.of Epidemio&Biostat,SPH,3,方差是什么?,方差是信息多元世界的信息度量多元世界的每个变量的包含信息不同在单个变量方差不变的情况下,各变量相关性越高,则总信息量越小,2023/6/11,Dept.of
2、Epidemio&Biostat,SPH,4,2023/6/11,Dept.of Epidemio&Biostat,SPH,5,两组变量:A B,2023/6/11,Dept.of Epidemio&Biostat,SPH,6,2023/6/11,Dept.of Epidemio&Biostat,SPH,7,2023/6/11,Dept.of Epidemio&Biostat,SPH,8,2023/6/11,Dept.of Epidemio&Biostat,SPH,9,协方差矩阵,样本的方差-协方差矩阵(variance-covariance matrix)如果有p个观测变量,则样本的协方差矩
3、阵记为,2023/6/11,Dept.of Epidemio&Biostat,SPH,10,相关矩阵,如果有p个观测变量,其相关阵(correlation matrix)记为,2023/6/11,Dept.of Epidemio&Biostat,SPH,11,矩阵的特征值和特征向量,对于方阵A,如存在常数及非零向量x,使 Ax=x 则为A的一个特征值,x为与对应的矩阵A的特征向量。n介方阵有n对特征值和特征向量,2023/6/11,Dept.of Epidemio&Biostat,SPH,12,正交向量(阵)、单位向量,正交向量:a=(a1,ap),b=(b1,bp)如果ab=a1b1+apb
4、p=0,则称a、b正交单位向量:向量a=(a1,ap),如果 则称a为单位向量正交阵:n阶方阵A,如果 AA=AA=I,则称A为n阶正交阵,其中A的列向量(或行向量)为正交向量,A=A-1,2023/6/11,Dept.of Epidemio&Biostat,SPH,13,2023/6/11,Dept.of Epidemio&Biostat,SPH,14,2023/6/11,Dept.of Epidemio&Biostat,SPH,15,2023/6/11,Dept.of Epidemio&Biostat,SPH,16,2023/6/11,Dept.of Epidemio&Biostat,SP
5、H,17,2023/6/11,Dept.of Epidemio&Biostat,SPH,18,主成分的概念 1,设x1,x2,xp为 p 维随机变量 X1,X2,Xp的标准化变换 如果其线性组合 满足则称C1为第一主成分。,2023/6/11,Dept.of Epidemio&Biostat,SPH,19,主成分的概念 2,若满足则称C2为第二主成分。类似地,共可得到至多 p 个主成分。,2023/6/11,Dept.of Epidemio&Biostat,SPH,20,主成分的性质,主成分 C1,C2,Cp 具有以下性质:(1)主成分间互不相关Corr(Ci,Cj)=0 i j(2)组合系数
6、(ai1,ai2,aip)构成的向量为单位向量(3)各主成分的方差是依次递减的,即Var(C1)Var(C2)Var(Cp)(4)总方差不增不减,即 Var(C1)+Var(C2)+Var(Cp)=Var(x1)+Var(x2)+Var(xp)=p,2023/6/11,Dept.of Epidemio&Biostat,SPH,21,主成分的计算 1,设 R 为 X1,X2,Xp 的相关矩阵,则存在12p0,和正交矩阵A,使其中i为相关矩阵R的第i个特征值(eigenvalue)(ai1 ai2 aip)则是相关矩阵R的第i个特征值对应的特征向量。i是第i个主成分的方差,2023/6/11,De
7、pt.of Epidemio&Biostat,SPH,22,主成分的计算 2,记主成分C=(C1 C2 Cp),则 C=Ax 即,2023/6/11,Dept.of Epidemio&Biostat,SPH,23,主成分的计算 3,因子模型(全分量模型)表达形式 x=AC 即矩阵A称载荷矩阵,反映各主成分对原始变量x各分量的贡献大小。,2023/6/11,Dept.of Epidemio&Biostat,SPH,24,主成分的计算 4,因子模型(全分量模型)表达-主成分标准化变换,2023/6/11,Dept.of Epidemio&Biostat,SPH,25,x=Lc,lij是xj和ci的
8、相关系数SPSS输出的系数矩阵是L矩阵,2023/6/11,Dept.of Epidemio&Biostat,SPH,26,实例 城市男生形态资料数据来自方积乾医学统计学与电脑试验第2版,2023/6/11,Dept.of Epidemio&Biostat,SPH,27,实例主成分分析结果特征值(方差)及其比例,2023/6/11,Dept.of Epidemio&Biostat,SPH,28,主成分分析结果L矩阵,注意L矩阵的下标,是列在前,行在后,2023/6/11,Dept.of Epidemio&Biostat,SPH,29,主成分分析结果L矩阵,注意L矩阵的下标,是列在前,行在后,2
9、023/6/11,Dept.of Epidemio&Biostat,SPH,30,主成分和原变量的关系,观察L矩阵,由相关系数做出解释主成分未必一定有明确的解释选取有明确解释的主成分做综合指标,主成分得分就是“综合指数”。,2023/6/11,Dept.of Epidemio&Biostat,SPH,31,实例的标准化第一主成分得分,2023/6/11,Dept.of Epidemio&Biostat,SPH,32,实例的标准化第一、二主成分得分,2023/6/11,Dept.of Epidemio&Biostat,SPH,33,主成分数目的保留降维问题,保留多少个主成分取决于保留部分的累积方
10、差在方差总和中所占百分比,它标志着前几个主成分概括信息之多寡。实际上就是看特征值 的大小保留多少主成分为宜主要根据实际问题和经验决定,并无严格统计规则。,2023/6/11,Dept.of Epidemio&Biostat,SPH,34,主成分分析的应用,综合指标的抽取主成分回归 解决自变量严重共线性问题主成分判别 解决解释变量的共线性问题变量聚类中计算相似系数因子分析,2023/6/11,Dept.of Epidemio&Biostat,SPH,35,例-主成分回归,22例胎儿受精龄(Y,周)与胎儿外型测量指标:均数 标准差身高(X1,cm)33.05 9.71 头围(X2,cm)23.26
11、 6.86体重(X3,g)936.9 690.3 试求由X1、X2、X3推算Y的回归方程,2023/6/11,Dept.of Epidemio&Biostat,SPH,36,例-主成分回归 结果1,直接做多重回归结果,2023/6/11,Dept.of Epidemio&Biostat,SPH,37,X1、X2、X3与Y的相关阵,2023/6/11,Dept.of Epidemio&Biostat,SPH,38,主成分分析结果(表中上半部的系数矩阵是矩阵A),2023/6/11,Dept.of Epidemio&Biostat,SPH,39,主成分回归分析结果,2023/6/11,Dept.o
12、f Epidemio&Biostat,SPH,40,主成分回归分析结果,附:本例岭回归分析结果,2023/6/11,Dept.of Epidemio&Biostat,SPH,41,主成分分析应用实例综合指标选取,计算主成分的两种方法 如果各变量具有同等尺度 对角化相关阵还是协方差阵?从协方差阵计算主成分的一个特点:方差大的变量倾向在第一主成分上占有更大的比重(与从相关阵计算比较)。,2023/6/11,Dept.of Epidemio&Biostat,SPH,42,广州市某年空气污染指标的主成分分析结果,2023/6/11,Dept.of Epidemio&Biostat,SPH,43,广州市某2个月的空气污染指数,