多元统计分析——主成分分析法ppt课件.ppt

上传人:小飞机 文档编号:1891797 上传时间:2022-12-24 格式:PPT 页数:59 大小:573KB
返回 下载 相关 举报
多元统计分析——主成分分析法ppt课件.ppt_第1页
第1页 / 共59页
多元统计分析——主成分分析法ppt课件.ppt_第2页
第2页 / 共59页
多元统计分析——主成分分析法ppt课件.ppt_第3页
第3页 / 共59页
多元统计分析——主成分分析法ppt课件.ppt_第4页
第4页 / 共59页
多元统计分析——主成分分析法ppt课件.ppt_第5页
第5页 / 共59页
点击查看更多>>
资源描述

《多元统计分析——主成分分析法ppt课件.ppt》由会员分享,可在线阅读,更多相关《多元统计分析——主成分分析法ppt课件.ppt(59页珍藏版)》请在三一办公上搜索。

1、,主成分分析Principal Component Analysis,思考1反映地区社会经济发展的指标体系 X1:国内生产总值(GDP) X2:人均GDP X3:第三产业产值占GDP比重 X4:人均出口额 X5:工业企业劳动生产率 X6:人均社会消费品零售额 X7:每万人拥有卫生技术人员数 X8:每万人高等学校在校生数 X9:教育经费投入占GDP比重 X10:人均货运总量 X11:人均邮电业务总量 X12:每万人电话机装机数 X13:人均固定资产投资 X14:人均实际利用外资 X15:地方财政收入占GDP比重 X16:每万人科研机构数 X17:科研经费占GDP比重,分析全国31个地区的社会经济

2、发展水平。,为了对常用的100种食品的生产进行经营决策,需要就消费者对食品的嗜好程度进行调查。要求每个消费者对食品进行评价,按对食品的喜好程度评分,最受欢迎的给予最高分9分,最不受欢迎的给予最低分1分。,思考2,为了较好地满足市场的需要,服装生产厂要了解所生产的一种服装究竟设计几种型号合适?这些型号的服装应按怎样的比例分配生产计划才能达到较好的经济效益?,思考3服装的定型分类问题,大纲,1.基本思想 2.定义 3.主成分的性质、计算等 4.案例 5.主成分回归,E.g.Hotelling(1939)用两个主成分反映入学考试成绩: 文科能力 数理能力预备知识:方差为零的变量不能区分总体中的个体成

3、员;可以用一个变量的方差来度量其所传递的信息量。,主成分分析的基本概念,一个假设的例子:N=100均数 101.63 50.71方差 109.63 55.40标准差 10.47 7.44 的均数=0 的均数=0,预备知识:向量,等方向都是同一个方向,a,b,2a,2b,(1)创建,使得 尽可能大,即寻找一个方向,使得所有点在此方向上的投影的方差尽可能大,(2)创建,使得 与 不相关 尽可能大。即寻找另一个方向垂直于所有点在 上的投影方差最大。,例 1985年中国人口普查资料:各省汉族青年(19-22岁)形态学指标的平均值。,如何综合多个随机变量?,我们想要一个或几个综合变量,概括6个形态指标的

4、大部分信息. 注意:若某指标在人群中方差较大,它就是一个好的指标。,寻找综合变量,标准化(1)找第1个最佳的综合变量 找适宜的系数 ,使得与其他线性组合相比,有最大的方差 最大我们关心的是 之间的比值故限定,(2)找第2个最佳的综合变量,找适宜的 使得 最大 限定(3)找第3个最佳的综合变量 最大 限定原有6个变量,最多可找到6个独立的综合变量,主成分的一般定义,一般地,样本均数样本标准差标准化(1)在所有线性组合中,限定使得 最大的便是第1主成分。,(2)在所有线性组合,中,限定使得 最大的便是第2主成分. 类似地,我们可以定义第3,第4,直到第p个主成分。,主成分的性质,(1)主成分之间不

5、相关 Corr(Ci,Cj)=0(2)系数(ai1,ai2,aip)是单位向量 ai12+ai22+ +aip2=1(3)方差递降Var(C1)Var(C2)Var(Cp) (4)主成分的方差之和等于原变量的方差之和信息总量不增不减,Var(C1)+Var(C2)+ +Var(Cp) = Var(x1)+Var(x2)+ +Var(xp)=p,主成分的计算和解释,(1)计算 的相关矩阵(2)计算R的特征根(特征值)即求解方程,(3)计算特征向量,即求解方程 得到,表1 例1的相关矩阵,只有前几个才是名副其实的“主成分”,表2 例1的相关矩阵的主成分,表4 例1 的特征向量,主成分的个数,实践中

6、,(1)粗略地决定欲保留的方差百分比; 仅保留前几个主成分或(2)若某个主成分的方差大于1,就保留它 因为原变量的方差都是1究竟保留几个? 取决于课题本身的需要,碎石图,主成分与原变量的相关性,和 的关系: :主要反映身体的大小; 身高、坐高、体重、胸围 :反映宽度 肩宽和骨盆宽度总之,(1)主成分有助于综合多个变量 (2)主成分的意义有时不易解释,例:抑郁症问卷的综合得分表1 标准CESD问卷的主成分(抑郁症数据),C1:多数条目的加权和C2:反映懒散和精力状况C3:有关“别人怎样看待自己”的感觉,例2 关于下颚6个前齿的结石,1.右犬齿2.右、侧门牙3.右、中门牙4.左、侧门牙5.左、中门

7、牙6.左犬齿,PC1:加权和,总的结石状况PC2:门牙与犬齿比较PC3:左右比较,主成分分析的应用,综合评价 市场研究 定型分类问题,反映地区社会经济发展的指标体系 X1:国内生产总值(GDP) X2:人均GDP X3:第三产业产值占GDP比重 X4:人均出口额 X5:工业企业劳动生产率 X6:人均社会消费品零售额 X7:每万人拥有卫生技术人员数 X8:每万人高等学校在校生数 X9:教育经费投入占GDP比重 X10:人均货运总量 X11:人均邮电业务总量 X12:每万人电话机装机数 X13:人均固定资产投资 X14:人均实际利用外资 X15:地方财政收入占GDP比重 X16:每万人科研机构数

8、X17:科研经费占GDP比重,对全国31个地区上述17项指标的数据进行主成分分析,应用SAS软件进行处理。,例1、主成分分析用于综合评价,1、 求相关系数矩阵R2、 计算R的特征值,3、 求特征根所对应的单位特征向量,0.5132250.203116-0.1828580.1936180.2172900.113642-0.164527-0.114637-0.509240-0.0258320.0834710.1325920.1054020.199407-0.181330-0.261367-0.295756,0.0384660.2760200.2436540.2634870.1805460.2908

9、340.2598420.2805230.0942330.2159460.2920160.2882680.2820160.2590060.2167930.2599620.212293,X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15 X16 X17,Y2,Y1,特征向量,4、主成分的表达式及其含义解释5、计算主成分得分,为了对常用的100种食品的生产进行经营决策,需要就消费者对食品的嗜好程度进行调查。对785名消费者进行调查,要求每个消费者对100种食品进行评价,按对食品的喜好程度评分,最受欢迎的给予最高分9分,最不受欢迎的给予最低分1分。,例

10、2 市场研究中的应用,将被调查者按性别与年龄分成10组,假若你是该食品加工业决策部门的高级顾问,为了对食品生产作出合理决策,请你对调查资料进行分析,为决策者提供建议。,以组为单位,在每组中每个成员都对100 种食品给予评分,然后计算每组成员对每种食品评分的平均值。,15 组表示男性,610 组表示女性15, 610 年龄从小到大排序,y1反映了公共平均嗜好程度, y1得分越大,表示大众越喜欢吃此食品。,y2反映了年龄的作用。 y2得分为正时,表示孩子喜欢吃; y2得分为负时,表示孩子不喜欢吃。,y3反映性别的作用。y3得分为正时,表示男性喜欢吃; y3得分为负时,表示女性喜欢吃。,主成分的含义

11、,用 得分来表示食品嗜好程度可有七成把握。在充分注意到人们普遍的嗜好程度基础上,进一步考虑到青少年和老年人的嗜好程度,对食品业的开发方针作出决策时,将有85%的把握。,为了较好地满足市场的需要,服装生产厂要了解所生产的一种服装究竟设计几种型号合适?这些型号的服装应按怎样的比例分配生产计划才能达到较好的经济效益?,例3 服装的定型分类问题,X1:身长 X2:坐高 X3:胸围 X4:头高X5:裤长 X6:下裆 X7:手长 X8:领围X9:前胸 X10:后背 X11:肩厚 X12:肩宽X13:袖长 X14:肋围 X15:腰围 X16:腿肚,对128名成年男子按16项指标进行测量。,y1 是刻画尺寸大

12、小的因子。,y2 反映人的胖瘦情况,是一个体形因子。 反映“长”的尺寸前面的系数为正; 反映“围”的尺寸前的系数为负。,y3 系数多数取值很小,接近于0。只有三个系数绝对值较大。 y3 是反映特殊体形的因子,区分有无畸形。,区分有几种型号 (分类) 各种型号的生产量(比例),要解决的问题:,主成分回归,数据 分析过程中的一个工具 可应用于下列分析的中间过程:多重回归判别分析因子分析 聚类分析,回归中的共线性,当自变量高度相关时, 回归系数估计值不稳定, 结果不易解释. 主成分有助于重新组织原变量,高度相关的变量往往会构成同一个主成分,不同主成分之间不相关. 将主成分作为自变量,就没有自变量之间

13、相关的问题了。,表5 孕周和胎儿的形态学指标,Y关于 和 的回归方程回归系数:头围的系数为负?!违背常识?为什么?,表6 例2的相关矩阵,三个变量高度相关!头围 的系数为负是因为它必须挽回 和 的过度贡献。,主成分分析,表7 例2的主成分分析,保留前两个主成分 和,关于主成分的回归,将 和 的表达式代入这个回归方程, 得到新的回归方程前面直接关于 , 和 回归时出现的问题消失了!,小结,1.预备知识:方差为零的变量不能区分总体中的个体成员:可以用一个变量的方差来度量其所传递的信息量。2.如果有多个自变量,我们希望用少数几个综合变量来概括大部分信息;主成分是寻找综合变量的方法之一。,3.主成分是原变量的线性组合;第一主成分应当最大,第2主成分是在和第1主成分不相关的前提下方差最大,第3主成分是。4.理论上,若由p个变量,我们可以有p个主成分,但只有前几个主成分才涵盖原来p个变量的部分信息。“几个”?两种做法:保留方差大于或等于1者作为主成分;保留前几个主成分,使累积百分比达到要求。,5.主成分的应用之一是对付回归中自变量高度相关的问题: 综合高度相关的自变量主成分; 作为Y关于主成分的回归; 将主成分的表达式代入上述回归方程6.坏消息:有时,主成分的意义很难解释,于是,我们转向因子分析。,结束,谢谢!,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号