《多元统计分析方法ppt课件.ppt》由会员分享,可在线阅读,更多相关《多元统计分析方法ppt课件.ppt(51页珍藏版)》请在三一办公上搜索。
1、多元统计分析方法研究,一、如何做主成分分析二、如何做因子分析三、如何做聚类分析四、如何做判别分析,第十一章,主成分分析,一、基本思想二、数学模型 三、模型的求解四、主成分的性质五、基本步骤与应用实例,因子分析,一、基本思想二、数学模型 三、因子载荷的统计含义四、因子的求解五、因子得分六、基本步骤与应用实例,聚类分析,一、基本思想二、统计量 三、分类方法四、基本步骤与应用实例,判别分析,一、基本思想二、基本方法 三、判别效果的评价 四、基本步骤与应用实例,基本思想,主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标。同时根据实际需要从中可取几个较少的综合指标尽可能
2、多地反映原来的指标的信息。,二维空间多维空间,数学模型,x1,y1,x2,y2,旋转变换的目的是为了使得n个样本点在y1轴方向上的离散程度最大,即y1的方差最大,变量y1代表了原始数据的绝大部分信息,在研究问题时,即使不考虑变量y2也损失不多的信息。Y1与y2除起了浓缩作用外,还具有不相关性。Y1称为第一主成分,y2称为第二主成分。,数学模型,如果系数uij满足 ;而且系数uij的确使yi、与yj(ij)相互无关,并使y1是x1,x2,xp的一切线性组合中方差最大者,y2是与y1不相关的x1,x2,xp的所有线性组合中方差最大者,yp是与y1,y2 ,,yp-1都不相关的x1,x2,xp的所有
3、线性组合中方差最大者,则称y1,y2,yp为原变量的第一,第二, ,第p主成分。,模型的求解,在应用主成分分析研究问题时,通常先将数据标准化,以消除量纲对结果的影响。标准化的常用公式为:,为了求出主成分,只需求样本协方差矩阵S或相关系数矩阵R的特征根和特征向量就可以。 (可以证明,变量x1,x2,xp标准化以后,其协方差矩阵S与相关系数矩阵R相等。 ),主成分的性质,性质1:第k个主成分yk的系数向量是第k个特征根k所对应的标准化特征向量Uk。性质2:第k个主成分的方差为第k个特征根k,且任意两个主成分都是不相关的,也就是主成分y1,y2,yp的样本协方差矩阵是对角矩阵。性质3:样本主成分的总
4、方差等于原变量样本的总方差。性质4:第k个样本主成分与第j个变量样本之间的相关系数为:该相关系数又称为因子载荷量。 主成分个数的选取,基本步骤,(1)对原变量的样本数据矩阵进行标准化变换(2)求标准化数据矩阵的相关系数矩阵R(3)求R的特征根及相应的特征向量和贡献率等(4)确定主成分的个数(5)解释主成分的实际意义和作用,应用实例,【例11.1】我国2000年各地区大中型工业企业主要经济效益指标见表11.1,对各地区经济效益作出分析。,【解】1. 将数据标准化(结果见附表1),并求相关矩阵R为:,应用实例,2. 求R的特征根及相应的单位正交特征向量和贡献率由R的特征方程 求得R的单位特征根为:
5、,再由齐次线性方程组求得特征向量U,将具体结果整理为下表:,应用实例,3. 确定主成分的个数q按 的原则,取三个主成分就能够对工业企业经济效益进行分析,且这三个主成分的累计方差贡献率达到84.06%主成分的表达式为:,4. 主成分的经济意义y1的含义是在综合其它变量所反映信息的基础上,突出地反映了企业经营风险的大小。y2在综合其它变量信息的基础上,突出地反映了企业投入资金的周转速度。y3在综合其它变量信息的基础上,突出地反映了工业产品满足社会需求的情况,Excel操作,基本思想,因子分析的基本思想是通过对变量相关系数矩阵内部结构的研究,找出能够控制所有变量的少数几个潜在随机变量去描述多个显在随
6、机变量之间的相关关系,换句话说,因子分析是把每个可观测的原始变量分解为两部分因素,一部分是由所有变量共同具有少数几个公共因子构成的,另一部分是每个原始变量独自具有的,即特殊因子部分,对于所研究的问题就可试图用最少个数的不可观测的公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。,数学模型,(一)符号与假定设有n个样本,每个样本观测p个变量,记:原始变量矩阵为X: ,公共因子变量矩阵为F: , 特殊因子矩阵为E:假定因子模型具有以下性质:1. E(x)=0,cov(x)=2. E(F)=0,cov(F)=I3. E(E)=0,cov(e)=diag(12, 22, p2)4. Cov(F
7、,E)=0,数学模型,若用矩阵形式表示,则为:X=AF+E,式中的A,称为因子载荷矩阵,并且称aij 为第i个变量在第j个公共因子上的载荷,反映了第i个变量在第j个公共因子上的相对重要性。,因子载荷的统计含义,可以证明因子载荷aij 为第i个变量xi与第j个公共因子Fj的相关系数,即反映了变量与公共因子的关系密切程度,aij越大,表明公共因子Fj与变量xi的线性关系越密切。,变量共同度公共因子的方差贡献,因子的求解,设相关系数矩阵的特征根为12p,相应的特征向量为U1,U2,Up,设由列向量构成的矩阵有A表示,即A=,一般来说,公共因子的个数q要小于等于变量的个数p,基本步骤,1. 用公式 对
8、原始数据标准化2. 建立相关系数矩阵R3. 根据 及 求R的单位特征根与特征向量U;4. 根据 求因子载荷矩阵A;5. 写出因子模型X=AF+E,应用实例,【例11.2】仍以我国2000年各地区大中型工业企业主要经济效益指标作为研究对象,试求:(1)正交因子模型;(2)各个变量的共同度以及特殊因子方差;(3)每个因子的方差贡献率以及三个因子的累计方差贡献率;,【解】1. (1) 将原始数据标准化后求得其相关系数矩阵R为,应用实例,(2)特征根与特征向量,.440 -.250 .414 .460 .228 .241 -.408 .227 .247U= .158 .689 -.373 .487 -
9、.126 .130 .408 .153 -.450 -.022 .566 .592,(3)因子载荷矩阵为:,应用实例,(4)因子模型为,应用实例,基本思想,其基本思想是认为研究的样本或变量之间存在着程度不同的相似性,根据一批样本的多个观测指标,具体找出一些能够度量样本或指标之间相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样本(或变量)聚合为一类,把另外一些彼此之间相似程度较大的样本(变量)也聚合为一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样本(或变量)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统;最后再把整
10、个分类系统画成一张图,将亲疏关系表示出来。,统计量,聚类分析可以分为Q型聚类和R型聚类两种,Q型聚类是指对样本进行分类,R型聚类是指对变量进行分类。通常Q型聚类采用距离统计量,R型聚类采用相似系数统计量,分类方法(系统聚类法),分类的形成类与类间的距离,基本步骤,1、先对数据进行变换处理,消除量纲对数据的影响;2、认为各样本点自成一类(即n个样本点一共有n类),然后计算各样本点之间的距离,并将距离最近的两个样本点并成一类;3、选择并计算类与类之间的距离,并将距离最近的两类合并;4、重复上面作法直至所有样本点归为所需类数为止;5、最后绘制聚类图。,应用实例,【例11.3】为了研究2000年我国部
11、分地区工业企业经济效益的分布规律,根据调查资料做类型划分。,基本思想,判别分析是在已知研究对象用某种方法已分成若干类的情况下,确定新的观察数据属于已知类别中的哪一类的分析方法。 判别分析方法在处理问题时,通常要给出一个衡量新样本与已知组别接近程度的描述指标,即判别函数,同时也指定一种判别规则,用以判定新样本的归属。,基本方法,距离判别费歇尔判别贝叶斯判别,判别效果的评价,每次从已知类别的样本中剔除一个样本点,用剩余的样本建立判别函数,然后用这一判别函数去判别被剔除的样本;依此类推,直到所有已知类别的样本都被判别过。记下所有被错判的样本,计算出每个总体中的错判率和总的错判率,根据错判率的大小来衡
12、量判别效果。,基本步骤,1. 计算判别函数;2. 检验判别效果;3. 根据判别函数对待判样本进行判别所属类别。,应用实例,【例11.4】13个地区按经济效益已分为两大类,若又取得三个地区的资料,试对其进行判别分析。,工业增加值 资产贡献率 资产负债率 流动资产周转次数 劳动生产率 产品销售率 ,企业经济效益,高校科研情况,学校教师人数承担科研项目学校科研经费课题项目完成数获得奖励数,二维空间,以两个指标为例,信息总量以总方差表示:,其中y1、y2分别都是x1、x2的线性组合,并且信息尽可能地集中在y1上。在以后的分析中舍去y2,只用主成分y1来分析问题,起到了降维的作用。,多维空间,推而广之,
13、第一主成分y1的方差达到最大,其方差越大,表示其所包含的信息越多。如果第一主成分还不能反映原指标的全部信息,再考虑选取第二主成分y2,y2在剩余的线性组合中方差最大,并且与y1不相关,如若第一、第二主成分仍然不能反映原变量的全部信息,再考虑选取第三主成分y3,y3在剩余的线性组合中方差最大,并且与y1、y2不相关,依此可求出全部p个主成分,它们的方差是依次递减的。在实际工作中,在不损失较多信息的情况下,通常选取前几个主成分来进行分析,达到简化数据结构的目的。,主成分个数的选取,1.累积贡献率达到85%以上 2.根据特征根的变化来确定,表11.1,附表1:,Excel 操作主成分分析菜单,Exc
14、el 操作主成分分析对话框,变量共同度,因子载荷矩阵中各行元素的平方和:,称为变量x1,x2,xp的共同度。它表示q个公共因子F1,F2,Fq对变量xi的方差贡献,变量共同度的最大值为1,值越接近于1,说明该变量所包含的原始信息被公共因子所解释的部分越大,用q个公共因子描述变量xi就越有效;而当值接近于0时,说明公共因子对变量的影响很小,主要由特殊因子来描述。,公共因子的方差贡献,因子载荷矩阵中各列元素的平方和:,称为公共因子F1,F2,Fq的方差贡献。它与p个变量的总方差之比为: 是衡量各个公共因子相对重要程度的一个指标。方差贡献率越大,该因子就越重要。,距离,设有n个样本,每个样本观测p个
15、变量,数据结构为,绝对距离:欧氏距离:切比雪夫距离:马氏距离:,相似系数,夹角余弦:相关系数:,分类的形成,先将所有的样本各自算作一类,将最近的两个样本点首先聚类 ,再将这个类和其他类中最靠近的结合,这样继续合并,直到所有的样本合并为一类为止。 若在聚类过程中,距离的最小值不唯一,则将相关的类同时进行合并。,类与类间的距离,设两个类 , ,分别为n1和n2个样本,最短距离法:最长距离法:重心法:两类的重心分别为 ,则类平均法:离差平方和法:首先将所有的样本自成为一类,然后每次缩小一类,每缩小一类离差平方和就要增大,选择使整个类内离差平方和增加最小的两类合并,直到所有的样本归为一类为止。,距离判
16、别,距离判别法的基本思想是,先根据已知分类的数据,分别计算各类的重心,然后计算待判样本与各类的距离,与哪一类距离最近,就判待判样本x属于哪一类。,判别函数为:W(x)=D(x,G2)-D(x,G1)判别准则为:,费歇尔判别,费歇尔判别法的基本思想是通过将多维数据投影至某个方向上,投影的原则是将总体与总体之间尽可能分开,然后再选择合适的判别规则,将待判的样本进行分类判别。所谓的投影实际上是利用方差分析的思想构造也一个或几个超平面,使得两组间的差别最大,每组内的差别最小。,费歇尔判别函数为:,其判别准则是:,将两类均值及待判样本x的各项指标代入判别函数可求得三个函数值y1,y2,y,一般将y1,y2的加权平均值y0,贝叶斯判别,贝叶斯判别法的基本思想是:设有两个总体,它们的先验概率分别为q1、q2,各总体的密度函数为f1(x)、f2(x),在观测到一个样本x的情况下,可用贝叶斯公式计算它来自第k个总体的后验概率为:,一种常用判别准则是:对于待判样本x,如果在所有的P(Gk/x)中P(Gh/x)是最大的,则判定x属于第h总体。通常会以样本的频率作为各总体的先验概率。,