多元统计分析期末复习.docx

资源描述

《多元统计分析期末复习.docx》由会员分享，可在线阅读，更多相关《多元统计分析期末复习.docx（14页珍藏版）》请在三一办公上搜索。

1、多元统计分析期末复习第一章：多元统计分析研究的内容 1、简化数据结构 2、分类与判别 3、变量间的相互关系 4、多维数据的统计推断 5、多元统计分析的理论基础第二三章：二、多维随机变量的数字特征 1、随机向量的数字特征随机向量X均值向量： EX=(EX随机向量X与Y的协方差矩阵： 1,EX2,L,EXp)=(m1,m2,.,mP)cov(X)）=(X-EX)(当X=Y时Cov=D；当Cov=AE； E=AEB; D(AX)=AD(X)A; Cov(AX,BY)=ACov(X,Y)B; (2).若X，Y独立，则Cov(X,Y)，反之不成立 (3).X的协方差阵D(X)是对称非负定矩阵。例

2、2.见黑板三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . XN P ( mS)特别地，当 ,为对角阵时， m S相互独立。 X1,X,Xp2,L(2).若 m ，为sxp阶常数矩阵，d为s阶向量， d N P , ) . 即正态分布的线性函数仍是正态分布 X ( mSNs(Am+d,ASA)(3).多元正态分布的边缘分布是正态分布，反之不成立 (4).多元正态分布的不相关与独立等价例见黑板三、多元正态分布的参数估计 (1)“ 为来自p元总体X的样本”的理解-独立同截面 X(1),L,X(n)(2)多元分布样本的数字特征-常见多元统计量样

3、本均值向量 X X n ( X 样本离差阵 , X p ) 样本协方差阵 1 S ;样本相关阵 1, 2,L-的最大似然估计；X)(X(i)-X) i) (3) ,分别是 ( X和( ni=1m(4)估计的性质 SX是的无偏估计； ,分别是和的有效和一致估计；； 1m X ，与相互独立； XXNP(m,S)nWp(n -1,S)X第五章聚类分析：一、什么是聚类分析：聚类分析是根据“物以类聚”的道理，对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚，甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法：系统聚类法、动态聚类法、有序聚类法. Q-型聚类

4、分析R-型聚类分析变量按照测量它们的尺度不同，可以分为三类：间隔尺度、有序尺度、名义尺度。二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换 1、中心化变换：中心化变换是一种坐标轴平移处理方法，它是先求出每个变量的样本平均值，再从原始数据中减去该变量的均值，就得到中心化变换后的数据。不改变样本间的相互位置，也不改变变量间的相关性。 2、标准化变换：首先对每个变量进行中心化变换，然后用该变量的标准差进行标准化。经过标准化变换处理后，每个变量即数据矩阵中每列数据的平均值为0，方差为1，且也不再具有量纲，同样也便于不同变量之间的比较。 3、极差正规化变换：规格化变换是从数

5、据矩阵的每一个变量中找出其最大值和最小值，这两者之差称为极差，然后从每个变量的每个原始数据中减去该变量中的最小值，再除以极差。经过规格化变换后，数据矩阵中每列即每个变量的最大数值为1，最小数值为0，其余数据取值均在01之间；且变换后的数据都不再具有量纲，便于不同的变量之间的比较。 4、对数变换：对数变换是将各个原始数据取对数，将原始数据的对数值作为变换后的新值。它将具有指数特征的数据结构变换为线性数据结构。三、样品间相近性的度量研究样品或变量的亲疏程度的数量指标有两种：距离，它是将每一个样品看作p维空间的一个点，并用某种度量测量点与点之间的距离，距离较近的归为一类，距离较远的点应属于不同的

6、类；相似系数，性质越接近的变量或样品，它们的相似系数越接近于1或一l，而彼此无关的变量或样品它们的相似系数则越接近于0，相似的为一类，不相似的为不同类。样品之间的聚类即Q型聚类分析，则常用距离来测度样品之间的亲疏程度；而变量之间的聚类即R型聚类分析，常用相似系数来测度变量之间的亲疏程度。、距离的算法：明氏距离兰氏距离斜交空间距离马氏距离、相似系数的算法：夹角余弦相似系数、样品分类和指标分类：对样品分类常用距离，对指标分类常用相似系数、明氏距离的两个缺点：明氏距离的值与各指标的量纲有关，而各指标计量单位的选择有一定的人为性和随意性，各变量计量单位的不同不仅使此距离的实际意义难以

7、说清，而且，任何一个变量计量单位的改变都会使此距离的数值改变从而使该距离的数值依赖于各变量计量单位的选择。明氏距离的定义没有考虑各个变量之间的相关性和重要性。实际上，明考夫斯基距离是把各个变量都同等看待，将两个样品在各个变量上的离差简单地进行了综合、相似系数：通常所说相关系数，一般指变量间的相关系数，作为刻划样品间的相似关系也可类似给出定义，即第i个样品与第j个样品之间的相似系数定义为： p k =1 ( x ik - x i )( x jk - x j ) g=p 2 ij p 2 实际上，就是两个向量中心化后的夹角余弦 k=1(xik-xi)k=1(xjk-xj) 、距离和相似系数选择的

8、原则：(1)所选择的亲疏测度指标在实际应用中应有明确的意义。亲疏测度指标的选择要综合考虑已对样本观测数据实施了的变换方法和将要采用的聚类分析方法。适当地考虑计算工作量的大小。练习：1聚类分析是建立一种分类方法，它将一批样品或变量按照它们在性质上的_进行科学的分类. 2Q型聚类法是按_进行聚类，R型聚类法是按 _进行聚类。 3Q型聚类统计量是_，而R型聚类统计量通常采用_。 4在聚类分析中需要对原始数据进行无量纲化处理，以消除不同量纲或数量级的影响，达到数据间可同度量的目的。常用的无量纲化方法有以下几种：_、_、_。 5Q型聚类方法有_、_、_、_等。第六章判别分析： 1.四种判别方法

9、：距离判别法、费歇判别法、贝叶斯判别法、逐步判别法。 2.贝叶斯Bayes判别法：距离判别方法简单实用，但没有考虑到每个总体出现的机会大小，即先验概率，没有考虑到错判的损失；Fisher判别法随着总体个数的增加，建立的判别式也增加，计算量加大，如果考虑各总体的重要性，问题会突出而简单许多。既要考虑到各个总体出现的先验概率，又要考虑到错判造成的损失，Bayes判别就具有这些优点，其判别效果更加理想，应用也更广泛。基本思想：总是假定对所研究的对象已有一定的认识，常用先验分布来认识它，然后，基于抽取的样本对先验概率作修正，得到后验概率，最后采用相应的判别准则进行判别。Bayes判别法，对各类的分

10、布有特定的要求，即已知先验概率和分布密度函数。 3. 4.各判别法之间的联系：在正态等协方差阵及先验概率相等的条件下贝叶斯判别与距离判别等价；不加权的判别法等价于距离判别法练习：1判别分析是要解决在研究对象已_的情况下，确定新的观测数据属于已知类别中哪一类的多元统计方法。 2用判别分析方法处理问题时，通常以_作为衡量新样本点与各已知组别接近程度的指标。 3进行判别分析时，通常指定一种判别规则，用来判定新样本的归属，常见的判别准则有_、_。 4在p维空间Rp中，点与点之间的接近和疏远尺度用_来衡量，最简单的就是_或_。 5类内样本点接近，类间样本点疏远的性质，可以通过_与_的大小差异表现出来，

11、而两者的比值能把不同的类区别开来。这个比值越大，说明类与类间的差异越_，分类效果越_。 6Fisher判别法是找一个由p个变量组成的_，使得各自组内点的_尽可能接近，而不同组间点的尽可能疏远。简答题： 1判别分析的分类：距离判别法、费歇判别法、贝叶斯判别法、逐步判别法。 2判别的基本思想：是根据已掌握的、历史上若干样本的p个指标数据及所属类别的信息，总结出该事物分类的规律性，建立判别公式和判别准则。根据总结出来的判别公式和判别准则，判别未知类别的样本点所属的类别。 3简述两个总体的判别及判别准则: 基本思路：统计模型：设G1，G2是两个不同的P维已知总体，x=T是一个待判样品；距离判别准则

12、： xG1若D2(x,G1)D(x,G2) 判别函数： W(x)=D2(x,FisherG2)-D2(x,G1)4简述Fisher判别法及具体判别步骤：判别的思想是投影，将k组p维数投影到某一个方向，使得他们的投影组与组之间尽可能的分开。 5简述逐步判别基本原理：逐步引入变量，每次把一个判别能力最强的变量引入，每引入一个新的变量，对老变量又逐个进行检验，如其判别能力因新变量的引入而变得不显著，应把它从判别式中剔除，最终建立的判别函数中仅保留判别能力显著的变量。 6简述BAYES判别分析与其它判别方法的优劣：与距离判别的优劣比较：距离判别优于两个总体情况下的判别，对两个总体几乎没有任何要求，简

13、捷，实用，易懂；距离判别法在多个总体时，没有考虑各总体出现的概率，对各个变量的重要性一视同仁，难免产生误判。Bayes判别法对的理论与方法严密而完善，对研究对象的信息利用充分，误判率大大降低，但计算较复杂。最大；cov(Yi，Yj)=0； 2.主成分就是以协方差阵的特征向量为系数的线性组合，它们互不相关，其方差的特征根。主成分的名次是按特征根取值大小的顺序排列的。 3.主成分模型中各统计量的意义：x23x 1 1）贡献率：第i个主成分的方差在全部方差中所占比重，称为贡献率，反映了plli原来P个指标多大的信息，有多大的综合能力。 ii=12）累积贡献率：前k个主成分共有多大的综合能力，

14、用这k个主成分的方差和在全部方差中所占比重来描述，称为累积贡献率。 pk lilii=1i=10 解得特征根为，，例：设的协方差矩阵为 1 - 2 S=-250x1,x2,x3l1=5.83l2=2.00l3=0.17 020 00.9240.383 U1=-0.924U2=0U3=0.38310.000 第一个主成分的贡献率为5.83/0.000=72.875%，尽管第一个主成分的贡献率并不小，但在本题中第一主成分不含第三个原始变量的信息，所以应该取两个主成分。 4. 1）从协方差阵和相关系数矩阵出发计算主成分一般是不同的。 2）主成分是原始变量的线性组合，故而起着原始变量的综合

15、作用。 3）对总体分布类型没有特定要求。 4）主成分个数的确定。 5）主成分用于系统评估。 6）除主成分分析之外，还有主成分回归和加权主成分分析。填空： 1、对P元正态分布变量来说，找主成分的问题就是找P维空间中的椭球体的主轴问题。 2、样本主成分的总方差等于_。 3、原始变量协方差矩阵的特征根的统计含义是_。 4、主成分表达式的系数向量是_协方差阵的特征向量。 5、主成分分析就是通过适当的变量替换，使新变量成为原变量的线性组合，并寻求主成分来分析事物的一种方法。第八章、因子分析 1.什么是因子分析及基本思想多元数据常常包含大量的测量变量，有时这些变量是相互重叠，存在相关性。因子分析

16、的目的就是从实验所得的数据样本中概括和提取出较少量的关键因素，它们能反映和解释所得的大量观测事实，从而建立最简洁、最基本的概念系统，揭示出事物之间最本质的联系。因子分析的基本思想是通过变量的相关系数矩阵内部结构的研究，找出能控制所有变量的少数几个随机变量去描述多个变量之间的相关关系。 2.主成分分析与因子分析的联系与区别？相同之处：都是多元数据处理降维的统计方法；求解过程的出发点是一样的；不同之处：主成分分析是变量变换：原始变量的线性组合表示新的综合变量，即主成分；而因子分析需要构造因子模型：潜在的假想变量和随机影响变量的线性组合表示原始变量；主成分的系数是唯一的；而因子分析的载荷系数是

17、不唯一的； x3.因子载荷aij的统计意义：因子载荷aij是第i个变量与第j个公共因子的相关系数载荷矩阵中第i行，第j列的元素）反映了第i个变量与第j个公共因子的相关重要性。绝对值越大，相关的密切程度越高。例题：假定某地固定资产投资率，通货膨胀率，失业率，相关系数矩阵为 1/5-1/51 1/512/5 1-1/5-2/5 试用主成分分析法求因子分析模型。特征根为： l3=0.6 l1=1.55l2=0.850.88300.475 U=0.629-0.3310.707 -0.6290.3310.707 0.81400.8830.8500.4751.550.569 =0.783-0.3

18、050.548A=0.6291.55-0.3310.850.7070.6 -0.7830.3050.548-0.6291.550.3310.850.7070.6 x1=0 .569F1+0.814F2F1x0.783F1-0.305F2+0.548F3F1x 可取前两个因子和F2为公共因子，第一公因子物价就业因子，对XF的贡献为2=3=-0.783F1+0.3052+0.548F31.55。第一公因子F2为投资因子，对X的贡献为0.85。共同度分别为1，0.706，0.706。 4.为什么要旋转因子：由于因子载荷阵是不惟一的，所以应该对因子载荷阵进行旋转。目的是使因子载荷阵的结构简化，使载荷矩

19、阵每列或行的元素平方值向0和1两极分化。有三种主要的正交旋转法:四次方最大法、方差最大法和等量最大法。 5.因子分析通常包括以下五个步骤：选择分析的变量；计算所选原始变量的相关系数矩阵；提取公共因子；因子旋转；计算因子得分。 6.变量共同度的统计意义：变量的共同度是因子载荷矩阵的第i行的元素的平方和。记为 Xe7.因子分析数学模型：X=AF+hi2=i 填空：1因子分析是把每个原始变量分解为两部分因素，一部分是_公共因子_，另一部分为_特殊因子_。 2变量共同度是指因子载荷矩阵中_变量所在行元素平方和_。 3公共因子方差与特殊因子方差之和为_1_。 4因子分析和主成分分析在求解过程中都是

20、从出发简答：1比较因子分析和主成分分析模型的关系，说明它们的相似和不同之处。 2能否将因子旋转的技术用于主成分分析，使主成分有更鲜明的实际背景：不能，用了就是因子分析，旋转之后不叫主成分，公因子的方差不等于特征值，因此不能旋转。 3.因子分析中为什么要进行因子旋转？通过因子旋转，可以使每个变量只在一个公共因子上有较大的载荷，因此因子分析模型是适用的。 4.什么是因子得分？因子得分有何作用？在因子分析中，得出公共因子后，可以根据原始变量计算出各个样本在每个因子上的得分，称为因子得分，因子得分可以有多种求解方法，计算出因子得分后，可以把各个因子作为新的变量用于其他分析，也可以来进行综合评价等

21、。第九章、对应分析 1.对应分析：也称关联分析、R-Q型因子分析，通过分析由定性变量构成的交互汇总表来揭示变量间联系。可以揭示同一变量的各个类别之间的差异，以及不同变量各个类别之间的对应关系。对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较j=1aij。m2低维的空间中表示出来。它最大特点是能把众多的样品和众多的变量同时作到同一张图解上，将样品的大类及其属性在图上直观而又明了地表示出来，具有直观性。 2. 对应分析方法的优缺点：定性变量划分的类别越多，这种方法的优越性越明显揭示行变量类间与列变量类间的联系将类别的联系直观地表现在图形中不能用于相关关系的假设检验维数有研

22、究者自定受极端值的影响第十章： 1.研究两组随机变量之间的相关性用典型相关分析。典型相关分析就是分别构造各组变量的适当线性组合，将两组变量的相关性转化为两个变量的相关性。数学表现为：最大；rUVU和V分别来自两组变量的线性组合。 2.课件P21页例题。第十一章多重多元回归分析一回归分析的功能及涵义：回归分析是研究一个因变量对于一个或多个其他变量的依存关系，并用数学模型加以模拟，目的在于根据已知的或在多次重复抽样中固定的解释变量之值，估计、预测因变量的总体平均值。二回归分析的研究思路和步骤：根据研究问题的性质、要求建立回归模型。根据样本观测值对回归模型参数进行估计，求得回归方程。

23、对回归方程、参数估计值进行显著性检验。并从影响因变量的自变量中判断哪些显著，哪些不显著。利用回归方程进行预测。三多元线性分析中逐步回归的原理基本操作思想：第一组回归方程： 1、首先选一个因变量y1，对它来筛选所有自变量；转2 2、选第二个因变量y2，考虑y1,y2中是否有剔除；转3 3、若没有剔除，由y1,y2筛选自变量；转4 4、重复第二步；转2 第二组回归方程： 1、原始数据中删除第一组回归方程中已入选的因变量的资料； 2、重复整个过程指导因变量都有了回归方程时结束。操作原理：不断的假设检验最终目标：因变量分组具体计算步骤：第1步: 确定自变量和因变量的取舍标准; 设Fx

24、和 Fy分别为自变量和因变量的引入和剔除临界值(可取相等), 第2步: 任意选入一个因变量Y1 。假设k步后，此时已引入m1个自变量和 p1个因变量; 第3步: 逐个检查是否需要剔除自变量, 如有剔除转回三步; 第4步: 逐个检查是否需要引人自变量, 如有引入转到三步; 第5步: 逐个检查是否需要剔除因变量, 如有剔除转到三步; 第6步: 逐个检查是否需要引入因变量,如有引入转到第三步; 第7步: 计算回归方程。如果自第二步第六步已引入k 个因变量, 则计算此组的 k个回归方程; 第8步: 删除已引入的因变量的数据而保留所有自变量的数据,从第二步起继续计算下一组回归方程, 如此继续, 直到全部因变量都有了回归方程为止。附注：回归分析中的自变量是非随机性的且自变量之间不存在严格线性相关；因变量之间是允许线性相关关系的；若是多重多元且共线性模型，将使用偏最小二乘回归分析

展开阅读全文