《应用多元统计分析考试要点.docx》由会员分享,可在线阅读,更多相关《应用多元统计分析考试要点.docx(21页珍藏版)》请在三一办公上搜索。
1、应用多元统计分析考试要点1 简述欧氏距离与马氏距离的区别和联系。 答: 设p维空间中的两点X=和Y=。则欧氏距离为。欧氏距离的局限有在多元数据分析中,其度量不合理。会受到实际问题中量纲的影响。 设X,Y是来自均值向量为,协方差为的总体G中的p维样本。则马氏距离为D(X,Y)=。当即单位阵时,D(X,Y)=即欧氏距离。 因此,在一定程度上,欧氏距离是马氏距离的特殊情况,马氏距离是欧氏距离的推广。 2 试述判别分析的实质。 答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设R1,R2,Rk是p维空间R p的k个子
2、集,如果它们互不相交,且它们的和集为,则称为的一个划分。判别分析问题实质上就是在某种意义上,以最优的性质对p维空间构造一个“划分”,这个“划分”就构成了一个判别规则。 3 简述距离判别法的基本思想和方法。 答:距离判别问题分为两个总体的距离判别问题和多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离,将距离近的判别为一类。 两个总体的距离判别问题 设有协方差矩阵相等的两个总体G1和G2,其均值分别是m1和m2,对于一个新的样品X,22要判断它来自哪个总体。计算新样品X到两个总体的马氏距离D和D,则 22X,DD 22X,DD的数据,已知每个样本属于k个类别中的某一类,通过找出一个最
3、优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。聚类分析是分析如何对样品进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品聚合形成总体。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。 8试述系统聚类的基本思想。 答:系统聚类的基本思想是:距离相近的样品先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品总能聚到合适的类中。 9 对样品和变量进行聚类分析时, 所构造的统计量分别是什么?简要说明为什么这样构造? 答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n个
4、样本看作p维空间的n个点。点之间的距离即可代表样品间的相似度。常用的距离为 明氏距离:dij(q)q取不同值,分为 绝对距离dij(1)=(Xik-Xjk)k=1ppq1/q=Xik-Xjk k=1欧氏距离dij(2)=(Xik-Xjk)k=1p21/2切比雪夫距离dij()=maxXik-Xjk 1kp1pXik-Xjk dij(L)=pk=1Xik+Xjk马氏距离 兰氏距离 2-1 dij(M)=(Xi-Xj)(Xi-Xj) 对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。 将变量看作p维空间的向量,一般用 p夹角余弦 XikXjkk=1 cosq= ijp
5、p 2(Xik)(X2jk) k=1k=1相关系数 p (Xik-Xi)(Xjk-Xj)k=1 rij= pp (Xik-Xi)2(Xjk-Xj)2k=1k=1 10 在进行系统聚类时,不同类间距离计算方法有何区别?选择距离公式应遵循哪些原则? 答: 设dij表示样品Xi与Xj之间距离,用Dij表示类Gi与Gj之间的距离。 . 最短距离法 Dkr=最长距离法 XiGk,XjGrmindij=minDkp,Dkq Dpq=XiGp,XjGqmaxdij Dkr=XiGk,XjGrmaxdij=maxDkp,Dkq 中间距离法 121222 Dkr =Dkp+Dkq+bDpq 22其中 重心法 2
6、Dpq=(Xp-Xq)(Xp-Xq)Xr=1(npXp+nqXq) nrD=2krnpnrD+2kpnqnrD-2kqnpnqnr22Dpq 类平均法 1D=npnq2pq1dD=nknrXiGpXjGj2ij2krXiGkXjGrd=2ijnpnrD+2kpnqnr2Dkq 可变类平均法 np2nq222 Dkr =(1-b)(Dkp+Dkq)+bDpqnrnr 其中b是可变的且b1 可变法 2Dkr=1-b222(Dkp+Dkq)+bDpq其中b是可变的且b1 2nt离差平方和法 St=(Xit-Xt)(Xit-Xt) t=1D=2krnk+npnr+nkD+2kpnk+nqnr+nk2D
7、kq-nk2Dpq nr+nk11通常选择距离公式应注意遵循以下的基本原则: 要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空间距离概念。马氏距离有消除量纲影响的作用。 要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析之前已经对变量作了标准化处理,则通常就可采用欧氏距离。 要考虑研究对象的特点和计算量的大小。样品间距离公式的选择是一个比较复杂且带有一定主观性的问题,我们应根据研究对象的特点不同做出具体分折。实际中,聚类分析前不妨试探性地多选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最合适的距离测度方法。 12试述K均
8、值法与系统聚类法的异同。 答:相同:K均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的。 不同:系统聚类对不同的类数产生一系列的聚类结果,而K均值法只能产生指定类数的聚类结果。 具体类数的确定,离不开实践经验的积累;有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K均值法确定类数的参考。 13试述K均值法与系统聚类有何区别?试述有序聚类法的基本思想。 答:K均值法的基本思想是将每一个样品分配给最近中心的类中。系统聚类对不同的类数产生一系列的聚类结果,而K均值法只能产生指定类数的聚类结果。具体类数的确定,有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K均
9、值法确定类数的参考。 14试述主成分分析的基本思想。 答:我们处理的问题多是多指标变量问题,由于多个变量之间往往存在着一定程度的相关性,人们希望能通过线性组合的方式从这些指标中尽可能快的提取信息。当第一个组合不能提取更多信息时,再考虑第二个线性组合。继续这个过程,直到提取的信息与原指标差不多时为止。这就是主成分分析的基本思想。 15 主成分分析的作用体现在何处? 答:一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分量,就得到一个更低维的随机向量;主成分分析的作用就是在降低数据“维数”的同时又保留了原数据的大部分信息。 16 简述主成分分析中累积贡献率的具
10、体含义。 答:主成分分析把p个原始变量X1,X2,L,Xp的总方差tr()分解成了p个相互独立的变量Y1,Y2,L,Yp的方差之和jk=lklk=1pk。主成分分析的目的是减少变量的个数,所以一般不会使用所有p个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。这里我们pY称为第k个主成分k的贡献率。第一主成分的贡献率最大,这表明Y1=T1X综lk=1k合原始变量X1,X2,L,Xp的能力最强,而Y2,Y3,L,Yp的综合能力依次递减。若只取m(r)24 试分析一组变量的典型变量与其主成分的联系与区别。 答:一组变量的典型变量和其主成分都是经过线性变换计算矩阵特征值与特征向量
11、得出的。主成分分析只涉及一组变量的相互依赖关系而典型相关则扩展到两组变量之间的相互依赖关系之中,度量了这两组变量之间联系的强度。 1. 在进行系统聚类分析时,不同的类间距离计算方法有何区别?请举例说明。 最短距离法为类与之间的距离为两类最近样品的距离;最长距离法为类与之间的距离为两类最远样品的距离;中间距离法用介于最长与最短两者之间的距离;重心法定义类间距离为两类重心的距离;类平均法定义类间距离平方为这两类元素两两之间距离平方的平均数;可变类平均法将G和合并为新类,反映出和之间的距离的影响;如果中间法的前两项的系数也依赖于iGrGjGiGpjGqGpGqGpqDqG,那么用可变法如果将和合并为
12、新类;离差平方和法则是先将个样品各自成一类,然后每次缩小一类,每缩小一类,离差平方和就要增大,选择使方差增加最小的两类合并,直到所有的样品归为一类为止pGrGn 25 试述主成分分析的基本思想。 答:我们处理的问题多是多指标变量问题,由于多个变量之间往往存在着一定程度的相关性,人们希望能通过线性组合的方式从这些指标中尽可能快的提取信息。当第一个组合不能提取更多信息时,再考虑第二个线性组合。继续这个过程,直到提取的信息与原指标差不多时为止。这就是主成分分析的基本思想。 26 主成分分析的作用体现在何处? 答:一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分
13、量,就得到一个更低维的随机向量;主成分分析的作用就是在降低数据“维数”的同时又保留了原数据的大部分信息。 27 简述主成分分析中累积贡献率的具体含义。 答:主成分分析把p个原始变量X1,X2,L,Xp的总方差tr()分解成了p个相互独立的变量Y1,Y2,L,Yp的方差之和jk=lklk=1pk。主成分分析的目的是减少变量的个数,所以一般不会使用所有p个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。这里我们pY称为第k个主成分k的贡献率。第一主成分的贡献率最大,这表明Y1=T1X综lk=1k合原始变量X1,X2,L,Xp的能力最强,而Y2,Y3,L,Yp的综合能力依次递减。
14、若只取m(p)个主成分,则称ym=lkk=1mlk=1pk为主成分Y1,L,Ym的累计贡献率,累计贡献率表明Y1,L,Ym综合X1,X2,L,Xp的能力。通常取m,使得累计贡献率达到一个较高的百分数。 28 试述根据协差阵进行主成分分析和根据相关阵进行主成分分析的区别。 答:从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的。从协方差矩阵出发的,其结果受变量单位的影响。主成分倾向于多归纳方差大的变量的信息,对于方差小的变量就可能体现得不够,也存在“大数吃小数”的问题。实际表明,这种差异有时很大。我们认为,如果各指标之间的数量级相差悬殊,特别是各指标有不同的物理量纲的话,较为合理的做法是使用R代替。对于研究经济问题所涉及的变量单位大都不统一,采用R代替后,可以看作是用标准化的数据做分析,这样使得主成分有现实经济意义,不仅便于剖析实际问题,又可以避免突出数值大的变量。