多元统计复习题 附答案.docx

上传人:小飞机 文档编号:3391166 上传时间:2023-03-12 格式:DOCX 页数:27 大小:49.52KB
返回 下载 相关 举报
多元统计复习题 附答案.docx_第1页
第1页 / 共27页
多元统计复习题 附答案.docx_第2页
第2页 / 共27页
多元统计复习题 附答案.docx_第3页
第3页 / 共27页
多元统计复习题 附答案.docx_第4页
第4页 / 共27页
多元统计复习题 附答案.docx_第5页
第5页 / 共27页
亲,该文档总共27页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《多元统计复习题 附答案.docx》由会员分享,可在线阅读,更多相关《多元统计复习题 附答案.docx(27页珍藏版)》请在三一办公上搜索。

1、多元统计复习题 附答案复习题 原文: 答案: 4.2 试述判别分析的实质。 4.3 简述距离判别法的基本思想和方法。 4.4 简述贝叶斯判别法的基本思想和方法。 4.5 简述费希尔判别法的基本思想和方法。 4.6 试析距离判别法、贝叶斯判别法和费希尔判别法的异同。 4.2 试述判别分析的实质。 答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设R1,R2,Rk是p维空间R p的k个子集,如果它们互不相交,且它们的和集为 ,则称 , 为 的一个划分。判别分析问题实质上就是在某种意义上,以最优的性质对p维空间 构

2、造一个“划分”,这个“划分”就构成了一个判别规则。 4.3 简述距离判别法的基本思想和方法。 答:距离判别问题分为两个总体的距离判别问题和多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离,将距离近的判别为一类。 两个总体的距离判别问题 设有协方差矩阵相等的两个总体G1和G2,其均值分别是m1和m 对于一个新的样品X,要判断它来自哪个总体。2,22计算新样品X到两个总体的马氏距离D和D,则 22 X ,D D X ,D D应属于哪个总体? =1,lnd=0。二者完全相同。 , = , =解: = = 即样品X属于总体 5.1 判别分析和聚类分析有何区别? 5.2 试述系统聚类的基本

3、思想。 5.3 对样品和变量进行聚类分析时, 所构造的统计量分别是什么?简要说明为什么这样构造 5.5试述K均值法与系统聚类法的异同。 5.1 判别分析和聚类分析有何区别? 答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有n个样本,对每个样本测得p项指标的数据,已知每个样本属于k个类别中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。聚类分析是分析如何对样品进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品聚合形成总体。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不

4、知道类的情况下进行分类。 5.2 试述系统聚类的基本思想。 答:系统聚类的基本思想是:距离相近的样品先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品总能聚到合适的类中。 5.3 对样品和变量进行聚类分析时, 所构造的统计量分别是什么?简要说明为什么这样构造? 答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n个样本看作p维空间的n个点。点之间的距离即可代表样品间的相似度。常用的距离为 闵可夫斯基距离:dij(q)q取不同值,分为 绝对距离 p=(Xik-Xjk)k=1pq1/qdij(1)=Xik-Xjk k=1欧氏距离 dij(2)=(Xi-kXk=1p21/2

5、jk)切比雪夫距离 dij()=maxXik-Xjk1kpd(L)=1pXik-Xjk马氏距离 2兰氏距离 dij(M)=(Xi-Xj)-1(Xi-Xj) 对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。 将变量看作p维空间的向量,一般用 p夹角余弦 XikXjkk=1 cosq= ijpp 2(Xik)(X2jk) k=1k=1 相关系数 p (Xik-Xi)(Xjk-Xj)k=1 rij= pp (Xik-Xi)2(Xjk-Xj)2k=1k=1 5.5试述K均值法与系统聚类法的异同。 答:相同:K均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的。

6、 不同:系统聚类对不同的类数产生一系列的聚类结果,而K均值法只能产生指定类数的聚类结果。 具体类数的确定,离不开实践经验的积累;有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K均值法确定类数的参考。 6.1 试述主成分分析的基本思想。 6.2 主成分分析的作用体现在何处? 6.3 简述主成分分析中累积贡献率的具体含义。 6.5 试述根据协差阵进行主成分分析和根据相关阵进行主成分分析的区别。 6.1 试述主成分分析的基本思想。 答:我们处理的问题多是多指标变量问题,由于多个变量之间往往存在着一定程度的相关性,人们希望能通过线性组合的方式从这些指标中尽可能快的提取信息。当第一个组合

7、不能提取更多信息时,再考虑第二个线性组合。继续这个过程,直到提取的信息与原指标差不多时为止。这就是主成分分析的基本思想。 6.2 主成分分析的作用体现在何处? 答:一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分量,就得到一个更低维的随机向量;主成分分析的作用就是在降低数据“维数”的同时又保留了原数据的大部分信息。 6.3 简述主成分分析中累积贡献率的具体含义。 答:主成分分析把p个原始变量X1,X2,Xp的总方差tr()分解成了p个相互独立的变量Y1,Y2,Yp的方差之和lk=1pk。主成分分析的目的是减少变量的个数,所以一般不会使用所有p个主成分的,

8、忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。这里我们称jk=lk最大,这表明Y1=T1X综合原始变量X1,X2,lk 为第k个主成分k=1pYk的贡献率。第一主成分的贡献率,Xp的能力最强,而Y2,Y3,Yp的综合能力依次递减。若只取m(r),r)9.3 试分析一组变量的典型变量与其主成分的联系与区别。 答:一组变量的典型变量和其主成分都是经过线性变换计算矩阵特征值与特征向量得出的。主成分分析只涉及一组变量的相互依赖关系而典型相关则扩展到两组变量之间的相互依赖关系之中,度量了这两组变量之间联系的强度。 4.8 某超市经销十种品牌的饮料,其中有四种畅销,三种滞销,三种平销。下表是这

9、十种品牌饮料的销售价格和顾客对各种饮料的口味评分、信任度评分的平均数。 6.8利用主成分分析法,综合评价六个工业行业的经济效益指标。 6.10 根据习题5.10中XX年我国省会城市和计划单列市的主要经济指标数据,利用主成分分析法对这些地区进行分类。 7.8 某汽车组织欲根据一系列指标来预测汽车的销售情况,为了避免有些指标间的相关关系影响预测结果,需首先进行因子分析来简化指标系统。下表是抽查欧洲某汽车市场7个品牌不同型号的汽车的各种指标数据,试用因子分析法找出其简化的指标系统。 4.8 某超市经销十种品牌的饮料,其中有四种畅销,三种滞销,三种平销。下表是这十种品牌饮料的销售价格和顾客对各种饮料的

10、口味评分、信任度评分的平均数。 销售情况 畅销 产品序号 1 2 3 4 5 6 7 8 9 10 销售价格 2.2 2.5 3.0 3.2 2.8 3.5 4.8 1.7 2.2 2.7 口味评分 5 6 3 8 7 8 9 3 4 4 信任度评分 8 7 9 6 6 7 8 4 2 3 平销 滞销 根据数据建立贝叶斯判别函数,并根据此判别函数对原样本进行回判。 现有一新品牌的饮料在该超市试销,其销售价格为3.0,顾客对其口味的评分平均为8,信任评分平均为5,试预测该饮料的销售情况。 解:增加group变量,令畅销、平销、滞销分别为group1、2、3;销售价格为X1,口味评分为X2,信任度

11、评分为X3,用spss 解题的步骤如下: 1. 在SPSS窗口中选择AnalyzeClassifyDiscriminate,调出判别分析主界面,将左边的变量列表中的“group”变量选入分组变量中,将X1、X2、X3变量选入自变量中,并选择Enter independents together单选按钮,即使用所有自变量进行判别分析。 2. 点击Define Range按钮,定义分组变量的取值范围。本例中分类变量的范围为1到3,所以在最小值和最大值中分别输入1和3。单击Continue按钮,返回主界面。如图4.1 图4.1 判别分析主界面 3. 单击Statistics按钮,指定输出的描述统计量

12、和判别函数系数。选中Function Coefficients栏中的Fishers:给出Bayes判别函数的系数。如图4.2。单击Continue按钮,返回主界面。 图4.2 statistics子对话框 4. 单击Classify按钮,弹出classification子对话框,选中Display选项栏中的Summary table复选框,即要求输出错判矩阵,以便实现题中对原样本进行回判的要求。如图4.3。 图4.3 classification对话框 5. 返回判别分析主界面,单击OK按钮,运行判别分析过程。 1) 根据判别分析的结果建立Bayes判别函数: Bayes判别函数的系数见表4.

13、1。表中每一列表示样本判入相应类的Bayes判别函数系数。由此可建立判别函数如下: Group1: Y1=-81.843-11.689X1+12.297X2+16.761X3 Group2: Y2=-94.536-10.707X1+13.361X2+17.086X3 Group3: Y3=-17.449-2.194X1+4.960X2+6.447X3 将各样品的自变量值代入上述三个Bayes判别函数,得到三个函数值。比较这三个函数值,哪个函数值比较大就可以判断该样品判入哪一类。 Classification Function Coefficients x1 x2 x3 1 -11.689 12

14、.297 16.761 group 2 -10.707 13.361 17.086 3 -2.194 4.960 6.447 (Constant) -81.843 -94.536 -17.449 Fishers linear discriminant functions 表4.1 Bayes判别函数系数 根据此判别函数对样本进行回判,结果如表4.2。从中可以看出在4种畅销饮料中,有3种被正确地判定,有1种被错误地判定为平销饮料,正确率为75%。在3种平销饮料中,有2种被正确判定,有1种被错误地判定为畅销饮料,正确率为66.7%。3种滞销饮料均正确判定。整体的正确率为80.0%。 Classif

15、ication Results aOriginal Count group 1 2 3 % 1 2 3 Predicted Group Membership 1 3 1 0 75.0 33.3 .0 2 1 2 0 25.0 66.7 .0 3 0 0 3 .0 .0 100.0 Total 4 3 3 100.0 100.0 100.0 a. 80.0% of original grouped cases correctly classified. 表4.2 错判矩阵 2) 该新饮料的X1=3.0,X2=8,X3=5,将这3个自变量代入上一小题得到的Bayes判别函数,Y2的值最大,该饮料预

16、计平销。也可通过在原样本中增加这一新样本,重复上述的判别过程,并在classification子对话框中同时要求输出casewise results,运行判别过程,得到相同的结果。 6.8利用主成分分析法,综合评价六个工业行业的经济效益指标。 单位: 行业名称 煤炭开采和选业 石油和天然气开采业 黑色金属矿采选业 有色金属矿采选业 非金属矿采选业 其它采矿业 资产 总计 6917.2 5675.9 768.1 622.4 699.9 1.6 固定资产净值平均余额 3032.7 3926.2 221.2 248 291.5 0.5 产品销 售收入 683.3 717.5 96.5 116.4 8

17、4.9 0.3 利润 总额 61.6 33877 13.8 21.6 6.2 0 解:令资产总计为X1,固定资产净值平均余额为X2,产品销售收入为X3,利润总额为X4,用SPSS对这六个行业进行主成分分析的方法如下: 1. 在SPSS窗口中选择AnalyzeData ReductionFactor菜单项,调出因子分析主界面,并将变量X1-X5移入Variables框中,其他均保持系统默认选项,单击OK按钮,执行因子分析过程。得到如表6.1所示的特征根和方差贡献率表和表6.2所示的因子载荷阵。 第一个因子就可以解释86.5% 表6.1 特征根和方差贡献率表 表6.2 因子载荷阵 2. 将表6.2

18、中因子载荷阵中的数据输入SPSS数据编辑窗口,命名为a1。点击菜单项中的TransformCompute,调出Compute variable对话框,在对话框中输入等式: z1=a1 / SQRT(3.46),计算第一个特征向量。点击OK按钮,即可在数据编辑窗口中得到以z1为变量名的第一特征向量。 表6.3 特征向量矩阵 x1 x2 x3 x4 根据表6.3得主成分的表达式: z1 0.509 0.537 0.530 0.413 Y1=0.509X1+0.537X2+0.530X3+0.413X4 3. 再次使用Compute命令,调出Compute variable对话框,在对话框中输入等式

19、: y1=0.509*x1+0.537*x2+0.53*x3+0.413*x4 根据六个工业行业计算所的y1的大小可得石油和天然气开采业的经济效益最好,煤炭开采和选业其次,接着依次是黑色金属、非金属、有色金属和其他采矿业。 6.10 根据习题5.10中XX年我国省会城市和计划单列市的主要经济指标数据,利用主成分分析法对这些地区进行分类。 解:用SPSS进行主成分分析的具体方法参见6.8,分析结果如下: 表6.7 特征根和方差贡献率表 表6.8 因子载荷阵 表6.6 特征向量矩阵 x1 x2 x3 x4 x5 x6 x7 x8 x9 根据表6.6得主成分的表达式: z1 0.29 0.28 0.

20、14 0.31 0.40 0.40 0.31 0.39 0.39 z2 0.47 0.48 -0.29 -0.37 -0.20 -0.27 0.39 0.12 -0.24 Y1=0.29X1+0.28X2+0.14X3+0.31X4+0.4X5-0.4X6+0.31X7+0.39X8+0.39X9 Y2=0.47X1+0.48X2-0.29X3-0.37X4-0.2X5-0.27X6+0.39X7+0.12X8-0.24X9 分别计算出以上三项后,利用公式Y=l1lY1+2Y2得到综合得分并排序如下表: lly1 y2 y 170038.89 254204.05 197055.90 70185

21、.88 34213.02 58638.59 50894.53 69593.93 56897.04 地区 深圳 上海 厦门 广州 杭州 宁波 北京 南宁 天津 海口 南京 青岛 大连 济南 福州 乌鲁木齐 沈阳 武汉 长春 成都 太原 郑州 兰州 海口 昆明 呼和浩特 长沙 石家庄 西安 南昌 哈尔滨 合肥 银川 贵阳 重庆 西宁 南宁 55849.21 42167.71 40552.85 45747.38 45747.38 39597.90 39597.90 36680.75 35237.27 31830.56 25149.73 22734.16 22284.54 23184.99 23909

22、.27 21524.95 33808.79 19445.42 18561.81 16568.97 17666.70 18494.34 16128.60 18845.23 18229.33 16764.15 14598.40 15782.07 14319.85 12865.97 15339.90 27859.53 10450.62 11526.86 32174.58 29244.98 28367.34 11555.73 11555.73 21080.52 21080.52 25804.65 14552.46 17629.53 16499.39 16326.97 15284.68 12310.22

23、 9770.56 14179.21 -17638.73 9809.99 9822.90 13769.80 11325.77 8579.72 13359.10 6252.54 7399.62 4871.97 9288.20 6297.20 8659.41 10960.08 4138.48 -22407.66 6144.51 2677.29 48249.65 38019.51 36641.30 34771.86 34771.86 33653.82 33653.82 33189.52 28597.44 27272.03 22372.97 20677.45 20037.59 19694.19 1937

24、0.75 19166.96 17294.14 16352.45 15756.62 15670.44 15631.26 15311.75 15239.59 14802.98 14752.99 12946.76 12893.83 12737.43 12502.85 12254.18 11744.24 11723.76 9068.36 8686.15 最后的分类可以根据最终得分Y的值来划分,由于没有给出具体的分类标准,具体分类结果根据各人的主观意愿可以有多种答案。 可以归为一类,属于文科学习能力的指标;第二个公共因子在前三个指标上有较大载荷,同样可以归为一类,这三个指标同属于理科学习能力的指标。根据

25、表7.3易得: F1=0.064X1+0.085X2+0.137X3+0.332X4+0.378X5+0.432X6 F2=0.439X1+0.400X2+0.484X3+0.014X4+0.073X5+0.169X6 表7.3 因子得分系数矩阵 将每个学生的六门成绩分别代入F1、F2,比较两者的大小,F1大的适合学文,F2大的适合学理。 计算结果为学号是1、16、24的学生适合学文,其余均适合学理。 7.8 某汽车组织欲根据一系列指标来预测汽车的销售情况,为了避免有些指标间的相关关系影响预测结果,需首先进行因子分析来简化指标系统。下表是抽查欧洲某汽车市场7个品牌不同型号的汽车的各种指标数据,

26、试用因子分析法找出其简化的指标系统。 品牌 A A A B B B C C C D D D D E E E E F F F F F F F F F G G G G G G 价格 21500 28400 42000 23990 33950 62000 26990 33400 38900 21975 25300 31965 27885 39895 39665 31010 46225 13260 16535 18890 19390 24340 45705 13960 9235 18890 19840 24495 22245 16480 28340 29185 发动机 1.8 3.2 3.5 1.8

27、2.8 4.2 2.5 2.8 2.8 3.1 3.8 3.8 3.8 4.6 4.6 3.0 5.7 2.2 3.1 3.1 3.4 3.8 5.7 1.8 1.0 3.4 2.5 2.5 2.7 2.0 3.5 3.5 功率 140 225 210 150 200 310 170 193 193 175 240 205 205 275 275 200 255 115 170 175 180 200 345 120 55 180 163 168 200 132 253 253 轴距 101.2 108.1 114.6 102.6 108.7 113.0 107.3 107.3 111.4 1

28、09.0 109.0 113.8 112.2 115.3 108.0 107.4 117.5 104.1 107.0 107.5 110.5 101.1 104.5 97.1 93.1 110.5 103.7 106.0 113.0 108.0 113.0 113.0 宽 67.3 70.3 71.4 68.2 76.1 74.0 68.4 68.5 70.9 72.7 72.7 74.7 73.5 74.5 75.5 70.3 77.0 67.9 69.4 72.5 72.7 74.1 73.6 66.7 62.6 73.0 69.7 69.2 74.4 71.0 74.4 74.4 长 1

29、72.4 192.9 196.6 178.0 192.0 198.2 176.0 176.0 188.0 194.6 196.2 206.8 200.0 207.2 200.6 194.8 201.2 180.9 190.4 200.9 197.9 193.2 179.7 174.3 149.4 200.0 190.9 193.0 209.1 186.0 207.7 197.8 轴距 2.639 3.517 3.850 2.998 3.561 3.902 3.179 3.197 3.472 3.368 3.543 3.778 3.591 3.978 3.843 3.770 5.572 2.67

30、6 3.051 3.330 3.340 3.500 3.210 2.398 1.895 3.389 2.967 3.332 3.452 2.911 3.564 3.567 燃料容量 13.2 17.2 18.0 16.4 18.5 23.7 16.6 16.6 18.5 17.5 17.5 18.5 17.5 18.5 19.0 18.0 30.0 14.3 15.0 16.6 17.0 16.8 19.1 13.2 10.3 17.0 15.9 16.0 17.0 16.0 17.0 17.0 燃料效率 28 25 22 27 22 21 26 24 25 25 23 24 25 22 22

31、 22 15 27 25 25 27 25 22 33 45 27 24 24 26 27 23 23 解:令价格为X1,发动机为X2,功率为X3,轴距为X4,宽为X5,长为X6,轴距为X7,燃料容量为X8,燃料效率为X9,用SPSS找简化的指标系统的具体步骤同7.7。 此时在系统默认情况下提取因子,结果是只抽取了一个成分,从方差贡献来看,前三个成分贡献了90.9%,因此重复因子分析过程,并在第三步Extraction子对话框中的Number of factors后的矩形框中输入3,即为要提取的公因子的数目。因子分析结果如下: 表7.4 旋转后的因子得分系数矩阵 其简化了指标体系为F1、F2、F3,从旋转后的因子得分系数矩阵得: F1=-0.399X1-0.015X2-0.060X3+0.305X4+0.354X5+0.599X6+0.036X7-0.186X8-0.071X9 F2=0.289X1+0.525X2+0.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号