统计案例分析大学生月平均生活费的估计和检验.doc

上传人:李司机 文档编号:1144451 上传时间:2022-07-04 格式:DOC 页数:23 大小:524.49KB
返回 下载 相关 举报
统计案例分析大学生月平均生活费的估计和检验.doc_第1页
第1页 / 共23页
统计案例分析大学生月平均生活费的估计和检验.doc_第2页
第2页 / 共23页
统计案例分析大学生月平均生活费的估计和检验.doc_第3页
第3页 / 共23页
统计案例分析大学生月平均生活费的估计和检验.doc_第4页
第4页 / 共23页
统计案例分析大学生月平均生活费的估计和检验.doc_第5页
第5页 / 共23页
点击查看更多>>
资源描述

《统计案例分析大学生月平均生活费的估计和检验.doc》由会员分享,可在线阅读,更多相关《统计案例分析大学生月平均生活费的估计和检验.doc(23页珍藏版)》请在三一办公上搜索。

1、 1、 数据为了了解大学生日常生活费支出及生活费来源状况,对中国人民大学在校本科生的月生活费支出问题进行了抽样调查。该问卷随机抽取中国人民大学大一、大二、大三、大四在校本科生男女各30多人作为样本。调查采取分层抽样,对在校本科生各个年级男生、女生各发放问卷30多份,共发放问卷300份,回收问卷291份,其中有效问卷共272份。其中,男生的有效问卷为127份,女生为145份。调查得到的部分数据见表一。表一 大学生月平均生活费支出的调查数据(仅截取部分)性别所在年级家庭所在地区平均月生活费(元)性别所在年级家庭所在地区平均月生活费(元)男1998级大型城市1000女1998级大型城市500男199

2、8级大型城市800女1998级大型城市800男1998级大型城市1000女1998级大型城市500男1998级中小城市400女1998级大型城市1000二、生活费支出的区间估计和假设检验(一)平均月生活费的描述统计量为了更好地研究全校本科学生平均月生活费支出,我们先来看一下样本数据中平均月生活费支出的一些描述统计量。 在spss中,点分析描述统计描述变量选择“平均月生活费”,选项选择“均值、标准差、均值的标准误”,得到的样本数据中平均月生活费的描述统计量见表二。表二 平均月生活费的描述统计量N均值标准差统计量统计量标准误统计量平均月生活费272595.0414.761243.444有效的 N

3、(列表状态)272从表二可以看到,样本数据中平均月生活费支出的均值为595.04,标准差为243.444,均值的标准误为14.761.(二)平均月生活费的假设检验从表二中我们已经知道了样本数据中平均月生活费支出的均值为595.04,现在我们来检验一下全校本科学生即总体的月平均生活费支出是否等于500。1. 检验统计量的确定样本数据的样本量n为272,其大于30,可以认为该数据是一个大样本。现在我们并不知道总体的月平均生活费支出是否服从正态分布,但是在样本量大的条件下,如果总体为正态分布,样本统计量服从正态分布:如果总体为非正态分布,样本统计量也是渐进服从正态分布的。所以在这种情况下,我们都可以

4、把样本统计量视为正态分布,这时可以使用z统计量(z分布)。即在总体标准差已知时,有而我们这里总体标准差是未知的,此时可以用样本标准差s代替,上式可以写为:2. 提出假设原假设为:全校本科学生月平均生活费支出u=500备择假设为:全校本科学生月平均生活费支出u=5003. spss操作及结果分析在spss中点分析比较均值单样本T检验检验变量选“平均月生活费”检验值填“500”,得到的平均月生活费的假设检验的结果见表三。表三 平均月生活费的假设检验的结果检验值 = 500 tdfSig.(双侧)均值差值差分的 95% 置信区间下限上限平均月生活费6.438271.00095.03765.98124

5、.10从表三可以看到,检验的P值接近于0,其小于0.05,根据小拒大接的原则,拒绝原假设,表面全校学生的月平均生活费支出与500元有显著差异。(3) 平均月生活费的区间估计 1. 数学模型的建立样本数据的样本量n为272,其大于30,可以认为该数据是一个大样本。现在我们并不知道总体的月平均生活费支出是否服从正态分布,但是在样本量大的条件下,样本均值的抽样分布均为正态分布,其数学期望为总体均值,方差为。经过标准化以后的随机变量服从标准正态分布,即由上式和正态分布的性质,可以得出总体均值在置信水平下的置信区间为式中,称为置信下限,称为置信上限;是事先所确定的一个概率值,也称为风险值,它是总体均值不

6、包括在置信区间的概率;称为置信水平;是标准正态分布右侧面积为时的值;是总体均值的标准误;是估计总体均值时的估计误差。这里,我们并不知道全校本科学生的平均月生活费支出的方差,但是由于样本数据的样本量较大,所以上式中的总体方差可以用样本方差代替,这时总体均值在置信水平下的置信区间可以写为: 2.模型的求解由表二可知,样本均值为595.04,样本均值的标准误为14.761.当风险值取0.05时,即置信水平取95%时,全校学生月平均生活费支出的95%的置信区间为595.04-1.96*14.761,595.04+1.96*14.761,即566.11到623元之间。三、男女学生的平均月生活费的假设检验

7、(1) 男女学生的平均月生活费的描述统计量 为了更好地研究全校本科男女学生的平均月生活费支出间是否有显著差异,我们先来看一下样本数据中男女学生的平均月生活费支出的一些描述统计量。在spss中点数据拆分文件勾选“比较组”分组方式选“性别”然后点分析描述统计描述变量选择“平均月生活费”,选项选择“均值、标准差、均值的标准误”,得到的平均月生活费的描述统计量见表四。表四 男女学生平均月生活费的描述统计量性别N均值标准差统计量统计量标准误统计量男平均月生活费127569.6920.387229.748有效的 N (列表状态)127女平均月生活费145617.2421.056253.543有效的 N (

8、列表状态)145从表四可以看到,样本数据中男生的平均月生活费支出的均值为596.69,标准差为229.748;女生的平均月生活费支出的均值为617.24.标准差为253.543。单从样本数据中男女学生的平均月生活费支出的均值来看,全校本科男女学生的平均月生活费支出间是有差异的,但是这只是我们主观的看法,下面我们用两个总体均值之差的假设检验来探究全校本科男女学生的平均月生活费支出间是否有显著差异。(2) 男女学生的平均月生活费间的假设检验1. 检验统计量的确定样本数据中男学生有127人,女学生有145人,均大于30,说明两个总体的样本量均较大,此时无论两个总体的分布是不是正态分布,可以证明的是,

9、由两个独立样本算出来的的抽样分布都是服从正态分布的,此时,作为检验统计量的计算公式为: 式中,分别为两个总体的均值,分别为两个总体的方差。这里,我们并不知道全校本科男学生和女学生的平均月生活费支出的方差,但是由于两个总体的样本量都较大,所以可以用样本方差来替代总体方差.此时,上式可以写为:2. 提出假设原假设为:全校本科男女学生月平均生活费支出之差,即全校本科男女学生的平均月生活费支出之间没有显著差别。备择假设为:全校本科男女学生月平均生活费支出之差,即全校本科男女学生的平均月生活费支出之间有显著差别。3. spss操作及结果分析在spss中点数据拆分文件勾选“分析所有个案,不创建组”,然后点

10、分析比较均值独立样本T检验检验变量选“平均月生活费”分组变量选“性别编号”,定义组选择“使用指定值1和2”,得到的男女学生的平均月生活费间的假设检验的结果见表四。表四 男女学生的平均月生活费间的假设检验的结果方差方程的 Levene 检验均值方程的 t 检验FSig.tdfSig.(双侧)均值差值标准误差值差分的 95% 置信区间下限上限平均月生活费假设方差相等.484.487-1.612270.108-47.55629.500-105.63510.523假设方差不相等-1.623269.679.106-47.55629.308-105.25810.145从表四可以看出,当原假设是男女学生的平

11、均月生活费的方差相等时,检验所对应的P值是0.487,其大于0.05,根据小拒大接的原则,不能拒绝原假设,即没有证据表明方差是不相等的,故我们看假设方差相等时的假设检验的结果就可以了。从假设方差相等时的假设检验的结果上来看,检验的P值为0.108,其大于0.05,根据小拒大接的原则,不能拒绝原假设,即没有证据表明男女学生的月平均生活费支出之间有显著差异。4、 估计乡镇地区学生的比例(一)对学生按性别和来源进行分类汇总为了估计乡镇地区学生的比例,我们先对学生按性别和来源进行分类汇总,在spss中点分析描述统计交叉表行选择“性别”,列选择“家庭所在地区”单元格中的百分比勾选“行”,得到如表五所示的

12、汇总表。表五 按性别和家庭所在地区进行的分类汇总家庭所在地区合计大型城市乡镇地区中小城市性别男计数264655127性别 中的 %20.5%36.2%43.3%100.0%女计数602263145性别 中的 %41.4%15.2%43.4%100.0%合计计数8668118272性别 中的 %31.6%25.0%43.4%100.0%从表五可以看到,家庭所在地区为乡镇地区的学生占所有被抽中的学生的25%。(3) 乡镇地区学生比例的区间估计1. 数学模型的建立样本数据的样本量n为272,其大于30,可以认为该数据是一个大样本。由样本比例的抽样分布可知,当样本量足够大时,比例的抽样分布可用正态分布

13、近似。的数学期望为;的方差为。样本比例经标准化后的随机变量则服从标准正态分布,即与总体均值的区间估计类似,在样本比例的基础上加减估计误差,即得总体比例在置信水平下的置信区间为:用上式计算总体比例的置信区间时,值应该是已知的。但实际情况不然,值恰好是要估计的,所以,需要用样本比例来替代。这时,总体比例的置信区间可表示为:式中,称为置信下限,称为置信上限;是显著性水平;是标准正态分布右侧面积为时的值;是估计总体比例时的估计误差。2. 模型的求解从表五可以得到,家庭所在地区为乡镇地区的学生占所有被抽中的学生的25%。所以全校本科学生中,乡镇学生比例的95%的置信区间为,即19.85%到30.15%之

14、间。五、单因素对月平均生活费支出的影响分析(1) 数学模型1. 单因素方差分析单因素方差分析是指对单因素试验结果进行分析,检验因素对试验结果有无显著性影响的方法。单因素方差分析是两个样本平均数比较的引伸,它是用来检验多个平均数之间的差异,从而确定因素对试验结果有无显著性影响的一种统计方法。在数据中,总误差反映全部观测数据的误差;处理误差(组间误差)是由于不同处理造成的误差,它反映了处理对观测数据的影响,因此称为处理效应;随机误差(组内误差)是由于随机因素造成的误差,也简称为误差。数据的误差用平方和表示,记为SS。其中总平方和记为SST,其计算公式为:它反映全部数据总误差大小的平方和。处理平方和

15、记为SSA,其计算公式为:它反映处理误差大小的平方和,也称为组间平方和。误差平方和记为SSE,其计算公式为:它反映了随机误差大小的平方和,也称为组内平方和。误差平方和的分解及其关系所图一所示。图一 误差平方和的分解及其关系方差分析的基本原理就是要分析数据的总误差中有没有处理误差。如果处理对观测数据没有显著影响,意味着没有处理误差。这时,每种处理所对应的总体均值应该相等,如果存在处理误差,每种处理所对应的总体均值至少有一对不相等。在只考虑一个因素的情况下,方差分析也就是要检验下面的假设:注意:拒绝原假设,只表明至少有两个总体的均值不相等,并不意味着所有的均值都不相等。2.多重比较多重比较的作用是

16、在拒绝原假设的条件下,通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异。多重比较方法有多种,如Fisher的 LSD方法、Tukey-Kramer的HSD方法等。其中LSD是最小显著差异(least significant difference)的缩写,该检验方法是由统计学家Fisher提出来的,因此也称为Fisher的最小显著差异方法,简称LSD方法。LSD的适用场合是:如果研究者在事先就已经计划好要对某对或某几对均值进行比较,不管方差分析的结果如何(拒绝或不拒绝原假设),都要进行比较,这时适合采用LSD方法。我们在下面的操作中都是用LSD方法进行多重比较的。(2) 年级对月

17、平均生活费支出的影响分析不同年级的学生的月平均生活费支出可能有所不同,现在我们来探究年级对学生的月平均生活费支出是否有显著的影响。方差分析中有三个基本假定:(1) 每个总体都应服从正态分布。也就是说,对于因素的每一个水平,其观测值是来自正态分布总体的简单随机样本。(2) 各个总体的方差必须相同。也就是说,各组观察数据是从具有相同方差的正态总体中抽取的。(3) 观测值是独立的每个年级各抽取了60多个学生,样本量比较大,故对于因素的每一个水平,其观测值均可以认为近似服从正态分布,所以满足了第一个假定。由于抽取四个年级的学生是独立进行的,所以可以认为四组样本观测值是相互独立的,即满足了第三个假定。对

18、于第二个假定,我们需要进一步的验证,故我们在做方差分析时要顺带做一下方差齐性检验。在spss中点分析一般线性模型单变量因变量选择“平均月生活费”,固定因子选择“所在年级”两两比较中的两两比较检验选择“所在年级”,假定方差齐性选择“LSD”选项中勾选“方差齐性检验”,得到的年级对月平均生活费支出的影响分析结果如表六、表七和表八所示。表六 年级对支出影响的方差齐性检验因变量:平均月生活费Fdf1df2Sig.0683268.977检验零假设,即在所有组中因变量的误差方差均相等。a. 设计 : 截距 + 所在年级从表七可以看出,方差齐性检验的P值为0.977,大于显著性水平0.05,根据小拒大接的原

19、则,应该接受原假设,此处的原假设是四个总体的方差相等,故满足方差齐性的假设,即满足第二个假定,可以进行方差分析。表七 年级对支出影响的方差分析表因变量:平均月生活费源III 型平方和df均方FSig.校正模型75378.112a325126.037.421.738截距87257473.269187257473.2691462.896.000所在年级75378.112325126.037.421.738误差15985421.52126859647.095总计1.124E8272校正的总计16060799.632271a. R 方 = .005(调整 R 方 = -.006)从表七可以看到,方差分

20、析检验的P值为0.738,大于显著性水平0.05,根据小拒大接的原则,不能拒绝原假设,即认为没有证据表明年级对生活费支出有显著影响。表八 年级对支出影响的多重比较平均月生活费LSD(I) 所在年级(J) 所在年级均值差值 (I-J)标准 误差Sig.95% 置信区间下限上限1998级1999级-15.6948.162.745-110.5279.132000级24.4645.757.593-65.63114.552001级17.6849.689.722-80.15115.511999级1998级15.6948.162.745-79.13110.522000级40.1537.828.289-34.

21、33114.632001级33.3842.500.433-50.30117.062000级1998级-24.4645.757.593-114.5565.631999级-40.1537.828.289-114.6334.332001级-6.7739.753.865-85.0471.502001级1998级-17.6849.689.722-115.5180.151999级-33.3842.500.433-117.0650.302000级6.7739.753.865-71.5085.04基于观测到的均值。 误差项为均值方 (错误) = 59647.095。从表七可以看到,在多重比较中,检验的各P值均

22、大于显著性水平0.05,根据小拒大接的原则,不能拒绝原假设,这表明各年级之间的月平均生活费支出之间没有显著差异。(3) 地区对月平均生活费支出的影响分析不同地区的学生的月平均生活费支出可能有所不同,现在我们来探究地区对学生的月平均生活费支出是否有显著的影响。从表五可以看出,每个地区所抽取的样本量都比较大,故对于因素的每一个水平,其观测值均可以认为近似服从正态分布,所以满足了第一个假定。由于抽取三个地区的学生是独立进行的,所以可以认为三组样本观测值是相互独立的,即满足了第三个假定。对于第二个假定,我们需要进一步的验证,故我们在做方差分析时要顺带做一下方差齐性检验。在spss中点分析一般线性模型单

23、变量因变量选择“平均月生活费”,固定因子选择“家庭所在地区”两两比较中的两两比较检验选择“家庭所在地区”,假定方差齐性选择“LSD”选项中勾选“方差齐性检验”,得到的年级对月平均生活费支出的影响分析结果如表九、表十和表十一所示。表九 地区对支出影响的方差齐性检验因变量:平均月生活费Fdf1df2Sig.1.2822269.279检验零假设,即在所有组中因变量的误差方差均相等。a. 设计 : 截距 + 家庭所在地区从表九可以看出,方差齐性检验的P值为0.279,大于显著性水平0.05,根据小拒大接的原则,应该接受原假设,此处的原假设是四个总体的方差相等,故满足方差齐性的假设,即满足第二个假定,可

24、以进行方差分析。表十 地区对支出影响的方差分析表因变量:平均月生活费源III 型平方和df均方FSig.校正模型391308.716a2195654.3583.359.036截距89252281.148189252281.1481532.204.000家庭所在地区391308.7162195654.3583.359.036误差15669490.91726958250.896总计1.124E8272校正的总计16060799.632271a. R 方 = .024(调整 R 方 = .017)从表十可以看到,方差分析检验的P值为0.036,小于显著性水平0.05,根据小拒大接的原则,应该拒绝原假

25、设,即有证据表明地区对生活费支出有显著影响。表十一 地区对支出影响的多重比较平均月生活费LSD(I) 家庭所在地区(J) 家庭所在地区均值差值 (I-J)标准 误差Sig.95% 置信区间下限上限大型城市乡镇地区85.12*39.166.0318.01162.23中小城市-4.1134.220.905-71.4863.26乡镇地区大型城市-85.12*39.166.031-162.23-8.01中小城市-89.23*36.746.016-161.58-16.89中小城市大型城市4.1134.220.905-63.2671.48乡镇地区89.23*36.746.01616.89161.58基于观

26、测到的均值。 误差项为均值方 (错误) = 58250.896。*. 均值差值在 .05 级别上较显著。表十一给出的各P值表明,乡镇地区与大城市和中小城市之间的月平均生活费支出之间均有显著差异,而大城市与中小城市之间的差异则不显著。六、双因素对月平均生活费支出的影响分析(1) 数学模型双因素方差分析有两种类型:一个是无交互作用的双因素方差分析,它假定因素A和因素B的效应之间是相互独立的,不存在相互关系;另一个是有交互作用的双因素方差分析,它假定因素A和因素B的结合会产生出一种新的效应。只考虑主效应的误差分解如图二所示。图二 只考虑主效应的误差分解考虑交互效应的误差分解如图三所示。图三 考虑交互

27、效应的误差分解(2) 不考虑交互效应的性别和地区对月平均生活费支出的影响分析不同性别和地区的学生的月平均生活费支出可能有所不同,现在我们来探究不考虑交互效应时的性别和地区两个因素对学生的月平均生活费支出是否有显著的影响。在双因素方差分析中,每个观测值看作由行因素(性别)的2两个水平和列因素(家庭所在地区)的三个水平所组合成的6个总体中抽取的样本量为1的独立随机样本。这六个总体中的每一个总体都应该服从正态分布且具有相同的方差。由于每个总体的样本量较大,所以可以认为近似服从正态分布,对于第二个假定,我们需要进一步的验证,故我们在做方差分析时要顺带做一下方差齐性检验。在spss中点分析一般线性模型单

28、变量因变量选择“平均月生活费”,固定因子选择“性别和家庭所在地区”模型中的指定模型勾选“设定”,构建项选择“主效应”,并将“性别和家庭所在地区”选入模型绘制中选择图“性别*家庭所在地区、家庭所在地区*性别”选项中勾选“方差齐性检验”,得到的同时考虑性别和地区两个因素的影响但不考虑交互效应的分析结果如表十二和表十三所示。表十二 考虑性别和地区影响(只考虑主效应)分析的方差齐性检验因变量:平均月生活费Fdf1df2Sig.6985266.625检验零假设,即在所有组中因变量的误差方差均相等。a. 设计 : 截距 + 家庭所在地区 + 性别从表十二可以看出,方差齐性检验的P值为0.625,大于显著性

29、水平0.05,根据小拒大接的原则,应该接受原假设,故满足方差齐性的假设,可以进行方差分析。表十三 考虑性别和地区影响(只考虑主效应)的方差分析表因变量:平均月生活费源III 型平方和df均方FSig.校正模型455828.125a3151942.7082.609.052截距88948545.338188948545.3381527.604.000家庭所在地区302712.4462151356.2232.599.076性别64519.409164519.4091.108.293误差15604971.50826858227.506总计1.124E8272校正的总计16060799.632271a.

30、 R 方 = .028(调整 R 方 = .018)从表十三可以看到,方差分析中,家庭所在地区检验的P值为0.076,性别检验的P值为0.293,均大于显著性水平0.05,根据小拒大接的原则,不能拒绝原假设,即均没有证据表明二者对生活费支出有显著影响。图四 性别和地区对支出影响的均值图图四给出了两个因素影响的均值图。纵坐标是估计的平均月生活费的边际均值。条线分别表示不同性别和不同家庭所在地区的学生的平均月生活费情况。由于此处我们使用的只考虑主效应的方差分析模型,所以线条折线是平行的。(三)考虑交互效应的性别和地区对月平均生活费支出的影响分析现在我们来探究一,除了同时考虑性别和地区两个因素的影响

31、外,还考虑二者对月平均生活费支出的交互效应的情况。在spss中点分析一般线性模型单变量因变量选择“平均月生活费”,固定因子选择“性别和家庭所在地区”模型中的指定模型勾选“全因子”绘制中选择图“性别*家庭所在地区、家庭所在地区*性别”选项中勾选“方差齐性检验”,得到的分析结果如表十四和表十五所示。表十四 考虑性别和地区影响(考虑交互效应)分析的方差齐性检验因变量:平均月生活费Fdf1df2Sig.1.0305266.400检验零假设,即在所有组中因变量的误差方差均相等。a. 设计 : 截距 + 家庭所在地区 + 性别 + 家庭所在地区 * 性别从表十四可以看出,方差齐性检验的P值为0.400,大

32、于显著性水平0.05,根据小拒大接的原则,应该接受原假设,故满足方差齐性的假设,可以进行方差分析。表十五 考虑性别和地区影响(考虑交互效应)的方差分析表因变量:平均月生活费源III 型平方和df均方FSig.校正模型601344.371a5120268.8742.069.070截距77087596.490177087596.4901326.392.000家庭所在地区368824.0452184412.0223.173.043性别42149.247142149.247.725.395家庭所在地区 * 性别145516.247272758.1231.252.288误差15459455.261266

33、58118.253总计1.124E8272校正的总计16060799.632271a. R 方 = .037(调整 R 方 = .019)从表十五可以看到,方差分析中,家庭所在地区检验的P值为0.043,其小于显著性水平0.05,根据小拒大接的原则,应该拒绝原假设,即家庭所在地区对月生活费支出有显著影响。性别检验的P值为0.395,家庭所在地区和性别的交互作用检验的P值为0.288,均大于显著性水平0.05,根据小拒大接的原则,不能拒绝原假设,即均没有证据表明性别、性别与地区的交互效应对生活费支出有显著影响。图五 性别和地区(考虑交互效应)对支出影响的均值图图五给出了两个因素影响的均值图。纵坐标是估计的平均月生活费的边际均值。条线分别表示不同性别和不同家庭所在地区的学生的平均月生活费情况。从图中可以清楚地看出各均值线有明显交叉,表明超市位置和竞争者数量对销售额有交互效应。23 / 23

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号