调查资料的统计分析课件.ppt

上传人:小飞机 文档编号:3967686 上传时间:2023-03-29 格式:PPT 页数:146 大小:3.27MB
返回 下载 相关 举报
调查资料的统计分析课件.ppt_第1页
第1页 / 共146页
调查资料的统计分析课件.ppt_第2页
第2页 / 共146页
调查资料的统计分析课件.ppt_第3页
第3页 / 共146页
调查资料的统计分析课件.ppt_第4页
第4页 / 共146页
调查资料的统计分析课件.ppt_第5页
第5页 / 共146页
点击查看更多>>
资源描述

《调查资料的统计分析课件.ppt》由会员分享,可在线阅读,更多相关《调查资料的统计分析课件.ppt(146页珍藏版)》请在三一办公上搜索。

1、第十一章 调查资料的统计分析,第一节 统计分析概述第二节 单变量统计分析 一、频数分布与频率分布 二、集中趋势分析 三、离散趋势分析第三节 双变量统计分析 一、交互分类 二、相关分析 三、回归分析第四节 推论统计,第一节 统计分析概述,一、统计分析的含义与作用,运用统计学的方法,对调查所得资料的数量特征进行描述,并用各种数学模型揭示调查资料中所隐含的关系、规律及发展趋势。,1为社会调查研究提供一套精确的形式化语言2使抽样调查成为可能3有助于揭示社会现象的规律4有助于较精确地预测社会现象的发展趋势,含义,作用,二、统计分析的特点,统计分析要以定性分析为基础,根据研究目的制定具体的统计分析计划,统

2、计分析的内容,描述统计,推论统计,用最简单的概括形式反映出大量数据资料所容纳的基本信息,从样本调查中所得的数据资料来推断总体的情况,基本方法,基本内容,第二节 单变量统计分析,一、频数分布与频率分布,所谓频数分布,就是指一组数据中取不同值的个案的次数分布情况,它一般以频数表的形式表达。,某班有25名学生,其年龄情况如下:20,19,18,19,18,20,21,17,18,18,19,19,20,19,19,17,18,20,19,19,21,21,19,20,19。,年龄(岁),学生人数,1718192021,25105325,合计,该班学生的年龄分布表,例如,频数分布表的作用 一是简化资料

3、,即将调查所得到的一长串原始数据,以一个十分简洁的统计表反映出来;二是从频数分布表中,可以更清楚地了解调查数据的众多信息。,所谓频率分布,则是指一组数据中不同取值的频数相对于总数的比率分布情况,这种比率通常以百分比的形式表达,频率分布情况以频率表的形式出现。,频率分布表除具备频数分布表的优点外,还能反映各类所占的比重,便于不同总体或不同类别之间的比较。这种分布的应用更为普遍。,例如,年龄(岁),百分比,1718192021,820402012100,合计,某班学生的年龄分布,SPSS操作例,二、集中趋势分析,所谓集中趋势分析,指的是用一个典型值或代表值来反映一组数据的一般水平,或向这个典型值集

4、中的情况。,最常见的集中趋势统计量,平均数,众数,中位数,平均数(算术平均数)用总体各单位数值之和除以总体单位总数的商。平均数又称为均值或均数。,计算公式及应用举例,由原始数据计算平均数。设总体单位总数为n,总体各单位的数值为xi(i=1,2,n),则计算公式为:,由单值分组资料计算平均数。首先要将每一个组的量值乘以所对应的频数;然后将各组的数之和全部相加,最后除以单位总数,得出平均数。其计算公式为:,由组距分组资料求平均数。先计算出各组的组中值Xm,然后再按照单值分组资料计算平均数的公式计算。,注:组中值是各组变量范围内的一个中间数值,一般由各组的上限和下限进行简单平均计算,即:组中值=(上

5、限+下限)2若为开口组,其组中值按下列公式计算:缺下限的最小组组中值=上限-邻组组距2缺上限的最大组组中值=下限+邻组组距2,例题,例1 某班10名学生的年龄分别为20岁、21岁、19岁、19岁、20岁、20岁、21岁、22岁、18岁、20岁,求他们的平均年龄。,例2 调查某年级150名学生的年龄,得到下列结果(右表),求平均年龄。(19.33),171819202122,10255040205,例3 调查某厂100名职工的收入情况如下(右表),求他们的平均收入。(212),例:某单位职工月工资资料如下表,试求该单位职工月平均工资。(833.3元/人),中位数,把一组数据按值的大小顺序排列起来

6、,处于中央位置的那个数值叫中位数。中位数通常用Me表示,它将整个数据资料一分为二,其中一半的数值比它大,而另一半的数值比它小。当数据为偶数个时,取中间两数的平均数。,中位数的作用:不受极端数值的影响,在总体标志值差异很大时,具有较强的代表性。,中位数的确定,(未分组资料),【例】某企业某日工人的日产量资料如下:,计算该企业该日全部工人日产量的中位数。,中位数的位次:,(单项数列),为中位数所在组的组距。式中,假定中位数所在组的频数在该组内是均匀分布的。,组距数列计算中位数:,采用公式计算中位数的近似值:,为数据的个数(总次数);L为中位数所在组的下限值;,为中位数所在组以前各组的累积频数;,为

7、中位数所在组的频数;,个次数或频数,式中的C点,AB区域即整个中位数所在的组内,次数分布是均匀的,依次分布着,个次数或频数。,再假定AC区域内,次数分布也是均匀的,且依次分布着,是中位数所在的位置,,为中位数所在组以前各组的累积频数。,例、设某车间50名工人日加工零件数分组表如下:,计算该车间50名工人日加工零件数的中位数。,众数,众数是一组数据中出现次数最多(即频数最高)的那个数值。通常用M表示。,众数的求法,由单值分组资料求众数。由于单值分组资料中已将各标志值及其所对应的频数都一一列出,故只需采用直接观察的方法就可求得众数。具体做法是,首先在频数一栏中找出最大的频数,假定为 fm;然后根据

8、fm找到它所对应的标志值 Xm,则众数即为 Xm。,由组距分组资料求众数。由组距分组资料求众数的常用的方法是组中值法。用组中值法求众数分为三步:首先通过直接观察找出最高的频数;然后根据最高的频数找到它所对应的组;最后求出该组的组中值即是众数。,求众数往往要求数据具备一定的条件,即只有当总体单位数目较多且其数据有明显的集中趋势时才能计算众数。,调查某年级150名学生的年龄,得到下列结果。首先我们在人数(频数)一栏中找出最大的频数50,再从50找到所对应的年龄19岁。则资料中的众数为19岁。,例如,某厂100名职工的收入情况,首先在职工数一栏中,找到最大的频数40;然后找到40所对应的组:1802

9、20;最后计算该组的组中值,计算结果为200元。因此,该例中的众数为200元。,众数、中位数和均值都是对数据集中趋势的测度,1、均值由全部数据计算,包含了全部数据的信息,具有良好的数学性质,当数据接近对称分布时,具有较好的代表性;但对于偏态分布,其代表性较差;受极端值的影响较大。2、中位数是一组数据中间位置上的代表值,不受数据极端值的影响,对于偏态分布的数据,其代表性要比均值好。3、众数是一组数据分布的峰值,是一种位置的代表,与数据出现的次数有关,当数据的分布具有明显的集中趋势时,尤其对于偏态分布,众数的代表性比均值好。但具有不唯一性。4、对接近正态的分布数据,常用均值描述数据的集中趋势;对偏

10、态分布,常用众数或中位数描述数据的集中趋势。5、均值只适用于定距或定比尺度的数据;定序尺度数据可用中位数或众数进行描述,而对定类尺度数据,只能用众数进行描述。,众数、中位数和均值的应用场合,数据分布形状 Shape,表明数据是如何分布的偏态Skew 与 对称Symmetry左偏:均值中位数对称(零偏度):均值=中位数,三、离散趋势分析,离散趋势(又称离中趋势)分析指的是用一个特定的数值来反映一组数据相互之间的离散程度。,作用:它与集中趋势一起,分别从两个不同的侧面描述和揭示一组数据的分布状况,共同反映出资料分布的全面特征;同时,它还对集中趋势的统计量(如平均数、众数、中位数)的代表性作出补充说

11、明。,某校三个系各选5名同学,参加智力竞赛,他们的成绩分别如下:中文系:78 79 80 81 82 X80 数学系:65 72 80 88 95 X80 政治系:35 78 89 98 100 X80,如果仅以集中趋势统计量(平均数)来衡量,那么,三个系代表队的水平一样高,不存在什么差别。但从直观上不难发现,三个代表队中五名队员的成绩相互之间的差跟程度(离散程度)很不一样。中文系成绩十分接近;数学系成绩比较分散;而政治系队成绩则相差十分悬殊。80分对中文系队同学的代表性最高,而对政治系队同学的代表性最低。,离散趋势的各种统计量,一方面揭示出数据相互分离的程度;另一方面又对相应的集中趋势统计量

12、的代表性作出判断。,结论,集中趋势统计量的代表性与所对应的离散趋势统计量是反比关系,即离散趋势统计量越大,则所对应的集中趋势统计量的代表性就越小;反之,则越大。,全距,标准差,异众比率,四分位差,离散系数,对应,众数,平均数,中位数,对应,对应,1全距也叫极距,它是一组数据中最大值与最小值之差。全距是离散趋势统计量中最简单的一种。在原始数据资料条件下,只需将全部数据按大小顺序排列,然后用最大值减去最小值即可。,全距的意义在于,一组数据的全距越大,在一定程度上说明这组数据的离散趋势越大,而集中趋势统计量的代表性越低。反之,一组数据的全距越小,则说明这组数据的离散趋势越小,集中趋势统计量的代表性就

13、越高。,由于全距仅仅依靠两个极端值,因而带有很大的偶然性,它对于大量的处于两个极端值之间的数值分布情况以及在中心点周围的集中情况,都无法提供任何信息,比较粗糙。,2、四分位差,四分位差是先将一组数据按大小排列成序,然后将其四等分,去掉序列中最高的四分之一和最低的四分之一,仅就中间的一半数值来测定序列的全距。,四分位差的符号通常用Q表示。Q=Q3Q1 而Q1、Q3分别表示第一个四分位点和第三个四分位点。,例:位分组资料计算四分位差某班7位同学的成绩依次为:55,61,72,80,83,88,92。计算其四分位差。Q1=(N+1)/4=2;Q2=2(N+1)/4=4;Q3=3(N+1)/4=6Q=

14、(Q3-Q1)/2=(88-61)/2=13.5四分位差是指舍去资料中的数值最高的25%数据和数值最低的25%数据,仅就属于中间的50%数据求其量数作为离散量数。四分位差能够避免次数分配数列中两端极端数值的影响,中间部分数列分配愈集中,标志值的差异愈小,四分位差也愈小。,3标准差 标准差:一组数据对其平均数的偏差平方的算术平均数的平方根。它是用得最多、也是最重要的离散趋势统计量。通常用符号 来表示,其计算公式根据资料的形式不同而稍有差别。,由原始数据计算标准差,由组距分组资料计算标准差。其方法与上述单值分组资料计算标准差的方法相似,唯一不同的是需要先计算出各组的组中值,然后采用下述公式:,【例

15、】某销售小组5个人,某天的销售额分别为440元、480元、520元、600元、750元,求该销售小组销售额的标准差。,解:,即该售货小组销售额的标准差为109.62元。,标准差计算例,单项数列:某村社会救助款额发放资料如表所示,求加权标准差。115.67元,组距数列:以下表资料为例,计算加权标准差。676.68万元,4离散系数,离散系数是一种相对的离散趋势统计量,它使我们能够对两种不同单位的离散趋势统计量,或者对两个不同总体的离散程度进行比较。,标准差与平均数的比值,用百分比表示。,定义:,标准差系数,在平均数不为零的条件下,离散系数越大,表明数据的离散程度越大,而所对应的集中趋势统计量的代表

16、性就越小;反之,则数据的离散程度越小,集中趋势统计量的代表性就越大。,应用举例,【例】某年级一、二两班某门课的平均成绩分别为82分和76分,其成绩的标准差分别为15.6分和14.8分,比较两班平均成绩代表性的大小。,解:,一班成绩的标准差系数为:,二班成绩的标准差系数为:,因为,所以一班平均成绩的代表性比二班大。,【例】:如果你是一家制造业公司的供应部门经理,与两家原材料供应商联系供货,两家供应商均表示能在大约10个工作日内供齐所需原材料。几个月的运转之后,你发现尽管两家供货商供货的平均时间都是大约10天,但他们供货所需天数的分布情况却是不同的(图)。,问:两家供货商按时供货的可信度相同吗?考

17、虑它们直方图的差异,你更愿意选择哪家供货商供货呢?,5异众比率异众比率:一组数据中非众数的次数与总体全部单位数的比率。,公式:,(这里fmo为众数的次数),第三节 双变量统计分析,一、交互分类,1交互分类的定义与作用,所谓交互分类,就是将一组数据按照两个不同变量的类型进行综合的分类。交互分类的结果通常以交互分类表的形式反映出来。,上表是对总数为300人的调查对象按照年龄和文化程度两个变量的标准进行交互分类的结果。每一个被调查者按这两种标准被划分到某一个格内。即格内数字就是分类的结果。,通过对各种不同类型格内的频数或相对额数(即百分比)的分析,来研究和探讨变量之间是否存在关系。,即被调查者的文化

18、程度与他们的年龄有关,并呈现出年龄越低,总体文化程度越高的状况。,交互分类方法的适用对象主要是定类与定序层次的变量,而在社会调查研究中的绝大部分变量正好又是这两个层次的。因此,交互分类的方法对于大量社会调查资料的相关分析有着十分重要的作用。,二、相关分析,交互分类主要处理的是定类(或定序)变量间的关系问题,对于定距及定比变量来说,则有另一些方法来探讨。这里主要简单介绍相关系数的计算方法及一元线性回归模型。,相关分析的意义,社会、经济现象中,一些现象与另一些现象之间往往存在着依存关系,当我们用变量来反映这些现象的特征时,便表现为变量之间的依存关系。,如,职业种类和收入之间的关系、政府投入和经济增

19、长之间的关系、广告投入和经济效益之间的关系、治疗手段和治愈率之间的关系等等。这些都是二元的关系。还有更加复杂的诸多变量之间的相互关系,如企业的固定资产、流动资产、预算分配、管理模式、生产率、债务和利润等诸因素的关系则不能用简单的一些二元关系描述。,在分析变量的依存关系时,把变量分为两种:,自变量,因变量,引起其他变量发生变化的量。,受自变量的影响发生对应变化的量,如:家庭收入决定消费支出,收入的变化必然引起消费支出的变化,这两个变量中收入是自变量,而消费支出则是因变量。,函数关系可以用一个确定的公式,即函数式,或:Y=F(X),来表示。,现象之间的相互关系,可以概括为两种不同的类型:,(一)函

20、数关系(二)相关关系,例、根据消费理论,商品需求量Q与商品价格P、居民收入I之间具有的相关关系;工资收入与工龄之间的关系;工作业绩与文化程度的关系等等。,相关关系分析,1.广义上的相关分析包括以下五个方面:(1)确定现象之间是否存在相关关系(2)确定相关关系的表现形式(3)判定相关关系的方向和密切程度(4)对达到一定密切程度的相关关系建立适当的数学模型,以确定自变量与因变量之间数量变化的规律性。(5)测定数学模型的代表性大小并根据自变量数值对因变量的数量变化做出具有一定概率保证程度的推算和预测。2.前三个方面内容称为狭义的相关分析,后两方面内容的研究称为回归分析。,相关关系的种类:,1、按相关

21、关系涉及变量的多少可分为:,相关关系的种类:,2、按相关的方向可分为:,线性正相关,线性负相关,非线性相关,无(不)相关,相关关系的种类:,3、按相关关系的密切程度分为:,完全相关,因变量完全随自变量变动而变动,存在着严格的依存关系。即变量间的关系为函数关系。,不完全相关,变量之间存在着不严格的依存关系,即因变量的变动除了受自变量变动的影响外,还受其他因素的影响。它是相关关系的主要表现形式。,完全不相关,自变量与因变量彼此独立,互不影响,其数量变化毫无联系。,相关关系的测定,定性分析,是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断,定量分析,在定性分析的

22、基础上,通过编制相关表、绘制相关图、计算相关系数与判定系数等方法,来判断现象之间相关的方向、形态及密切程度,定性和定量变量间的混和关系,假想关于高等学校的数据的一些指标包括:在校生人数(S),研究生比例(G),教师人数(F),职工人数(ST),SCI和SSCI文章数目(P),SCI和SSCI文章引用数目(Q),科研项目数(PR),科研经费(B),总经费及招生范围(N)等,从该数据很难马上看到任何关系。但是从数据可以得到许多有用的关系和结论。如,可以得到任何一个变量和其余变量之间的定量关系或者多个变量之间的定量关系(因而可以建立模型,进行预测和各种推断);也可以利用其中一些变量把各个高等学校分类

23、;还可以把众多的变量用少数几个变量代替以利于分析和理解;数据可以作为高校排名的根据之一,相关表,相关关系的测定,将两个变量伴随变动结果编成一张统计表,即相关表。,单变量分组相关表,多变量分组相关表,只对其中一个变量分组。,对两个变量同时分组。,简单相关表,适用于所观察的样本单位数较少,不需要分组的情况,分组相关表,适用于所观察的样本单位数较多,标志变异又较复杂,需要分组的情况,两种相关表的适用范围,八个同类工业企业的月产量与生产费用,简单相关表,例 简单相关表某市居民月消费支出和可支配收入相关表(单位:百元),(百万元),(吨),20个同类工业企业固定资产原值与平均每昼夜产量,分组相关表,相关

24、图,相关关系的测定,将变量之间的伴随变动绘于坐标图上所形成的统计图。又称散点图。,简单相关图,根据未分组资料的原始数据直接绘制的相关图。,分组相关图,根据分组资料绘制的相关图。,正 相 关,负 相 关,曲线相关,不 相 关,用直角坐标系的x轴代表自变量,y轴代表因变量,将两个变量间相对应的变量值用坐标点的形式描绘出来,用以表明相关点分布状况的图形。,相关关系的测定,相关图的绘制,相关系数工具的选择:,1 定类变量:可以使用卡方或者LAMBDA系数;2 定序变量,或者至少有一个定序:行与列相等时用GAMMA系数,其他用SOMERS D相关系数。3 定距和定比变量,或者定序取值达到或超过5:用皮尔

25、逊相关系数。,注意:在统计软件中一般把前两类的计算归于描述性统计类别里,而后者才在相关分析类别里。,定类变量间的相关测定:系数(Lambda)定类变量之间的相关系数,只能以变量值的次数来计算,常用Lambda系数法。例:性别与对吸烟的态度资料见下表,性别与对吸烟态度,AnalyzeDescriptive Statistics Crosstabs,Spss操作自行练习,参见SPSS.11_0统计分析教程.(基础篇)第14章,定序变量间的相关测定:G系数(Gamma)例:管理人员的管理能力与声望的交互分类表,SPSS中列联表分析的常用方法1、适用于两定类变量的方法2、适用于两定序变量的方法3、适用

26、于一定类变量、一定序变量的方法,定类与定序变量间的相关测定在SPSS中的分析工具主要位于描述性统计类别Crosstabs之中。具体分类如下文所述:,1、适用于两定类变量的方法Phi系数:适用于22的列联表,是对Pearson卡方统计量的修正。卡方值容易受样本量的影响。Phi系数是一种排除样本量影响的卡方检验修正方法。,Gramers V系数:V系数也是对Pearson卡方统计量的修正。V系数在考虑了样本数影响的同时,还考虑了列联表的单元格数。V系数的取值在01之间,越接近1表明变量的相关系数越强。,2、适用于两定序变量的方法这些方法都是围绕“同序对数”与“异序对数”展开的,它们是变量相关性检验

27、的给参数方法中的两个重要指标。如果同序对占多数,则认为两个变量为正相关;如果异序对较多,则认为两变量为负相关;如果同序对和异序对数大致相同,则认为两个变量无线性关系。,2、适用于两定序变量的方法,Kendalls tau-b 系数:取值范围在-1+1之间,正负符号代表相关方向。绝对值越接近1,变量的相关性越强。通常用于方形列联表。Kendalls tau-c系数:取值范围在-1+1之间,绝对值越接近1,变量的相关性越强。通常用于任意格数的列联表。Gamma系数:取值范围在-1+1之间,绝对值越接近1,变量的相关性越强。通常用于22列联表。,3、适用于一定类变量、一定距变量的方法Eta系数:该方

28、法的核心思想类似于单因素方差分析。它通常是将定类变量当作控制变量,将定距变量当作观测变量,然后分析观测变量的变差中,有多少比例是可由控制变量解释的,是因控制变量取值的变化而引起的。Eta系数的平方和取值在01之间。Eta系数的取值范围也在01之间,越接近1,表示两变量的相关系数越强。,4、定距变量与定距变量直接用Correlation不宜用列联表频数分析。,定类与定序变量间的相关测定例:Eg:德育调查数据分析定距、定比变量间的相关测定例:Eg:国民生产总值与第三产业产值相关分析,【例】在研究我国人均消费水平的问题中,把全国人均消费额记为y,把人均国民收入记为x。我们收集到19811993年的样

29、本数据(xi,yi),i=1,2,,13,数据见表,计算相关系数。,解:根据样本相关系数的计算公式有 人均国民收入与人均消费金额之间的相关系数为 0.9989,相关关系不等于因果关系;相关系数只度量变量间的线性关系,因此,弱相关不一定表明变量间没有关系;警惕虚假相关,使用相关系数时应注意的问题:,三、回归分析,相关分析的目的在于了解两个变量之间的关系强度,即用相关系数r来描述X和Y两个变量之间的共变特征。它并不指出X和Y哪个是原因,哪个是结果,回归分析则是对有相关关系的现象,根据其关系的形态找出一个合适的数学模型,即建立回归方程,来近似地表达变量间的平均变化关系,以使依据回归方程对未知的情况进

30、行估计。,即回归分析增加了因果性,并具有了预测的功能,因此,它比相关分析作用更大。,回归分析,通过一个变量x或一些变量(x1,x2,x3)的变化解释另一变量y的变化.即根据相关关系的数量表达式(回归方程式)与给定的自变量x,揭示因变量y在数量上的平均变化和求得因变量的预测值的统计分析方法,回归方程,回归模型,反映自变量和因变量之间数学联系的表达式。,某一类回归方程的总称。,简单线性回归模型,自变量(independent variable):解释变量,给定的或可以控制的、用来解释、预测应变量的变量。因变量(dependent variable):响应变量,由自变量来解释其变化的变量。,X,Y,

31、回归分析的分类,根据变量的多少分为:,简单回归,多元回归,只有一个自变量和一个因变量的回归,自变量数目在两个或两个以上,根据建立的回归模型形式分为:,线性回归,非线性回归,从所拟合的回归模型来看,一变量表现为其它变量的线性组合。,从所拟合的回归模型来看,一变量表现为其它变量的非线性组合,例:研究广告费对特定商品销售量的影响时,这种回归分析就称为简单回归研究广告费、产品质量、商品价格、消费者收入及行为偏好等多种因素对商品销售量的影响时,这种回归分析称为多元回归。上例中,自变量和因变量分别是什么?,回归分析与相关分析的关系,1.区别(1)相关分析所研究的两个变量是对等关系 回归分析所研究的两个变量

32、不是对等关系,必须根据研究目的,确定自变量和因变量。(2)相关分析只能计算一个相关系数,改变自变量和因变量的地位不影响相关系数的数值;回归分析可以根据研究目的分别建立两个不同的回归方程。(3)相关分析中两个变量都必须是随机变量;回归分析中自变量是给定的变量,因变量是随机变量。(4)相关分析测定相关程度和方向,回归分析用回归模型进行预测和控制。,回归分析与相关分析的联系(1)相关分析是回归分析的基础和前提。如果缺少相关分析,没有从定性上说明现象间是否存在相关关系及相关关系的密切程度,就无法进行回归分析。(2)回归分析是相关分析的深入和继续。仅仅说明现象间具有密切的相关关系是不够的,只有进行回归分

33、析,拟合回归方程,才可能进行深入分析和回归预测,相关分析才有实际应用价值。,指根据成对的两个变量的数值,配合直线方程式,根据自变量的变动,来推算因变量发展变动趋势的方法,其模型为:,其中:Yi表示因变量Y在总体中某一个具体的观察值;Xi表示在研究总体中自变量X的具体观察数值;A与B是参数,称为回归系数;i是一个随机变量,其平均数为0,方差为2.,总体回归模型,简单线性回归模型,总体一元线性回归方程,1、正态性假定,3、线性假定,2、同方差假定,4、独立性假定,当确定某一个Xi时,相应的Y就有许多Yi值与之对应。Yi是一个随机变量,这些Yi构成一个在X取值为Xi条件下的条件分布、并假设其服从正态

34、分布。,假定所有Yi这一条件分布的方差是相等的。,假定所有Yi这一条件分布的平均数位于一条直线上,这条直线为Yi=A+BX,,假定Yi之间是独立的,也就是说抽样时,Y的值在每取一个X值的条件分布相互独立。,简单线性回归模型的假设,在实际应用中,我们对X和Y所代表的总体往往不可能全面的观察和了解,而只能从中抽取部分资料作为样本,并通过样本提供的信息来认识总体,找出总体回归模型的估计式,其估计式的方程式可写为:,其中:a,b和ei分别为A、B及i的估计量。,由于抽样的随机性,使样本回归线不可能与总体回归完全重合,从而会出现样本回归函数高估或低估总体回归函数的情况,我们能做的就是设法使样本回归函数尽

35、可能接近总体回归函数,也就是说要使回归方程参数的估计值a、b尽量接近总体真实参数A、B。,样本回归模型,简单线性回归模型,一元线性回归方程的几何意义,总体一元线性回归方程:,样本一元线性回归方程:,以样本统计量估计总体参数,斜率(回归系数),截距a 表示在没有自变量x的影响时,其它各种因素对因变量y的平均影响;回归系数b 表明自变量x每变动一个单位,因变量y平均变动b个单位。,一元线性回归方程中参数a、b的确定:,最小平方法,基本数学要求,整理得到由两个关于a、b的二元一次方程组成的方程组:,进一步整理,有:,例 一个10户居民的可支配收入(百元)与消费支出(百元)的统计资料按升序排列入下表(

36、相关表):消费支出 15 20 30 40 42 53 60 65 70 78可支配收入 18 25 45 60 62 75 88 92 99 98,消费与可支配收入的相关图,计算回归系数,y=-0.208+0.718x,从回归模型可知:居民每增加1元的可支配收入,将增加0.718元用于消费支出。因此,如果估计其中一位居民可支配收入提高到100元,则可预测其消费支出将上升到71.556元。,线性回归模型侧重考察变量之间的数量变化规律,并通过线性表达式,即线性回归方程,来描述其关系,进而确定一个或几个变量的变化对另一个变量的影响程度,为预测提供科学依据。一般线性回归的基本步骤:确定回归方程中的自

37、变量和因变量。从收集到的样本数据出发确定自变量和因变量之间的数学关系式,即确定回归方程。建立回归方程,在一定统计拟合准则下估计出模型中的各个参数,得到一个确定的回归方程。对回归方程进行各种统计检验。(R2,F检验,t检验)利用回归方程进行预测。,回归分析的内容和步骤,对线性回归方程,需要测定方程的拟合程度、检验回归方程和回归系数的显著性。(1)拟合优度检验(R2)测定多元线性回归的拟合程度,与一元线性回归中的判定系数类似,使用多重判定系数,其定义为,回归分析的统计检验,(2)回归方程的显著性检验(F检验)多元线性回归方程的显著性检验一般采用F检验,利用方差分析的方法进行。方差分析中的F检验用于

38、检验回归模型与数据的拟合程度,如果F值很大并且显著性水平(Sig)小于临界值如0.05或者0.01,则表明预测变量与指标变量之间存在很强的线性关系,也可以说回归方程显著。,(3)回归系数的显著性检验(t检验)回归系数的显著性检验是检验各自变量x1,x2,对因变量y的影响是否显著,从而找出哪些自变量对y的影响是重要的,哪些是不重要的。t 检验是用于检验回归方程各个参数是否显著为0 的单一检验。如果t值对应的显著性水平(Sig)小于临界值如0.05或者0.01,则表明该自变量对y的影响是显著的。,例:以employee data.sav为例,以Current Salary为因变量,自行选择自变量,

39、分别尝试进行一元线性回归和多元线性回归分析,并给出相应的模型解释。,第四节 推论统计,推论统计就是利用样本的统计值对总体的参数值进行估计的方法。推论统计的内容主要包括两个方面:一是参数估计,一是假设检验。其中参数估计包括:点估计(直接用样本指标作为总体指标的估计值)区间估计,参数估计的方法有点估计和区间估计二种.区间估计给出总体未知参数所在的可能区间即置信区间,它会随样本的不同而不同,可以解决参数估计的精确度与可靠性问题,它能够以一定的置信度保证估计的正确性.置信度与精确度关系:一般情况下,置信度越高,允许误差越大,精确度越低.在样本容量一定时,通常是在确保一定置信度的前提下提高精确度.掌握的

40、样本不同所用区间估计的公式不同.,简单随机抽样,待估计参数,已知条件,置信区间,正态总体,2已知,正态总体,2未知n30,非正态总体,n30 未知时,用S,有限总体,n30(不重复),总体均值(),未知时,用S,区间估计公式(1)(一)一个总体均值的区间估计,已知原始数据资料的参数估计,-Analyze Compare means 单个总体均值的区间估计步骤:1、选择Analyze Compare means one-sample T Test 对话框,检验值栏,选择置信度和控制缺失值处理,检验变量栏,Options子对话框-选择置信度和控制缺失值处理,删除所有带缺失值的观测量,只删除与分析有

41、关的带有缺失值的观测量,(二)两个总体均值之差的区间估计,待估计参数,已知条件,置信区间,两个正态总体,已知,两个正态总体,未知但相等,两个非正态总体,n1,n230,两个总体均值之差1-2,区间估计公式(2),两个总体均值之差的区间估计步骤,1、若是两个独立样本(n1 n2)则运行两个独立样本之差的T检验Independent-Samples T Test过程;2、若是两个独立样本(n1=n2),则运行两个配对样本均值之差的T检验Paired Samples T Test过程.意义:运行检验过程可得两个总体均值之差在一定把握程度下的区间估计.二者比较:利用配对样本可使两个样本中许多其它因素保

42、持完全相同.因此估计误差会比独立样本小.,1、Independent-Sample T Test过程,选择Analyze Compare Means Independent-Samples T Test,打开Independent-Samples T Test对话框,打开Independent-Samples T Test对话框,检验变量栏,分组变量栏,只能有一个分组变量,定义分组按钮,例1、学生对教学改革态度的分析(one sample)某校在对实行挂牌上课教学改革措施的效果评价中,随机抽选了60位学生进行态度调查,他们的10项态度量表的态度反映资料如下:,(1分表示“很不同意”,7分表示“

43、很同意”,将10项态度分累加后得一总态度分,这种量叫7级李克累加量表):试计算:(1)学生态度得分的平均值和标准差;(2)构造学生态度得分平均值的98%置信区间。,操作步骤:,(1)定义变量X和f,X 为组中值,输入数据资料;(2)选择Data Weight Cases,对f 进行加权。(3)选择Analyze Compare means one-sample T Test(4)将变量X放入Test栏中(5)激活 options子对话框,置信度为98%,返回one-sample T Test主对话框;(6)单击 确定 按钮执行。,T-Test,结论:,表1:学生态度得分的平均值为47分,标准差

44、为13.6295分.表2:以98%的置信区间估计学生总体态度得分平均值的置信区间为(42.7925,51.2075)从中可以反映出学生对挂牌上课这一教改措施普遍赞成,但并不十分拥护,可见还需进一步改进和完善.,例2_电视广告平均受益量的估计,2、某电视台广告部想要估计一下各企业在该电台的黄金时间播放电视广告后的一个月内的平均受益量.为此他们抽取了33家播放广告的同类企业的随机样本,资料如下:该电视台想以95%的置信度宣布平均受益量(平均利润增长量),试构造适当的置信区间.,数据:,该电视台宣布的平均受益量应该是最小受益量,故构造置信下限.设X为企业利润增量.,操作步骤:(1)定义变量X输入数据

45、资料;(2)选择Analyze Compare means one-sample T Test(3)将变量X放入Test栏中(4)激活Options子对话框,置信度改为90%,返回one-sample T Test主对话框;(5)单击OK 按钮执行,T-Test,结论:,表1:33家平均受益量为 8.8636万元,标准差为2.4027万元.表2:该项电视台可以95%的置信度宣布在该电台黄金时间做广告给企业带来的平均受益量至少在8.1552万元以上.,例3_新旧电池使用寿命比较(Independent),某一个新的制造过程可以增加电池的使用寿命,假设电池使用寿命服从正态分布.在新电池中随机抽取1

46、5个,而在旧电中随机抽取12个同时测试其使用寿命,资料如下:新旧两种电池平均使用寿命之差95%的置信区间.新电池(日):18.210.412.618.011.715.024.017.623.624.819.320.519.817.116.3旧电池(日):12.117.58.613.97.815.117.910.613.814.215.311.6,已知的原始数据是总体服从正态分布的两个独立样本。设X代表电池使用寿命,g代表分组号,操作步骤:(1)定义变量X和g,输入数据资料,新旧电池寿命数据全部输入X同一列中,g分别取1和2,新电池组号为1,旧电池组号为2(2)选择Analyze Compare

47、 Means Independent-Samples T Test,打开Independent-Samples T Test对话框,(3)将变量X放入Test栏中(4)激活Define Groups 按钮,打开该对话框Groups1中输入1 Groups2中输入2,单击Continue返回主对话框;(5)单击OK 按钮执行,T-Test,结论:,表1:得出两个独立样本各自的均值,标准差以及平均标准误差.新电池的平均使用寿命明显长于旧电池。表2:可以看出新旧电池平均使用寿命之差的95%的置信区间为:若两个样本方差相等则为(2.4454,8.6746);若两个样本方差不等则为(2.5437,8.5

48、763),2、Paired-Samples T Test过程,选择Analyze Compare Means Paired-Sample T Test,打开Paired-Sample T Test主对话框,2、Paired-Samples T Test过程,配对变量栏,当前选择栏,选择项按钮,例4 _吸烟有害广告作用的分析(Paired),形形色色的广告已深入到社会各个方面,与人民生活密不可分.成功的广告将留给人们较深的印象,并带给企业丰厚的回报,如何鉴定广告的效果,如何选择最佳的广告制作,对此西方国家更多地采用统计方法来判断,举例如下:为了研究吸烟有害广告对吸烟者减少吸烟量甚至戒烟是否有作用

49、,从某吸烟者中随机抽取33位吸烟者,调查他们在观看广告前后的每天吸烟量(支)数据如下表.试问影片对他们的吸烟量有无产生作用?为了支持你的答案,请构造一个99%的置信区间.,解:配对样本的试验,比较观看前后平均数的大小可解决第一个问题,求出两平均数之差的99%的双侧置信区间可解答第二个问题.操作步骤:1)定义变量X1和X2,输入数据;(2)选择Analyze Compare means Paired-samples T Test(3)将变量X1和X2放入Test栏中(4)激活 Options 子对话框,置信度改为99%,单击Continue 按钮,返回Paired-samples T Test主

50、对话框;(5)单击OK 按钮执行,T-Test,结论:,表1:显示观看影片前的平均每日吸烟量约为21.5758支.观看影片后的平均每日吸烟量约为17.5758支,说明该影片发生了作用.表2:反映了影片观看前与后存在着显著相关关系,相关系数为0.878.表3:显示了前后两个总体平均每日吸烟量之差的99%置信区间为(1.4888,6.5112),这意味着不管随机抽到哪几对样本单位做调查,均有99%的把握保证,观看影片前的平均每日吸烟量大于观看影片后的平均每日吸烟量之差在(1.4888支至6.5112支之间,即大约在27支之间.,未知原始数据资料的参数估计,在现实中可能遇到没有完整的原始资料,只有几

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号