《社会调查研究方法10统计分析.ppt》由会员分享,可在线阅读,更多相关《社会调查研究方法10统计分析.ppt(53页珍藏版)》请在三一办公上搜索。
1、第十章 调查资料的统计分析,第一节 统计分析概述第二节 单变量统计分析第三节 双变量统计分析第四节 推论统计,第一节 统计分析概述,一、统计分析的含义与作用二、统计分析的特点,一、统计分析的含义与作用统计分析,就是指运用统计学的方法,对调查所得资料的数量特征进行描述,并用各种数学模型揭示调查资料中所隐含的关系、规律及发展趋势。统计分析就是从量的方面来分析事物之间的相互关系和相互作用,并通过对事物量的规定性的分析,来把握和认识事物质的规定性。事实说明,正确恰当的统计分析,已成为现代社会调查研究中不可缺少的一个环节,成为人们认识社会现象的一种重要分析手段。,统计分析的作用:1统计分析能为社会调查研
2、究提供一套精确的形式化语言。2统计分析使抽样调查成为可能。3、统计分析有助于揭示社会现象的规律。4、统计分析有助于我们较为精确地预测社会现象的发展趋势。,二、统计分析的特点 1统计分析要以定性分析为基础。2统计分析必须与理论分析方法相结合。统计分析的内容可分为两个大的方面,即描述统计和推论统计。描述统计的主要目的在于用最简单的概括形式反映出大量数据资料所容纳的基本信息。它的基本方法包括集中趋势分析、离散趋势分析、相关分析、回归分析等。而推论统计的主要目的,则是要用从样本调查中所得的数据资料来推断总体的情况。它的基本内容包括区间估计和假设检验两部分。,第二节 单变量描述统计,一、频数分布与频率分
3、布二、集中趋势分析三、离散趋势分析,一、频数分布与频率分布所谓频数分布,就是指一组数据中取不同值的个案的次数分布情况,它一般以频数表的形式表达。例如,某班有25名学生,其年龄情况如下:20,19,18,19,18,20,21,17,18,18,19,19,20,19,19,17,18,20,19,19,21,21,19,20,19。则该班学生的年龄分布则为下表(见表1),频数分布表的作用主要有两方面:一是简化资料,即将调查所得到的一长串原始数据,以一个十分简洁的统计表反映出来;二是从频数分布表中,我们可以更清楚地了解调查数据的众多信息。所谓频率分布,则是指一组数据中不同取值的频数相对于总数的比
4、率分布情况,这种比率通常以百分比的形式表达,而频率分布情况同样以频率表的形式出现。下表2就是上例对应的频率分布表。频率分布表除具备频数分布表的优点外,还能反映各类所占的比重,便于不同总体或不同类别之间的比较。这种分布的应用更为普遍。,二、集中趋势分析所谓集中趋势分析,指的是用一个典型值或代表值来反映一组数据的一般水平,或向这个典型值集中的情况。最常见的集中趋势统计量有平均数、众数和中位数三种。1平均数(算术平均数)是用总体各单位数值之和除以总体单位总数的商。平均数又称为均值或均数。以下是计算公式及应用举例。,由原始数据计算平均数。设总体单位总数为n,总体各单位的数值为xi(i=1,2,n),则
5、计算公式为:由单值分组资料计算平均数。首先要将每一个组的量值乘以所对应的频数(得出各组的数值之和);然后将各组的数之和全部相加,最后除以单位总数(也即各组频数之和f)得出平均数。其计算公式为:,由组距分组资料求平均数。先计算出各组的组中值Xm,然后再按照单值分组资料计算平均数的公式计算。也就是说,用组距分组资料求平均数的公式与用单值分组资料求平均数的公式基本相同,只是需要事先将组距转化成单值。计算公式为:例题例1 某班10名学生的年龄分别为20岁、21岁、19岁、19岁、20岁、20岁、21岁、22岁、18岁、20岁,求他们的平均年龄。,例2 调查某年级150名学生的年龄,得到下列结果(左表)
6、,求平均年龄。(19.33)例3 调查某厂100名职工的收入情况如下(右表),求他们的平均收入。(212),2众数 众数是一组数据中出现次数最多(即频数最高)的那个数值。通常用M。表示。众数与平均数一样,也可用来概括反映总体的一般水平或典型情况。根据不同资料,众数的求法分为以下两种形式:由单值分组资料求众数。由于单值分组资料中已将各标志值及其所对应的频数都一一列出,故我们只需采用直接观察的方法就可求得众数。具体做法是,首先在频数一栏中找出最大的频数,假定为 fm;然后根据fm找到它所对应的标志值 Xm,则众数即为 Xm。,由组距分组资料求众数。由组距分组资料求众数的方法有两种:一种是组中值法,
7、另一种是摘补法。前者比较简单,后者较为复杂。由于众数在社会调查研究中的使用远不象平均数那样广泛。故我们只需了解组中值法即可。用组中值法求众数分为三步:首先也是通过直接观察找出最高的频数;然后根据最高的频数找到它所对应的组;最后求出该组的组中值即是众数。需要说明的是,求众数往往要求数据具备一定的条件,即只有当总体单位数目较多且其数据有明显的集中趋势时才能计算众数。而当总体数目较少,或总体数目虽多但无明显集中趋势时,不宜计算众数。,举例:以前面例2为例,首先我们在人数(频数)一栏中找出最大的频数50,再从50找到所对应的年龄19岁。则例2资料中的众数为19岁。需要注意的是,众数是最大的频数所对应的
8、那个标志值,而不是最大的频数本身。又,若以前面例3为例来求众值,我们首先在职工数(即额数)一栏中,找到最大的频数40;然后找到40所对应的组:180220;最后计算该组的组中值,计算结果为200元。因此,该例中的众数为200元。,3中位数什么是中位数呢?当我们把一组数据按值的大小顺序排列起来,处于中央位置的那个数值就叫中位数。中位数通常用Md表示,它将整个数据资料一分为二,其中一半的数值比它大,而另一半的数值比它小。当数据为偶数个时,取中间两数的平均数。需要注意的是,计算中位数时常常要求数据是定距以上的变量。而对定序的或定类的变量通常不用来计算中位数。关于计算方法(参见教材),三、离散趋势分析
9、与集中趋势分析相反,离散趋势(又称离中趋势)分析指的是用一个特定的数值来反映一组数据相互之间的离散程度。作用:它与集中趋势一起,分别从两个不同的侧面描述和揭示一组数据的分布状况,共同反映出资料分布的全面特征;同时,它还对集中趋势的统计量(如平均数、众数、中位数)的代表性作出补充说明。为了理解离散趋势分析的这两种作用,我们先来看看下面的例子。,例4 某校三个系各选5名同学,参加智力竞赛,他们的成绩分别如下:中文系:78 79 80 81 82 X80 数学系:65 72 80 88 95 X80 政治系:35 78 89 98 100 X80无论是从团体总分来看,还是从平均得分来看,这三个系代表
10、队的成绩都是相同的。因此,如果仅以集中趋势统计量(平均数)来衡量,那么,三个系代表队的水平一样高,不存在什么差别。但从直观上我们不难发现,三个代表队中五名队员的成绩相互之间的差跟程度(离散程度)很不一样。中文系成绩十分接近;数学系成绩比较分散;而政治系队成绩则相差十分悬殊。,不难理解,这个80分对中文系队同学的代表性最高,而对政治系队同学的代表性最低。因此,离散趋势的各种统计量,一方面揭示出数据相互分离的程度;另一方面又对相应的集中趋势统计量的代表性作出判断。结论:集中趋势统计量的代表性与所对应的离散趋势统计量是反比关系,即离散趋势统计量越大,则所对应的集中趋势统计量的代表性就越小;反之,则越
11、大。离散趋势统计量有全距、标准差、异众比率、四分位差、离散系数等。其中,标准差、异众比率、四分位差分别与平均数、众数、中位数相对应。,1全距也叫极距,它是一组数据中最大值与最小值之差。全距是离散趋势统计量中最简单的一种。在原始数据资料条件下,只需将全部数据按大小颀序排列,然后用最大值减去最小值即可。如上面所举例6,三个代表队成绩的全距分别为:中文系:82784(分)数学系:95 65=30(分)政治系:100 25=65(分)在组距分组资料的条件下,只需将最大组的上限减去最小组的下限即可。如前面例3中的全距九300100200(元),全距的意义在于,一组数据的全距越大,在一定程度上说明这组数据
12、的离散趋势越大,而集中趋势统计量的代表性越低。反之,一组数据的全距越小,则说明这组数据的离散趋势越小,集中趋势统计量的代表性就越高。从上面三个代表队的例子中,我们不难认识到这一点。应该注意到,由于全距仅仅依靠两个极端值,因而带有很大的偶然性,它对于大量的处于两个极端值之间的数值分布情况以及在中心点周围的集中情况,都无法提供任何信息。比较粗糙。,2标准差标准差的定义是:一组数据对其平均数的偏差平方的算术平均数的平方根。它是用得最多、也是最重要的离散趋势统计量。通常用符号S来表示,其计算公式根据资料的形式不同而稍有差别。由原始数据计算标准差。公式为:例4的结果:S中文=1.414,S数学=10.8
13、,S政治=23.8。由此可见,标准差大,离散程度就大,反之,就小。,由单值分组资料计算标准差。公式为:这里f为X所对应的频数。由组距分组资料计算标准差。其方法与上述单值分组资料计算标准差的方法相似,唯一不同的是需要先计算出各组的组中值,然后采用下述公式:,3异众比率所谓异众比率,指的是一组数据中非众数的次数与总体全部单位数的比率。公式为:这里fmo为众数的次数。在例2中,众数的次数为50,总体单位的总数为150,故异众比率为:VR=(15050)/150=67%异众比率的意义是指众数所不能代表的其他数值(即非众数的数值)在总体中的比重。因此,异众比率越大,即众数所不能代表的其他数值的比重越大,
14、则众数在总体中所占的比重自然就越小,这样众数的代表性也就越小。,4、四分位差四分位差是先将一组数据按大小排列成序,然后将其四等分,去掉序列中最高的四分之一和最低的四分之一,仅就中间的一半数值来测定序列的全距。四分位差的符号通常用Q表示。Q=Q3Q1 而Q1、Q3分别表示第一个四分位点和第三个四分位点。如下图所示:,5离散系数上述各种离散趋势统计量都属于绝对量测量,其单位与原资料的单位相同。这种特征对调查研究中进行比较带来了一定的困难。离散系数则是一种相对的离散趋势统计量,它使我们能够对两种不同单位的离散趋势统计量,或者对两个不同总体的离散程度进行比较。离散系数的定义是:标准差与平均数的比值,用
15、百分比表示。其计算公式为:,在平均数不为零的条件下,离散系数越大,表明数据的离散程度越大,而所对应的集中趋势统计量的代表性就越小;反之,则数据的离散程度越小,集中趋势统计量的代表性就越大。应用举例:1)一项调查得到下列结果,某市人均月收入为92元,标准差为17元;人均住房面积75米,标准差为18米。试比较该市人均收入和住房情况哪一个差异程度比较大。计算结果:人均收入的离散系数为18.5%,人均住房面积的离散系数为24%可见人均住房面积的差异情况比人均收入的差异情况要大。,以上是同一总体不同指标间的比较,下列则是同一指标不同总体间的比较。2)某校学生的平均年龄为20岁,标准差为2岁;该校教师的平
16、均年龄为28岁,标准差为4.5岁。试比校学生年龄与教师年龄哪一个差异程度更大。计算结果:学生年龄的离散系数为10%,教师年龄的离散系数为11.8%可见教师年龄间的差异程度更大一些。,第三节 双变量统计分析,前节所介绍的单变量描述统计。在社会调查研究中,我们常常要讨论两个甚至多个因素或现象之间的关系问题,因此,本节介绍两个变量统计分析的基本内容。一、交互分类二、相关与回归,一、交互分类 1交互分类的定义与作用 所谓交互分类,简单地说,就是将一组数据按照两个不同变量的类型进行综合的分类。交互分类的结果通常以交互分类表(又称列联表)的形式反映出来。下面是一个例子:,上表是对总数为300人的调查对象按
17、照年龄和文化程度两个变量的标准进行交互分类的结果。每一个被调查者按这两种标准被划分到某一个格内。即格内数字就是分类的结果。作用:通过对各种不同类型格内的频数或相对额数(即百分比)的分析,来研究和探讨变量之间是否存在关系。比如说从上表中我们可以看出,老年人中文化程度低的比重很大,中年人次之,年轻人比重最小;而在高中及大专以上颇高文化程度中,年轻人比重最大,中年人次之,老年人最低。,结论:即被调查者的文化程度与他们的年龄有关,并呈现出年龄越低,总体文化程度越高的状况。交互分类方法的适用对象主要是定类与定序层次的变量,而在社会调查研究中的绝大部分变量正好又是这两个层次的。因此,交互分类的方法对于大量
18、社会调查资料的相关分析有着十分重要的作用,我们应该熟悉这种方法。,2、2检验通过实例讨论何为2检验。表中显示,年龄与对待老年人再婚问题的态度存在关系,随着年龄的下降,较多的人反对老年再婚。,上述结论通常只是在所调查的样本范围内成立。而我们进行调查的目的常常又不仅仅是描述或说明样本的情况,更重要的是要通过样本的情况来反映和说明总体的情况。因此,要保证我们从样本中得出的结果具有统计意义,保证样本中所体现的变量间关系也反映了总体的情况,我们必须有一个保证的办法。这就是要对它们进行2检验(卡方检验)。2检验的原理及公式的证明略去。下面我们主要介绍2检验的计算公式及检验步骤。,2检验的计算公式f0为交互
19、分类表中每一格的观察频数;fe为交互分类表中f0所对应的期望频数。具体的计算方法是用每一个f0所在的行总数乘以所在的列总数,再除以全部总体数。2值的计算。f11=120*80/260=37 f12=46 f13=37 f21=43 f22=54 f23=432=(60-37)2/37+=42.6,2检验的具体步骤(以上表为例):建立两变量间无关系的假设,即设年龄及对某事件的态度两变量相互独立,互不相关。计算出2值。根据自由度 df=(r一1)(c1)和给出的显著性水平,即 P值,查2分布表,得到一临界值。(自由度计算公式中的r和c分别为交互分类表的行数和列数,因此,本例的自由度为:df(21)
20、(31)=2;显著性水平通常为P=0.05;2分布表可查得临界值为5.991)比较2值与临界值判断:a)若2值临界值,拒绝两变量无关系的假设。b)若2值临界值,接受两变量无关系的假设。,3、关系强度的测量 以上讨论的是两个变量间是否存在关系的问题。当2检验表明,两变量间存在关系时,是否就意味着这种关系是一种强关系,或重要关系呢?这不一定,因为变量关系的强弱和变量间是否存在关系是两个完全不同的问题。关系强度的测量方法(参见教材),二、相关与回归交互分类主要处理的是定类(或定序)变量问的关系问题,对于定距及定比变量来说,则有另一些方法来探讨。这里主要简单介绍一下相关系数的计算方法及一元线性回归模型
21、。,1、相关系数例子:调查10名工人的工龄与工资情况如下表:这10名工人的工龄与工资是否相关?可通过定量计算说明,称为相关系数。计算公式为:,即相关系数r是表明两个定距或定比变量间关系程度的量数,其取值范围在-1到+1之间。当 r为负值时,说明变量 X与变量Y的变化方向相反。即当X增大时,Y减少;X减少时,Y增大。当 r为正值时,说明两变量的变化方向相同。|r|=1时,称 X与 Y完全相关;r=0时,则称二者完全不相关。越接近|r|=1,说明关系强度越大,越接近0,则说明关系强度越小。上一例子中,r=0.986,有较强的正相关关系。,2、回归分析相关分析的目的在于了解两个变量之间的关系强度,即
22、用相关系数r来描述X和Y两个变量之间的共变特征。它并不指出X和Y哪个是原因,哪个是结果,或者说,它并不涉及两变量之间有无因果关系。回归分析则是对有相关关系的现象,根据其关系的形态找出一个合适的数学模型,即建立回归方程,来近似地表达变量间的平均变化关系,以使依据回归方程对未知的情况进行估计。即回归分析增加了因果性,并具有了预测的功能,因此,它比相关分析作用更大。,回归分析的中心问题是建立回归方程,一元线性回归方程的建立使用最小二乘法。首先,依据理论分析或根据研究的需要确定两变量中何为自变量,何为因变量。在本例中,我们确定工龄为自变量(X),工资为因变量(Y)。其次,以自变量为X轴,因变量为Y轴作
23、出表中资料的散点图,以判明是否为线性相关。给一组数据(X,Y),称为样本数据。计算公式:设y=a+bx,第四节 推论统计由于在社会调查中我们经常地是作抽样调查,所以,在对调查结果进行描述、对变量关系进行探讨时,往往都是使用样本的资料,直接得到的也都是有关样本的结果。然而,抽样调查(从总体中抽取一部分对象进行调查)的目的,并不是为了描述这个样本的情况,而是希望通过样本来了解总体的特征和状况。推论统计所要解决的正是这方面的问题。推论统计就是利用样本的统计值对总体的参数值进行估计的方法。推论统计的内容主要包括两个方面:一是区间估计,一是假设检验。,第四节 推论统计,由于在社会调查中我们经常地是作抽样
24、调查,所以,在对调查结果进行描述、对变量关系进行探讨时,往往都是使用样本的资料,直接得到的也都是有关样本的结果。然而,抽样调查(从总体中抽取一部分对象进行调查)的目的,并不是为了描述这个样本的情况,而是希望通过样本来了解总体的特征和状况。推论统计所要解决的正是这方面的问题。推论统计就是利用样本的统计值对总体的参数值进行估计的方法。推论统计的内容主要包括两个方面:一是区间估计,一是假设检验。,一、区间估计区间估计的思想:区间估计的实质就是在一定的可信度(置信度)下,用样本统计值的某个范围(置信区间)来“框”住总体的参数值。换句话说,估计总体参数时,用的是一个范围,而不一个点值,称为“区间”,也称
25、为置信区间。这样较为科学。同时,给出一个数值来说明这个“区间”框住参数值有多大的可靠程度,称为“置信度”(可信度)。区间的大小反映的是这种估计的精确性问题,而可信度高低反映的则是这种估计的可靠性或把握性问题。,区间估计的结果通常可以采取下述方式来表述:“我们有95的把握认为:全市职工的月平均工资收入在182元至218元之间。”或者“全省人口中,女性占50%至 52%的可能性为99%”。下列表述是不妥的。“全市职工的月平均工资收入在200元”(假如抽样100人计算出的平均月工资为200元的话)。置信度表明(即可信度,把握性,可靠性)推断成功的可能性有多大(用百分数表示1-a,a是允许的误差);总
26、体的平均数变成了区间(范围),表示若重复抽样,能有多少次落入这个“置信区间”。,置信区间:总体参数值落入的范围,根据样本统计量算出。1、总体均值的区间估计。公式:x是样本均值,s是标准差,Z(1-a)是置信度为1-a的Z值,n是样本规模。例:900名工人,月平均工资186元,标准差为42元,在95%的置信度下,全行业月平均工资的置信区间是多少?(183.26,188.74);99%置信度时(182.39,189.61)区间的大小体现精确性,置信度是可靠程度。二者相互制约,提高精确度,则降低可靠性。,2、总体百公比的区间估计公式:这里,P为样本中的百分比,其他同上。,二、假设检验假设检验是推论统
27、计的又一基本内容,它是先对总体的某一参数作出假设,然后用样本的统计量去进行验证。以下通过一个例子说明假设检验的基本思路。某单位职工上月平均收入为210元,这个月的情况与上月没有什么变化,我们设想平均收入还是210元。为了验证这一假设是否可靠,我们抽取了100人作调查,结果得出月平均收入为220元,标准差为15元。显然样本的结果与总体结果之间出现了误差。这个误差是由于我们假设错误引起的呢?还是由于抽样误差引起的呢?如果是抽样误差引起的,那么我们就应该承认原来的假设;而如果是假设错误所引起的,显然我们就应该否定原假设。,研究时可将原假设作为虚无假设,用H0表示,而将与之完全对立的假设作为研究假设,用H1表示;然后用样本的数据计算统计量,并与临界值比较,当临界值大于统计值时,则接受虚无假设,否定研究假设;当临界值小于、等于统计值时,则拒绝虚无假设,接受研究假设。具体步骤是:1、建立虚无假设和研究假设,通常是将原假设作为虚无假设;2、根据需要选择适当的显著性水平a(即小概率的大小),通常a=0.05,0.01等;3、根据样本数据计算出统计值,并根据显著性水平查出对应的临界值;4、将临界值与统计值进行比较,若临界值大于统计值,则接受虚无假设;反之,则接受研究假设。,仍用上例说明这一过程。,