《社会研究方法第四版第十一章课件.ppt》由会员分享,可在线阅读,更多相关《社会研究方法第四版第十一章课件.ppt(44页珍藏版)》请在三一办公上搜索。
1、第十一章,定量资料分析,目,录,第一节,资料的整理与录入,第二节,单变量统计分析,第三节,双变量统计分析,第四节,多变量统计分析,回顾,:,社会调查的一般程序,准备,阶段,调查,阶段,研究,阶段,总结,阶段,第一节,资料的整理与录入,?,一、资料的审核,?,资料审核是资料处理的第一步工作。它是指,研究者对所收集的原始资料(主要是问卷),进行初步的审阅,校正错填、误填的答案,,剔出乱填、空白和严重缺答的废卷。其目的,是使得原始资料具有较高的准确性、完整性,和真实性,从而为后续资料整理录入与统计,分析工作打下较好的基础。,?,在资料审核中,如发现问题,可以分别不同,情况予以处理:,?,(,1,)调
2、查中已发现并经认真核实后确认的错,误,可由调查者代为更正。,?,(,2,)资料中的可疑之处或明确有错误与出入,的地方,应设法进行补充调查。,?,(,3,)无法进行或无需进行补充调查的情况下,,剔除那些明显错误的或无把握的资料,保,证真实性和准确性。,?,资料审核的,方法,主要有两种,即逻辑审核与,计算审核。,?,逻辑审核,,即核查资料的内容是否合乎逻辑,和常识,项目之间有无互相矛盾之处,与其,他有关资料进行对照是否有明显出入等等。,?,计算审核,,是针对数字资料进行的审查。要,检查计算有无错误。度量单位有没有错,前,后数字之间有无相互矛盾之处等等。,在前面介绍问卷设计时,我们曾指出,编码就是给
3、每个,问题及答案一个数字作为它的代码。,从资料处理的角度看,编码就是用阿拉伯数字来代替问,卷每一个问题的回答,或者说是将问卷中的答案转换,成数字的过程。下面两个表就是一份问卷中前几个问,题的答案和编码。,二、资料的转换,在对问卷中的问题进行编码时,要给不同的问题,分配合适的栏码,即指定该问题的编码值在,整,个数据文件,中所处的位置。,这种栏码有时在问卷设计时就印在问卷上,(,每,页的右边,用一条竖线与问题及答案隔开,),,,但也有很多情况下是在问卷收回后编码时再,指定。,三、数据录入,?,录入方法:,?,1,登录表法,?,直接录入,?,光学扫描,?,条形码,四、数据清理,有效范围清理,对于问卷
4、中的任何一个变量来说,它的有,效编码值往往都有某种范围,而当数据中的数字,超出了这一范围时,可以肯定这个数字一定是错,误的。,有效范围数据清理,逻辑一致性清理,?,逻辑一致性清理则是从另一种角度来查,找数据中所存在的问题。其基本思路是依据,问卷中的问题相互之间所存在的某种内在的,逻辑联系,来检查前后数据之间的合理性。,?,例如,性别,/,怀孕次数,;,无孩子,/,子女个数,年龄,未婚,/,配偶职业收入等,;,独生子女,/,兄妹个数,年龄,数据质量抽查,?,一个很简单的例子:,?,假设某个案的数据在“文化程度”这一变量上输错了,,问卷上填答的答案是,2(,初中,),,编码值也是,2,,但数据录,
5、入时却错敲成了,3(,高中及中专,),。,由于,3,这个答案在正常有效的编码值范围中,因此,前一,种方法检查不出这一错误。同时,这一变量值与其他变,量之间又没有前述那样的逻辑联系,因此后一种方法也,用不上。,第二节,单变量统计分析,?,一、单变量描述统计,?,单变量统计分析可以分为两个大的方面,即描述统计和,推论统计。描述统计的主要目的在于用最简单的概括形,式反映出大量数据资料所容纳的基本信息。它的基本方,法包括集中趋势分析、离散趋势分析等。而推论统计的,主要目的,则是用从样本中所得到的数据资料来推断总,体的情况,它主要包括区间估计和假设检验等。,描述统计,1.,内容,?,搜集数据,?,整理数
6、据,?,展示数据,2.,目的,?,描述数据特征,?,找出数据的基本规律,0,25,50,Q1,Q2,Q3,Q4,¥,推断统计,1.,内容,?,参数估计,?,假设检验,2.,目的,?,对总体特征作出,推断,样,本,总体,描述统计与推断统计的关系,反映客观,现象的数,据,总体内在的,数量规律性,推断统计,(利用样本信息和概率,论对总体的数量特征进,行估计和检验等),概率论,(包括分布理论、大数定律,和中心极限定理等),描述统计,(统计数据的搜集、整,理、显示和分析等),统计学探索现象数量规律性的过程,集中趋势分析,?,集中趋势分析指的是,用一个典型值,来反映,一组数据的,一般水平,,或者是反映这组
7、数,据向这个典型值集中的情况。,?,这样一个典型值就被称为集中统计量。,?,按照处理方式不同集中统量可分为几类,两,最常见的集中趋势有,算术平均值,、,众数和中,位数,三种。用得最多的是平均数。,?,1,定类层次:众值(众数,),?,其意义为,在众多数值中,出现次数最多的,一个数值。,?,(,1,)原始资料,求众值,?,例如:,2,,,3,,,5,,,5,,,5,,,6,,,6,,,7,,,8,?,出现次数最多的是,5,,其,M,0=5,?,(,2,)次数资料,求众值,?,例如:江村女青年找对象的标准,标,准,相,貌,人,品,文,化,健,康,职,业,能,力,经济,条件,政治,条件,家庭,背景,
8、感,情,人,数,55,122,51,104,13,29,16,13,6,82,其次数最多的为人品,122,人次,所以,M0=,人品,?,(,3,)分组的频数表中,频数最大的区间的组,中值就是众值,区间,组中值,频数,75-79,77,1,70-74,72,3,65-69,67,5,60-64,62,10,55-59,57,4,50-54,52,2,表中频数最大的为,10,,,对应的区间是,60-64,,,其组中值是,62,,所以众,值,=62,。,如果在一个次数中出现,两个邻近的次数较多者,,众数是二次数多的组中,值的平均值,?,2,定序层次:中位值(中位数)(单选),其意义为按大小顺序排列,
9、处在一群数据中央位置的数值。,(,1,)原始资料,求中位值,例如:有,9,个人,他们的月工资分别如下:,47,,,42,,,50,,,51,,,92,,,112,,,71,,,83,,,108,首先作排列处理,从小到大排列,42,,,47,,,50,,,51,,,71,,,83,,,92,,,108,,,112,其次求中央位置,Md,的位置,=,(,N+1,),2=,(,9+1,),2=5,最后求中位置,Md=71,(,3,)定距层次:算术平均数,?,通常称平均数,又称均数或均值。英文为,Mean,,,故以,M,表示。如果是由变量,X,计算得来的就记为,(读,X,杠),现在一般都以,表示样本的
10、平均数,,以,U,表示总体的平均数。,?,算术平均数就是各个变量值相加求和再除以变量,的总次数。,x,X,X,X,X,X,N,n,1,2,?,?,?,?,X,N,?,X,X,=,=,离散量数分析,?,离散趋势指的是测量值围绕中心值,比如平均值,的分布。极差就是个简单例子。如我们可以报,告说平均年龄是,37.9,,范围是从,12,到,89,岁。,?,离散(中)量数分析,指的是用一个特别的数值来反,映,一组数据相互之间的离散(中)程度,.,即各组数据,相对于平均数的差异程度,(离中程度)。差异程度,小,平均数的代表性高;差异程度大,代表性低。,?,它与集中量数一起分别从两个不同的侧面描述和揭,示一
11、组数据的分布情况。共同反映出资料分布的全,面特征,同时它还对现各集中量数的代表性做出补,充说明。,二、单变量推论统计,?,区间估计,?,以样本统计量的抽样分布为理论依据,按一,定概率要求,由样本统计量的值来估计总体,参数的值所在的范围,叫做总体参数的区间,估计。,?,区间估计的实质就是在一定的可信度(置信,度)下,用样本统计值的某个范围来估价总,体的参数值,。范围的大小反映的是这种估计,的精确性问题,而可信度高低反映的是这种,估计的可靠性或和握性问题。,?,区,间估计的可靠性或把握性是指用某个区间去估计总体,参数时,成功的可能性有多大。可以解释为:如果从总,体中重复抽取,100,次,约有,95
12、%,次所抽取样本的统计值的,某个区间中都将包含总体的参数值,那么就说这个区间,估计的可靠性为,95%,。,?,区间估计的结果通常可以用下述方式来表述:“我们有,95%,的把握认为,全市职工的月工资收入在,182,元至,218,元之间。”或者“全省人口中,女性占,50%-52%,的可能,性为,99%,”,。,课堂练习题,例:调查某厂职工的工资状况,随机抽取,900,名工人做样本,调,查得到他们的月平均工资为,186,元,标准差为,42,元。求,95%,的置信度下,全厂职工的月平均工资的置信区间是多少?,解,将调查资料代入总体均值的区间估计公式得,总体均值的置信区间为,183.26-188.74,
13、当将置信度提高到,99%,,总体的置信区间为,182.39-189.61,元,(随着可靠性的提高,所估计的区间扩大了,但估计的精确性,就相应地降低了。,例:从某工厂随机抽取,400,名工人进行调查,结果表明女工的比,例为,20%,。现在要求在,90%,的置信度下,估计全厂工人中女,工比例的置信区间。,解,带入总体百分数的区间估计公式,得,16.7%-23.%,(二),假设检验,?,利用样本信息,根,据一定的概率,对,总体参数或分布的,某一假设作出拒绝,或保留的决断,称,为假设检验。,?,假设是对总体参数,的一种看法,?,总,体,参,数,包,括,总,体,均,值,、,比,例,、,方差等,?,分,析
14、,之,前,必,需,陈,述,假设检验的基本思想,.,因此我们拒,绝假设,?,=,50,.,如果这是总,体的真实均值,样本均值,?,=50,抽样分布,H,0,这个值不像我,们应该得到的,样本均值,.,20,总体,?,?,?,?,?,?,?,假设检验的过程,(提出假设,抽取样本,作出决策),抽取随机样本,均值,?,X,=20,?,?,?,?,我认为人口的平,均年龄是,50,岁,提出假设,拒绝假设,!,作出决策,第三节,双变量统计分析,?,一、交互分类与,检验,?,交互分类,?,交互分类是一种专门用来分析两个定类变量,(或一个定类变量,一个定序变量)之间关,系的统计分析方法。,某次调查样况的构成情况统
15、计表,性别,年,龄,青年,中年,老年,合计,男,70,60,50,180,女,50,40,30,120,合计,120,100,80,300,上表是对总数为,300,人的调查样本按年龄和性别两个变量,进行交互分类的结果。通过这种交互分类表,不仅可以知,道样本中男性、女性各有多少,或者青年、中年、老年各,有多少,同时还可以知道男性青年、男性中年,等等各有,多少。因此,交互分类可以较为深入地描述样本资料的分,布状况和内在结构,进而对变量之间的关系进行分析和解,释。,二、不同层次变量的相关测量与检验,?,1.,定类变量与定类变量,?,消减误差比例,指的就是知道,X,的值时所,减少的误差(,E1-E2,
16、)与总误差的比。,?,2.,定序变量与定序变量,?,3.,定类变量(或定序变量)与定距变量,?,4.,定距变量和定距变量,总结:不同层次变量的相关测量与检验,两变量层次,相关系数,取值范围,是否对称,有无消减误差,的比例意义,检验方法,定类,-,定类,定类,-,定序,0,,,1,对称,有,x,2,定序,-,定序,G,-1,,,1,对称,有,Z,定类,-,定距,定序,-,定距,E,E,2,0,,,1,不对称,无,有,F,定距,-,定距,r,r,2,-1,,,1,0,,,1,对称,无,有,F,(,t,检验),三、回归分析,?,相关分析的目的在于了解两个变量之间的关系强度,即,用相关系数来描述两个变
17、量之间的共变特征。回归分析,则是对有相关关系的现象,根据其关系的形态找出一个,合适的数学模型,即建立回归方程,来近似地表达变量,间的平均变化关系,以便依据回归方程对未知的情况进,行估计和预测。由于回归分析增加了因果性,且具有了,预测的功能,因此,它比相关分析更进了一步,其作用,也更大了。,?,两个变量(预测变量,X,与标准变量,Y,)间的回,归分析,是只有一个自变量的线性回归,也叫,一元线性回归。其回归方程为:,Y,a,bX,?,?,其中,a,b,、对一对特定数据来说是常数:,a,b,b,r,S,S,Y,X,?,a,Y,b,X,?,?,?,例:以前例数据计算由(身高)预测,(体重)的回归方程。
18、,X,?,176,Y,?,71,S,X,?,502,.,S,Y,?,4,47,.,r,?,.98,有了这一回归方程后,我们就可以由预测变量的值,经回归方程计算出标准变量的预测值。如另一名大学生,的身高为,170,厘米,则其体重的预测值为,65.78,公斤。,b,?,?,?,.,.,.,.,98,4,47,5,02,87,a,?,?,?,?,?,71,87,176,8212,.,.,Y,X,?,?,?,8212,87,.,.,第四节,多变量统计分析,?,在社会研究中,研究者除了进行双变量分析,外,还常常需要进行多变量分析。多变量统,计分析的方法种类较多,比如阐释模式、复,相关分析、多元线性回归分
19、析、路径分析、,因子分析、聚类分析、判别分析、对数线性,模型等等。,阐释模式,?,所关心的是两个变量之间的关系,它是通,过引进并控制第三变量,来进一步了解和,探讨原来两个变量之间关系性质的统计分,析方法。,?,因果分析,?,阐明分析,?,条件分析,?,因果分析,的目标是检定被看作自变量的,X,与被看作因,变量的,Y,之间,是否确实存在因果关系。引进若干前,置变量(第三变量),以判明,X,与,Y,之间的因果关系,是否为虚假的,即二者的关系是否为前置变量影响的,结果。(例如,住户的拥挤程度对夫妻间冲突的影响,),?,阐明分析,的目标则是探讨因果关系的作用方式与作用,途径。,?,条件分析,所关注的则
20、是原关系在不同条件下是否会有,所不同。,二、复相关分析,?,复相关分析是一种以一个统计值来简化多个,自变量与一个因变量之间关系的统计分析方,法。它要求所有的变量都是定距以上层次的,变量。,三、多元回归分析,?,Y=b,1,x,1,+b,2,x,2,+b,k,x,k,+a,?,B,值称为净回归系数,它表示的是在控制,了其他自变量以后,某一变量对因变量的,单独效果。,基本概念,?,资料审核,数据清理,?,集中趋势分析,离散趋势分析,?,区间估计,假设检验,?,交互分类,阐释模式,?,复相关分析,多元回归分析,思考与实践,?,找一份实际社会研究所用的问卷,对其编写一份编,码簿。,?,利用老师提供的数据,对其进行数据清理工作。,?,试写出下列各种变量间相关系数的类型:定类变量,与定类变量;定序变量与定序变量。定类变量与定距变,量;定距变量与定距变量。,(p271-275),?,统计检验的目的是什么?为什么社会研究常常需要,进行多变量分析?,(p265-266),?,从社会科学期刊中选择三篇研究报告,分析并评价,这些研究中所采用的统计分析方法。,