资料审核与初步统计课件.ppt

上传人:小飞机 文档编号:1477851 上传时间:2022-11-30 格式:PPT 页数:84 大小:481.50KB
返回 下载 相关 举报
资料审核与初步统计课件.ppt_第1页
第1页 / 共84页
资料审核与初步统计课件.ppt_第2页
第2页 / 共84页
资料审核与初步统计课件.ppt_第3页
第3页 / 共84页
资料审核与初步统计课件.ppt_第4页
第4页 / 共84页
资料审核与初步统计课件.ppt_第5页
第5页 / 共84页
点击查看更多>>
资源描述

《资料审核与初步统计课件.ppt》由会员分享,可在线阅读,更多相关《资料审核与初步统计课件.ppt(84页珍藏版)》请在三一办公上搜索。

1、,第十二章 调查资料的审核与整理,资料的审核 资料的整理 统计表,第一节 资料的审核,资料的审核资料的审核是资料处理的第一步工作。它是指研究者对所收集的原始资料(主要是问卷)进行初步的审阅,校正错填、误填的答案,剔出乱填、空白和严重缺答的废卷。其目的是使得原始资料具有较好的准确性、完整性和真实性,从而为后续资料整理录人与统计分析工作打下较好的基础。资料的审核工作包含两方面的内容:一是检查出问卷资料中的问题;二是重新向被调查者核实。资料的审核工作有两种不同的做法: 边收集边审核 集中审核,第二节 资料的整理,一、资料整理资料整理是根据研究目的将经过审核的资料进行分类汇总,使资料更加条理化和系统化

2、,为进一步深入分析提供条件。二、定性资料的整理 整理笔记与建立档案 资料的编码 编码类型:开放式编码 、轴心式编码 选择式编码,三、定量资料的整理 资料的编码(见下表一) 资料的录入(见下表二)数据清理 有效范围清理 逻辑一致性清理 数据质量抽查,表一,06,表二,第三节 统计表,一、统计表的结构 从外表形式上看,统计表由总标题、横行标题、纵栏标题、指标数值四部分组成。总标题是表的名称;横行标题在表的左端,它代表所说明的对象;纵栏标题在表的上方,它代表统计指标的名称。它们分别对横行或纵栏内的统计值作出说明。,二、统计表的种类,1.简单表某村历年人均收入,2.简单分组表 是总体仅按一个标志进行分

3、组,即运用简单分组形成的表格。某村各户年人均收入统计表,3.复合分组表是总体按两个以上标志进行层叠分组的统计表,它又称为交互分类表,它能表现两个分组标志之间的关系。 某村家庭规模和经济情况统计表,第十三章 资料的统计分析,统计分析方法是一种定量分析。它是进行科学预测的重要方法。统计分析的特点:(1)统计分析要以定性分析为基础;(2)统计分析方法必须和其他分析结合运用; 统计分析有一套专门的方法和技术。,观察,调查,实验,12 22 99 86 489,如何使用各种统计表与统计图来描述一组数据的分组与分布情况,如何通过一组数据计算一些特征数,简缩数据,进一步显示与描述一组数据的全貌(集中情况、分

4、散情况、分布特征),数据如何分组,收集方法,原始数据,表达形式,作 用,分析过程(图示),主要内容,单变量描述统计 单变量推论统计 相关与回归分析 双变量统计分析多变量统计分析,第一节、单变量描述统计,由一种变量的全部分数或观察值组成的一组或一批数据称为一个分布。单变量数据的描述统计就是对其分布情况进行说明。单变量描述统计包括集中量数分析、离散量数分析。,一.频数分布与频率分布,频数分布(Frequency Distribution),就是指一组数据中取不同值的个案的次数分布情况,它一般以频数分布表的形式表达。 频率分布(percentages distribution),是一组数据中不同取值

5、的频数相对于总数的比率分布情况.常以百分比的形式来表达.,编制频数分布表,画出频数分布图,某中学初三甲班60人期中英语考试分数,案例,某中学初三甲班60人英语期中考试成绩累积频数(频率)分布表,二、集中量数分析,集中量数就是代表数据分布集中趋势的量数。集中量数分析指的是用一个典型值或代表值来反映一组数据的一般水平,或者说反映这组数据向这个典型值集中的情况。 最常见的集中量数有算术平均数(简称平均数,也称为均值)、众数和中位数三种。,中位数(Md),中位数(Md),又称中数,是频数分布上50%处的数值,即将观察总数一分为二的变量值。在这个值的两边各有相同个数的数据。当数据的个数为偶数时,取分布5

6、0%(最中心)处的两个数据的平均数作为中数。,中位数(Md),中位数(Md),又称中数,是频数分布上50%处的数值,即将观察总数一分为二的变量值。在这个值的两边各有相同个数的数据。当数据的个数为偶数时,取分布50%(最中心)处的两个数据的平均数作为中数。,几何平均数(Mg),是n个数据的连乘积开n次方的根。常用作速率的集中量数,如学龄儿童人数的增加率、学校经费的增加率、阅读能力的进步率等。,Mg=,算术平均数,通常称平均数,又称均数或均值。英文为Mean,故以M表示。如果是由变量X计算得来的就记为 (读X杠),现在一般都 以表示样本的平均数,以U 表示总体的平均数。算术平均数就是各个变量值相加

7、求和再除以变量的总次数。,=,=,算术平均数的计算方法,1、用原始数据计算平均数 。当一组数据个数不多时,可直接用原始数据来计算。如某实验小组10人的实验成绩为11,13,15,16,16,16,17,18,18,20。其平均数为:,=,=,=,16,2、用频数分布表求平均数 。如果样本的数据很多,达到数十个或数百个,则需编制频数分布表,用频数分布表求平均数。,=,Xc 为各组的组中值,f 为各组的频数,N 为总次数( ),某中学初三甲班60人英语期中考试成绩平均数、标准差计算表,=,=,73.5,73.5,73.5,73.5,73.5,中位术与平均数的比较,(1)平均数要求计算所有的数值,而

8、中位数只用到数值的相对位置,一般说来平均数利用了更多的信息,更全面和准确. (2)平均数容易受到极端值的影响,中位数则不会受到这种影响.平均数是一种比中位数更为稳定的量度,它随样本的变化比较少.(3)当资料是定序,定类测量或者是有开口组的定居测量时,中位数能够拟补不足.,三.离散量数分析,离散(中)量数分析 指的是用一个特别的数值来反映一组数据相互之间的离散(中)程度.即各组数据相对于平均数的差异程度(离中程度)。差异程度小,平均数的代表性高;差异程度大,代表性低。它与集中量数一起分别从两个不同的侧面描述和揭示一组数据的分布情况.共同反映出资料分布的全面特征,同时它还对现各集中量数的代表性做出

9、补充说明.常见的离散量数统计量有全距,标准差,异众比率,和四分位差.,示例:某三个班各选5名同学参加测试.他们的成绩分别如下中文系:78, 79, 80, 81. 82 X = 80数学系:65, 72, 80, 88, 95 X = 80外语系:35, 78, 89, 98, 100 X = 80 如果仅以集中量数来衡量,这三个队的水平一样高,但是很明显.这80分对中文系队的同学代表性最高,而对外语系的同学代表性最低.,1.全距(R),全距也叫极差,它是一组数据中,最大值与最小值之差. 它是表示数据分布离散程度最简单的方式,即一组数据中最大数与最小数差,故称两极差。,R=Xmax-Xmin,

10、当数据较多时,应用频数分布表求全距。其方法为:最大组与最小组的组中值之差或最大组上限与最小组下限之差。,R=Xcmax-Xcmin,R=Umax-Lmin,R= 98(最大值) 43(最小值) = 55,1.求全距,步 骤,视数据资料的性质和数据多少而定。组数不宜太多,如太多不能明显表示出分布的主要趋势。但也不宜太少,太少则把很多不同事实归于一组,其分配的主要特征将因此而被蒙蔽。,2. 定组数,分组参考表,组距就是每一组的间距,即每组所包含的单位。组距以“i”表示。,3、求组距,组距i =,= 9.3,i =,本例组数为6,组距,一般地,为计算方便,组距取10为宜,组限是分组的界限,其底数为下

11、限(L),其顶数为上限(U)。组限的写法有很多,有的用上下限表示,有的用组中值表示。如以“10”为组距,一般多用首尾相接,间隔为10的形式表示。即6070,7080,8090。其中每组上限即为下一组的下限,通常将组下限包含在本组中,而不包含在上限所在的组。因为分组的实际界限应是这一组的精确界限,如“8090”这一组的精确界限为“79.589.4999”。,4. 定组限,5. 求组中值,组中值XC = 精确下限L +,如以10为组距,则”8090”一组的组中值为:组中值 = 79.5 + = 84.5,某中学初三甲班60人英语期中考试成绩频数分布表,6.归类划记,2.标准差,标准差:一组数据对其

12、平均数的偏差平方的算术平均数的平方根。一般以S(或 来表示 )式中S(样本统计值)为标准差,X为各学生的成绩分数, 为学生成绩的平均数,x为各学生成绩分数的离差,n为学生(数据)数。,S,=,=,例1:某校三个系各选5名同学,参加智力竞赛,他们的成绩分别如下:中文系:78 79 80 81 82数学系:65 72 80 88 95英语系:35 78 89 98 100平均成绩 =80标准差:一组数据对其平均数的偏差平方的算术平均数的平方根。S(中文系)=1.414(分)S(数学系)=10.8(分)S(英语系)=23.8(分),S,=,例2.,例:有某生三次数学考试的成绩分别为70、57、45,

13、三次考试的班平均为70、55、42,标准差分别为8、4、5。如何看待该生的三次考试成绩的地位?(如果仅从原始分数看,肯定认为第一次最好,其实不然,要计算出各次的标准分数,才能说明问题。) Z1=(7070)/8=0 Z2=(5755)/4=0.5 Z3=(4542)/5=0.6 这说明,原始分数为70,其位置正在平均线上,而原始分数为57的,其位置在平均线上0.5处,而原始分数为45的,其位置在平均线上0.6处。,3.异从比率 是指非众数的次数与总体内全部总体单位的比率。异众比率越小,众数的代表性越大。 4.四分位差把一组数据按大小排列成序列,然后分成四个数据数目相等的段落,各段落分界点上的数

14、,叫四分位数。(即每组占25)舍去资料中数值最高的25和最低的25,仅就中间50数据求其量数作为离中量数,就是四分位差。 四分位差之间的间距越小,中位数的代表性越大。(1)对定序类资料计算四分位差。 Q=Q3-Q1 (2)对定距类资料计算四分位差。,使用说明:众数与异众比率配合;中位数与四分位差配合;平均数与标准差配合。,四、相对差异(离散或离中)量数,1.离散系数 离散系数是一种相对的离散量数统计量,它使我们能够对同一总体中的两种不同的离散量数进行比较,或者对两个不同总体中的同一离散量数进行比较。 离散系数的定义是:标准差与平均数的比值,用百分比表示。 CV=S/XCV = 100 CV =

15、 100,例1:一项调查得到下列结果,某市人均平均收入为92元,标准差为17元,人均住房面积7.5平方米,标准差为1.8平方米。试比较该市人均收入和人均住房情况哪一个差异程度比较大。解人均收入的离散系数为CV=S/ 100%=18.5%人均住房面积的离散系数为CV=1.8/7.5 100%=24%例2:对广州和武汉两地居民生活质量调查发现,广州居民平均收入为680元,标准差为120元;武汉居民平均收入为360元,标准差为80元。问广州居民相互之间的差异程度,与武汉居民相互之间在收入上的差异程度哪一个更大一些?解广州居民收入的离散系数为CV=120/680 100%=17.6%武汉居民收入的离散

16、系数为CV=80/360 100%=22.2%,五、标准分数,是用来描述变量分布中某一分数在整个分布中所处的位置,它是以标准差为单位的相对量数。其计算公式为: z = =从公式可以得知标准分数是一个分数与其平均数之差除以标准差所得的商。平均数以上各点的分数为正值,平均数以下各点的分数为负值,平均数的分数为零。,例如:某班语文平均考试成绩为75分,标准差为8.5分。甲生得92分,乙生得70分,问甲乙二生的分数各为多少?,Z甲=,Z乙=,=2,=-.59,据正态分布理论可知的取值范围在-3到+3之间。为了使标准分数变成正值并减少小数位数,以便于比较,我们可将标准分数进一步经线性转换成标准分数。其计

17、算公式为: T= 10Z + 50,目前,我国各类学校招考新生和对学生进行学习成绩考查评定的主要手段是考试。而对考试成绩的评分一般是用百分制来表示,并用各科成绩相加按总分来决定被试者的优劣取舍。这种做法开来似乎公平,实际上很不合理。因为各科试题的难易程度不同,造成评分标准的宽严不一,因此各科考试成绩的统计量数,如平均数、标准差也不相等。我们不能说语文的考分80分等价于数学的考分的80分,也不能说英语考分75分等价于物理的考分75分,在这种情况下,把考生的各科考分等量齐观地相加起来,凭个考生的总分来决定优劣取舍,显然是十分不合理的。科学的方法,就是把考生是各科分数,经过一个标准化的转化过程,把每

18、个考生的各科分数变成标准分数,然后再进行相加和比较。,甲乙两位考生七科分数的标准化表,练习,1.根据各小组调查的问卷,先进行数据清理工作,然后对某些问题进行单变量的统计描述,绘制频数分布表。2.在一个社区诊所,10天内来排队看病的人数分别是52,68,39,47,57,32,75,25,31和93,求算术平均数和中位数,以及标准差,第二节 单变量统计推论,统计推断,是指根据样本所提供的详细,运用概率的理论进行分析、论证,在一定的可靠程度上,对总体分布的特征进行估计、推测。 具体内容包括: (一)总体参数的估计 (二)假设检验,一、区间估计,以样本统计量的抽样分布为理论依据,按一定概率要求,由样

19、本统计量的值来估计总体参数的值所在的范围,叫做总体参数的区间估计。,1、平均数抽样分布与总体均数的区间估计,从正态分布中随机抽取容量为的一切可能样本的平均数抽样分布是以总体平均数为中心的正态分布。当总体标准差已知时,一切可能样本平均数与总体平均数的离差统计量呈标准正态分布。区间估计:区间估计的实质就是在一定的可信度(置信度)下,用样本统计值的某个范围(置信区间)来估价总体的参数值。范围的大小反映的是这种估计的精确性问题,而可信度高低反映的则是这种估计的可靠性或把握性的问题。,其中, 表示样本平均数的标准分数, 表示样本平均数, 表示总体平均数, 表示平均数标准误。,课堂练习题例:调查某厂职工的

20、工资状况,随机抽取900名工人做样本,调查得到他们的月平均工资为186元,标准差为42元。求95%的置信度下,全厂职工的月平均工资的置信取间是多少?解将调查资料代入总体均值的区间估计公式得总体均值的置信区间为183.26-188.74当将置信度提高到99%,总体的置信区间为182.39-189.61元(随着可靠性的提高,所估计的区间扩大了,但估计的精确性就相应地降低了。例:从某工厂随机抽取400名工人进行调查,结果表明女工的比例为20%。现在要求在90%的置信度下,估计全厂工人中女工比例的置信区间。解带入总体百分数的区间估计公式得16.7%-23.%,小结:要对总体均数进行区间估计,即在一定的

21、可靠程度上求出总体均数的置信区间的上下限,首先,要知道与所要估计的参数相对应的样本统计量的值,以及样本统计量的抽样分布;其次,要求出该统计量的标准误;最后,要明确在多大的可靠度上对总体均数作估计,再通过查抽样分布概率分布表,找出与该可靠度所对应的该分布在横轴上记分的临界值,从而计算出总体均数的置信区间。,二、假设检验,利用样本信息,根据一定的概率,对总体参数或分布的某一假设作出拒绝或保留的决断,称为假设检验。,当对某一总体参数进行假设检验时,首先从该总体中随机抽取一个样本,然后计算统计量的值,并根据经验对相应的总体参数提出一个假设值,这个假设是说这个样本统计量的值是由这个假设总体参数值的一个随

22、机样本,即这个样本来源于这个总体,而样本统计量的值与总体参数值之间的差异是由抽样误差所致。根据这一假设,可以认为像这样的一切可能样本统计量的值应当以总体参数值(假设的)为中心形成该统计量的一个抽样分布。如果这个随机样本统计量的值在其抽样分布上出现的概率较大时,就得保留这个假设,即承认这个样本来自这个总体,而样本统计量的值与总体参数值之间的差异是由抽样误差所致。此时称样本统计量的总体参数与假设的总体参数差异不显著。否则就拒绝这个假设,否认这个样本来自这个总体,样本统计量的总体参数与总体参数值之间有显著差异。,假设检验先对总体的某一参数作出假设,然后用样本的统计量去进行验证,以决定假设是否为总体做

23、接受。依据的概率论中的小概率原理,即“小概率事件在一次观察中不可能出现”的原理。步骤:(1)建立虚无假设和研究假设,通常是将原假设作为虚无假设;(2)根据需要选择适当的显著性水平 (即概率的大小),通常有 =0.01等;(3)根据样本数据计算出统计值,并根据显著性水平查出对应的临界值;(4)将临界值与统计值进行比较,若临界值大于统计值的绝对值,则接受虚无假设;反之,则接受研究假设。,例:某单位职工上月平均收入为210元,标准差为15元。问该单位职工本月平均收入与上月相比是否有变化?解建立虚无假设(H0 )和研究假设H1 H0 :=210 H1: 210选择显著性水平a=0.05,带入样本数据计

24、算统计值Z,得 =6.671.96所以拒绝虚无假设,接受研究假设,即从总体上来说,该单位职工月平均收入与上月相比有变化。,Z 检验,Z检验是用正态分布的理论差异发生的概率(误差发生的概率),从而比较两个平均数(样本平均数与总体平均数或两个样本平均数)的差异是否显著。Z检验适用于大样本(n30)Z检验可分为单总体检验和双总体检验。,单总体的检验,t 检验,单总体的检验 单总体的检验是检验一个样本平均数与一已知的总体平均数的差异是否显著。其检验统计量的计算公式为: 式中t 为检验的样本平均数与已知总体平均数的标准离差分数,df 为t 分布的自由度。,例如:某校初中三年级学生期中英语考试成绩平均数为

25、73分,标准差为17分。期终考试后,从该年级学生中随机抽取20人的英语成绩,其平均数为79.4分,问该年级学生的英语成绩是否真有进步?,第三节 相关与回归分析,对两变量间关系进行描述,最常用的是相关量。相关就是指二列变量之间的相互关系。 如身高和体重、学习成绩与思想品德等的相互关系。类型:单相关、一元回归与多元相关、多元回归;回归又分为线性与非线性回归。,一种是两列变量的变动方向相同,即一种变量变动时,另一种变量也发生或大或小的相同方向的变动,如身高与体重的关系,一般来说,身高越高,体重越重,这叫正相关; 另一种相关情况是当一种变量变动时另一种变量是或大或小地向相反方向变动,如身体健康状况与患

26、病率的关系,身体越好,患病率越小,这叫负相关。 第三种是零相关,即两列变量变化方向无一定规律,一个变量变动时,另一变量的变动方向可能与其相同,也可能与其相反,且相同与相反的机会趋于相等,如人的相貌与其思想品德之间是毫无关系的零相关。,第三节 相关与回归分析,相关系数回归分析及测定方法,一、相关系数,相关系数是用来表示相关程度的量的指标,用r表示。其数值范围在-1至+1之间, r的正负号表示变化的方向, 正号表示变化的方向相同,是正相关; 负号表示变化的方向相反,是负相关。 r的绝对值表示两变量之间的密切程度(强度), 绝对值越接近1,表示两变量之间的关系越密切; 越接近0,表示两变量之间的关系

27、越不密切。如r =1表示完全正相关; r =-1表示完全负相关; r =0表示零相关。,计算相关系数时,要求二列变量必须成对,而且变量的性质不同亦应计算不同的相关系数,即不同的相关系数适用于不同的变量类型。如皮尔逊积差相关系数适用于两列等距变量;斯皮尔曼等级相关系数适用于两列等级变量;点二列相关系数适用于反映一等距变量与另一真正二分变量间相关程度;二列相关系数适用于反映一等距变量与另一人为二分变量间相关程度,,积差相关系数,式中: , ,n为成对变量的数目,SX为X变量的标准差,SY为Y变量的标准差。,若用原始分数直接求r,其计算公式为:,若用标准分数计算r ,其公式为:,5名大学生身高提高相

28、关系数计算表,不同层次变量的相关测量与检验1.定类变量与定类变量消减误差比例,指的就是知道X的值时所减少的误差(E1-E2)与总误差的比。2.定序变量与定序变量3.定类变量(或定序变量)与定距变量4.定距变量和定距变量,二、回归分析及测定方法,相关系数是一种广泛使用的描述统计量,用以描述两个变量间的关系,除此以外,它还具有预测功能,即根据一个变量的情况去预测另一个变量。 如果我们把存在相关的两个变量中的一个作为自变量(预测变量),另一个作为因变量(标准变量),并且把两者之间并不十分准确、稳定的关系用数学方程式表达出来,则可以利用该方程自变量来估计预测因变量的估计值。这一过程称为回归分析。 相关

29、分析的目的在于了解两个变量间的关系强度,即用相关系数来描述X和Y两个变量之间的共变特征。回归分析则是对相关关系的现象,根据其关系的形态找出一个合适的数学模型,即建立回归方程,来近似地表达变量间的平均变化关系,以便依据回归方程对未知的情况进行估计和预测。建立回归方程的基础是最小二乘法。,两个变量(预测变量X与标准变量Y)间的回归分析,是只有一个自变量的线性回归,也叫一元线性回归。其回归方程为:,其中a,b、对一对特定数据来说是常数:,第四节 双变量统计分析,例:以前例数据计算由(身高)预测(体重)的回归方程。,有了这一回归方程后,我们就可以由预测变量的值经回归方程计算出标准变量的预测值。如另一名

30、大学生的身高为170厘米,则其体重的预测值为65.78公斤。,第五节 多变量统计分析,一、阐释模式(elaboration)所关心的是两个变量之间的关系,它是通过引进并控制第三变量,来进一步了解和探讨原来两个变量之间关系性质的统计分析方法。因果分析阐明分析条件分析,因果分析的目标是检定被看作自变量的X与被看作因变量的Y之间,是否确实存在因果关系。引进若干前置变量(第三变量),以判明X与Y之间的因果关系是否为虚假的,即二者的关系是否为前置变量影响的结果。(例如,住户的拥挤程度对夫妻间冲突的影响)阐明分析的目标则是探讨因果关系的作用方式与作用途径。条件分析所关注的则是原关系在不同条件下是否会有所不同。,住户拥挤对夫妻冲突的影响(%),控制家庭经济水平后住户拥挤程度对夫妻冲突的影响(%),二、复相关分析,复相关分析是一种以一个统计值来简化多个自变量与一个因变量之间关系的统计分析方法。要求所有的变量都是定距以上层次的变量三、多元回归分析Y=b1x1+b2x2+bkxk+a B值称为净回归系数,它表示的是在控制了其他自变量以后,某一变量对因变量的单独效果。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号