社会统计资料的整理.ppt_三一办公31ppt.com

资源描述

《社会统计资料的整理.ppt》由会员分享，可在线阅读，更多相关《社会统计资料的整理.ppt（91页珍藏版）》请在三一办公上搜索。

1、第三章调查资料的整理方法,本章主要内容：整理资料的意义、原则和步骤（重点）文字资料整理的方法数字资料整理的方法(重、难点)统计表的统计图的种类与制作方法（重点）,第一节整理资料概述,一、整理资料的涵义和意义1、涵义指运用科学的方法，将调查的原始资料按调查目的进行审核、汇总与初步加工，使之系统化和条理化，并以集中、简明的方式反映调查对象总体情况的过程。2、意义第一，它是对调查资料的全面检查，是提高调查资料质量及其使用价值的必要步骤。第二，进一步分析研究资料的基础。第三，积累保存资料的客观要求。总之，整理资料是从调查阶段过渡到研究阶段、由感性认识上升到理性认识的一个不可缺少的中间阶段。,二

2、、整理资料的原则 1、真实性原则是整理资料的最根本要求；2、准确性原则描述事实要准确，特别是数据；3、完整性原则尽可能全面、如实的反映全貌；4、统一性原则调查对象要统一，调查指标及其操作定义要统一，调查方法要统一，调查资料的计算方法、计量单位要统一等等；5、简明性原则资料尽可能简单、明确。该用文字说明的用文字说明，该用表格的用表格，该用图表的用图表。6、新颖性原则要尽可能用新的观点、新的角度来审视资料、组合资料。,三、整理资料的一般步骤资料的整理主要是文字资料和数字资料的整理。步骤：1、资料的审核审核资料的真实性、准确性和完整性。2、资料的编码为计算机处理准备。3、资料的分组根据分组标志分组

3、。4、资料的汇总将分散的资料以集中的形式显示出来。分手工、计算机汇总两种。5、制作统计表和统计图通过编制统计表和统计图以集中、简明、直观的形式显示出来。,第二节文字资料的整理,文字资料一般包括：历史资料、汇报材料、总结报告、访谈记录、观察记录、问卷答案等。一、文字资料的审核 1、真实性审核。也称信度审核，就是看调查资料是不是真实可靠。它包括文字资料本身的真实性审核及内容的可靠性审核。文字资料本身的真实性审核，是指通过审查以判明调查所得的文献资料、观察和访问记录等文字资料本身的真伪。一般可采用两种方法，一是外观审查，即从作者、编者、出版者、版本、印刷技术、纸张等外在情况来判断文献的真伪。二是内

4、涵审查，即从文献的内容，使用的词汇、概念，写作的技巧和风格等内在情况来判断文献的真伪。对文字资料内容的可靠性审查，是指通过审查判明文字资料的内容是否真实地反映了调查对象的客观情况。一般可用以下方法：经验法（找有经验的专家或实践丰富的调查人员实施）、逻辑法（根据内在逻辑检验）、来源法（根据来源渠道判断）。2、合格性审核。审核调查资料是否符合原设计要求。,二、文字资料的分类分类就是根据资料的性质、内容或特征，将相异的资料区别开来，将相同或相近的资料合为一类的过程。1、方法：前分类法，即在设计调查提纲和表格时，就按照事物和现象的类别设计调查指标，然后再按分类指标搜集资料、整理资料。如有结构观察的卡

5、片、标准化访问的记录等大多采取前分类办法。后分类法，即在调查资料搜集起来之后，再根据资料的性质、内容或特征将它们分别集合成类。2、分类的关键在于正确确定分类标准，要遵循以下原则：科学性原则、客观性原则、穷举原则、相斥原则。3、分类的意义：它是认识社会现象的初步成果。它是揭示事物内部结构的前提。它是研究不同类别事物之间关系的基础。,三、文字资料的汇编汇编的目的指按调查目的和要求对分类后的资料进行汇总和编辑，使之成为能反映调查对象客观情况的系统、完整、集中和简明的材料。1、汇编的方法根据调查的目的、要求和调查对象的具体情况，确定合理的逻辑结构，使汇编后的资料既能反映调查对象总体的真实情况，又能

6、说明调查所要说明的问题。要对资料进行初步加工，如给各类资料加上标题、符号，编上序号等。2、汇编的要求（1）完整和系统可用的资料汇编后要分类编在一起。（2）简明和集中尽可能使文字简单明了。,第三节数据资料的整理之一数据资料的检验,数据资料的整理包括：检验、分组、汇总、制作统计表或统计图。,数据资料的检验检验、验证各种资料是否完整和正确。1、完整性检验：填报的表格是否齐全；调查表格的答案是否完整。2、正确性检验：（1）经验检验。如企业经营差却是利税大户。（2）逻辑检验。如20岁工龄10年。（3）计算检验。如分组不等于总和。,按照一定的标志，把数字资料划分为不同的组成部分。（一）分组的意义 1、

7、可以找出总体内部各个部分之间的差异。2、可以深入了解现象总体的内部结构。3、可以显示现象之间的依存关系。,第四节数据资料的整理之二统计数据的分组,（二）分组的步骤步骤：选择分组标志、确定分组界限、编制变量系列。1、选择分组标志（分组的标准或依据）（1）品质标志按性质和类别分组。如性别、质量优劣等。（2）数量标志按事物的发展规模、水平、速度、比例等数量特征分组。（3）空间标志按事物的地理位置、区域范围等空间分组。（4）时间分组按事物的持续性和先后顺序分组。,统计分组是统计整理的第二步，它是按照统计研究的目的，将数据分别列入不同的组内，在第二章中，将数据分成四种计量尺度，即定类尺度、定序尺度、定

8、距尺度和定比尺度。其中，定类尺度和定序尺度的数据是按照事物的性质和属性划分的，因而又称为按品质标志分组；定距尺度和定比尺度是按照事物的数量标准划分的，又称为数量标志分组。例：见教材第27页表31,选择分组标志的原则：从研究目的出发选择分组标志；从能够反映被研究对象本质的需要选择标志；应多角度地选择分组标志；根据具体历史条件选择；坚持穷尽性和互斥性原则。,第五节数据资料的整理之三分配数列（变量数列的编制）,一、分配数列的概念和种类在统计分组的基础上，将总体的所有单位按组归类整理，并按一定顺序排列，形成总体中各个单位在各组间的分布，称为次数分配或分配数列。分布在各组的个体单位数叫次数，又称频数；

9、各组次数与总次数之比叫比率，又称频率。,分配数列是统计分组的一种重要形式，它可以反映总体的结构分布状况和分布特征，这对于统计分析是很重要的。根据分组标志的不同，分配数列可分为两种：品质分配数列（简称品质数列）；变量分配数列（简称变量数列）。按品质标志分组形成为品质数列。品质数列由各组名称和次数组成。各组次数可以用绝对数表示，即频数；也可以用相对数表示，即频率。见表33。,由表33可看出，城镇人数比重小于乡村。对于品质数列来讲，如果分组标志选择得好，分组标准定得恰当，则事物的差异表现得就比较明确。品质数列一般也比较稳定，通常均能准确地反映总体的分布特征。,按数量标志分组形成为变量数列。按数量标志

10、分组时，可分为单项式和组距式两种，因此，变量数列也分为单项数列和组距数列两种。（1）单项数列是总体按单项式分组而形成得变量数列，每个变量值是一个组，顺序排序，在组数不多和组值变动幅度不大时采用。如表310。（2）组距数列是总体按组距式分组而形成得变量数列，每个组是由若干个变量值形成的区间表示，在变量个数较多，变动幅度较大时采用。如表312所示。,由此可见，变量数列也是由各组名称（由变量值表示）和次数（或频率）组成。频率大小表明各组标志值对总体的相对作用程度，也可以表明各组标志值出现的频率大小。变量的具体数值即变量值通常用符号x表示；各组单位数即次数或频数（其相对形式即频率）通常用符号f表示。变

11、量数列的编制，特别是其中组距数列的编制是比较复杂的，下面就组距数列的编制方法专门加以研究。,二、组距数列的编制编制组距数列牵涉的问题较多，不仅取决于分组标志的选择，而且要看分组界限的确定是否合理。在编制过程中，要正确处理以下三个具体问题。,（一）组距和组数在组距数列中是用变量变动的一定范围代表一个组，每个组的最大值为组的上限，最小值为组的下限。每个组上限和下限之间的距离称为组距。,编制组距数列必须要确定组距和组数。首先要找出全部变量的最大值和最小值的距离（即全距），以及大多数变量集中在什么范围内，然后才能据以考虑组距和组数的问题，务必使分组的结果尽可能反映出总体分布的特点。组数的确定和组距有密

12、切联系。组距大则组数少，组距小则组数就多，两者成反比例的变化。在具体确定组距时，应使组距能体现组内资料的同质性和组与组资料的差异性。,经初步加工，大致可看出资料的集中趋势。资料的最小值为56分，最大值为99分，则全距995643分，即数列中最大值与最小值之差。根据考试成绩性质的不同，在60分的数量界限的基础上分为不及格、及格、中等、良好、优秀五个类型，并将每组组距定为10分，编制如下组距数列，则基本上能准确反映学生的分布特征。,表1 某班学生统计学考试成绩表,本例视研究对象本身的特点和研究的目的，按组距为10，定组数为5。按经验的看法，组数过多过少都不妥，一般情况下可分为57组，组数尽可能取奇

13、数，避免偶数。,（二）等距分组和异距分组组距数列根据组距是否相等，分为等距数列和异距数列两种。等距数列中各组组距都是相等的（如表1所示）；异距数列中每组的组距是不全相等的（如表2所示）。,表2 某地区的人口分布状况,1、等距数列。等距数列分组时，一般应依据总体内部情况的定性分析来确定组数，然后用全距除以组数，确定组距，并据以划分各组的界限。设R为全距、K为组数、i为等组距如上例，R43，设K5则iR/K43/58.6为方便计算，i宜取5或10的整数倍，故可令i10。根据考分现象可知，60分是必须划分及格与不及格两种性质的数量界限，因此，可在60分以上及以下均按10分的等组距进行分组。,等距数列

14、适用于标志变异比较均匀的现象，或者说，各组性质差异是由变量值均匀增加或减少而引起的。例如，学生成绩60分以上者，每增加10分就进入高一级档次。人口按身长、体重的分组等，一般均采用等距数列。,2、异距数列。异距数列各组次数的数值受组距不同的影响。在研究各组次数实际分布时，要消除组距不同的影响，这就要将不等组距的次数换算成标准组距次数。可以数列中最小组组距为标准组距，将不等组距次数换算为统一的标准组距次数，并以此绘制图形，或者是在原数列基础上先计算次数密度或频率密度，其公式为：次数密度各组次数/各组组距频率密度各组频率/各组组距以上两种方法实质上是一样的。,现以某厂工人年龄分布情况为例，将这两种方

15、法的换算结果列成表3。,表3 某厂工人年龄分别情况,以上标准组距最后两组的人数为32.5与10，实际上也就是次数密度乘以标准组距5的结果。,异距数列常在以下场合运用：第一，有许多社会经济现象的分布存在明显的偏斜状况，这时变量不适合等距分组，必须采用异距分组。例如，人口总体的年龄分布，考虑到80岁以上的高寿者在总人口中所占比重极小，故分组时80岁以下可按10岁组距分组，80岁以上的组距就应扩大。第二，有些社会经济现象的标志变异范围较大，其变量若按一定比例关系变化发展的话，可按等比间隔分组编制异距数列。例如，钢铁厂高炉按容积（立方米）的异距分组为100以下，100200，200400，400800

16、，8001600，1600以上。显然，其组距间隔等比为2。,（三）组限和组中值1、组限。确定组距和组数之后，还有确定组限的问题。组距两端的数值称组限。组距的上限、下乡都齐全的叫闭口组；有上限缺下限，或有下限缺上限的叫开口组。确定组限要遵守一个基本原则，即按这样的组限分组后，标志值在各组的变动能反映事物的质的变化。也就是要使同质的单位在同一组内。这就设计到组限的表示方法，下面介绍两种常用的表示方法：,（1）按连续变量分组，由于相邻两组的上限与下限通常以同一个数值来表示，每一组的上限同时是下一组的下限，为了避免计算总体单位分配数值的混乱，一般原则是把到达上限值的单位数计入下一组内，即称为“上组限不

17、在内”原则。如前例5060分，满了60分，应计入下一组6070分这一组内。这样做，不仅能使计算方法统一，而且这些数字也往往正是事物发生质变的量的界限，就拿60分来说，事实上是成绩及格与不及格的数量界限。,（2）按离散变量分组，则相邻两组的上限与下限通常是以两个确定的不同整数值来表示，故相邻两组的上下限可以不重合。例如，企业按工人数分组可分为以下各组：100人以下，101300人，301500人，5011000人，1000人以上，这是一般的表示方法。也可以按“上组限不在内”的原则写为重叠式组限，如上面的工人人数分组，也可写成：100人以下，100300人，300500人，5001000人，100

18、0人以上等。,2、组中值。组距数列是按变量的一段区间来分组，掩盖了分布在各组内的单位的实际变量值。为了反映分在各组中个体单位变量值的一般水平，统计工作中往往用组中值来代表它。组中值是各组变量范围的中间数值，通常可以根据各组上限、下限进行简单平均，即：组中值（上限下限）/2如上例5060分一组的组中值即为55分。,对于开口组组中值的确定，一般以其相邻组的组距的一半来调整：缺上限的开口组组中值下限邻组组距/2缺下限的开口组组中值上限邻组组距/2,例如，按完成产值分组（万元）10以下102020303040407070以上,则：首组组中值1010/25（万元）末组组中值7030/285（万元）,三、

19、累计次数分布总体中各单位数在各组间的分布，称次数分布。次数分布是统计研究的一个基本课题，通过次数的分布规律，可以研究大量现象的统计规律性。将变量数列各组的次数和比率逐组累计相加而成累计次数分布，它表明总体在某以标志值的某一水平上下总共包含的总体次数和比率。累计次数有以下两种计算方法。,（一）向上累计向上累计，又称以下累计，或称较小制累计，是将各组次数和比率，由变量值低的组向变量值高的组逐组累计。组距数列中的向上累计，表明各组上限以下总共所包含的总体次数和比率有多少。（二）向下累计向下累计，又称以上累计，或称较大制累计，是将各组次数和比率，由变量值高的组向变量值低的组逐组累计，组距数列中的向下累

20、计，表明各组下限以上总共所包含的总体次数和比率有多少。例见表316（第38页）,累计次数的特点是：同一数值的向上累计和向下累计次数之和等于总体总次数，而累计比率之和等于1（或100）。对单项数列也可以计算累计次数和累计比率。,第六节数据资料的整理之四统计表,统计表是显示统计数据的基本工具。在数据的收集、整理、描述和分析过程中，我们都要使用统计表。杂乱的数据，既不便于阅读，也不便于理解和分析，一旦整理在一张统计表内，就会使这些数据变得一目了然、清晰易懂。充分利用和绘制好统计表是做好统计分析的基本要求。统计表的形式多种多样，根据使用者的要求和统计数据本身的特点，我们可以绘制形式多样的统计表。例如

21、，表33（第28页）就是一种比较常见的统计表。,从表33可以看出，统计表一般由四个主要部分组成，即表头、行标题、列标题和数字资料，此外，必要时可以在统计表的下方加上表外附加。表头应放在表的上方，它所说明的是统计表的主要内容；行标题和列标题通常安排在统计表的第一列和第一行，它所表示的主要是所研究问题的类别名称和指标名称，如果是时间序列数据，行标题和列标题也可以是时间，当数据较多时，通常将时间放在行标题的位置。表的其余部分是具体的数字资料；表外附加通常放在统计表的下方，主要包括资料来源、指标的注释和必要的说明等内容。,由于使用者的目的以及统计数据的特点不同，统计表的设计在形式和结构上会有较大差异，

22、但其设计上的基本要求则是一致的。尽管计算机的应用对统计表的形式要求越来越少，但“科学、实用、简练、美观”仍然是设计和使用统计表所要求的。具体来说，设计和使用统计表时要注意以下几点：,首先，要合理安排统计表的结构，例如，行标题、列标题、数字资料的位置应安排合理。当然，由于强调的问题不同，行标题和列标题可以互换，但应使统计表的横竖长度比例适当，避免出现过高或过长的表格形式。,其次，表头一般应包括表号、总标题和表中数据的单位等内容。总标题应简明确切地概括出统计表的内容，一般需要表明统计数据的时间（when）、地点（where）以及何种数据（what），即标题内容应满足3W要求。如果表中的全部数据都是

23、同一计量单位，可放在表的右上角标明，若各指标的计量单位不同，则应放在每个指标后或单列出一列表明。,再次，表中的上下两条横线一般用粗线，中间的其他线要用细线，这样使人看起来清楚、醒目。通常情况下，统计表的左右两边不封口，列标题之间一般用竖线分开，而行标题之间通常不必用横线隔开。总之，表中尽量少用横竖线，切记不要用斜线。表中的数据一般是右对齐，有小数点时应以小数点对齐，而且小数点的位数应统一。对于没有数据的表格单元，一般用“”表示，一张填好的统计表不应出现空白单元格。最后，在使用统计表时，必要时可在表的下方加上注释，特别要注意注明资料来源，以对他人劳动成果的尊重，备读者查阅使用。,第七节数据资料

24、的整理之五统计图,1、直方图与折线图用矩形的宽度和高度（即面积）来表示频数分布的图形，称为直方图。在平面直角坐标中，用横轴表示数据分组，纵轴表示频数或频率，这样，各组与相应的频数就形成了一个矩形，即直方图。,2、曲线图,各种不同性质的社会经济现象都有着特殊的次数分布，常见的主要有三种类型：钟型分布，U型分布，J型分布。,（一）钟型分布,钟型分布的特征是：“两头小，中间大”，即靠近中间的变量值分布的次数多，靠近两端的变量值分布的次数少，其分布曲线图宛如一口古钟。,钟型分布可分为以下两种：1、对称分布。其特征是：中间变量值分布的次数最多，两侧变量值分布的次数随着与中间变量值距离的增大而渐次减少，并

25、且围绕中心变量值两侧呈对称分布，如图35上。一般次数分布呈正态分布曲线，正态分布是最重要的对称分布。2、偏态分布。其特征是：中间变量值分布的次数最多，两侧变量值分布的次数逐渐减少，但两侧减少的速度快慢不同，致使分布曲线向某一方向偏斜。分布曲线偏斜分两种情况：（1）右偏（上偏）。当变量值存在极端大值时，次数分布曲线就会向右延伸，这种分布称右偏型分布，如图35右。（2）左偏（下偏）。当变量值存在极端小值时，次数分布曲线就会向左延伸，这种分布称左偏型分布，如图35左。,有许多社会经济现象是属于钟型分布的。例如，农作物亩产量、市场价格、学生的成绩、职工的工资等等现象都属于上述两种钟型分布。,（二）U型

26、分布其特征是：“两头大，中间小”，即靠近中间的变量值分布的次数少，靠近两端的变量值分布的次数多。其分布曲线图像英文字母“U”字，如图36。在社会经济现象中，比如，按不同年龄的死亡率的分布，就表现为U型分布。据科学分析，在人口总体中，04岁组死亡率最高，5岁起下降，1014岁组达到最低，15岁起死亡率又缓慢上升，50岁后显著增快，60岁以上达最高，其分布呈U型。,（三）J型分布其特征是：“一边小，一边大”，即大部分变量值集中在某一端分布，分布曲线图像英文字母“J”字。J型分布有两种类型。1、正J型分布。其表现为次数随着变量值的增大而增多，大部分变量值集中分布在右边，如图37左所示。例如，投资额按利润率大小分布，一般呈正J型分布。2、反J型分布。其表现为次数随着变量值的增大而减少，如图37右所示。例如，人口按年龄大小分布，即“金字塔式”的分配次数，表明年龄越大，人数越少。,（四）累计频数分布曲线,3、洛仑兹曲线与基尼系数,4、圆形图,5、环形图,6、条形图,7、茎叶图,8、面积图,

展开阅读全文