《数据收集与整理综述课件.ppt》由会员分享,可在线阅读,更多相关《数据收集与整理综述课件.ppt(57页珍藏版)》请在三一办公上搜索。
1、第二章 统计数据的收集与整理,1、了解各种统计调查方式和方法的特点 和适用场合;2、明确统计数据的误差类型;3、掌握统计分组和图表显示数据的方法。,主要内容(一)数据的计量(二)数据的搜集方式与方法(三)统计数据的整理(四)统计数据的质量,1、定类尺度(列名尺度)Nominal scale 将研究对象按某种属性特征对其进行平行的分类或分组,并给每一类别定名。定类尺度是最粗略、精度最低的计量尺度,也是最基本的尺度。按现象性质差异进行的辨别与区分。确切的值是以文字表述的。各类别间是平等的,没有高低、大小、优劣之分。性别、种族、运动项目等等,第一节 数据的计量尺度,2、定序尺度(顺序尺度)Ordin
2、al scale 是对事物之间等级差别或顺序差别的一种测度。它是把各类事物按一定特征的大小、高低、强弱等顺序排列起来,构成定序数据。按现象顺序差异进行的辨别与区分。确切的值是以文字表述的,也可以用数值标识,也仅起标签作用。各类别间有高低优劣之分,不能随意排列。,是把定序排列的各类事物间的差距,以一定的度量单位明确起来,构成定距的数据。这是比前两种尺度更精确的计量尺度,一般要求建立某种物理的量度单位。按现象绝对数量差异进行的辨别与区分。值以数字表述,有计量单位。可以进行加减运算。各类别间自然有大小之分,但没有绝对的零点,不能乘除计算。,3、定距尺度(间隔尺度)Interval scale,天气预
3、报:石河子9月5日最高温度28,最低173月20日最高温度4,最低2,二者最高温度相差243月20日最低温度较9月5日最低温度低199月5日最高温度是3月20日最高温度的7倍,温度,是量度层次最高的数据测定尺度。它是在定距尺度的基础上增加了一个绝对零点,并抽象掉事物的度量差异的测定尺度。按现象绝对差异与相对差异进行的辨别与区分。确切的值也以数字表述,有计量单位,可以进行加减运算。有绝对意义上的零点,既可以加减运算,也可以乘除运算。,4、定比尺度(比例尺度)Ratio scale,高 层次 低,列名尺度,顺序尺度,间隔尺度,比例尺度,对 宗教、种族、民族、性别、党派、国别、职业等等品质方面的差异
4、进行测量,定类测量,对于人的主观态度定序尺度,第二节 统计数据的来源,统计数据主要来源于两种渠道;一是来源于直接调查和科学实验;二是来源于别人调查或试验的数据。一、统计数据的直接来源及获取 统计数据的直接来源有两个渠道,一是专门组织的调查(所得结果称为观测数据),二是科学试验(所得结果称为试验数据)。统计调查是获得直接数据的重要手段。,统计调查方式,普查,抽样调查,统计报表,直接数据获取的方式,普查是一种专门组织的、对总体全部单位进行的一次性调查。普查往往涉及面广,资料要求细,需要耗费较多的人、物、财力和时间。一方面不宜多采用,另一方面要搞好普查的组织工作。(人口普查、农业普查、经济普查)中华
5、人民共和国成立以来,已成功地进行了六次人口普查,这些普查分别于1953、1964、1982、1990、2000年进行,第六次为2010年。,(一)普查,普查的组织形式:一是组织专门的普查机构,配备一定数量的普查人员,对调查单位直接进行登记;二是利用被调查单位的原始记录和核算资料,由调查单位发放一定的调查表格,由被调查单位填报。,特点:,工作量大,时间性强,需要大量人力、物力和财力,但收集的信息资料比较全面、系统、准确可靠。,任务:,搜集重要的国情国力和资源状况的全面资料,为政府制定长期规划、宏伟发展目标、重大决策提供全面、详细的信息和资料,为搞好定期调查和开展抽样调查奠定基础,原则:,规定统一
6、的标准时点、普查期限、调查项目和指标。,(二)统计报表制度,由政府部门组织,采用统一的表格、统一规定的指标内容、统一规定的报送程序和报送时间,自上而下布置,自下而上报告。,任务:,搜集国民经济和社会发展基本情况的资料,为制订国民经济和社会发展计划和检查计划执行情况服务。,优点:,A、精心周密设计、高度统一、规范B、回收率高,内容相对稳定,便于资料 积 累、对比C、层层上报、逐级汇总,可以满足各部门需要,特点:,调查范围:全面报表、非全面报表 全面报表:要求调查对象每一个单位都填报。非全面报表:要求调查对象中的部分单位填报。内容和实施范围:国家统计报表部门地方报送周期长短:日报、旬报、月报、季报
7、、半年报、年报 报送单位不同:基层统计报表、综合统计报表。,种类:,(三)抽样调查,特点:,1按随机原则从总体中抽取样本;,2以样本指标(统计量)为依据,推断总体参数,检验总体的某种假设;,3抽样误差可以事先计算并加以控制。,优点:经济灵活、时效性强、适应面广和准确性高,是在对研究对象进行全面分析的基础上,有意识地选择部分有代表性单位进行调查优点:调查范围小、省时力、具体深入缺点:具有主观性,是在研究对象中只选择一部分重点单位进行调查以了解总体情况的一种非全面调查优点:省时、省力、不带主观性。,比重较大,人为选择的典型单位,(四)重点调查,(五)典型调查,直接数据获取的方法,统计资料搜集方法,
8、问卷调查,观察法,网上调查法,实验法,二、统计数据的间接来源及获取,统计数据的间接来源主要是公开出版或公开报道的数据(图书、报纸、杂志、统计年鉴、互联网),还有的是未公开出版需购买的数据。在引用这些数据时,一定要注明数据来源,以尊重他人劳动成果。(文献研究法),三大国际组织与中国国家统计局中国GDP数据对比表(单位:10亿元),数据来源:维基百科,间接数据取得的途径,1.统计部门和政府部门公布的有关资料,如各类统计年鉴2.各类经济信息中心、信息咨询机构、专业调查机构等提供的数据3.各类专业期刊、报纸、书籍所提供的资料4.各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料5
9、.从互联网或图书馆查阅到的相关资料,提供统计数据的部分政府网站,三、统计数据的误差,是指统计数据与客观现实之间的差距。误差主要来源:登记性误差和代表性误差。,1登记性误差(非抽样误差)是指由于调查者或被调查者的人为因素所造成的误差。调查者所造成的误差:调查方案中有关的规定或解释不明确导致的填报错误;调查员粗心,在记录调查结果时出现错误;调查员的态度、情绪以及责任心等。被调查者所造成的误差:不理解调查方案中有关规定或解释不明确导致的填报错误;因人为因素干扰形成的有意虚报或瞒报调查数据等。注:登记性误差理论上讲是可以消除的。,2代表性误差(抽样误差)是指用样本数据进行推断时所产生的误差。所有样本可
10、能的结果与总体真值之间的平均性差异。依据随机原则抽取样本,样本不同,就会得到不同的观测结果。代表性误差通常无法消除,但事先可以进行控制和计算。影响代表性误差大小的主要因素:样本容量:样本容量越大,代表性误差就越小总体的离散程度:总体中各个体间的差异越大,抽样误差也就越大,第三节 数据整理和频数分布,数据的预处理,数据分组与频数分布,数据的展示,数据整理过程,统计数据的整理是将收集到的各种原始数据条理化、系统化,使之符合统计分析与推断要求。整理数据的中心任务:分组、编制频数分布表。,一、数据的审核与筛选(一)审核 准确性 时效性 一致性(二)筛选 剔出某些不符合要求的数据或明显错误 的数据;选出
11、符合条件的数据,剔出不符合 特定条件的数据。,(三)数据的排序 目的:将数据按一定顺序排列,以便研究者更好地浏览数据。此外,排序还有助于对数据检查纠错。可借助计算机来完成。方法:数字型数据:递增、递减 字母型数据:升序、降序 文字型数据:升序、降序(按拼音或笔画),(一)统计分组 根据统计研究的需要,将数据按照按照一定的标志划分为若干组成部分的一种统计方法。分组的关键是分组标志的选择。,单变量值分组,组距式分组,二、数据分组与频数分配,按品质标志分组(非数值型数据分组)按数量标志分组(数值型数据分组),分类:,品质标志分组,选择反映事物属性差异的品质标志作为分组标志,并在品质标志的变异范围内划
12、定各组界限,将总体划分成为若干个性质不同的组成部分。由于品质数据是用文字来表现的,每种表现即为一种类别,因此对品质型数据主要是做分类整理。,人口总体按性别,分为男、女两组企业总体按经济成分,分为公有经济(国有经济、集体经济)、非公有经济(私有经济、港澳台经济、外商经济),数量标志分组,选择反映事物数量差异的数量标志为分组标志,并在数量标志的变异范围内划定各组界限,将总体划分为性质不同的若干组成部分。由于数值型数据表现为具体的数值,因此主要是按照数值进行分组。对学生成绩分组,可分为60分以下、6070分、7080分、8090分、90分以上5个组。,对居民家庭按子女数分组,可分为0人(无子女)、1
13、人、2人、3人;等等。,就具体分组形式可分为单变量值分组和组距式分组,用一个具体数值作为一组的名称,即是把每一个变量值作为一组,从而把总体区分为若干个部分,这样的分组叫做单变量值分组。,单变量值(单项式)分组,对居民家庭按家庭人口数进行分组:人人人人人及以上,适用于离散型变量,且变量值不多时。,如果变量的变异较大,则可以把变量的整个的取值范围依次划分为若干个区间,一个区间内的所有变量值归为一组。这样的分组称为组距式分组。,组距式分组,A、企业的工人按日 B、工人按工资水平分组(连续)产零件数分组(离散)50-60 300-400 60-70 400-500 70-80 500-600 80-9
14、0 600-700 90以上 700-800,适用于连续型变量,或变量值变化范围大的离散变量。,等距式分组适用于总体各单位的变量值由小到大呈现均匀变化的情况。对学生成绩的分组可以分为020分、2040分、4060分、6080分、80100组异距式分组则适用于总体各单位的变量值由小到大呈现不均匀变化的情况。对学生成绩的分组也可分为060(D)、6080(C)8090(B)、90100(A),第一,数据排序第二,分组数目的确定采用斯特吉斯经验公式,即k=1+3.322lgN k为组数;N为总体中的个体数。,分组组数参考表,等距分组的基本步骤,第三,组距的确定 组距=(最大值-最小值)组数第四,组限
15、的确定 第一组的下限应略低于最小变量值,最后一组的上限应高于最大变量值。离散型变量:相邻组的上下限可以不重叠 连续型变量:相邻两组的组限应重叠,即上一组的上限同时也是下一组的下限。用“上限不在内”原则解决不重问题当变量值变动范围较大时,最小组为“以下”,最大组为“以上”的开口组。,第五,组中值的确定 组中值=(上限+下限)2 开口组的组中值:组中值=下限+邻组组距/2(缺上限)组中值=上限邻组组距/2(缺下限),组距式分组的几个概念,组距与组限组中值开口组与闭口组 连续组距分组 和不连续组距分组 重叠组限“上限不在内”原则,例:学生按成绩分组(分),(1)5060 6070 7080 8090
16、 90100,(2)60以下 6069 7079 8089 90以上,组距=80-70=10,上限:80下限:70,开口组,闭口组,组中值,组中值,重叠组限值70归于7080组,不连续组距式分组,连续组距式分组,(二)频数分布(次数分配),按某种标志对数据进行分组后,再计算出所有类别或数据在各组中出现的次数或频数并用表格的形式表现出来就是频数分布表。,频数(frequency)是指分布在各组内的数据个数频率(percentage)为各组频数与全部频数之和的比值频数分布类型:品质频数分布、变量频数分布,职工性别的频数分布表,是指按照品质标志进行分组所编制的频数分布,品质频数分布,宿舍所住学生数的
17、频数分布表,是指按照数量标志进行的分组所编制的频数分布,可分为单项式频数分布和组距式频数分布。单项式频数分布:每一组只有一个值进行分组形成的,变量频数分布,某班同学年龄分布表,分组标志,频率,频数,组距式频数分布:是指按组距式分组形成的频数分布,某年某品牌汽车的销售量的频数分布表,累计频数(cumulative frequencies)是将各有序类别或组的频数逐级累加起来累计频率或百分比(cumulative percentages)是将各有序类别或组的频率逐级累加起来累计频数(率)方法:,例:某单位按某种产品的销售量分组统计,可以得到如表所示的频数分布。,累计频数和累计频率,某种产品的销售量
18、的频数分布表,频数分布的类型,几种常见的频数分布,三、数据的显示类型,(一)统计表 是将数据资料经汇总整理后,按一定顺序填在以纵横交叉的线条所绘制的表格内,是用于显示统计数据的基本工具。,构成,总标题,横行标题:统计研究的对象,也称行标题,纵栏标题:说明主词的指标名,也称列标题,数字资料,(1)统计表的表头设计要明确地表达其内容。(2)统计表左右两边通常不封口,列标题之间通常用竖 线分开,而行标题之间通常不用横线分开。(3)统计表应注明数字资料的计量单位。(4)统计表中数字应对准位数,统计表的设计,单式图,叠加图,一个图只用来显示一种现象的数量特征,用一个图同时显示几种数量的分布或变化情况,以
19、点、线条、面积等各种几何图形表现统计资料的形式。具有直观、醒目、易于理解等特点,(二)统计图,1)条形图(bar chart)是用宽度相同的条形的高度或长短来表示数据频数分布变化的图形,主要用于比较同类统计指标数值,分析同类指标在不同时间或地区的发展差异。一般适用于顺序和分类变量的分析。例,2)饼形图(pie chart)是用圆形及圆内扇形的面积来表示频数分布变化的图形,利于研究事物内在结构组成等问题。饼形图中圆内的扇形面积可以表示频数,也可以表示频率(百分比)。例,例:学生评教调查中第十题的频率分布表(条形图),例:学生评教调查中第十题的频率分布表(饼形图),是用矩形的面积来表示频数分布变化
20、的图形。横轴表示各组组限,纵轴表示频数或频率,依据各组组距的宽度与频数的高度绘成直方形。例,4)线形图(line chart)是用线条的波动来反映数据变换的一种统计图形,用以描述现象在时间上的变化趋势、现象的分配情况和现象间的依存关系。例,3)直方图(Histograms chart),某车间工人周加工零件直方图,5)散点图(Scatter),主要用来观察变量间的相关关系,也可显示数量随时间的变化情况。,树茎1010111112121313,树 叶*7 8 8*0 2 2 2 4 5 7 7 7 8 8 8 9*0 0 1 2 2 2 2 3 3 3 3 4 4 4 5 5 6 6 7 7 7 8 8 9*0 1 3 3 4 4 5 7 9 9,6)茎叶图 既能给出数据的分布状况,又能给出每一个 原始数值。茎叶图由“茎”和叶两部分组成。茎叶图绘制的关键是设计好树茎。,