统计数据的收集、整理与显.ppt

上传人:小飞机 文档编号:6332896 上传时间:2023-10-17 格式:PPT 页数:138 大小:813KB
返回 下载 相关 举报
统计数据的收集、整理与显.ppt_第1页
第1页 / 共138页
统计数据的收集、整理与显.ppt_第2页
第2页 / 共138页
统计数据的收集、整理与显.ppt_第3页
第3页 / 共138页
统计数据的收集、整理与显.ppt_第4页
第4页 / 共138页
统计数据的收集、整理与显.ppt_第5页
第5页 / 共138页
点击查看更多>>
资源描述

《统计数据的收集、整理与显.ppt》由会员分享,可在线阅读,更多相关《统计数据的收集、整理与显.ppt(138页珍藏版)》请在三一办公上搜索。

1、第二章统计数据的收集、整理与显示,本章重点与难点,重点:掌握调查设计和数据整理的方法;正确使用统计图、表来展示数据的特征。难点:调查问卷的设计。,学习目标,通过本章的学习,正确理解各种调查方法的概念、作用与特点,明确相互的区别;掌握统计数据整理的方法;能够正确使用统计图表展示数据。,案例2 中国已经是世界强国了吗,问题:1这些数据资料是怎样收集的?2调查方案包含哪些内容?怎样进行统计调查?3数据资料怎样整理和展示?,第一节 统计数据的收集,一、间接数据的来源 二、直接数据的来源,一、间接数据的来源,间接数据主要是从公开渠道获得的数据,如公开出版的报纸、书籍及相关网站中的数据,有些未公开的数据在

2、获得数据所有者允许的情况下也可以使用。,刊登我国年度宏观数据的刊物主要是国家、地区和行业或部门的年鉴。例如,中国统计年鉴、中国统计摘要、中国经济年鉴、中国农村统计年鉴、中国城市统计年鉴、中国社会统计年鉴、中国人口统计年鉴、中国劳动统计年鉴、中国工业经济统计年鉴、中国财政年鉴、中国金融年鉴以及全国各省、市、自治区、直辖市、新疆生产建设兵团的统计年鉴等。,对于某些特定行业的数据,如证券业数据,我们可以从各证券报、中国证券监督管理委员会、上海证券交易所、深圳证券交易所、各证券公司等单位的网站数据库和出版发行的刊物中取得有关数据。各上市公司的季报、半年报、年报中的各种数据属于公开数据,可以直接使用,但

3、如果存在后续的补充报告,在使用时应该及时调整。对于未公开的微观经济数据,由于涉及企业的内部机密或个人的隐私权,我们在采用有关数据时一定要征得相关单位和个人的同意,在发表研究成果时还应尽量避免直接公布原始数据。,刊登世界各国宏观数据的刊物主要由联合国统计司(UNSD)、世界银行(WB)、国际货币基金组织(IMF)、世界贸易组织(WTO)、世界卫生组织(WHO)、国际能源机构(IEA)、国际清算银行(BIS)、欧盟统计局(EUROSTAT)、亚洲开发银行(ADB)、国际电信联盟(ITU)等国际性组织编制出版。有些使用面广的资料,在取得版权后,由我国有关机构翻译成中文出版。例如世界经济年鉴、世界发展

4、报告、国外经济统计资料等。,选择间接数据时应该注意的问题:,(1)应根据研究目的选择间接数据;(2)注意间接数据变量名称的含义是否发生过变化。随着历史的变迁,有些间接数据变量名称的内涵或外延发生了变化,在采用数据时应该进行调整;(3)注意间接数据的计算口径和计算方法是否一致;(4)注意尊重间接数据所有者的权益。一是要合法采用次级数据;二是要注明数据的来源出处,这样既尊重他人的劳动成果,又便于阅读者核实。,二、直接数据的来源,直接统计数据的来源渠道主要有两个:一是专门组织的调查;二是科学试验。前者是社会经济数据的主要来源,后者是自然科学数据的主要来源。本书着重讨论取得社会经济数据的方式和方法。,

5、(一)统计调查方式(1),常用的统计调查方式主要有普查、统计报表调查和抽样调查等。我国统计法第十条第一款规定:“统计调查应当以周期性普查为基础,以经常性抽样调查为主体,以必要的统计报表、重点调查、综合分析等为补充,搜集、整理基本统计资料”。这是法律从总体上对我国统计调查方法所作的基本规范,明确了我国应当建立科学统计调查方法体系的总框架。,(一)统计调查方式(2),1普查(census)定义2.1 一个国家或一个地区为详细地了解某项重要的国情、国力而专门组织的一次性、大规模的全面调查,称为普查。普查主要用来调查属于一定时点上现象的总体特征,如全国人口普查、国有资产普查、全国工业普查、全国第三产业

6、普查等。相对于全面统计报表,普查能取得内容更详尽、分类更细致的统计资料,但普查耗费的人力、物力、财力较多,不宜经常进行,而应根据实际需要间隔一定的时间进行,比如我国从1990年起每隔10年进行一次全国人口普查。,(一)统计调查方式(3),普查的特点:(1)普查通常是周期性的。全国经济普查每10年进行两次,分别在逢、逢的年份实施。全国人口普查在每逢年数尾数为0的年份进行。(2)普查一般需要规定统一的标准时间,避免调查数据的重复与遗漏,保证调查结果的准确性。(3)普查比任何其他调查方式、方法所取得的资料更全面、更系统。(4)普查涉及面广、工作量大、时间较长,而且需要大量的人力和物力、组织工作较为繁

7、重,因此普查的适用范围比较窄,只能调查一些最基本的特定现象。,(一)统计调查方式(4),2统计报表调查(statistical report forms)定义2.2 按照国家有关法规规定,自上而下地统一布置、自下而上地逐级提供基本统计数据的统计调查方法,称为统计报表调查。我国现行的统计报表,包括国民经济基本统计报表和专业统计报表。,(一)统计调查方式(5),统计报表调查的优点:(1)在报表实施范围内,各报告单位按期报送,可保证调查资料的全面性、连续性和及时性;(2)统计报表调查事先已作为一种制度布置到基层报告单位,要求各单位根据原始记录和统计台账提供报表所需的资料,从而保证了资料来源的可靠性和

8、准确性;(3)由于统计报表调查是逐级整理上报,统计资料可以使各级地方政府和部门及时了解和掌握本地区、本部门的基本情况。,(一)统计调查方式(6),统计报表调查按报表性质和要求不同,可以分成以下几类:(1)按报表内容和实施范围不同,分为国家统计报表、部门统计报表和地方统计报表。(2)按报表报送周期长短不同,分为日报、旬报、季报、半年报和年报。(3)按报表填报单位不同,分为基层统计报表和统合统计报表。,(一)统计调查方式(7),3抽样调查(sampling survey)定义2.3 按照随机原则从被调查的总体中抽取一部分单位组成样本,根据样本的调查结果对总体的数量特征作出具有一定可靠程度的推断的一

9、种统计调查方法,称为抽样调查。随机原则是抽样调查所必须遵循的基本原则,它是指在抽样过程中,样本单位的抽取不能受任何主观因素及其他系统因素的影响,保证总体中各个单位都有同等的机会被抽选出来的原则。只有遵循随机原则,才能保证抽选出来的样本单位的分布近似于总体的分布,从而确保样本对总体的代表性。,(一)统计调查方式(8),抽样调查的特点:第一,按随机原则抽取样本单位。第二,根据部分推断总体。第三,抽样误差可以事先估计和控制。,(一)统计调查方式(9),抽样调查主要应用于以下几个方面:(1)当不可能进行全面调查时,只能采用抽样调查来推断总体数量特征。(2)不必要进行全面调查时,以相对很少的代价进行抽样

10、调查就可以满足需要。(3)当来不及进行全面调查时,采用抽样调查可迅速取得所需数据。(4)采用抽样调查对全面调查资料进行补充。,(一)统计调查方式(10),4重点调查 定义2.4 在调查对象中选择一部分重点单位进行调查,用以反映总体基本情况的一种非全面调查方法,称为重点调查。5典型调查 定义2.5 根据调查目的与要求,在对所研究现象全面分析的基础上,有意识地选择有代表性的典型单位进行深入细致地调查,以便认识事物的本质与发展规律的一种非全面调查方法,称为典型调查。,(二)数据的搜集方法(1),1访问调查 法 访问调查法又称派员调查,它是调查者与被调查者通过面对面地交谈而得到所需资料的调查方法。在访

11、问调查中,调查人员可以直接了解被调查者对调查问题的态度、观点、举止和调查现场的环境等,为判断调查资料的准确程度提供一定的依据。与其他调查法相比,访问调查法的特点有:回答率较高、数据比较准确,但调查成本一般比较高。,访问调查法,按照调查对象的不同,访问调查可分为居民入户调查和个别采访两种。按照对调查过程控制程度的不同,访问调查又可分为非标准式访问和标准式访问两种。,2问卷调查法,问卷的形式是一份预先精心设计好的问题表格,主要用来测定人们的行为、态度和特征。问卷调查就是将事先设计好的问卷,通过某种途径送到每一个被调查者的手中,由被调查者自己填答问题后,由调查员依一定途径收回的调查方法。进行问卷调查

12、要求被调查者有一定的文化水平及责任心和合作精神,否则难以保证问卷的回收率,从而影响调查资料的质量。由于问卷调查的应用非常广泛,后面将会详细介绍其内容。,3德尔菲法,德尔菲法是指按照规定的程序,采用邮寄或电子邮件的方式,反复多次地收集各地专家的看法,使不同意见趋于一致的调查方法。德尔菲法有匿名性、定量化和轮回反馈式等特点。专家们互不通气,匿名发表意见,便于获得真实有效的资料。反复地询问也能使调查结果更加准确可靠。实施这种方法的一般步骤为:拟定意见征询表、选定适量的征询专家、分几轮征询专家的意见、进行资料的处理等,最后作出调查结论。,4电脑辅助调查法,电脑辅助调查法是在电话调查时,调查者将设计好的

13、抽样方案、问题和答案输入电脑,整个调查过程,包括电话拨号、结果记录、数据处理和展示,都由计算机完成的数据搜集方法。在进行电脑辅助调查时,需要依靠电脑辅助调查系统(CATIS)进行,调查员坐在计算机显示器前,依据荧屏上显示的问题逐一向被调查者提问,并将答案输入电脑,也可完全由计算机完成提问和记录的过程。这种方法的优点是时效性强、费用低,能较快地搜集有关数据。,5实验法 实验法是在某个特殊的实验环境下,对被调查者进行实验以取得资料的调查方法。6网络调查法 网络调查(又称网上调查)是指利用国际互联网作为技术载体和信息交换平台进行调查的数据搜集方法。,实验法案例案例2.2 现场实验帮助A公司胜诉案例2

14、.3 科普节目效果实验内容见WORD文档1,第二节 调查设计,一、调查方案的结构 一份完整的调查方案,应该包括以下基本内容:1调查目的;2调查对象、调查单位和报告单位;3调查项目与调查表;4调查时间、调查方式与方法;5调查的组织实施计划。,调查对象就是根据调查目的确定的、在某种性质上相同的许多个体单位所组成的集合。调查单位就是调查对象范围内的各个个体单位。调查单位与报告单位是两个不同的概念。调查单位是调查项目的承担者,而报告单位则是负责向调查研究机构提供所需调查资料的基层单位。调查单位与报告单位有时是同一个单位,有时则是不同的单位。,调查项目就是反映调查单位特征的变量。在确定调查项目时必须注意

15、如下几个问题:(1)调查项目的含义必须明确,不能模棱两可;(2)考虑取得资料的可行性,有些调查项目虽然需要,但在现有条件下难以取得资料的则不应列入;(3)调查项目的答案应满足完备性和互斥性。如果要求选择回答,则必须列出所有可能的答案,以免出现重复或遗漏;(4)确定不同时期同类调查的调查项目时,前后时期的调查项目应互相衔接,以便进行动态比较分析。,调查表是指把所要调查的项目按照一定的结构和顺序排列后形成的表格。它是调查项目的表现形式,也是向调查单位取得原始统计资料的重要工具。利用调查表进行调查,能够条理清晰地填写需要搜集的资料,也便于调查结束后对资料进行整理。根据一份表格上容纳调查单位的多少,调

16、查表可以分为一览表和单一表。一览表是指一份表格上可以登记两个及两个以上调查单位有关调查项目的调查表;单一表是指一份表格上只登记一个调查单位有关调查项目的调查表。调查时间是指调查资料所属的时间。,二、问卷设计,(一)问卷的结构 问卷(Questionnaires)又称问卷表,是以书面的形式,按照设计好的顺序,由一系列问题和相应的备选答案组成的表格。,问卷的结构:,(1)问卷标题;(2)问卷说明;(3)填写要求;(4)甄别部分;(5)主体内容;(6)编码;(7)背景。,(二)提问项目的设计,问卷的主体内容是由根据调查目的和要求而设计的问题和备选答案构成的,问题设计的质量将直接影响到调查目的能否达到

17、。在设计问题时要注意:提问的内容应该尽可能地短;用词要通俗、准确;避免诱导性提问、否定式提问、对敏感性问题的直接提问;一项提问一般只能围绕一个问题进行,不能涉及多个问题等。,问题顺序安排的规则:,(1)逻辑性;(2)兴趣性;(3)先易后难;(4)开放性问题一般放在最后。,例题,例2.1 请问您认为哪个电视台办的娱乐节目最好看?这个问题的时间定义不明,可以改为:请问您认为最近一个月哪个电视台办的娱乐节目最好看?例2.2 您认为白猫牌洗衣粉的洗涤效果和漂白效果怎么样?由于它涉及多个问题,可以改为两个问题提问:您认为白猫牌洗衣粉的洗涤效果怎么样?您认为白猫牌洗衣粉的漂白效果怎么样?,例题,例2.3

18、您认为冰川牌羽绒服的保暖效果好吗?这个问题有暗示冰川牌羽绒服的保暖效果好的含义,可以改为:您认为冰川牌羽绒服的保暖效果怎么样?例2.4 您觉得我校计算机基础的课堂教学质量差吗?这个问题既有暗示计算机基础的课堂教学质量差的含义,又不是人们习惯的肯定陈述的提问,可以改为:您觉得我校计算机基础的课堂教学质量怎么样?,例题,例2.5 您觉得我国居民消费价格指数的设计科学吗?由于人们对某一方面专业知识的掌握程度有差异,居民消费价格指数的概念及其设计原理并非所有人都了解,属于比较专业的知识。在问卷调查中的用词应该通俗化,以便能为调查对象中的绝大多数人所理解,避免采用过于专业的术语。,例题,例2.6 您的年

19、收入有多少?对于这类被调查者不愿意外人知道的敏感性问题,一是除非非常有必要,否则应避免提问。因为人们可能采用虚报的方式应付回答,以至于调查数据失真。二是在研究目的要求涉及个人收入、私人交往对象、家庭生活状况、政治观点等敏感性问题时,一般要采用婉转的间接提问法,尽可能降低被调查者的反感程度。,(三)回答项目的设计,按照答案之间的关系,可把提问分为开放性问题和封闭性问题两大类。开放性问题属于自由回答型;封闭性问题属于选择回答型,其回答的方法又可分为两项选择法、多项选择法、顺序选择法、评定尺度法、双向列联法等。,1当提问项目为开放性问题时,开放性问题是指问卷没有提供任何参考答案,由被调查者根据题目的

20、基本要求,按照自己的理解自由地选择回答形式的一类问题。开放性问题可以采用填空和自由回答两种方式。填空方式的开放性问题可举例如下:例2.7 请问您今年平均每月的通信费用是多少?例2.8 请问您最喜欢使用的笔记本电脑是什么品牌的?,自由回答方式的开放性问题可举例如下:例2.9 请问您认为中国的高考形式应该作哪些方面的改革?例2.10 请问您喜欢产品的理由是什么?开放性问题的优点是便于被调查者详细地表达自己的观点,适合于潜在答案较多的问题。缺点是可能占用被调查者较多的时间,致使部分被调查者放弃回答;答案不统一,给资料整理和分析带来困难。,2当提问项目为封闭性问题时,封闭性问题是指调查者已经设计好若干

21、个答案,被调查者只需从中选择一个或一个以上答案的问题。对封闭性问题的设计,答案要遵循穷尽性和互斥性的原则,即既不能遗漏,又不能有相互重叠的内容。如果有很多可供选择的答案,在列出主要的答案后,用“其他”二字代表未列出的答案。,(1)两项选择法。这是指提出的问题只有两种备选答案的提问方法。例2.11 你喜欢使用方正笔记本电脑吗?(在同意的方框中划“”。)喜欢 不喜欢,(2)多项选择法。这是指提出的问题有两种以上的备选答案,被调查者可以从备选答案中选择一个或多个回答的提问方法。例2.12 你现在使用手机的品牌是什么?(在同意的方框中划“”。)诺基亚 摩托罗拉 三星 波导 LG 其他 对绝大多数人而言

22、,当前经常使用的手机一般只有一个,因而是单项选择。,例2.13 你曾经使用过的手机的品牌有哪些?(在选择的方框中划“”。)诺基亚 摩托罗拉 三星 波导 LG 其他 对于曾经使用过的手机,答案既可以是一个,又可以是多个。,(3)顺序选择法。这是在有多个答案选择时,被调查者根据自己的偏好程度判断各答案的重要性,并按顺序列出答案的方法。这类答案的设计要求设计者充分考虑被调查者理解能力的差异,让他们能够顺利地写出答案的顺序。例2.14 传递内容较多、有电子文档的书面材料时,你所选择的传递方式的顺序是:(在您认为最有效的方式后面的方框中写“1”,其次写“2”,以此类推。)手机发送 传真打印稿 邮寄打印稿

23、 用E-mail传递 其他,例2.15 请您按照喜欢的程度对以下品牌洗发水的前三个进行编号:飘柔 海飞丝 舒蕾 风影 潘婷 沙宣 润持 顺爽(4)评定尺度法。运用评定尺度法时,问题的答案由表示不同等级的形容词按照一定的顺序排列而成。例2.16 您对中国电信的服务是否满意?(在选择的方框中划“”。)非常不满意 不满意 一般 满意 非常满意,(5)双向列联法。这是运用表格的形式,综合反映两方面问题的方法。表的横向和纵向分别反映两类问题,具有节省问卷篇幅、便于比较和内容综合的特点。例2.17 为了解教师的教学质量,请在你赞成项目的空格内划“”。,案例2.2 CCTV-10当代教育高考大咨询调查问卷,

24、具体内容见WORD文档2问题:1、问卷在格式方面是否有需要完善的地方?2、问卷在内容方面的优点和不足是什么?对于不足,你认为应该怎样修改?,第三节 统计数据整理,一、统计数据整理的基本程序(一)审核;(二)分类或分组;(三)编表作图。,(一)直接数据的审核,对原始统计数据进行认真审核,主要审核资料的及时性、准确性和完整性。(1)及时性审核就是检查需要的所有统计数据是否在规定的时间内已经上报到调查机构。(2)完整性审核就是检查应该调查的单位或个体是否有遗漏,所有的调查项目是否填写齐全等。(3)准确性审核就是检查原始资料是否有错误,是否存在异常值。其审核方法有两个:一是逻辑检查;二是计算检查。,(

25、二)间接数据的审核,统计数据是通过其他渠道取得的次级数据,应审核数据的适用性和时效性。有些间接数据来自多种渠道,是为特定目的专门调查而取得的,或者是已经按特定目的做了加工整理。对于使用者来说,应先弄清数据的来源、计算口径及有关背景资料,以便确定这些数据是否符合自己研究的需要,不能盲目套用。审核间接数据的时效性是因为有些数据的时效性较强,如果所取得的数据过于滞后,可能失去研究的意义。,二、品质数据的整理与展示,(一)分类数据的整理与展示1频数和频数分布 频数是指落在某类中的数据个数,又称为次数。在分类的基础上,将总体的所有单位按类进行整理,形成总体单位在各组间的分布,称为频数分布或次数分布。频数

26、分布的构成要素有两个:一是品质变量的各种具体表现或数量变量值所形成的组。二是与各个组相对应的总体单位数,即频数;或各组单位数占总体单位总数的比重,即频率,它可以用百分数表示,也可以用小数表示。,频数分布可以用表格的形式反映,也可以用图形来表现。用表格来反映的称为频数分布表,而用图表现的称为频数分布图。例题 某酱油企业为了解本公司产品在当地的市场占有率,组织了专门的市场调查小组,调查员在随机抽取一家超市后,对某天上午的60名顾客购买的酱油品牌进行了登记,原始数据如下:,要利用Excel编制分类数据的频数分布表,需要把各类用一个数字代码来表示。在本例中,各类指定的代码是:1李锦记;2美味鲜;3海天

27、;4珠江桥;5金狮;6加加。在Excel中,将各品牌代码输入到Excel工作表的B1:B60,并将所有品牌的代码单作一列,为“接收区域”,即工作表的C3:C8。,创建频数分布表和柱形图的步骤如下:,第一步:在“工具”下拉菜单中选择“数据分析”。第二步:在“数据分析”的选择栏中选择“直方图”,单 击“确定”项。第三步:用鼠标圈定或键盘输入对话框“输入区域”框中的数据 区域(本例为B1:B60)。用鼠标圈定或键盘输入对话框“接收区域”框中的代码区 域(本例为C3:C8);在“输出选项”中选择“输出区域”并键入结果输出的区域(本例为D2);选择“图表输出”;在这里暂不选择“Pareto图”和“累积百

28、分率”。点击“确定”选项。Excel输出的结果如表2-2所示:,表2-2 Excel输出的频数结果,为了便于阅读,可用品牌名称代替表2-2中的“接收”,用频数代替表中的“频率”,用各品牌的名称代替其品牌代码,用“合计”代替表中的“其他”,将频数总和60输入到I9中,并计算出各自的比重和百分比,结果如表2-3所示:,2分类数据的图示,分类数据的图示方法主要包括条形图、Pareto图、对比条形图和饼图。(1)条形图和柱形图 若将各类别放在纵轴,用宽度相同、长度不等的横条表示各类的频数多少这样形成的图形称为条形图。有了频数分布表后可直接应用Excel中的“图表向导”,选择“条形图”,点击“下一步”,

29、在“数据区域”内键入数据类别和相应的次数的位置(在例2.18为D3:E8),点击“完成”,即可得到条形图(图2-1)。,条形图(图2-1),柱形图,(2)Pareto图,柏拉图(Pareto图)可以说是按次数多少排序后的柱形图。在制作频数分布表时选择Pareto图,会出现两个并排的频数分布表,对右边的频数分布表中各品牌的代码用其名称代替,删除最下面的“其他”,使用Delete键删除图中的“接收”、“直方图”、“频率”和最右边的数字“0”;连击任一柱子,在“数据系列格式”中选择“数据标志”的“显示值”;连击图上面或右边的边框,在“绘图区格式”中选择边框“无”,点击“确定”后即可完成Pareto图

30、(图2-3)。,图2-3 不同品牌酱油的Pareto图,(3)对比条形图和对比柱形图,当分类变量在不同时间或空间上有多个值时,为表明它们各自在不同时间或空间上的变化情况,可绘制对比条形图。在Excel“图表向导”的“条形图”中,选择子图表类型的一个即可。例2.19 某饮料批发部经营的4种饮料第二、三季度销售情况如表2-4所示:,(4)饼图(pie chart),有了频数分布表后,在Excel“图表向导”的“饼图”中,点击“下一步”,键入数据区域;点击“下一步”,在数据标志中选择“显示百分比及数据标志”,即可完成饼图的绘制。根据例218酱油品牌数据制作的饼图如图2-5所示:,(二)顺序数据的整理

31、与展示,1累计频数和累计频率 累计频数是指将顺序数据中各组的次数按一定的方向逐级累计所得的结果。它又可分为向上累计和向下累计两种。从顺序数据的最低一组逐级向最高一组累计频数,称为向上累计。从顺序数据的最高一组逐级向最低一组累计频数,称为向下累计。,【例220】为了解小区物业管理的质量,研究人员随机抽取了甲乙两个大型居民小区,就“您对该小区的物业管理质量是否满意”的问题,各调查了150户居民,结果如表2-5和表2-6所示:,2顺序数据的图示,(1)累计频数分布图,(2)环形图(doughnut chart),环形图的中间是一个“空洞”,环上的每一段表示顺序数据的一个类别。在表示多个总体或样本数据

32、不同类别的差异时,环形图用不同的环以示区别,这是饼图不能做到的。,对于例220,三、数值型数据的整理,关于分类数据、顺序数据整理与展示的所有方法都适用于数值型数据,还有一些适合于数值型数据的方法并不适合于分类数据和顺序数据。,(一)数据分组,1数据分组的概念 数据分组是根据被研究现象的特征和研究目的,按照一个或几个重要变量,将原始数据划分为性质不同的若干个组成部分的一种统计方法。对原始数据进行分组,主要是为了划分现象的类型,研究事物内部结构的变化规律,以及现象之间的依存关系。,2数据分组的原则,(1)科学性原则。(2)完备性原则。(3)互斥性原则。,3数据分组的方法,数据分组的关键在于分组变量

33、的选择和各组界限的划分。在划分各组界限时,要了解变量值的最大可能变异范围,再根据客观事物本身从量变到质变的内在规律性,来规定各组间的数量界限。数据分组根据分组变量的多少可以分为简单分组和复合分组。简单分组又称单一分组,是对被研究现象总体只按一个变量进行分组。如人口按年龄分组,企业按利润额分组,考生按成绩分组等。,复合分组就是对原始数据按两个或两个以上变量进行层叠式分组。其分组方法是在确定分组变量中的主要变量和辅助变量后,先按主要变量进行分组,然后在第一次分组的基础上再按辅助变量进行第二次分组,按所选变量的顺序,在前一次分组的基础上进行分组,直到最后一层为止。,复合分组选择两个或两个以上变量进行

34、层叠分组,可以从不同角度了解总体内部的构成,能更全面、更深入地说明总体的本质特征。但是,如果分组变量过多,会出现组数庞大、层次复杂、结构松散等情况,反而不能清楚地说明总体的特征。实际工作中,选择23个重要变量进行复合分组比较适宜。但对于总体单位较少的情况,采用复合分组有时难以反映总体的内部结构特征,因此一般不采用这种方法。,数据分组,还需要明确是采用单个变量值分组,还是采用由两个变量值形成的区间(即组距)分组,这取决于各数量变量值的变动范围。当变量值的变动范围很小,即使用每个变量值作为一组,所得到的组数也只有少数几个组时,则可采用单个变量值分组。,如果变量值的变动范围很大,采用单个变量值分组所

35、得到的组数很多,难以反映总体的分布规律,则应该采用组距分组。采用组距分组时,由于决定事物性质的数量界限会因人的主观认识不同而异,不同的人对同一资料会得到不同的频率分布,但是使频率分布尽可能准确地反映总体的分布规律是基本的要求。【例221】已知某城市甲居民区80户家庭2013年3月的人均通信支出额的资料,试编制这些家庭人均通信支出额的频数分布表。,表2-7 80户家庭2013年3月的人均通信支出额 单位:元,【解】由于原始数据比较多,在对数据进行排序后,宜采用组距分组编制频数分布表。(1)确定组数 组数取决于原始数据中数据的多少和变量值极差的大小,极差等于数据中最大变量值与最小变量值之差,亦称全

36、距。一般而言,数据越多,极差越大,分组数目就应该越多一些。但根据惯例,人们很少使用少于2个或大于16个的分组数目。,根据Sturges经验公式,经粗略观察,80户家庭人均通信支出额的资料接近于正态分布,表2-8可确定组数为7。,(2)确定组距,一般情况下,用两个变量值组成的一个区间作为一个组时,该组的较小变量值叫下限,较大变量值叫上限,下限与上限之间的距离叫组距。如果相邻两个组的组限不相等,则有 某组组距=本组上限前组上限(2.2)如果相邻两个组的组限相等,即本组下限等于前组上限时,可按式(2.3)计算组距,即 某组组距=本组上限-本组下限(2.3),如果每个组的组距相等,叫等距分组。若各个组

37、的组距不完全相等,叫不等距分组。采用等距分组,便于分析总体的内部结构,但也可以根据研究目的和资料的特殊性而采用不等距分组。在等距分组情况下,组数确定以后,组距也就基本确定了。组距、组数与极差之间的关系用公式(2.4)表示即为:组距=极差组数(2.4),(3)确定组限,组限即为相邻两组的界限,有下限和上限之分。变量的性质不同,组限的确定方法也不同。对于离散变量,相邻组的组限相连但不重叠,即本期上限与后一组下限能按序连接,但不相等。比如,高等学校学生各个班的规模按人数分为:1524人、2534人、3544人、4554人、对于连续变量,相邻组的组限必须重叠,即本组上限等于后一组的下限,而本组下限又等

38、于前一组的上限,以免遗漏数据,如考生按成绩分组为:“5060分”、“6070分”、“7080分”、“8090分”、“90100分”等。,“上组限不在内”原则,实际工作中,有时为了方便,确定离散变量的组限时也按连续变量的组限确定方法处理。如果遇到某变量值刚好等于相邻组的组限时,习惯上是将这个变量值归入下限所在的一组,亦为“上组限不在内”原则。比如,甲考生的成绩为70分,那么这个70分应归入“7080分”一组,而不是“6070分”一组。,如果资料中存在极小值或极大值,通常采用开口组,即第一组不取下限,最后一组不取上限。如某班学生考试成绩绝大多数在5080分之间,只有某个学生的成绩为35分,那么第一

39、组可设为“60分以下”;若有另一个学生的成绩为95分,而“8090分”一组中没有数据,则取最后一组为“80分以上”。当然,第一组和最后一组可以单独设为开口组,也可以同时设为开口组,视数据的具体情况而定。另外,确定组限时,要求第一组的下限略小于或等于最小变量值,最后一组的上限略大于最大变量值。,(4)编制频数分布表,利用Excel工作表编制数值型数据的频数分布表时,要先对原始数据进行排序,作为A列的数据区域(例2.21为A1:A80),再取各组的上限放在B列组成接收区域(例2.21为B2:B8)。运用在“工具”下拉菜单中的“数据分析”,选择“直方图”,单击“确定”项;将数据区域和接收区域键入;在

40、“输出选项”中选择“输出区域”并键入结果输出的区域(例2.21为C2);选择“图表输出”;点击“确定”选项。由于Excel输出结果的接收栏不是组距分组的形式,故直接对结果进行修改,用80120代替119.9,用120160代替159.9,将“其他”改为“合计”,合计栏的值改为80,用“人均通信支出额”代替“接收”,用“频数”代替“频率”,并计算出频率和百分比,得到表2.9:,频数分布表的编制(例2),【例】某电脑公司2013年前四个月各天的销售量数据(单位:台)。试对数据进行分组。,原始数据,频数分布表的编制 举例(步骤),确定组数;,确定各组的组距:组距(237-141)10=9.6 10,

41、3.用Excel制作频数分布表,等距分组表(上下组限重叠),直方图的绘制举例(依据第100张数据绘制),某电脑公司销售量分布的直方图,我一眼就看出来了,销售量在170180之间的天数最多!,4组中值的计算,组中值是各组的下限与上限之间的中点数值。计算组中值的常用方法是取上限和下限的简单平均数,即:(25)比如,表2-9中第一组(80120)的最后一组(320360)的组中值=340元,(二)累计频数分布,在频数分布的基础上,将各组频数依次累计,即形成累计频数分布。采用向上得到的累计频数分布是将各组的频数,由变量值小的组向变量值大的组依次累计,它用于说明某一组上限以下各组的频数之和,除以数据个数

42、即可表明某一组上限以下各组的单位总和占总体单位总和的比重,反映了某一组上限以下的总体单位分布状况。如由表2.9可知,80户家庭人均通信支出额在280元以下的户数占78.75%。,采用向下累计得到的频数分布,是由变量值大的组向变量值小的组依次累计,它用于说明某一组下限以上各组的累计频数之和,除以数据个数即可表明某一组下限以上各组的单位总和占总体单位总和的比重,反映了某一组下限以上的总体单位分布状况。如由表2.9可知,80户家庭人均通信支出额在200元以上的家庭占56.25%。,四、数值型数据的图示,用来反映分类数据和顺序数据的图表,一般都能够用于反映数值型数据的分布,但有些反映数值型数据分布的图

43、表却不能应用于另外两个数据类型。对于已经分组的数值型数据,一般采用直方图反映其数据特征;对于未分组的数值型数据,一般采用茎叶图和箱线图反映其数据特征。另外,对于时间序列数据,一般采用线图反映其发展变化的趋势和规律性。,(一)直方图,对于分组数据直方图(histogram)的制作可分以下几步完成:第一步:编制频数分布表(如例2.21的表28),对频数分布表进行改造:将“人均通信支出额”改为“4080”,将“频数”改为数字“0”,将“合计”改为“360400”,将数“80”改为“0”。第二步:应用“图表向导”,产生柱形图;第三步:连击图内空白处,出现“图表区格式”对话框,在“图案”的区域颜色选项上

44、选择无色,单击“确定”项;连击的任一柱子,出现“数据系列格式”对话框,在“数据标志”栏点击“显示值”,将“选项”的间距宽度由150改为0;单击“确定”项;删除改造后频数分布表中第一组的分组标志值“4080”,删除改造后频数分布表中最后一组的分组标志值“360400”;用Delete键删除直方图左右两边组的频数“0”。至此,直方图如图2-9所示:,(二)茎叶图,茎叶图(stem-and-leaf display)是由“茎”和“叶”两部分组成,反映原始数据分布的图形。这里的“叶”由所有数据的最后一个或者两个数字组成,前面的数字构成“茎”。当数据的位数不大时,“叶”由最后一个数字组成;当数据的位数较

45、大时,“叶”由最后两个数字组成。例如,由最后一个数字组成“叶”时,386分成386,53分成53等;由最后两个数字组成“叶”时,1091分成1091,3653分成3653等。前面的部分是树茎,后面的部分是树叶。再按由小到大排序后,由例221原始数据中后30个数据制作的茎叶图如图2-10所示:,未分组数据茎叶图(例题分析)(原始数据见第100页),未分组数据茎叶图(扩展的茎叶图),(三)箱线图,箱线图(box plot)是利用几个描述性特征值来反映原始数据分布的图形。它由一个箱子和两条线段组成。由于所采用的特征值不同,箱线图有这样几种类型:中位数/四分位数/极差(Median/Quart/Ran

46、ge)箱线图、均值/标准误差/标准差(Mean/SE/SD)箱线图、均值/标准差/196倍的标准差(Mean/SD/196*SD)箱线图、均值/标准误差/196倍的标准误差(Mean/SE/196*SE)箱线图。这里仅介绍最常用的中位数/四分位数/极差箱线图的制作方法,其它类型箱线图的制作与此类似。,未分组数据单批数据箱线图(箱线图的构成),未分组数据单批数据箱线图(例题分析),【例222】,从某中学高中二年级理科5班的学生中随机抽取10人,对期中考试的成绩进行调查,6门课程均按总分100分出题,有关数据如表2-10所示。试编制各科成绩的批比较箱线图,并分析各科成绩的分布特征。,【解】先作按课

47、程成绩编制的箱线图。若采用Excel,则需要先计算各科成绩的最大值、最小值、中位数、上四分位数和下四分位数。图2-13和图2-14是由SPSS绘制的箱线图。,从图2-13中可以看出,第四名学生的总体成绩最好,第七名学生的总体成绩最差,第五名学生的总体成绩最均衡,而第十名学生有偏科现象。,从图2-14中可以看出,英语的总体成绩最好(中位数较高),英语课的全班成绩最集中(箱子较短),物理课成绩参差不齐,比较分散。,未分组数据:箱线图(箱线图的其他类型),Mean/SE/SD箱线图由均值(mean)、均值的抽样标准误差SE(standard error)和标准差(standard deviation

48、)绘制而成箱子中间的点表示集中趋势的均值;箱子表示距离均值1倍的标准误差,两条虚线表示距离均值1倍的标准差,分别用来描述数据的离散程度,某电脑公司销售量数据的箱线图,1倍的SD,1倍的SE,未分组数据箱线图(箱线图的其他类型),Mean/SD/1.96*SD箱线图由均值(mean)和标准差SD(standard devia-tion)绘制而成箱子中间的点表示变量的均值;箱子表示距离均值1倍的标准差。如果一组数据是正态分布,则图中的虚线表示均值1.96倍的标准差的“95%的置信区间”,某电脑公司销售量数据的箱线图,1.96倍的SD,1倍的SD,未分组数据箱线图(箱线图的其他类型),Mean/SE

49、/1.96*SE箱线图由均值(mean)、均值的抽样标准误差SE(standard error)绘制而成箱子中间的点表示变量的均值;箱子表示距离均值1倍的标准误差。如果一组数据是正态分布,则图中的虚线表示均值1.96倍的标准误差的“95%的置信区间”,某电脑公司销售量数据的箱线图,1.96倍的SE,1倍的SE,(四)线图,对于时间序列数据,可用Excel中“图表向导”的“折线图”绘制。只要在数据区域输入数据的位置,单击“下一步”,并在数据标志中选择“显示值”,单击“完成”即完成线图的制作。【例223】已知19962006年我国城镇居民家庭人均可支配收入和农村居民家庭人均纯收入资料(表2-11)

50、,试编制城乡居民收入的线图。,解 用Excel中“图表向导”的“折线图”,在数据区域输入数据的位置(B2:C12),单击“完成”即完成线图的制作(图2-15)。,第四节 统计表的设计,统计表是表现数据的另外一种形式。数据的收集、整理和分析的各环节都要用到统计表。统计表不仅是表现数据和汇总数据的必要手段,更是进行统计分析的有效工具。利用统计表汇总数据,也便于检查数据的完整性和准确性。在运用统计表撰写分析报告时,能够节省篇幅,起到简明易懂的作用。,一、统计表的结构,根据使用者的要求和数据的特点,统计表有多种具体形式,但不论哪种形式的统计表,从外形看都由表头、行标题、列标题和数字资料四个部分组成。表

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号