第二章调查数据的整理.doc

上传人:laozhun 文档编号:2396366 上传时间:2023-02-17 格式:DOC 页数:26 大小:990KB
返回 下载 相关 举报
第二章调查数据的整理.doc_第1页
第1页 / 共26页
第二章调查数据的整理.doc_第2页
第2页 / 共26页
第二章调查数据的整理.doc_第3页
第3页 / 共26页
第二章调查数据的整理.doc_第4页
第4页 / 共26页
第二章调查数据的整理.doc_第5页
第5页 / 共26页
点击查看更多>>
资源描述

《第二章调查数据的整理.doc》由会员分享,可在线阅读,更多相关《第二章调查数据的整理.doc(26页珍藏版)》请在三一办公上搜索。

1、第二章 调查数据的整理通过调查所获得的数据都是关于个体的有关属性与特征的表现,这些数据零碎而不系统,分散而无条理,还不能概括和描述所要研究现象总体的数量特征,也不能直接据之分析现象总体的本质特征与统计规律。所以,在对调查数据进行分析之前,必须根据分析研究的目的和要求,对其进行系统的加工与整理。这一阶段的工作是联系数据调查与数据分析的中间环节,在整个调查研究过程中具有重要的地位。第一节 调查数据整理的意义一、数据整理的含义数据整理,就是根据调查研究的目的与任务,运用科学的方法,将调查所获得的原始数据进行审核汇总与初步加工,使之系统化和条理化,并以图表的方式集中显示数据特征的工作过程。数据整理在整

2、个调查研究过程中具有很重要的作用和地位:第一,数据整理全面地检查了调查数据的质量,保证了调查数据的有用性。由于各种主客观原因,通过调查所获得的原始数据,难免出现虚假、差错、缺损、余冗等现象。因此,只有对调查数据进行科学的整理与审核,捡漏与补缺,去伪存真,去粗取精,才能保证调查数据的真实性、准确性、完整性和有用性,从而保证整个调查研究工作的质量,达到调查研究的目的。第二,数据整理是数据分析的基础。数据分析的目的是揭示所要研究现象总体的数量特征和统计规律,而通过调查所获得的原始数据是关于总体中若干个体的分散的、零碎的数据资料,只有通过汇总整理,使原始数据系统化、条理化、综合化,才能在此基础上对数据

3、进行分析和研究。数据整理的质量如何,直接关系到数据分析的质量,关系到调查研究能否科学、客观地认识事物和现象。第三,数据整理是积累和保存资料的客观要求。通过调查获得的原始数据,既是对现象进行分析研究的客观依据,又是对今后研究同类现象的重要参考资料。只有通过数据整理,才能使原始资料具有真实性、可靠性和有用性,才能使原始调查数据具有长期保存和利用的价值。二、数据整理的原则数据整理是连接数据调查与数据分析的桥梁和纽带,为了达到数据整理的目的和作用,使整理出来的数据符合数据分析的需要,数据整理应该遵循如下原则:(一)真实性原则真实性原则是指数据整理必须最大限度地保证原始数据的真实性。这有两方面的含义:一

4、是在数据整理之初,必须严格审核原始数据的真实性,对于审核出来的不真实的数据应该坚决加以剔除,对于缺失的数据应采取相应的补救措施;二是在数据整理的各个中间环节,应根据调查研究的目的和要求,合理地选择整理方法和技术,不能因为整理方法不当,而造成原始数据的真实性受到严重的损害。例如,在分组整理时,如果确定的组距过大,必然损害原始数据的真实性。(二)准确性原则准确性原则是指数据整理必须保证整理出来的数据事实清楚、数据准确,不能含糊不清、模棱两可甚至相互矛盾。如果整理出来的数据不准确,则据此所作的数据分析就不可能得出准确、科学的结论。(三)科学性原则科学性原则是指数据整理应根据调查研究的目的和要求以及数

5、据本身的性质,合理地选择科学的方法和技术,对原始数据进行系统的加工和处理,使之能够满足研究的需要。调查研究的目的和要求不同,数据整理所使用的方法也会有所不同。例如,如果研究的目的是要分析居民的收入水平对消费水平的影响,则在分组整理时,应该对居民的收入水平进行分组,并计算各收入组的平均消费水平。数据的性质不同,采用的整理方法也会有所区别。例如,累计频数和累计频率,适合于定序数据,而不适合于定类数据。(四)目的性原则目的性原则是指数据整理的目标应符合调查研究的目的和要求。数据整理的内容很丰富,层次也有高低之分。数据整理要达到什么目标,层次是高是低,是简单还是复杂,在很大程度上要取决于调查研究的目的

6、和要求。只要整理的结果能够满足研究的需要,整理结果具有较好的系统性和条理性就可以了,而不必刻意去追求形式,更不必要无用的烦琐。三、数据整理的一般步骤数据整理工作是由多个环节组成的,其一般步骤如下:(一)数据的审核这是数据整理的第一步。为了保证调查数据的质量,也为了保证整个调查研究的质量,在数据整理之初,必须对原始数据的真实性、准确性和完整性进行严格的审核。对于发现的问题,要及时加以解决。(二)数据的编码对于一些样本量较大或调查项目较多的调查,往往要借助计算机来进行数据的整理。这就需要对调查数据进行编码,将问卷或调查表的信息转化成计算机能识别的符号。(三)数据的分组数据的分组是数据整理的一项十分

7、重要的工作。它是根据调查研究目的的需要,按照一定的标准,对原始数据进行分组整理,为数据分析做准备。(四)数据的汇总这一阶段的工作是对数据资料进行汇总计算,将分散的调查信息以集中的形式显示出来。汇总可以是直接对未分组的全部调查数据进行汇总,也可以在数据分组的基础上,先在组内汇总,后对全部组的数据进行汇总。(五)数据的显示数据整理的结果,可以通过编制汇总表、绘制统计图,以集中、简明、直观的形式显示出来。这不仅有利于数据的保存,也有利于数据的分析。需要说明的是,以上步骤是数据整理的大致顺序和主要内容,各步整理工作有时是不能绝对分开的。例如,数据的分组与数据的汇总往往是同时进行的。第二节 调查数据的整

8、理方法一、审核与筛选收集到的数据是否真实可靠、符合研究的需要,还应进行审核。一般从准确性、完整性两方面进行审核。审核准确性是关键,主要是检查数据是否存在差错,有无异常值。检查的方法有逻辑检查与计算检查,逻辑检查是通过数据间相关部分是不是存在违反常识常理彼此矛盾的地方来判断数据的真实性,如问卷中的答案所有选项均是A,就可能是填写者敷衍应付。计算检查是运用数据间的平衡关系来判断数值是否有误。如总量应等于各个子项之和,总额应等于数量乘单价。审核数据的完整性是检查应调查的个体是否有遗漏,所要求了解的范围能否达到,所要调查的项目是否齐全,有无缺项等。如发现问题应积极采取补救措施,重新调查搜集,更正错误,

9、数据不全的需要进一步补充。如果无法纠正错误,又不能补充完整,对不符合调查要求的数据,则应进行筛选。筛选有两方面的内容,一是对不符合要求或确认有错误的数据剔除掉,保留可靠性的数据;二是过滤,将符合某种特定条件的数据选取出来,而不符合条件的数据予以剔除。二、编码 (一)编码的意义随着电子计算机使用的普及,调查数据的整理与分析工作一般都要借助电子计算机来完成。调查数据中既有数量数据,也有品质数据。由于计算机只能识别数字符号,因此,对于数量数据,可以直接录入计算机,而对于品质数据,则需要将其全部转化为数字符号,以便计算机的识别。所谓编码,就是将调查数据中的品质数据转化为数字符号的过程。数据的编码总是与

10、数据的分类紧密结合的,编码首先要将数据进行分类,然后给每一个类别指派一个数字代码。如果是问卷调查,对于封闭型问题,都设计了若干选项,每一个选项就是一个类别,编码时只需要对每一个类别指派一个数字代码即可;对于开放型问题,则先要对全部的回答进行分类,然后再进行编码。编码有事前编码和事后编码之分。事前编码是在调查问卷设计时对有结构的问卷所进行的编码,所以,事前编码适合于问卷中的封闭型问题。事后编码则是在数据的搜集工作结束后整理开始之初,对调查问题的可能答案所进行的编码。对于开放型问题,只能采取事后编码的方式,而对于封闭型问题,如果未作事前编码,则必须进行事后编码。编码既是一项繁重的工作,也是一项很重

11、要的工作。编码的质量如何,不仅影响数据的录入速度和质量,而且影响数据处理的最终结果。(二)编码的常用方法对调查数据进行编码的方法比较多,这里只介绍几种常用的编码方法。1顺序编码法该方法又称为系列编码法,是只用一个标准对数据进行分类,并按一定的顺序用连续数字或字母进行编码的方式。例如,某项对家庭月度消费支出的调查,将家庭月度消费支出划分为四个档次,则从低到高,用1、2、3、4分别表示这四个消费支出档次:(1)小于500元(2)500元1000元(3)1000元1500元(4)1500元以上这种编码方法操作简便,但不便于进行分组处理。2分组编码法该方法又称为区间编码法,是根据调查数据的属性特点和处

12、理要求,将具有一定位数的代码单元分成若干个组(或区间),每一个组(或区间)的数字均代表一定的意义。例如,某项关于社会公众保险意识调查中,对被调查者个人的基本情况(性别、居住地、家庭人口和月收入水平)进行了调查,运用分组编码法对有关信息编码如下(见表2-1):表2-1 分组编码法示例性别居住地家庭人口数月收入水平回答编码编码编码回答编码回答编码男女12大城市中小城市县乡镇农村1234单身两人三口之家四人以上1234200以下2003003004004005001000110011001200010203041112 若某个被调查者是女性,居住在中等城市,家中有三口人,月收入为11001200元,

13、则其回答信息的编码就是:22312。 分组编码法应用广泛,容易记忆,处理方便,但有时位数过多,造成系统维护上的困难。3信息组码编码法该方法是把调查数据区分为不同的组,给每一个组以一定的组码(数字区间)来进行编码的方法。例如,对某地市场上的100种商品的价格变动进行调查,在运用信息组码编码法对调查的信息进行编码时,首先可以将这100种商品划分为百货组、食品组、家电组、服装组和其他组,然后给每一个组分配一个组码:组 别 名称码百货组 0130食品组 3150家电组 5165服装组 6680其他组 81100这种编码能以较少的位数分组,其缺点是,一旦编码体系确定遇到某些组内资料增加时,处理起来就会相

14、当麻烦。4表义式文字编码法该方法又称为助忆编码法,是用数字符号等表明编码对象的属性,并依此方式对调查数据进行编码的方法。例如,用180BXJ表示容量为180升的进口电冰箱,其中180为冰箱的容量,BX表示冰箱,J表示进口。这种方法比较直观,易于理解,便于记忆。(三)编码手册的编制编码手册也称为编码表,是用来进行数据编码的工作手册。编码手册包括四个主要项目,即问题顺序号、每个调查项目的预置代码位置、项目名称和内容说明。下面举例说明编码手册的编制方法。某项关于高等学校教师的工作、生活状况的调查,一共有32个调查问题,这里我们摘录其中的6个问题,来说明编码手册的编制。1您的职务(1)正高级 (2)副

15、高级 (3)中级 (4)其他2您的年龄 3您从事的专业 4您对自己工作状况的评价是(1)已充分发挥积极性(2)基本发挥了积极性(3)积极性有所发挥(4)完全没有发挥积极性5目前,您是否有离开学校的想法(1)有 (2)没有6请您按投入精力的多少,将下列三项活动排序(1)校内工作 (2)校外兼职 (3)生活琐事第一位 第二位 第三位 上述六个问题中既有封闭型问题(1、4、5、6),也有开放型问题(2、3)。该项调查收回有效问卷2000份。对于封闭型问题,问题1、4、5的代码位数均为1位,问题6的代码位数均为3位;对于开放型问题,问题2的代码位数为2位(本次调查中年龄最大的为65岁),问题3的代码位

16、数为3位(本次调查根据被调查者的回答,共涉及112个专业)。由于在数据的编码工作完成后,为了便于数据的录入,还要根据编码手册将问卷或调查表上的数据数字化,并将这些数字过录到登录卡上。一般的登录卡是每张80列(因为个人计算机屏幕的宽度为80个字节;每列记录一个数字)25行(每行记录一份问卷或调查表上的回答信息,每行可以记录一个80位的代码数字)。这样,就需要将每个调查项目的代码在行上的位置确定好。代码位置的确定要根据调查项目的顺序和各个项目的编码位数依次排列下来,则各代码在登录卡上行列上的位置就自然确定了。下面是本次调查编码手册一个部分的示例(见表2-2)。表2-2 编码手册示例片段问题序号项目

17、名称编码位置编码意义1职务11正高级2副高级3中级4其他2年龄23答卷人回答的年龄3从事的专业46专业编码码见附表4工作状况的评价71已充分发挥积极性2基本发挥了积极性3积极性有所发挥4完全没有发挥积极性5是否打算离开学校81是2否6按投入精力对活动排序9111校内工作2校外兼职3生活琐事(排序)上表中,问题3的专业编码没有在表中列出,这是因为,从收回的有效问卷来看,本次调查共涉及112个专业,如果在编码表中全部列出其所有编码,会使表格显得很臃肿,故需专门编制一份专业编码附表。该附表中给每一个专业以一个数字代码,如统计学的编码是001,会计学是002,城市规划是099,考古学是112。限于篇幅

18、,本例中未将该附表列示出来。根据上述编码表,将各份问卷或调查表上的回答全部转化为数字代码,并将其记录在登录卡上。例如,某份问卷的回答信息在登录卡上的前11位数字为23300111132,则表明该位被调查者是副教授,33岁,从事统计学专业,在工作方面已充分发挥了积极性,目前不打算离开学校,投入精力最多的是校内工作,其次是生活琐事,校外兼职投入最少。在编制编码表时要注意以下问题:(1)编码符号绝大多数情况下都必须用数字,个别时候也可以采用英文字母。(2)可以对某些数字赋以特殊的意义,便于整理资料时识别。例如,可以规定“0”表示否定,“1”表示肯定,“9”表示不知道或没回答。(3)编码位数应根据具体

19、情况来确定。对于给出了固定答案,只需由被调查者进行单项选择的问题,编码位数与答案数目的位数(对于品质数据)或与答案中的数字的最大位数(对于数量数据)一致;如果是对固定答案进行多选,则编码位数等于答案数目的位数与允许选择的答案数目之乘积;如果答案不是固定的,要由被调查者填答,则要进行事后编码,根据回答的具体情况来确定编码的位数。三、录入数据的录入是指将问卷或调查表或登录卡上的编码数字读到磁盘、磁带中,或直接通过键盘敲入计算机的工作过程。数据的录入有手工录入和光电录入两种方式。手工录入是由录入人员通过击键录入,光电录入是一种自动化录入技术,采用光电扫描方式,识别、记录问卷或登录卡上的编码信息,直接

20、记录到计算机中。但需注意,光电录入要求填写在问卷或调查表或登录卡上的数字书写要规范,否则可能造成数字误识。无论手工录入还是光电录入,都必须保证质量。录入数据的质量对最终计算结果的质量具有决定性的影响。在数据录入过程中,注意力要高度集中,严防跳行、漏读、按错数字键所产生的错误。在条件好的计算机站里,录入后可利用计算机来查错和纠错。查错的程序有两种,第一种是检查输入数据的有效性,第二种是检索输入信息相互之间的一致性。数据录入过程结束后,就可以向计算机发布指令,通过计算机来整理数据和分析数据。四、排序 排序是按一定顺序排列数据,便于观察数据的分布范围及特征,能为重新归类或分组等作准备,方便数据检索。

21、某些情况下,排序本身就是分析的目的之一。如按产品市场销售量对各品牌进行排名。对分类数据,可能是英文字母,或是汉字,一般按其英文字母或汉语拼音字母进行升序排列,也可按首个汉字的笔画数目由少到多的顺序排列。对数值型数据,可采用递增与递减两种方式排列。递增排序是由小到大排列,第一个数据为极小值,最末一个数据为极大值;递减排序是由大到小排列,第一个数据为极大值,最末一个数据为极小值。经过排序以后,要查找某位置所对应的数值或某数值所对应的序号都非常容易。五、分组与频数分布分组是将原始数据按照某种标准划分为不同组别,以满足研究的需要。对数值型数据,由各组的表示方法不同分为单变量值分组和组距分组。单变量值分

22、组中的每一组用一个变量值来表示,适合离散型变量或变量值较少的情况下使用。而研究中更多的是采用组距分组,即每一组用一定变动范围的两个变量值表示。各组中的最大值称为组的上限,最小值称为组的下限,两者间的距离称为组距。当各组组距均相等,称等距组距分组。当各组组距不等,称异距组距分组。为便于图示,通常采用等距分组较好。(一)分组的基本步骤:第一,通过观察排序数据的极大值与极小值,找出变动的总范围。可以决定最小组的下限是一个略小于极小值的一个适当数值,最大组的上限是一个略大于极大值的一个适当数值。第二,确定组数。一组数据分成多少组是分组中首先需要确定的。在等距分组情况下,组数越多,所能包含的数值变动范围

23、越大。一般地,变量值多,可能分成的组别相应也多;另一方面也与变量值的变动范围有关。组数的多少应适中。如果太少,则分布过于集中,观察不到分布的特点;相反,如果太多,数据的分布就会过于分散,达不到分组的目的,甚至某些组中的频数为“0”。通常可根据下列公式计算出建议组数:建议组数=1 + 上式中,为数据的个数,对计算结果通常采用四舍五入取整数,作为确定组数的参考。例如,通过调查获得某市40户家庭的月通信费支出数据如表2-3:表2-3 某城市居民家庭月通信费支出 单位:元126274220192134226155227157184190185168109172201194912652406514513

24、81735125615513684348170159205334247180221245233152根据上表数据,按公式确定的组数为: = 6,即可考虑分成6个组。第三,确定各组组距。组距与组数成反比,一旦组数确定后,在等距分组的时候,组距=(最大值最小值)组数。根据表2-3的数据计算,组距=(34851)6 = 49.5,为了计算上的方便,更适宜取5或10的倍数。为此,可以取50作组距。此外,在确定组距时,还应注意遵循下列原则:首先,要从研究目的出发,使分组的结果能够说明问题,满足分析研究的需要,目的不同,分组的组距会有差别。如对家庭收入水平进行分组时,研究家用轿车消费情况与一般的家庭消费构

25、成情况所确定的组距是不同的。其次,要注意决定事物质变的数量界限,使各组在数量上的差异能反映出其质上的区别。如按收入分组,要能反映生活水平的富裕程度;企业按某些标准分组,能说明其规模的大小,等等。最后,要体现数据的分布特征,把突出的及需要人们高度关注的部分单独列出。第四,确定组限的表示方法,编制成频数分布表。组限的表示有重合式与不重合式。重合式是一组的上限与相邻组的下限采用同一变量值重叠表示,彼此之间没有间断点,不会出现遗漏。不重合式,指相邻两组的上下限采用不同变量值表示,组间有断点,但界线分明。实际上,无论是重合式还是不重合式,只是形式不同,都必须遵循“不重不漏”的原则,使每个数据都能归入其中

26、的某一个组别。因此,对重合式,习惯上规定“不包括上限”,即当某数据恰等于上限的变量值,不算在本组内,而应归入下组中。在组距分组中还会遇到最大值与最小值远离其他数据,为防止出现空白组(频数为“0”)或漏掉个别极端值,还可采用开口组的形式,即最小组有上限而无下限,用“以下”表示;最大组有下限而无上限,用“以上”表示。接下来就可以记录各组中的频数。(二)频数与频数分布 频数是指落入各类或组中数据的个数,当我们把各组及相应频数按顺序全部加以排列,并用表格的形式表现出来,就是频数分布。它可以显示数据的分布状况,用于研究事物的内部结构。为进一步说明各组处在总体中的地位,通常还计算比例(频率),比例是指一个

27、总体中各部分数据与全部数据之比。一般习惯采用百分比表示。设总体有个数据,现分成组,各组数据依次是,则: + + + + = 1将各组频数逐级累加得到的频数,就是累积频数。有向上累计与向下累计。向上累计是从第一组开始,向以上各组进行层层累加,各组累计频数分别是。 向下累计则是从最末一组开始,向以下各组进行层层累加。用于说明某个组别以上或以下数据个数的多少。累计频数与总频数的比值称累计频率。根据表2-3的数据,按照上述步骤,编制成如下分组整理表(表2-4):表2-4 某城市居民家庭月通信费支出分组表分组频数频率累积 %(向上)累积 %(向下)50 9940.110.0%100.0%100 1496

28、0.1525.0%90.0%150 199150.37562.5%75.0%200 249100.2587.5%37.5%250 29930.07595.0%12.5%300 34920.05100.0%5.0%合计401经过分组,组间的差别显现出来,但同时掩盖了组内的数据分布状况,损失了部分原始信息。一般用组中值代表各组数据的变量值。组中值是各个组中的上限与下限之间的中点值,其计算公式为:组中值=(下限值+上限值)2 = 下限值+组距2。用组中值作为该组数据的代表值,其实是带有假定性,即各组数据在本组内呈均匀分布或围绕组中值呈对称分布。这也要求我们在分组时,尽可能合理安排组距,使各组内的变量

29、值靠近组中值。等距分组中各组的组距相等,能直接通过频数的多少观察数据的分布特征及规律。而不等距分组,由于各组的跨度不一样,频数的多少还受组距大小的影响,则不能直接用各组的实际频数反映数据分布状况,而要消除组距对频数的影响,即计算频数密度,以准确说明频数分布的真实状况。频数密度=频数组距。六、汇总汇总是数据整理中的一个环节,即将分类或组的各项数值加以计算,计算各组的数据个数、总体的数据个数,对数值型数据对各组变量值及全部变量值加总求和,还可计算各种比值。由于各项数据已录入计算机,只须对相关软件进行操作,便可取得计算结果。第三节 调查数据的显示为更好地说明数据的分布规律,表现数据特点,需要展示数据

30、,方便使用者和公众阅读。其中,图形表现就是一种有效方法。一张好的统计图表胜似千言万语,显示数据形象生动,一目了然。常用的统计图有下列几种。一、条形图、直方图条形图和直方图大都是用来表现频数分布的,但两者适用的数据类型不同。条形图是使用等宽条形的长短或高度来表示数据的多少的图形。由放置的方向不同,也称为柱形图。其宽度是没有实际意义的。适用于表现分类数据的频数(频率)分布。根据涉及观察研究总体的多少,有单式、复式之分。例如,甲企业广告费支出结构如表2-5: 表2-5 甲企业广告费支出情况频数(万元)频率%电视广告12042.11报纸广告3010.53户外广告5017.54广播广告207.02其他6

31、522.80合计285100根据该表数据,绘制频数条形图如图2-1:图2-1 广告支出结构分布条形图直方图是用一定宽度与长度所围成的矩形面积来表示数据大小的图形。列示在平面坐标上,横轴代表数据分组,纵轴代表频数或频率。矩形的宽度与高度均有意义。对于等距组距分组数据,宽度表示各组的组距,可以直接用高度表示各组的频数或百分比,一般各个矩形之间是连续排列的。对于不等距组距分组数据,直接用矩形高度表示各组的频数就不适用,而应用矩形面积来表示各组的频数,或采用频数密度绘制直方图。根据表2-4的数据绘制的直方图如图2-2:图2-2 频数分布直方图此外,还可根据累积频数或累积频率,绘制累积频数及累积频率分布

32、图。根据表2-4的数据,绘制累积频率分布图如图2-3:图2-3 累积频率分布图二、饼型图、环形图饼型图及环型图是用来描述各种比例的图形。饼型图又称圆形图,是用圆内扇形的面积表示数值大小的图形。以圆为整体,形象的说明各部分在总体中所占的份额。例如,根据表2-5的数据,可以绘制甲企业广告费支出比例的饼型图。饼型图的局限性是,一个图形只能表现一个总体的构成。图2-4 甲企业广告费支出比例的饼型图环形图是用圆内各环中每一段的面积来表示数值的大小的图形。中间为一“空心”,一个总体占有一环。能够同时显示多个总体的内部构成,便于进行比较分析。表2-6是乙企业广告费支出的数据。绘制出的环形图,能够方便地比较两

33、个企业在广告支出结构上的差异(见图2-5)。表2-6 乙企业广告费支出情况频数(万元)频率%电视广告22055报纸广告307.5户外广告5012.5广播广告102.5其他9022.5合计4001000%图2-5 甲乙两企业广告支出结构环形图三、茎叶图、箱线图 对未经分组的数值型数据,变量值的变动范围相对较小,适合用茎叶图、箱线图来显示。茎叶图是由“茎”和“叶”两部分组成,“茎”代表分组,表示高位数值;“叶”代表频数,列示个位数值。因此,茎叶图可看作横置的直方图,并且保持了原始数据的信息。既能够观察数据的分布状况,又能了解到每个数据的具体情形。如是否对称、均匀,是否存在极端值,集中趋势是否明显等

34、。茎叶图的绘制比较容易,首先在于确定树茎,通常选择各组数据的高位数值作树茎,树茎确定后,树叶就自动归入各组中。下面以五种品牌彩色电视机的销售量数据绘制茎叶图。表2-7 五种品牌彩色电视机在不同店铺月销售情况 单位:台甲乙丙丁戊A8071777272B8772847581C7471757271D8472797585E7872847674F7672817372G9877857878H9893987899I8886917893J9790968598 将表2-7的数据进行排序,得如下排序表(表2-8)。表2-8 彩色电视机月销量排序表7172778491717378849371747884937274

35、788596727578859772757885987275798698727680879872768188987277819099根据表2-8的数据,可编制茎叶图如图2-6:树茎 树叶 数据个数7 1 1 1 2 2 2 2 2 2 2 2 3 4 4 5 5 5 6 6 7 7 8 8 8 8 8 9 (27)8 0 1 1 4 4 4 5 5 5 6 7 8 (12)9 0 1 3 3 6 7 8 8 8 8 9(11)图2-6 彩色电视机销售量的茎叶图很显然,分布太集中,说明树茎设计不合适,过于拥挤,通常应进行扩展。如果扩展一倍,相当于以5为组距。即将一个树茎重复两次,一个后缀“*”,

36、表示该行叶上的数为04;另一个后缀“#”,表示该行叶上的数为59。那么,应该扩展至多少行算合适呢?当数据的个数为(20300),有一经验推算公式,即茎叶图的最大行数不超过,的确定方法为:也就是取不大于方括号中的数据的整数部分。上述中 = 50,则=10lg50=16.99=16。据此,原茎叶图要再拉长,可考虑以2为组距,每一个茎上重复5次,分别表示叶上的数依次是01、23、45、67、89,为方便,可后缀标记a、b、c、d、e,也可不标记号。见图2-7。树茎 树叶 树茎 树叶7 * 1 1 1 2 2 2 2 2 2 2 2 3 4 4 7 1 1 17 # 5 5 5 6 6 7 7 8 8

37、 8 8 8 7 2 2 2 2 2 2 2 2 38 * 0 1 1 4 4 4 7 4 4 5 5 58 # 5 5 5 6 7 8 7 6 6 7 79 * 0 1 3 3 7 8 8 8 8 8 9 9 # 67 8 8 8 8 9 8 0 1 18 8 4 4 4 5 5 5 8 6 78 8 9 0 19 3 39 9 6 79 8 8 8 8 9图2-7 彩色电视机销售量的茎叶图 箱线图是用一组数据的五个特征值来描述该组数据的分布状况。既可显示单组数据,也可显示多组数据,便于观察多批数据的分布特征,进行分析比较。由单批数据绘制的为简单箱线图,由多批数据绘制的为比较箱线图。箱线图的

38、绘制首先在于确定五个特征值,它们分别是一组数据的最小值、最大值、中位数、下四分位数、上四分位数。由两个四分位数构成箱体,向两个极端值连线。一般形式如图2-8: 最小值 下四分位数 中位数 上四分位数 最大值图2-8 箱线图的一般形式观察箱线图的形状,能够了解数据分布的基本特征。图2-9是几种常见的箱线图所对应的分布形态。(1)正态分布 (2)右偏分布(3)U型分布 (4)左偏分布图2-9 不同分布形态的箱线图根据表2-7的数据,整理出各品牌彩色电视机销售量的特征值如表2-9:表2-9 各品牌彩色电视机销售量的特征值甲乙丙丁戊最小值7471757271下四分位数79.57280.574.573.

39、5中位数85.5728475.579.5上四分位数97.258792.257894.25最大值9893988599据此可以绘制五个品牌彩色电视机销售量的箱线图如下(见图2-10)。从图2-10可以看出,在五个品牌中,平均销售量较大的是甲品牌与丙品牌,较低的是乙品牌与丁品牌;变动范围较大的是戊品牌;分布较对称的是丙品牌。图2-10 五个品牌彩色电视机销售量的箱线图四、线图线图,是反映时间序列数据的图形,即在平面坐标上标注各数据点并连接成折线,表现数量变化规律及特点的统计图。其横轴上列示时间的先后次序,纵轴上列示变量值,并且大多从原点“0”开始,如果数值与“0”之间的距离过大,则要采取折断符号表示

40、,否则图形无法显示。线图能够说明现象随着时间变化发生变动的趋势,可对事物进行动态变动分析,观察其变动的方向、幅度,有无变动周期。根据其变动形态,建立相应的数学模型,确立拟合变动曲线。可同时显示多个研究对象的相关数据,进行比较分析其变动特点。例如,某企业1996年至2004年销售额及利润数据如表2-10:表2-10 某企业销售额及利润总额数据 计量单位:万元年份销售额利润总额19961340200199715203101998173532519991840340200021193802001350040520024850800200360501000200463441200根据表2-10的数据,

41、可以绘制某企业1996年至2004年销售额及利润总额的线图(见图2-11)。1996 1997 1998 1999 2000 2001 2002 2003 2004图2-11 某企业销售额及利润总额变动趋势图可以非常清楚地看出,前五年变动较平稳,后几年增长较快。销售额与利润总额都有较大增长。说明经营状况较好。五、雷达图雷达图,是反映多个变量多个观察样本数据的图形。在一个平面上绘有多个数轴,每个轴上显示一个变量的取值,每个样本的各观察值分别在各轴上标出。假定有个变量,分别是,且各变量值具有相同的正负号;组观察样本,分别是,则有个观测值。具体绘制时,先设立一个圆,进行等分,得到个点,连接各点至圆心

42、,形成条数轴,观察值就列在各数轴上,并且将每个样本的个变量值连接成多边形,从而得到个多边形。根据多边形面积的大小,可以比较不同总体数量上的差异,观察样本间的相似程度。因此,雷达图在显示及比较各变量的数值总和时十分有用。例如,有三种不同品牌奶粉的营养成分数据如表2-11: 表2-11 三种奶粉营养成分数据 单位:g/100g奶粉蛋白质脂肪碳水化合物矿物质甲2428395.8乙2224456.1丙2631345.6根据表2-11的数据,可以绘制三种奶粉营养指标的雷达图(见图2-12)。 图2-12 三种奶粉营养指标的雷达图可以看出各品牌间的营养成分含量并不存在明显差距,消费者可根据自己的喜好,任意选购。如果各变量的计量单位不同或数值差别悬殊,则要对原始数据进行适当变换,可改变数据的计量尺度,或压缩数据,如取对数。图2-13就是将上述数据取对数,绘制出的雷达图。图2-13 三种奶粉营养指标的雷达图六、统计表(一)统计表的作用与结构统计表是表现调查数据的另一个重要形式,是指将一系列说明现象特性的经加工整理后的调查数据,按一定次序和格式排列形成的专用表格。其作用不仅能有效表现数据,好的统计表,还能有条理而又系统地反映研究对象的数据特征、分布特点;经过合理科学地组织资料,统计表可以避免繁琐的文字叙述,具备信息容量大的特点,更有利于资料的贮存保管,是积累资料的有效手段。如可将各项

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/施工/环境 > 项目建议


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号