统计学原理第三章.ppt_三一办公31ppt.com

资源描述

《统计学原理第三章.ppt》由会员分享，可在线阅读，更多相关《统计学原理第三章.ppt（189页珍藏版）》请在三一办公上搜索。

1、,第3章数据整理和频数分布,3.1 数据的审核和筛选 3.2 数据的分组3.3 数据的频数分布3.4 绝对数 3.5 数据的展示,3.1 数据的审核和筛选,3.1.1 数据的审核3.1.2 数据的筛选3.1.3 数据的排序,3.1.1 数据的审核1原始数据原始数据（Raw Data）是指数据搜集所取得到的，未经过数据分组和汇总的，反映个体特征的零散数据。数据审核（Data Auditing）是指在进行数据整理之前对原始数据的审查和核对。原始数据包含了所有由调查登记获取的个体信息的初级数据，经过数据整理的数据反映的是总体的综合数量特征和分布状态，原始数据所反映的个体数值特征消失或湮没在总体的综

2、合数量特征和分布状态数值之中了。,数据整理是按照数据分析的要求进行的，数据分析思路和目的决定着数据整理分类或分组。,2数据审核的内容统计数据的时效性，准确性、一致性三个方面的标准就是数据审核的基本内容。（1）统计数据的时效性审核。检查是否在规定的统计调查时间内完成数据搜集，采集的数据是否为规定的调查时点上，或规定的调查时段内的数量特征。（2）统计数据的准确性审核。从数据的完整性、真实性和精确性角度进行审核。,检查调查对象中每一个单位是否不重复、不遗漏地包含在统计调查的实际登记资料之中，或抽样调查的抽样框不重复、不遗漏地包含统计调查对象所有调查单位。检查是否每一个调查单位的特征都无偏差、无失真、

3、准确无误地反映在登记资料中，以及抽样调查的抽样误差是否有效控制在规定的许可范围内。（3）统计数据的一致性审核。检查统计数据在时间和空间上的连续性和可比性。,3数据审核的方式数据审核一般有逻辑检查和技术检查两种方式。（1）逻辑审核(Logistic Auditing)是按照数据审核的内容，采用逻辑分析的方法，检查原始数据中各项数据是否合理的数据审核方式。逻辑检查要求检查人员具备较强逻辑推理能力，以及丰富的专业知识和数据审核经验。,（2）技术审核(Technical Auditing)是按照数据审核的内容，通过对调查数据原始登记表，和其它原始登记材料进行机械性核对，来实施的数据审核方式。填报单位

4、是否存在漏报和重报，调查项目是否填齐，所填内容是否符合填报要求，填报数据有无错行、错栏问题，计量单位是否正确，各栏之间的合计数、乘积数与相关分项数据是否相符等。,人口调查表逻辑审核要点,一、基本要点姓名：未起名的新生婴幼儿应填写“C”+母亲姓名与户主关系：同一户调查表中，不应无户主，也不应多于一个户主。多于一个成员的家庭户，除户主外的其他成员最少应有一位为亲属；集体户，除户主外的其他成员通常应为非亲属。性别：只能填“1”或“2”码。,出生日期：应填满填8位数字码；前4位年份码应不大于2010，不小于1879；第5、6位月份码为0112的数字；第7、8位日期码为0131的数字；月份码为02时，日

5、期码应为不大于29的数字。,公民身份证号码：应填18位数字码（个别情况最后一位空填）。第7至14位码应与“出生日期”项相同；“性别”项为男性时，第17位码应为奇数，否则为偶数。户口性质：只能填“1”、“2”或“9”码。文化程度：注意年龄与文化程度的关系，一般是小年龄不应有高学历。婚姻状况：属已婚、丧偶、离婚的，出生不应晚于1989年6月。流动原因：只能填“1”、“2”或“9”码。,二、流出人口信息调查表户籍地(A0)：只能填写本村（居）委名称。流出日期(A8)：不得早于出生日期。三、流入人口信息调查表现居住地(B0)：只能填写本村（居）委名称。流入日期(B9)：不得早于出生日期。,3.1.2

6、数据的筛选数据筛选（Data Filter）是指对已有数据的有意识的过滤和挑选，滤去不需要的数据，选出所需要的数据。从广义上讲，数据审核也是一种数据筛选。这里所讲的数据筛选是指按照数据分析的要求所确定的挑选数据标准，通过对现有数据的逐一比较，从中挑选出一组数据，构成一个数据集合的过程。数据的筛选的Excel演示。,3.1.3 数据的排序数据排序是指将一组数据按照大小、高低、优劣等顺序进行依次排列的过程。依据数据在经过排序之后的有序序列中的位置确定的测度称为顺序统计量（Order Statistics）。,数据排序为计算取值范围、最大值、最小值等总体参数提供了便利，有助于人们了解数据大致的分布状

7、态，数据排序也是有效地进行数据分类或分组的前期准备。数据的排序的Excel演示。,3.2 数据的分组,数据分组的意义非数值型数据的分组数值型数据的分组组中值,3.2.1 数据分组的意义数据分组（Data Grouping）就是根据研究现象的特点和数据分析的目的，将原始数据按照总体单位的某一特征分为不同的组别。经过数据分组之后形成的分布在各个组里的数据称为分组数据（Grouped Data）。作为数据分组标准的这一特征称为分组标志。,数据分组既可以视为是按照分组标志将原始数据分别归入各个不同的组里，又可以看成是按照分组标志部分具有相同特征原始数据合并在同一组中。在数据分组过程中，强调和突出了原始

8、数据中作为分组标志这一特征，同时忽略和隐去了原始数据中的其它特征。按照统计研究的要求，科学地选择分组标志是有效进行统计认识活动的基本前提。数据分组包括非数值型数据分组和数值型数据分组。,例如：在以地区作为分组标志对全国职工的工资收入数据进行分组后，人们看到的是按全国各个地区分组的职工工资水平，突出了工资收入在地区之间的差异，而职工工资在从业部门、工作岗位、教育水平、工作年限、不同性别等方面的差异未能得到显示。,2.统计分组的作用:,统计分组两个含义：对总体而言-“分”对个体而言-“和”,划分社会经济现象的类型反映社会经济现象的内部结构和比例关系揭示社会经济现象之间的相互依存关系,分组前,分组后

9、,25,33,42,统计分组的种类,（1）简单分组与复合分组,对研究对象按一个标志进行分组，就叫简单分组。多个简单分组构成平行分组体系。,简单分组,（2）品质标志分组和数量标志分组,品质标志分组,数量标志分组,选择分组标志,确定分组体系,划定组间界限,科学性：组间差异大，组内差异小。,完备性和互斥性：每个单位均能且只能归到某个组中。,统计分组的程序与原则,选择分组标志,选择分组标志时，一般应考虑原则：（1）根据研究问题的目的和任务选择分组标志；（2）在若干标志中，要抓住具有本质性的或主要的标志作为分组的依据；（3）要考虑到现象所处的具体历史条件或经济条件进行分析。,确定分组体系,各分组标志并列

10、使用,各分组标志交叉结合使用,平行分组体系,对教师的分类,按性别分类,男性,女性,按职称分类,按年龄分类,高级,中级,初级,青年,中年,共计7组 2+3+2,交叉分组体系,按性别分类,按职称分类,按年龄分类,男,女,高级,中级,初级,青年,中年,共计12组232,对教师的分类,男生本科学生组女生理科学生组男生专科学生组女生高校学生男生本科学生组女生文科学生组男生专科学生组女生,分类,同时具备,变量数列的编制,【例】己知某车间有24名工人，他们的日产量（件）分别是：20，23，20，24，23，21，22，25，26，20，21，21，22，22，23

11、，22，22，24，25，21，22，21，24，23.要求根据以上资料编制变量数列。,编制结果如下：,变量数列的编制,变量值变动区间的长度相等,变量值变动区间的长度不完全相等,相关概念,某地区100个百货商店月销售额与流通费用情况,上组限U,下组限L,如：组距d=U-L=100-50=50（万元）,如：组中值x=(U+L)/2=(100+200)/2=150（万元）,开口式组距数列组中值的计算：,首组假定下限首组上限相邻组组距末组假定上限末组下限相邻组组距,先计算开口组的假定上、下限：,因此有：,数据分组包括非数值型数据分组和数值型数据分组,3.2.2 非数值型数据的分组非数值型数据的分组

12、也称为分类。定类数据和定序数据都是对事物质的属性的描述，两者都是一种分类性质的数据，只在分类划分的无序和有序上存在差别。反映事物自然属性的非数值型数据的分组一般比较简单，只要进行适当的细分或合并，以及选择恰当的分组标志即可。,货物：农产品、工业品农产品：种植业产品、林业产品、渔业产品、畜牧业产品种植业产品：水稻、小麦、玉米、棉花食品：无公害食品、绿色食品、有机食品、其他食品,反映事物社会经济属性的非数值型数据的分组一般比较复杂，往往是人们对事物数量特征进行深入地统计分析之后形成的一种质的划分，这种质的划分体现了人们认识活动对于事物由量变到质变的把握，一般采用国家标准、行业标准或者企业标准等标准

13、化的形式确定下来，并借助统计报表和统计调查方案等方式加以明确，以此来规范和指导后续的统计活动。,【课后作业】：搜集有关无公害食品、绿色食品、有机食品相关知识，加深对食品安全的认识,BDC,产品等级：一等品、二等品、三等品产品等级：优质品、合格品产品质量检测标准,【课后作业】自己搜集资料，了解某一产品质量标准,在我国现行统计制度中，将城镇家庭分成收入水平由低到高的七组，即最低收入户、低收入户、中等偏下收入户、中等收入户、中等偏上收入户、高收入户、最高收入户，属于定序数据的分组。这七组的划分是将所有调查户依户人均可支配收入由低到高排序，然后按照10%，10%，20%，20%，20%，10%，10%

14、的频数比例依次分组，最后构成了我国城镇家庭分成收入水平由低到高不同收入阶层的定性分组。,表3.1 2003年我国城镇居民家庭基本情况元,资料来源：2004中国统计年鉴.北京.中国统计出版社 2004,人口年龄段：0014少年儿童人口数1564劳动年龄人口数65老年人口数,老年抚养比是指人口中非劳动年龄人口数中老年部分对劳动年龄人口数之比，用以表明每100名劳动年龄人口要负担多少名老年人。老年人口抚养比是从经济角度反映人口老化社会后果的指标之一。也称为老龄人口抚养系数，简称老年系数。英文为old-age dependency rate,简写做ODC.,少年儿童抚养比也称少年儿童抚养系数。指某一

15、人口中少年儿童人口数与劳动年龄人口数之比。通常用百分比表示。以反映每100名劳动年龄人口要负担多少名少年儿童。,计算公式为：CDR=（A/B）100%其中：CDR为少年儿童抚养比；A为014岁少年儿童人口数；B为l564岁劳动年龄人口数。,复杂的非数值型数据分组大多建立在对隐含的数值型数据进行科学分组的基础之上，由数量界限的先行确定到定序或定类数据分组的产生，反映了统计认识过程由量的分析到质的确定的鲜明特征。因而，数值型数据分组构成了统计分组研究的主要内容。,2012-03-09(Zhouwuwan),3.2.3 数值型数据的分组,1组距分组（1）组距分组是数值型数据分组的基本形式。数值型数据

16、分组可以分为单变量分组和组距分组。单变量分组是指每个分组只用一个变量值表示的分组形式，又称为单项分组。单变量分组一般在分组标志为离散变量，且变量的取值范围不是太大的情况下使用。,组距分组是指每个分组用一个数据取值区间表示的分组形式。组距分组适用于按连续变量分组或变量的取值范围较大的离散变量的场合。（2）组限。在组距分组中，各组之间的取值界限称为组限，一般用L表示。其中大者为该组数值变量可能取的最大数值，称之为上限（Upper Limit）。小者为该组数值变量可能取的最小数值，称之为下限（Low Limit）。在一个组距分组中，既有上限又有下限的组称为闭口组，否则称为开口组。,（3）组距。组距分

17、组中，同一分组的上限与下限之间的绝对距离称为组距（Class Width），用d表示。一般有，组距上限下限。,2等距分组组距分组有等距分组和异距分组之分。等距分组是各组组距全都相等的组距分组，等距分组中各组单位数的多少不会受到组距大小的影响，便于直接比较各组次数的多少，研究次数分布的特征。因此，等距分组是组距分组的基本方法。,等距分组的具体步骤如下。（1）计算取值范围(Value Area)。（2）确定组数(经验公式)。（3）计算组距。（4）确定组限。（5）将原始数据按照各自数值大小分配到各组中。,（1）计算取值范围。取值范围（Value Area）为全体数据中最大数值与最小数值之差，反映了该

18、组数值变量取值的变动幅度，一般用R表示，有(3.1)（2）确定组数。在进行数值型数据分组时，有一个计算组数的经验公式，即(3.2),例如：数据的总数N为80时，采用经验公式计算出组数为H=7，可考虑将该组数据分为7组。确定组数的目的是为了使数据恰当地分布在各组中，数据过于集中和过于分散都有碍于对数据分布特征的展示，不利于后续的分析研究。组距的确定还要根据实际情况，因地制宜地加以确定。例如，在考试成绩的分析中，人们习惯将其分为优、良、中、及格和不及格5组，不论数据个数多少，分成这样5组较为适宜。,（3）计算组距。由于取值范围是客观存在的，当组数确定之后，组距也就随之确定了，两者之间成反比例关系。

19、设H为组数，d为组距，即有组距d=R/H。为了便于数据分组和组限的划定，组距一般取5，10的整数倍。,（4）确定组限。确定组限就是具体规定各组中变量可能取值的上限和下限。确定组限的原则是“不重不漏”，使每一数据都能够被分配到其中一组里，并且只能分配到其中一组里。组限的具体形公式有间断组限和重合组限，闭口组限和开口组限。,间断组限是每一组的组限与邻组的组限都是间断设置的。一般适用于离散变量数据的分组。年龄：04591014,重合组限是每一组的组限与邻组的组限都是相互重叠设置的。年龄：055101015,在采用重合组限场合，为了贯彻“不重不漏”原则，一般采用“下限在内，上限不在内”统计惯例的处理方

20、式。重合组限既适用于离散变量数据的分组，也适用于连续变量数据分组，在各种场合能够适应各种数据分组的需要，同时有利于组中值的计算，所以重合组限在数据分组中得到了广泛的应用。,闭口组限是既有上限又有下限的组限设置。由闭口组限设置形成的数据分组称为闭口组。开口组限是缺少上限或者缺少下限的组限设置。由开口组限设置形成的数据分组称为开口组。,（5）将原始数据按照各自数值大小分配到各组中。组限确定之后，就可以将原始数据按照各自数值大小分配到各组中。一般先按照分组标志对原始数据进行排序，然后根据各组的组限水平，将经过排序之后的有序数据进行分段，归入到各个组中。,在采用Excel等数据处理软件时，可以直接运用

21、有关数据筛选功能，完成数据的分组。,3.异距分组异距分组是各组组距不尽相等的组距分组。当采用等距方式进行分组时，各组之间数据的数量差距过大，一些分组中的数据过多或过少，影响到对数据分布状态的观察和分析，可采取缩小组距或扩大组距的方法，来拆分数据过多的分组或合并数据过少的分组，这样形成的各组组距不尽相等的组距分组就是异距分组。,3.2.4 组中值组中值（Class Midpoint）是指组距分组中处在各组取值范围中点位置上的数值。组中值是一个代表性的数值，用来代表该组数据取值的一般水平。在缺乏原始数据，仅拥有已经过分组整理后的数据情况下，只能采用组中值取代组平均数，作为一个代表性的数值，进行各种

22、数据分析。组中值作为代表性数值所隐含的假定前提是该组数据呈均匀分布，或者对称分布。在该组数据明显偏离均匀分布，或者对称分布时，使用组中值作为该组数据取值代表性数值存在着较大偏误。,2012-03-09(Zhouwushangwu),（1）重合组限分组的组中值计算。在采用重合组限设置的组距分组中，组中值为本组的上限与本组下限之和除以2。有组中值（上限+下限）/(3.3),表3.2 2003年我国按年龄和性别分人口数及组中值,重合组限,（2）间断组限分组的组中值计算。在采用间断组限设置的组距分组中，计算组中值需要将以上一组的下限与本组的下限之和除以2。即有组中值(上组下限+本组下限）/(3.4),

23、表3.3 2003年我国按年龄和性别分人口数及组中值,间断组限,（3）开口组组中值的计算计算开口组组中值，需先确定其缺少的下限或上限。一般以邻组组距近似地作为本组的组距，来确定其下限或上限，进而计算出开口组组中值。开口组组中值的计算仍然要区分重合组限设置间断组限设置两种情况。,重合组限设置开口组组中值的计算缺少下限组的组中值该组上限邻组组距/2缺少上限组的组中值该组下限邻组组距/2（3.5）,间断组限设置开口组组种值的计算缺少下限组的组中值邻组下限邻组组距/2缺少上限组的组中值该组下限邻组组距/2（3.6）,表3.4 2003年我国按年龄和性别分人口数及组中值,重合组限,3.3 数据的频数分布

24、,3.3.1 频数与频数分布频数与频数分布是在数据分组基础形成的概念。频数与频数分布总是在具体的分组设置前提下的对总体数据分布特征的描述。频数（Frequence）是落在某一特定分组中的数据个数，也称为次数。频数有两点要素，一是具体的数据分组，一是落在该组中的数据个数。,频数分布（Frequence Distribution）是由各组的频数组成的一个数组。一般需要用统计图或统计表的形式将频数分布展示出来，以便更加直观和全面地了解和把握总体的频数分布特征。比例（Proportion）各组数据个数（频数）占数据总数（各组频数之和）的比重，为频数的相对形式，又称为频率，一般用百分数表示。显然有，各组

25、比例之和等于100%。,表3.5 2001-2003年我国按性别分人口数及构成本表各年人口未包括香港、澳门特别行政区和台湾省的人口数据。资料来源：2004中国统计年鉴.北京.中国统计出版社 2004,【课后作业】把表3.5的数据更新,表3.5 2001-2003年我国按性别分人口数及构成本表各年人口未包括香港、澳门特别行政区和台湾省的人口数据。资料来源：2004中国统计年鉴.北京.中国统计出版社 2004,统计分组,分配在各组的单位数及其相对形式,3.3.2 累积频数累积频数（Cumulative Frequence）按照各组数据取值范围高低的次序，逐组依次累加得到的一组频数。累积频数表明了

26、在某一数值水平以上，或以下总共包含的数据个数。,依据逐组累加次序是从最低的数据取值范围组依次向较高组进行，还是从最高的数据取值组依次向较低组进行，可以将累积频数分为向下累积和向上累积。从最高的数据取值组开始，依次向较低组进行累加所形成的累积频数称为向下累积频数，表明了各组下限以上的数据个数之和；从最低的数据取值组开始，依次向较高组进行累加所形成的累积频数称为向上累积频数，表明了各组上限以下总共包含的数据个数。,同样，可以用数据总的个数分别去除各组的累积频数，得到各组累积频数的相对数值，以相对的形式来描述累积频数。,3.3.3 异距分组与标准组距频数由于异距分组中各组组距不尽相等，各组频数之间不

27、具有直接的可比性，不能直接用来描述数据的分布特征，需要进行标准化处理。,一般可以用某一组组距作为标准组距，将各组不等组距频数，换算为统一的，以标准组距为组距条件下的，标准化了的标准组距频数。即组距标准化系数=标准组距/该组组距标准组距频数该组频数该组频数组距标准化系数,还可以通过计算频数密度，来进行异距分组的标准化，即频数密度该组频数/该组组距显然，所谓频数密度是单位组距作为标准组距，即标准组距为1的情况下的标准组距频数。,统计学教程第3章数据整理和频数分布,3.3 数据的频数分布,校正后的数据,Excel 应用,统计分组的要点和基本概念：统计分组基本概念：R、d、H、组中值；间断组距、

28、重合组距、开口组、闭口组、标准组距；频数、频数分布、频率、累积频数、累积频率。,非数值型数据分组,数值型数据分组,单变量分组,组距分组,等距分组,异距分组,3.4 绝对数,3.4.1 绝对数的概念绝对数（Absolute Data）【总量指标】【绝对指标】是反映总体绝对规模和绝对水平的测度，是通过数据汇总直接得到的测度。绝对数数值的大小与界定的总体的范围有直接的联系，两者呈同方向变化。数据整理的结果就是产生总体及其各分组的绝对数。就数值型数据而言，数据整理的成果表现为两个方面，一方面是数据个数的频数，反映数据分布状态和数据值的总规模；另一方面是数据值的总值，反映数据值的总水平。,由数据整理形

29、成绝对数是基础数据，其它数据都是在绝对数基础上衍生出来的派生数据。在经济管理中，绝对数是反映现象在一定时间、地点、条件下的总规模和总水平的综合数据，有着特别重要的地位。一个国家、地区或单位的基本情况通常要通过绝对数来反映。,国内生产总值、总人口数、国土面积、主要工业产品产量等都是反映一国国情和国力的基本数据，绝对数是制定国民经济政策、编制计划进行企业经营管理的重要依据。,综合国力（National Power）是衡量一个国家基本国情和基本资源最重要的指标，也是衡量一个国家的经济、政治、军事、技术实力的综合性指标。,【课后作业】搜集综合国力相关资料,3.4.2 绝对数的种类1总值【总体标志总量】

30、和频数【总体单位总量】。总值（Total Value）为总体内某一数字变量所有数据的取值之和。总值是说明总体某一数量特征总水平的数据。【GDP】频数为总体内所有数据个数之和。频数是说明总体分布状态及其规模大小的数据。【总人口】,2时期数据和时点数据时期数据（Period Data）是反映事物及其现象在某一指定时间区段内的发展过程中的累计总量的数据。如：总产量、投资总额、企业的利税总额等。时点数据（Point Data）是反映事物及其现象在某一指定瞬间状态下的具体水平的数据，如耕地面积数、企业总数、商品库存额等。,三点区别：时期数据体现的时间概念是一个时间区间，时点数据的时间概念是一个瞬间时点；

31、时期数据具有累加性，时点数据不具有累加性；时期数据的数值大小与时间长短直接相关，其数值大小直接受现象活动时间长短的制约；而时点数据与时间间隔长短没有直接的关系。,3截面数据和时间序列数据。截面数据（Cross-Sectional Data）在相同的时期内或相同的时点上搜集的数据，反映同一时间上的变量在不同空间上的差异。例如，同一年份不同国家和地区国内生产总值数据，或者全国各个省市自治区的国内生产总值数据等。时间序列数据（Time-Sectional Data）在同一空间上，不同的时期或不同的时点的数据，反映变量在不同时间上的变动。例如，我国各年国内生产总值数据，人口数据等。,统计学教程第3章

32、数据整理和频数分布,3.4 绝对数,表3.6 2001-2003年我国国内生产总值亿元本表按当年价格计算。资料来源：2004中国统计年鉴.北京.中国统计出版社 2004,面板数据(Panel Data)，是截面数据与时间序列数据综合起来的一种数据类型。其有时间序列和截面两个维度，当这类数据按两个维度排列时，是排在一个平面上，与只有一个维度的数据排在一条线上有着明显的不同，整个表格像是一个面板,所以把panel data译作“面板数据”。但是,如果从其内在含义上讲,把panel data译为“时间序列截面数据”更能揭示这类数据的本质上的特点。也有译作“平行数据”或“TS-CS数据（Time

33、 Series-Cross Section）”。,如：某一年，北京、上海、重庆、天津的GDP分别为10、11、9、8（单位亿元）。这就是截面数据，在一个时间点处切开，看各个城市的不同就是截面数据。如：2000、2001、2002、2003、2004各年的北京市GDP分别为8、9、10、11、12（单位亿元）。这就是时间序列，选一个城市，看各个样本时间点的不同就是时间序列。,如：2000、2001、2002、2003、2004各年中国所有直辖市的GDP分别为：北京市分别为8、9、10、11、12；上海市分别为9、10、11、12、13；天津市分别为5、6、7、8、9；重庆市分别为7、8、9、10

34、、11（单位亿元）。这就是面板数据。,3.4.3 绝对数的计量单位【量纲】绝对数是反映总体绝对规模和绝对水平的数据，都具有具体计量单位。例如，人口用人、万人，长度用厘米、米、千米，重量用克、千克、吨等。,计量单位是绝对数数值的尺度，数量的度量工具。计量单位和绝对数数值是绝对数的缺一不可的两个组成要素，两者有机结合在一起，共同反映总体绝对规模和绝对水平。计量单位又称为量纲。,绝对数的计量单位都为有名数，可分为实物单位、货币单位及时间单位三种。据此，绝对数也可相应分为实物量数据、价值量数据和劳动量数据。关于倍数,2012-03-14(Zhousanshangwu),无名数和有名数(也称复合名数)。

35、(1)无名数:%、倍数(分子值超过分母值)、成数(将分母抽象化为10)(2)有名数(复合名数):由分子、分母的计量单位复合而成的。全员劳动生产率:万元/人表示;人口密度:人/平方公里表示;手机(电话、私人汽车等)的普及程度:台/百户(部/百户、辆/万户)等,多重单位：电功公式：Q=U2/R*t=UIt=I2*R*t,比热容(specific heat capacity)又称比热容量，简称比热(specific heat)，是单位质量物质的热容量，即使单位质量物体改变单位温度时的吸收或释放的内能。比热容是表示物质热性质的物理量。通常用符号c表示。比热的单位是复合单位。在国际单位制中，能量、功、热

36、量的主单位统一为焦耳，温度的主单位是开尔文，因此比热容的主单位为J/(kgK)，读作“焦耳每千克开尔文”,1、实物单位。实物单位（Goods Unit）实物单位是指根据现象的自然或物理属性而规定的计量单位。也称为使用价值量单位。具体有自然单位，例如总人口数按“人”；度量衡单位，例如煤产量以“吨”或“标准吨”；以及双重单位、多重单位和复合单位，例如货运量以“吨公里”等。,采用实物单位为计量单位的绝对数称为实物量数据，也称为使用价值量数据。实物数据的特点是能够直接地反映事物的具体内容，但综合能力差。不同的实物具有不同的使用价值；不同的使用价值无法直接汇总，从而不能全面和概括地反映复杂总体的总规模或

37、总水平。,2、货币单位。货币单位（Monetary Unit）是指以货币作为价值尺度对社会财富和劳动成果进行计算的计量单位。货币单位又称为价值量单位。如国内生产总值、总成本、销售总额等。采用货币单位为计量单位的绝对数称为货币量数据，也称为价值量数据。,与实物量数据相反，价值量数据的突出特点就是它隐去了现象的具体物质内容，具有很强的综合能力。在实际使用时要充分注意它的这个特点，尤其要防止使用不当混淆事物的本质特征。,3、时间单位时间单位（Time Unit）一般用劳动时间的长短来度量，一般以复合单位的形式出现。如工时、工日等。工时：work hours;hours of labour 一小时所做

38、正常工作量的劳动计量单位。工人工作一小时为一个工时，是工业上计算工人劳动量的时间单位。主要应用于劳动经济学领域。,工日：按照我国劳动法的规定，一个工作日的工作时间为8小时，简称“工日”。工程计量的时统计人工费的一个依据，比如修一间房子，有5个工人，每天如此，修了一个星期7天，那么总工日就是35个（5人*7天)，一天的工日就是5个(1天*5人)。,2012-03-12(ZhouyiShangwu),3.5 数据的展示,统计表的形式与构成,一、统计表的一般形式统计表一般为开栏式表格。左右两侧不封口，上下两端画粗实线，除标题行与合计行以细实线区分外，行与行之间一般不画线（复合分组时可以画线），表内

39、各栏目之间用实线隔开，表体为比例协调的长方形10:7。,统计表一般由表头、表体【行标题、列标题、数据】、表脚【附注】三个部分构成。,例：,2006年我国土地状况,计量单位:万公顷,表头,资料来源:中国统计年鉴,表脚,表体,统计表的结构,备注:(数据来源，一些标注),【表头】表号标题（包括何时、何地、何事）,从统计表的内容来看，由主词和宾词两个部分组成。主词是统计表所说明的总体，总体的各组或各组的名称。宾词是用于说明主词的各种指标。某地区1999年工业总产值按轻重工业分组表,统计表的种类,一、空表和实表1、空表：是指没有填写指标数值的统计表。2、实表：是指已经填写指标数值的统计表。,统计表的分

40、类,按其用途不同，统计表可分为调查表、整理表（又称汇总表）和分析表。,附表2-4 地下水饮用水水源地水质状况调查表浓度：mg/L,（河流基本情况普查）汇总表目录,汇总表目录,H101表问卷调查与汇总表,分析表一般情况下，分析表主要是指对被审计单位财务信息执行分析程序的记录。例如，记录对被审计单位本年各月收入与上一年度的同期数据进行比较的情况，记录对差异的分析等。,统计学教程第3章数据整理和频数分布,3.5 数据的展示,按其表述的内容不同,统计表可分为时间分组表、空间分组表和时空分组结合表。,简单表、分组表、复合表,1、简单表（我国三个城市的人口数(1990年7月1日0时),简单分组表【单标

41、志分组表】：只按一个特征或标志分组。,表2-8 某医院用良种疗法矫治假性近视的近期有效率,简单分组表我国某年国内生产总值,复合表【多标志分组表】：按两个或两个以上特征或标志结合起来分组。,表2-9 某省某工厂 1994、1998年四项检测指标异常检出率,：TTT（麝香草酚浊度试验），：GPT（谷丙转氨酶）。(丁建生等.中国卫生统计 1999;16(3):166),复合表某年末某地区人口资料,对宾词栏的简单分组,对宾词栏的交叉分组,3统计表的绘制原则：科学、实用、简练、美观（1）统计表的表头应用较少的文字准确地概括出统计表的基本内容，必须满足时间、地点、和什么数据的3W要求。一般来说，根据

42、具体情况和实际需要，统计表的表头还包括表号、制表时间、计量单位等内容。,（2）统计表的标题统计表的行标题和列标题分别位于统计表的第一行和第一列，所表示的内容包括所研究问题的类别、分组标志、变量名称和数据所属的空间或时间。,（3）统计表的表式统计表一般是两端开口式，表的左右两边不封口。统计表是由纵横直线垂直交叉而组成的长方形表格，表的上下两端的横线应以粗线绘制，其他线段均用细线。各列间用细线分开，除行标题和总计栏外，其他各行之间一般不需要再用线条分隔。,（4）统计表的计量单位统计表上应标明数据的计量单位。如果表中所有数据属同一计量单位，可将计量单位标在表的右上方；否则，应在行标题或列标题分别标

43、明，或专门列出一行或一列加以分别标明。,（5）统计表的填表要求统计表中数字应填写整齐，对准位数。一般是右对齐，对于小数应按小数点对齐，且小数点的位数应统一。当数字为0或小可略而不计时，要写上0，不得留空；当缺少某项资料时，用“”表示；不应有数字时用符号“”表示；上、下、左、右数字相同，必须如实写出，不得用“同上”、“同左”或“”等符号。一般统计表内要列出合计数，方便核对和使用。,（6）统计表的的注释统计表的下端加注说明或注解，包括统计资料来源以及调查方法等。,如果统计表中指标有一定的计算关系，可以用算式表示。如果栏目较多，可以加以编号：一般主词的计量单位栏用(甲)、(乙)、(丙)等次序编号，

44、宾词各栏用(1)、(2)、(3)等次序编号。,某集团总公司下属单位2005年9月销售情况如下,根据上述资料：1、按计划完成程度分组整理出一个统计表；2、按企业的工人数分组表明企业人数与工人劳动生产率之间的关系。,通过按计划完成程度的分组可以看出：该总公司有四个企业没有完成销售计划，有九个企业的计划完成程度在100 110之间。有三个企业的计划完成程度在110 120之间。有二个企业的计划完成程度在120以上。,通过按职工人数的分组后，计算的工人劳动生产率说明企业的职工人数少，规模小，劳动生产率低。反之则高。,某洗衣机厂第一季度生产洗衣机情况统计表 2006年3月制,统计表的审核,一、统计表外观

45、形式的审核：1、完整性与恰当性审核。审核表头、表体、表脚各部分所应具备的内容是否有遗漏，表述与位置是否恰当。2、规范性审核。审核各类文字字体、字号是否符合要求，表格线是否规范。3、美观性审核。审核表体是否为开栏式，是否为长方形，长与宽的比例协调与否；表头、表体、表脚是否协调；全表与周围文本、图示是否协调。,二、统计表内容结构的审核1、目的性审核。审核分组标志的选择及组别的划分、指标项目的设置是否能体现统计研究的目的和任务要求。2、完整性审核。审核分组体系是否完备，指标项目是否全面，有无遗漏。3、系统性审核。审核各个组别、各个指标项目是否分别依序而排。4、简明性审核。审核分组体系与指标项目的设置

46、是否过于繁杂，能否简化。,三、表中数值的审核1、审核数值的填写是否规范、录入是否无误。2、审核数值的计算结果是否正确。通过重新计算或验算平衡项目之间的关系来进行检查。,不良统计表的修改举例,3.5.2 统计图1非数值型数据的统计图非数值型数据通常使用的统计图有条形图和饼图。,（1）条形图（Bar Chart）是以一簇宽度相等、相互分离的条状图形的长度（或高度）来表示频数分布的统计图。当以条状图形的高度来表示频数分布特征时，条形图也称为柱形图。条形图中条状图形的长度（或高度）所表示的数据可以是频数，也可以是频数的相对比例,还可以是事物具体的数值水平等。,条形图图形为落在一个直角坐标系中的条状或柱

47、状图形。这个直角坐标系可以是两维的，也可以是三维的。相应的条状或柱状图图形为平面和立体的。这个直角坐标系原点的具体数值可以为0，也可以为其他特定数值，需要根据实际情况而定。,统计学教程第3章数据整理和频数分布,3.5 数据的展示,图3.1 2003年我国按性别分人口数柱形图,统计学教程第3章数据整理和频数分布,3.5 数据的展示,图3.2是根据表3.6中我国2003年国内生产总值数据绘制的条形图图3.2 2003年我国国内生产总值条形图,（2）饼图（Pie Chart）是以同一圆形内一簇扇形的面积的大小来表示数值分布的统计图。图3.2是根据表3.6中我国2003年国内生产总值数据绘制的饼图

48、。图3.3 2003年我国国内生产总值饼图,3.5 数据的展示,条形图环形图雷达图,2、数值型数据的统计图数值型数据常用的有直方图和折线图。适用于非数值型数据的条形图和饼图，同样也可适用于数值型数据。,（1）直方图（Histogram）是以各组的组距为宽,以各组的频数为高，在直角坐标系的第一象限依次绘制一系列矩形来表示频数分布状态的统计图。直方图与条形图的本质区别在于直方图的矩形宽度是数值型数据分组的组距，并且在直方图的直角坐标系中直接标明了每一分组的上限和下限。所以，直方图的矩形一般是连续的方式相继排列，不同于条形图一般是以间断的方式分隔排列。对于异距分组，绘制直方图时应以各组的实际组距为

49、宽，以相应的标准组距频数，或频数密度为高。,直方图,（2）折线图（Line Graph）是将各组的组中值和频数在直角坐标系的点，用一条折线联系起来，以反映频数分布状态的统计图。折线图从最低数值组的下限减去二分之一最低数值组组距的位置起点，终点为最高数值组的上限加上二分之一最高数值组组距的位置，从而使折线图中的折线与直角坐标系的横轴所围的面积同直方图的矩形所围的面积相等。,折线图也可以在直方图的基础上绘制，用直线依次连接直方图各矩形顶边的中点，并在直方图的左右两端各延伸一个假定分组,使折线在假定分组的中点位置与横轴相交,绘制出折线图。对于异距分组的折线图绘制，类似于异距分组的直方图的绘制，应在相

50、应的标准组距频数，或频数密度的基础上绘制，或者在已经完成的直方图的基础上绘制。,Excel 应用,数值型数据的整理：某学期某班学生的考试成绩数据的整理例3.1 某学期某班35名学生的统计学考试成绩的原始数据如下：92，87，75，74，65，91，98，78，84，83，78，96，62，84，76，52，69，84，81，88，70，91，89，87，75，79，82，86，79，82，64，90，56，84，89。要求对该班学生的统计学考试成绩，采用重合组限和开口组限设置进行等距分组、计算组中值和频数分布，编制统计表和统计图。,第一步，计算取值范围第二步，确定组数和组距第三步，计算频数分

展开阅读全文