《统计学原理(第3章统计整理).ppt》由会员分享,可在线阅读,更多相关《统计学原理(第3章统计整理).ppt(31页珍藏版)》请在三一办公上搜索。
1、第三章 统 计 整 理,教 学 目 的 通过本章的学习,要求掌握各种不同类型资料的整理方法、整理原则、以及一些相关的概念,并能够利用所学的方法对所给的实际资料按照研究目的的要求进行整理。,第三章 统计整理,在学习过程中主要解决以下几个问题,统计整理的意义和方法,统计分组的含义和种类,统计分组的方法,统计分布和分配数列的编制,统计表的结构和种类,第三章 统计整理,统计整理是根据统计研究任务的要求,对调查所搜集到的原始资料进行分组、汇总,使其条理化、系统化的工作过程。,一、统计整理的意义,统计整理是统计调查的继续,是统计分析的前提和基础,在整个统计工作中发挥着承上启下的作用。,编表:是把汇总的资料
2、按一定的规则在表格上表现出来。,统计整理的方法,统计整理的方法是分组、汇总和编表。,分组:是根据研究任务的要求,对调查所得的原始资料,确定哪些分组或分类。统计分组是统计整理的关键。,汇总:是在统计分组的基础上,把总体单位各种标志的标志值汇总起来,汇总主要有手工汇总和电子计算机汇总。,根据某班40名学生统计学考试成绩分析该班学生考试情况。57 89 49 84 86 87 75 73 72 68 75 82 97 81 67 81 54 79 87 95 76 71 60 90 65 76 72 70 86 85 89 89 64 57 83 81 78 87 72 61,第三章 统计整理,再如
3、:通过调查取得100个企业某月销售额资料:(单位:万元)20,60,45,90,105,56,250,89,130,30,98,300。将这些数据资料按“销售额”的多少进行整理,得到下列整理结果:,统计整理的方法:分组、汇总、编表,第三章 统计整理,统计分组的含义和种类,统计分组:,根据研究任务的要求和现象总体的内在特点,把统计总体按照某一标志划分为若干性质不同又有联系的几个部分。,统计分组应达到的要求,同一组内的单位性质相同,不同组所包括的单位性质相异。,二、,例如:,工业企业按经济类型分组,可分为以下几组:经济类型 企业数(个)国有企业 1000 合资企业 200 合作经营企业 300 股
4、份制企业 500,工业企业按职工人数分组,可分为以下几组:职工人数 企业数(个)500人以下 50 5001000 200 10001500 100,工业企业按地区分组,可分为以下几组:地区 企业数(个)北京市 10000 天津市 8000 上海市 11000,统计分组的种类,按研究任务和作用不同,按分组标志的多少不同,按分组标志的性质不同,类型分组结构分组分析分组,简单分组复合分组,品质分组变量分组,例:按所有制性质划分,我国现有8种经济类型:国有经济、集体经济、私营经济、个体经济联营经济、股份制经济、外商投资经济、港澳台投资经济,例:上海市按GDP计算的三次产业结构(%)1980年 199
5、0年 1996年1997年 GDP 100 100 100 100 第一产业 3.2 4.3 2.5 2.3 第二产业 75.7 63.8 54.5 52.2 第三产业 21.1 31.9 43.0 45.5,例:中国农民家庭按收入分组的恩格尔系数(1984年)按收入分组(元)200 300 400 500 600 800 1000恩格尔系数(%)64.9 60.2 56.7 54.4 50.5 49.9 43.6,分组标志的选择,选择什么样的分组标志,就会形成什么样的分组结果,因此,分组标志的选择是统计分组的关键。,选择分组标志的一般原则,必须根据统计研究的目的,在对现象进行分析的基础上,抓
6、住具有本质性的区别及反映现象内在联系的标志来作为分组标志。,第三章 统计整理,变量分组方法,以一个变量值代表一组。如:家庭总体按家庭成员数分为以下几组:一个人的、两个人的、三个人的、四个人的、五个人的组。这种分组适用于离散性变量,且变量值的个数较少的情况。,以变量值变动的一个区间作为一组,区间的距离称为组距。适用于连续型变量和离散型变量的变量值较多的情况。,按品质标志对资料进行分组。这种分组有些比较简单,如:人口按性别分组、按职业分组、企业按经济类型分组等。有些非常复杂,复杂的品质分组称为分类。,单项式分 组,组距式分 组,三、统计分组方法,品质分组方法,第三章 统计整理,在进行组距分组时,会
7、涉及到一些问题,包括:等距分组和不等距分组、组限、组中值。,第三章 统计整理,等 距 分 组,各组组距均相等。如:1020 2030 3040以上各组组距均为10。这种分组适用于均匀分布的总体。,不等距 分 组,各组组距不一定相等。如:1020 2050 5060 6070 以上分组中,其中第二组与其它各组的组距不同。这种分组适用于资料分布离差较大或者是为了满足特殊的研究目的的需要。,组限,组限就是每一组两端的数值。10 20 20 30 30 40,下限,上限,确定组限的方法有两种:间断式确定组限和重叠式确定组限。,职工人数(人)99以下 100199 200299 300399,固定资产额
8、(万元)5060 6070 7080 8090,间断式确定组限适用于离散变量,重叠式确定组限适用于连续变量,第三章 统计整理,组中值,每组上限与下限之间的中点数值,是各组的假定平均数。,组中值=(上限值+下限值)2,开口组组中值的计算:缺下限:组中值=本组上限 相邻组组距/2缺上限:组中值=本组下限+相邻组组距/2,例如,产值(万元),50以下50 6060 7070以上,第一组组中值:,50(102)=45,最后一组组中值:,70+(102)=75,第三章 统计整理,合理确定组中值,例如:第一组:50人以下 第二组:50200人按公式,应定下限为0,注意:当连续型变量按离散变量表示,组距数列
9、的编制采取相邻组限不重叠形式,组中值的确定应考虑到连续型变量自身的特点。(P58),第三章 统计整理,(一)统 计 分 布,统计分布又称分配数列。它是把总体的所有单位按组归并排列后形成总体中各个单位在各组间的分布。它由两部分组成:总体按某标志所分的组和各组所拥有的单位数(次数或频数)。,四、统计分布和分配数列的编制,第三章 统计整理,频率:各组的频率大于0,各组的频率总和等于1或100%。,(二)分配数列的种类,分配数列是在分组的基础上形成的,根据分组时采用的分组标志不同,分配数列可分为:,品质分配数列,变量分配数列,单项式分配数列,组距分配数列,等距数列,不等距数列,分配数列,这种数列一般比
10、较稳定,只要分组标准定的比较恰当,通常能准确地反映总体的分布特征。,第三章 统计整理,(三)分配数列的编制,1、品质分配数列的编制:,只需将品质标志的表现一一排列出来,然后汇总出每一种标志表现出现的次数即可。如下例:,第三章 统计整理,100,250,合 计,40 32 20 8,100 80 50 20,国有企业 股份制企业 合资企业 独资企业,比重(%),企 业 数,经济类型,第三章 统计整理,2、变量分配数列的编制:,其基本步骤为:第一步:将原始资料按数值大小依次排列。第二步:确定变量的类型和分组方法(单 项式分组或组距分组)。第三步:确定组数和组距。当组数确定后,组距可计算得到:组距=
11、全距组数 全距=最大变量值最小变量值,第三章 统计整理,第四步:确定组限。注意:第一组的下限要小于或等于最 小变量值,最后一组的上限要大于最大变量值,间断式确定组限:汇总各组单位数时,按照“上下限均 包括在本组内”的原则汇总。,职工人数(人)499以下 500 599 600 699 700 799,重叠式确定组限:汇总各组单位数时,按照“上组限不在 内”的原则汇总。,产值(万元)50 60 60 70 70 80 80 90,单位数(个),单位数(个),因为有了“上组限不在内”的原则,实际工作中,对于离散型变量也经常采用重叠式确定组限的方法。,第五步:汇总出各组的单位数,计算频率,并编制统计
12、表。注意不同方法确定的组限在汇总单位数时是有区别的,3、累计频数或频率分配数列的编制方法,通过累计频数分配数列可以反映累计到某一组出现的总次数或总频率。想一想:第四组的累计结果说明什么问题?,第三章 统计整理,2,7,21,52,117,169,192,200,1.0,3.5,10.5,26.0,58.5,84.5,96.0,100,8,31,83,148,179,193,198,200,4.0,15.5,41.5,74.0,89.5,96.5,99.0,100,第三章 统计整理,(四)统计分布的类型,钟型分布、U型分布、J型分布、洛伦茨分布,钟型分布:,特征是“两头小,中间大”,即靠近中间的
13、变量值分布的次数多,靠近两端的变量值分布的次数少,其形状宛如一口古钟。(见教材P62),U型分布:,特征是靠近中间的变量值分布的次数少,靠近两端的变量值分布的次数多,其形状宛如英文字母U。(见教材P63),J型分布:,特征是次数随着变量值的增大而增多或随变量值的增大而减少,其形状宛如英文大写字母J。(见教材P63),洛伦茨分布:,专门用以检定社会收入分配的平等程度。,第三章 统计整理,五、统计表的结构和种类,从表的内容上看:由主词和宾词组成。主词指总 体所分的各个组,宾词用来说 明主词的各个指标。,统计表是表现统计资料整理结果的表格,从表的形式看:由标题、横行和纵栏、数字资料 等部分组成。,统
14、计表的结构,统计表的种类,按照主词是否分组和分组的程度分为:,简单表:主词未经分组的统计表。,分组表:主词按某一标志进行分组的统计表。,复合表:主词按两个或两个以上的标志进行分组 的统计表。,第三章 统计整理,一、判 断 对 错,1、组中值是根据各组上限和下限计算的平均值,所以它代表了各组的平均分配次数。(),2、分配数列的实质是把总体单位总量按照总体所分的组进行分配。(),3、某企业职工按文化程度分组形成的分配数列是一个单项式分配数列。(),4、对资料进行组距式分组,是假定变量值在各组内部的分布是均匀的,所以这种分组会使资料的真实性受到损害。(),5、任何一个分布都必须满足:各组的频率大于0
15、,各组的频数总和等于1或100%(),第三章 统计整理,二、单 项 选 择 题,1、统计整理的关键是()A、对调查资料进行审核 B、对调查资料进行统计分组C、对调查资料进行汇总 D、编制统计表,B,2、下列分组中属于按品质标志分组的是()A、学生按考试分数分组 B、产品按品种分组C、企业按计划完成程度分组 D、家庭按年收入分组,B,3、有一个学生考试成绩为80分,在统计分组中,这个变量值应归到()组。A、6070分 B、7080分C、8090分 D、90100分,C,4、某主管局将下属企业先按轻、重工业分组,再按规模分组,这种分组属于()分组。A、简单分组 B、复合分组C、分析分组 D、结构分组,B,第三章 统计整理,三、多项选择题部分,B C D E,2、在次数分配数列中()A、总次数一定,频数和频率成反比B、各组的频数之和等于100C、各组频率大于零,频率之和等于1D、频率越小,则组的标志值所起的作用越小E、频率表明各组标志值对总体的相对作用程度,C D E,、品质分配数列、变量分配数列、组距式变量分配数列、等距变量分配数列、次数分配数列,