统计数据的描述专题培训ppt课件.ppt

上传人:小飞机 文档编号:1591836 上传时间:2022-12-09 格式:PPT 页数:89 大小:781.50KB
返回 下载 相关 举报
统计数据的描述专题培训ppt课件.ppt_第1页
第1页 / 共89页
统计数据的描述专题培训ppt课件.ppt_第2页
第2页 / 共89页
统计数据的描述专题培训ppt课件.ppt_第3页
第3页 / 共89页
统计数据的描述专题培训ppt课件.ppt_第4页
第4页 / 共89页
统计数据的描述专题培训ppt课件.ppt_第5页
第5页 / 共89页
点击查看更多>>
资源描述

《统计数据的描述专题培训ppt课件.ppt》由会员分享,可在线阅读,更多相关《统计数据的描述专题培训ppt课件.ppt(89页珍藏版)》请在三一办公上搜索。

1、-1,2.1 统计数据的来源,-2,1、统计部门和政府部门公布的有关资料,如各类统计年鉴2、各类经济信息中心、信息咨询机构、专业调查机构等提供的数据3、各类专业期刊、报纸、书籍所提供的资料4、各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料5、从互联网或图书馆查阅到的相关资料,一、统计数据的间接来源,-3,在收集二手资料时要注意的几个问题:数据是谁搜集的?为什么目的而搜集的?数据是怎样搜集的? 什么时候搜集的?在引用间接资料的时候要注明资料来源。,-4,二、统计数据的直接来源 统计调查(主要用来取得社会经济数据) 科学试验(主要用来取得自然科学数据),统计调查是整个统计

2、认识活动的基础,决定着统计认识过程及其结果的成败,-5,1、统计调查定义 根据统计研究的目的和要求,运用科学的调查方法,有组织、有计划地向客观实际搜集各种原始资料的工作过程。简单地说就是得到个别事物原始资料的过程。、资料的质量要求 准确性及时性 全面性经济性,-6,(1)按调查对象所包括范围分: 全面调查 非全面调查(2)按调查登记时间连续性分: 经常性调查 一次性调查(3)按调查组织形式分: 统计报表 专门调查(4)按搜集资料方式不同: 直接观察法 采访法 报告法 问卷法,3、统计调查的种类,-7,总体单位,调查单位,-8,总体单位,调查单位,普 查,对全部单位进行调查,-9,报表制度,可以

3、全面调查,但通常是调查限定规模以上的总体单位,总体单位,调查单位,-10,总体单位,调查单位,抽样调查,按随机原则选择调查单位,各单位被选中的机会相同。,-11,总体单位,调查单位,重点调查,只调查重点单位(单位数不多但其标志量占标志总量比重较大的单位),-12,总体单位,调查单位,典型调查,对典型单位进行调查,典型单位的选择并不一定按规模,-13,普查:为某一特定目的而专门组织的非经常性全面调查。 通常是一次性或周期性的 一般需要规定统一的标准调查时间 数据的规范化程度较高 应用范围比较狭窄 我国普查规范化,制度化:年份末尾逢“0”人口普查、逢“3”第三产业普查、逢“5”工业普查、逢“7”农

4、业普查。,-14,统计报表:按照国家有关规定,自上而下统一布置,自下而上逐级提供基本统计资料的一种统计调查形式。 按调查范围分:全面报表 非全面报表 按报送周期分:日报 月报 季报 年报,-15,抽样调查:严格按照随机原则,从现象总体中抽选一部分单位作为样本进行调查,然后依据所取得的样本数据,对调查总体的数量特征作出具有一定可靠程度的推算和估计。 随机原则抽选样本 部分单位的资料推断总体数量特征 肯定存在一定的抽样误差,-16,三、统计调查方案,-17,三、统计调查方案, 确定调查的任务和目的要求:()从研究工作需要出发,抓住实际生活中最重要的问题()从调查对象实际出发,把需要和可能结合起来

5、确定调查对象和调查单位,-18,三、统计调查方案, 调查项目和调查表满足:()拟定的项目应满足调查目的()按照需要与可能的原则,只列出能得到确切答案的项目,且对项目的提法要具体明确()确定的调查项目之间要尽可能做到互相联系,以便于核对答案的准确性()明确规定调查项目的答案形式,-19,调查表:,说明词:调查表名称、调查单位、解释调查意义、表达感激之情等,主题问句:被调查者基本情况、调查项目,作业记录:填报时间、填报人等,-20,示例,旅游及生活方式调查问卷旅游1、您是否喜欢旅游? 是 否 如果是,在3年内计划去哪? 中国 亚洲 欧洲 美国 澳洲 其他 如:2、当您旅游度假时选择哪种住宿? 别墅

6、 公寓 酒店客房 其他 如:3、您通常与谁一同旅游度假? 夫妻小孩 亲友 朋友 其他 如:4、他们有护照吗? 有 没有5、您是否希望我们帮助您办护照呢? 是 否6、您旅游度假时通常使用:信用卡 支票 现金生活方式1、您是否已成为以下俱乐部的会员? 高尔夫俱乐部 健身俱乐部 网球俱乐部 美容院 其他 如:,-21,2、您现在的住房是: 自购别墅 自购公寓 公司房 租住别墅 租房 与家人亲戚同住3、您的交通工具是: 私家车 公司车 打的 摩托车 其他 如:4、婚姻状况:已婚 单身 同居5、您的职业: 您的职务:老板 总裁 经理 职员 其他如: 您的年龄:低于26岁 2639岁 4059岁 60岁以

7、上 6、您配偶的职业: 您配偶的职务:老板 总裁 经理 职员 其他如: 您配偶的年龄:低于26岁 2639岁 4059岁 60岁以上,-22,7、你们夫妻双方的月收入合计(人民币/月)1000元4000元 4000元8000元 8000元15000元 15000元以上 您的姓名 您的地址您的得奖联系电话为:家庭手机幸运号码:0012083-感谢您的宝贵时间 :0012083 为了感谢您的帮助,主办人将把所有填写完整的调查问卷存入电脑抽奖系统,该系统将赠一批高质量礼品给幸运中奖者,请保存您的回执单。祝您好运!公司地址: 联系电话: ,-23,课外练习,1、大学生消费结构调查2、大学生创业意向调查

8、3、大学学习时间分配调查4、大学生图书馆使用调查5、大学生人际关系调查6、大学生电脑使用调查7、大学生就业调查8、大学生心理健康调查9、大学生困惑/困难问题调查,-24,三、统计调查方案, 调查时间和调查期限 制定调查工作的组织实施计划 内容:()调查工作组织领导机构与人员组成()调查的方式方法()调查的工作规则和流程()调查前准备工作()其他工作,-25,是统计调查的继续,统计分析的前提和基础,地位,统计整理,将统计调查得到的原始资料进行科学的分组和汇总形成综合统计资料的工作过程,2.2 统计数据的整理,-26,1、概念,根据统计研究的目的和客观现象的内在特点,按某个分组标志(或几个分组标志

9、)把统计总体分为若干组成部分。,2、目的,一、统计数据的分组,把同质总体内具有不同性质的单位分开,把相同性质的单位合并在一起,保持各组内统计资料的一致性和组与组之间资料的差异性。,-27,3、原则,穷尽原则 互斥原则,例1:从业人员按文化程度分组 小学毕业 中学毕业(含中专) 大学毕业,文盲或识字不多小学毕业中学毕业(含中专)大专毕业大学及大学以上 (),(),例2:某商场把服装分为 男装、女装、童装。 () 成年装(男女装) 儿童装(男女装),(),-28,4、种类,按分组标志的多少不同,简单分组,复合分组,按分组标志的性质不同,品质标志分组,数量标志分组,-29,例 1 为了了解某地区银行

10、存款的构成,可以选用存款性质、期限两个标志分别进行分组:,按存款性质分组 企业存款 储蓄存款 财政性存款,按存款期限分组 活期存款 定期存款,简单分组,复合分组,存款同时按其性质及期限分组 企业存款 活期 定期 储蓄存款 活期 定期 财政性存款 活期 定期,例2 企业职工按工龄分组: 5年以下 510年 1015年 1520年 20年以上,品质标志分组,数量标志分组,-30,1、分配数列:统计分组后,将总体的所有单位按组归类排序,列出各组的总体单位数,形成一个数列。 次数(频数):各组的总体单位数,用f表示; 频率:各组单位在总体单位中所占比重,用f/f表示。2、品质分组的方法:按品质标志分组

11、形成的数列,二、统计分组的方法,-31,3、数量分组的方法:按数量标志分组形成的分配数列。(1)单项式分组:每一组变量值只有一个。(2)组距式分组:每一组数值由两个变量值所确定的一个数值范围表示。 4、统计分组中的几个概念 (1)组限:分组的数量界限,分为上限和下限 (2)组距:各组上限与下限之差。等距分组 异距分组。 (3)闭口组:上限和下限都齐全的组。 (4)开口组:上限和下限只具备其一的组。 (5)组中值:各组上限和下限的中点值。 闭口组:组中值(上限下限)/ 2 缺下限开口组:组中值=上限-邻组组距/2 缺上限开口组:组中值=下限+邻组组距/2,-32,三、组距数列的编制,1、等距分组

12、步骤:(1)排序(2)计算全距R(3)确定组数n(4)计算组距i,经验值公式,(5)确定组限 以最小组下限小于半个组距为最好。 连续型变量:相邻组的组限必须重叠;“上限不在内”原则。 离散型变量:相邻组组限必须间断,同时又能相互衔接。(6)计算各组的频数和频率(7)计算累计频数和累计频率,-33,例:,现有33个国家的人口平均寿命如下表所示,要求进行等距分组。(n=4),解:(1)排序;(2)全距R=83-52=31;(3)n=4;(4)组距i=31/4=7.75,取整为10;(5)最小组下限为52-5=47,-34,三、组距数列的编制,2、异距分组: 在标志值变动很不均匀,变动幅度大,遇极偏

13、斜的次数分配等情况下,采用异距分组。,例:某地工资水平密集分布于600-2000元,其他部分则分布十分稀少,若以500元为组距进行等距分组,则会使得这一密集的工资段分布信息丢失过大。因此,应在总体单位密集处采用较小的组距,在总体单位稀少处采用较大组距,形成各组组距不等的异距分组。,反映单位组距内分布的次数,-35,四、间接来源资料的再分组,例:某县各村农民收入分组如左表所示,为了便于对比分析,需要将原有报表资料再分组成为现行报表规定分组的资料右表。,526830125227156,-36,五、频数分布的主要类型,1、正态分布(钟型分布),2、U型分布,3、J型分布,4、偏分布,37,2.3 分

14、布集中趋势的测度,一、算术平均值二、调和平均值三、几何平均值四、切尾平均值五、中位数六、众数七、四分位数八、众数中位数和均值的关系,-38,一、算术平均值(arithmetical mean),集中趋势的最常用测度值一组数据的均衡点所在体现了数据的必然性特征易受极端值的影响用于数值型数据,不能用于分类数据和顺序数据,-39,简单算术平均值(simple arithmetical mean),设一组数据为: x1 ,x2 , ,xn,总体均值,样本均值,-40,加权算术平均值(weighted arithmetical mean),设一组数据为: x1 ,x2 , ,xk相应的频数为: f1 ,

15、 f2 , ,fk,总体均值,样本均值,-41,加权均值 (例题分析),-42,均值(数学性质),1.各变量值与均值的离差之和等于零,2. 各变量值与均值的离差平方和最小,-43,二、调和平均值(harmonic mean),设一组数据为: x1 ,x2 , ,xn,1、简单调和平均值,是各个变量值倒数的自述平均数的倒数。,-44,例:某种蔬菜价格,甲市场3.5元/斤,乙市场4.1元/斤,丙市场4.6元/斤,若在以上市场上各买1元蔬菜,求平均每斤蔬菜多少钱?,2、加权调和平均值,-45,算术平均值与调和平均值关系,例:某商场销售某种品牌皮鞋,由于季节原因,售价有所波动,按售价分组如表所示,求平

16、均每双皮鞋的价格。,-46,算术平均值与调和平均值关系,-47,三、几何平均值(geometric mean),n 个变量值乘积的 n 次方根适用于对比率数据的平均主要用于计算平均增长率计算公式为,5. 可看作是均值的一种变形,-48,几何平均值 (例题分析),【例】一位投资者购持有一种股票,在2000年、2001年、2002年和2003年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率 。,算术平均:,几何平均:,-49,四、切尾平均值(trimmed Mean),去掉大小两端的若干数值后计算中间数据的均值在电视大奖赛、体育比赛及需要人们进行综合评价的

17、比赛项目中已得到广泛应用计算公式为,n 表示观察值的个数;表示切尾系数,,-50,切尾平均值 (例题分析),【例】某次比赛共有11名评委,对某位歌手的给分分别是:,经整理得到顺序统计量值为,去掉一个最高分和一个最低分,取1/11,-51,五、中位数 (median),1. 排序后处于中间位置上的值,不受极端值的影响主要用于顺序数据,也可用数值型数据,但不能用于分类数据,-52,数值型数据的中位数 (9个数据的算例),【例】 9个家庭的人均月收入数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630排 序: 750 780 850 960 1080 12

18、50 1500 1630 2000位 置: 1 2 3 4 5 6 7 8 9,中位数 1080,-53,数值型数据的中位数 (10个数据的算例),【例】:10个家庭的人均月收入数据排 序: 660 750 780 850 960 1080 1250 1500 1630 2000位置: 1 2 3 4 5 6 7 8 9 10,-54,总结:,未分组数据中位数确定:(1)将标志值排序(2)确定中位数所在位置=(n+1)/2 n奇数,数列最中间的那个数就是中位数。 n偶数,最中间两个数的算术平均值是中位数。,-55,分组数据中位数的确定,(1)按分组标志值由小到大排序(2)确定中位数位置,中位数

19、所在组称为中位数组,-56,分组数据中位数的确定,Me : 表示中位数L:表示中位数组的下限fm: 表示中位数组的次数Sm-1:表示中位数组以前各组的累积次数(向上累计)Sm+1:表示中位数组以后各组的累积次数(向下累计) i :表示中位数组的组距,(3)由公式计算中位数,下限公式:,上限公式:,-57,例:,某厂工人月收入情况如表所示,试计算中位数值。,-58,解:,所以,中位数应在第三组中,即中位数组为700-800,同时,f3=105,s2=72,s4=123,L=700,U=800,i=100,,-59,六、众数 (mode),一组数据中出现次数最多的变量值适合于数据量较多时使用不受极

20、端值的影响一组数据可能没有众数或有几个众数主要用于分类数据,也可用于顺序数据和数值型数据,-60,众数(不惟一性),无众数原始数据: 10 5 9 12 6 8,一个众数原始数据: 6 5 9 8 5 5,多于一个众数原始数据: 25 28 28 36 42 42,-61,对于分组数据,众数计算方法:,MO:表示众数L:表示众数组的下组限 表示众数组次数与前一组次数之差 表示众数组次数与后一组次数之差 i 表示众数组的组距,(1)确定众数所在组(2)采用下面的近似公式计算众数,下限公式:,上限公式:,-62,例:,某厂工人月收入情况如表所示,试计算众数。,-63,解:(1)众数组为700-80

21、0 (2)代入下限公式计算众数,-64,七、四分位数 (quartile),排序后处于25%和75%位置上的值,不受极端值的影响主要用于顺序数据,也可用于数值型数据,但不能用于分类数据,-65,四分位数(位置的确定),原始数据:,分组数据:,-66,数值型数据的四分位数 (9个数据的算例),【例】:9个家庭的人均月收入数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630排 序: 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5 6 7 8 9,-67,数值型数据的四分位数 (10个数据的算例

22、),【例】:10个家庭的人均月收入数据排 序: 660 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5 6 7 8 9 10,-68,八、众数中位数和均值的关系,-69,众数、中位数、均值的特点和应用,众数不受极端值影响具有不惟一性数据分布偏斜程度较大时应用中位数不受极端值影响数据分布偏斜程度较大时应用均值易受极端值影响数学性质优良数据对称分布或接近对称分布时应用,70,2.4 分布离散程度的测度,一、极差二、内距三、方差和标准差四、离散系数,-71,一、极差(range),一组数据的最大值与最小值之差离散程度的最简单测度值易受极端

23、值影响未考虑数据的分布,R = max(xi) - min(xi),计算公式为,-72,二、内距(Inter-Quartile Range,IQR),也称四分位差上四分位数与下四分位数之差 内 距= Q3 Q1反映了中间50%数据的离散程度不受极端值的影响可用于衡量中位数的代表性,-73,三、方差和标准差(Variance and Standard deviation),1. 离散程度的测度值之一2. 最常用的测度值3. 反映了数据的分布反映了各变量值与均值的平均差异根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差,-74,总体方差和标准差 (Populati

24、on variance and Standard deviation),未分组数据:,组距分组数据:,未分组数据:,组距分组数据:,方差的计算公式,标准差的计算公式,-75,样本方差和标准差 (simple variance and standard deviation),未分组数据:,组距分组数据:,未分组数据:,组距分组数据:,方差的计算公式,标准差的计算公式,-76,样本方差自由度(degree of freedom),一组数据中可以自由取值的数据的个数当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值例如,样本有3个数值,即x

25、1=2,x2=4,x3=9,则 x = 5。当 x = 5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差2时,它是2的无偏估计量,-77,四、离散系数(coefficient of variation),1. 标准差与其相应的均值之比2. 对数据相对离散程度的测度3. 消除了数据水平高低和计量单位的影响4. 用于对不同组别数据离散程度的比较5. 计算公式为,-78,离散系数 (例题分析),【 例 】某管理局抽查

26、了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度,-79,离散系数 (例题分析),结论: 计算结果表明,v1v2,说明产品销售额的离散程度小于销售利润的离散程度,80,2.5 分布偏态与峰度的测度,一、偏态及其测度二、峰度及其测度,-81,一、偏态及其测度,偏态是对分布偏斜方向及程度的测度。偏态系数用SK表示计算公式,未分组数据:,已分组数据:,-82,一、偏态及其测度,偏态系数的取值: SK1 高度偏斜程度 SK=0 对称 0.50 右偏 |SK|越接近于0,偏斜程度越小,-83,二、峰度及其测度,峰度是对数据分布平峰或尖峰程度的测度。峰度通常是与标准正态分布相比较

27、而言的。峰度系数用K来表示计算公式,未分组数据:,已分组数据:,-84,二、峰度及其测度,峰度系数的取值: 正态分布时,峰度系数K=0 当K0时,为尖峰分布; K0时,为扁平分布,-85,统计函数,算术平均数:Average几何平均数:Geomean中位数:Median众数:Mode百分位数:Percentile四分位数:Quartile,-86,统计函数,样本方差:Var样本标准差:STDEV总体标准差:STDEVP切尾均值:TRIMMEAN偏态系数:SKEW峰态系数:KURT,-87,用EXCEL进行描述统计分析,-88,课堂练习,1.某工厂2009年7月份50个工人加工的零件登记如下: (1)对数据进行分组(分成10组),并编制次数分配表; (2)根据次数分配表,绘制直方图、折线图; (3)编制向上累计和向下累计频数表,并绘制累计曲线图; (4)计算工人加工零件平均数和标准差; (5)计算工人加工零件数的中位数和众数。,-89,2、银行为吸收存款,逐年提高存款利率,5年各年利率分别为5,6,7,8,10,若本金为1000元。问: (1)按算术平均数计算平均利率,第5年末的实际存款额是多少? (2)按几何平均数计算平均利率,第5年末的实际存款额是多少? (3)哪种方法比较合理,为什么?,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号