管理统计学马庆国著课件2.ppt

上传人:sccc 文档编号:5385129 上传时间:2023-07-02 格式:PPT 页数:79 大小:1.25MB
返回 下载 相关 举报
管理统计学马庆国著课件2.ppt_第1页
第1页 / 共79页
管理统计学马庆国著课件2.ppt_第2页
第2页 / 共79页
管理统计学马庆国著课件2.ppt_第3页
第3页 / 共79页
管理统计学马庆国著课件2.ppt_第4页
第4页 / 共79页
管理统计学马庆国著课件2.ppt_第5页
第5页 / 共79页
点击查看更多>>
资源描述

《管理统计学马庆国著课件2.ppt》由会员分享,可在线阅读,更多相关《管理统计学马庆国著课件2.ppt(79页珍藏版)》请在三一办公上搜索。

1、第三章 样本数据特征的 初步分析,一、整理样本数据,信息在被操纵或处理后并没有超出其原有的格式,原始数据-,两种整理原始数据的基本方法,2、整理数据-数据阵列,保留了数据的原值,并按数值的升序或降序显示数据。易观察到:,数据集中包含最大观察值和最小观察值,确认在某个数据集中哪些数组具有相同的值,很容易发现各个值之间的差异,3、样本数据结构的基本特征:频次与频率,一、一些基本概念1、频次(频数)在有限的样本数据集合中,同样的数据值(样本值)出现的次数 称为该样本值出现的频次。2、频率 该样本值出现的频次/该数据集合的数据总数。常用表示方法:(1)表;(2)饼图;(3)条形图;,二、样本数据集合的

2、基本特征的延伸:累积频率 当样本数据的测度在顺次级以上时,把样本值小于等于某个样本数据xi的频率值累加起来,就得到“小于等于xi”的累积频率。注:名义级的样本数据集合,不存在累积频率问题。表示法同上。,整理数据-频数分布,将数据值分成几组,显示各组中有多少数值,很容易发现数据的图形特点,无法保留原始数据的值,频数分布,定义,某个变量所有可能值的集合 显示了变量的图形特点,分布,当数据集为小型时,数据之间的变化特点很容易观察出来 随着数据集变为中型或大型,变量的特性一般表现得越来越不明显,定 义,频数分布的类别,频数分布,频数,每一组包含的观察值数目,组,组限,每一组的上限和下限,组宽,上限和下

3、限之间的间距,如何将数据转换成表格?哪些重要或必要的信息应当包括在内?,确定“组数”和“组宽”频数分布一般包括与每组有关的频数、累积频数、相对频数和相对累积频数,频数分布,频数分布,累积频数,相对频数,相对累积频数,显示每组范围内或其下有多少观察值,相对频数描述每组范围内观察值所占的百分比,即每组的频数除以观察值的总数目,显示每组范围内或其下观察值所占的百分比,对于定性变量而言-常常根据变量结果的种类来选择组,例如,为了研究本班100名学生的性别-,频数分布,对于定量变量而言-选择“组数”和“组宽”是主要问题,频数分布,应当遵循哪些基本原则来确定组-,1.各个组之间必须是“相互排斥”的,2.各

4、个组必须将“所有数据均包括在内”,3.组数K 的经验法则 2K n,此处n代表观察值的总数目,4.各组之间的宽度最好相等,但这并不是必要条件。当组宽相等时,W,频数分布,5.应当尽量避免开口组,6.组宽最好是整数,例如,为了研究某班100名学生的身高-我们确定将整个数据分成5组,每组宽度相等,W=10厘米,频数分布,1.一张整理有序的表格可以使数据中隐藏的信息清楚地表现出 来2.有助于采用图形方式来汇总数据 数据集表格不具有唯一性,频数分布,频数分布,以下数据表示一个当地咖啡馆进行的30笔交易,举例,14641534752481671925485769624146352772644851776

5、4515026428338,频数分布,首先-确定“组数”和“组宽”,样本大小 n=3025=32 305 组,最小观察值=14,最大观察值=83,最好采用“整数”W=15,组数,组宽,频数分布,茎叶图形,数据必须按照升序排列 为了构造图形,我们将数值的第一个数字作为茎 茎叶排列使我们可以通过图形来了解数据的分布,茎叶图形,例如,我们想将12个数据转换成一张茎叶图形:4.4 3.6 4.4 3.7 7.6 3.9 3.6 3.5 3.0 4.5 3.8 2.2,2|23|0 5 6 6 7 8 94|4 4 55|6|7|6,茎叶图形,用直观方式显示定量变量,三种最常使用的图形类型-直方图 频数

6、多边形 分布曲线 在构造图形之前,需要用频数分布来显示数据,用直观方式显示定量变量-直方图,应当将数据转换成频数分布表 水平轴代表变量的数值,核对符号代表每一组的中点 垂直轴代表计数频数或百分比频数 每个条形图的高度与每一组的频数或百分比相对应 每个条形图的宽度与每一组的宽度相对应,用直观方式显示定量变量-直方图,例如,我们在本单元中想通过绘制直方图来表示100名学生的身高分布,用直观方式显示定量变量-频数多边形,用线段将各组中点和频数(或相对频数)的交叉点连接起来,就可以得到频数多边形图形,身高.,190.0,180.0,170.0,160.0,150.0,累积计数频数,80,60,40,2

7、0,0,140.0,100,用直观方式显示定量-分布曲线,图形显示了每一组的累积频数或相对累积频数 它可以用“小于”或“大于”来表示,定性变量常常用非数值刻度来测量 对这些变量可以进行分类 可以采用两种最为常见的图形来描述定性变量的分布 饼图 条形图,用直观方式显示定性变量,饼图的圆圈代表了所有观察值的集合 根据定性变量的类型数目将饼图分成几个部分 饼图每一部分的大小与每一类型的相对频数成正比,用直观方式显示定性变量-饼图,例如,我们可以用饼图来描述某班100名学生的性别分布状况,用直观方式显示定性变量-饼图,对于定性变量而言,条形图表示每一类型的百分比或 计数频数 每个条形图的高度代表每一类

8、型的百分比或比例 条形图的宽度没有意义,所有类型的宽度均相同,用直观方式显示定性变量-条形图,例如,我们用条形图来显示某班100名学生的性别分布状况,用直观方式显示定性变量-条形图,SPSS统计软件给我们的工作带来了方便,饼图:图形 饼图 对各组情形进行总结,条形图:图形 条形图 对各组情形进行总结,SPSS统计软件给我们的工作带来了方便,直方图:图形 直方图 选择关心的变量,茎叶图形:分析 描述统计学 寻找 选择绘图选项,集中趋势测度-未分组数据,定义,所有观察值 的平均值,均值,所有观察值中位于最中心位置的那个值,中位数,出现最频繁的数据值,众数,均值-,总体均值,样本均值,集中趋势测度-

9、未分组数据,Kim 测验的平均成绩等于,在此我们可以看到,在汇总Kim的测验成绩时,均值并不能发挥很好的作用。在大多数情况下,Kim的测验成绩低于30分,她只在一次测验中意外地获得了98的高分,因此她的平均成绩被提高到35分。,集中趋势测度-未分组数据,Kim是一名中等学校的学生,她上星期进行了5次测验,成绩分别如下 7,98,25,19,和26,均值对极值表现得非常敏感 如果数据中存在极值(或者说数据分布有所偏斜),那么均值就不能很好地测度集中趋势,集中趋势测度-未分组数据,中位数(Md)-,1.将n个观察值按升序或降序排列 2.如果观察值个数是奇数,则中位数就是位于最中心位置的那个观察值,

10、即数据集中的第 个观察值 3.如果观察值个数是偶数,则中位数就是位于正中心两个观察值的平均值,即数据集中的第 个和第 个观察值的平均值,集中趋势测度-未分组数据,举例:有6名工人组成一个样本,请找出他们每周工资的中位数 151179163142180195,按升序重新排列每周的工资 142151163179180195 最中心位置的两个数值 求这两个数值的平均数 中位数=,集中趋势测度-未分组数据,Kim的5次测验成绩 又如何呢?,Kim成绩的中位数为25,看来中位数能更好地测度Kim测验成绩的中心位置-中位数不受“极值”的影响,集中趋势测度-未分组数据,众数(Mo)-,并不经常用众数来测度中

11、心位置适用于定性变量 众数不具有唯一性,集中趋势测度-未分组数据,集中趋势测度-未分组数据,举例:有6名工人组成一个样本,请找出他们每周工资的众数,151 179 163 142 180 195 不存在 众数,151 180 163 142 180 195 180,142 180 163 142 180 195 142 和180(双峰),对两个旅行团的小孩年龄进行了数据调查,以下是调查结果:-,A组 年龄:14,17,11,10,11,14,9,12,8,10,9,均值,中位数 11,众数 9,10,11 和 14(有4 个众数),集中趋势测度-未分组数据,B组 age:9,14,8,10,1

12、3,7,9,11,16,10,12,9,均值,中位数 10,众数 9,集中趋势测度-未分组数据,均值、中位数和众数之间的关系-,1.对称分布(均值=Md=Mo),均值=Md=Mo,集中趋势测度-未分组数据,均值、中位数和众数之间的关系-,2.倾向左侧(均值 Md Mo),均值,Md,Mo,集中趋势测度-未分组数据,均值、中位数和众数之间的关系-,3.倾向右侧(均值 Md Mo),Md,Mo,均值,集中趋势测度-未分组数据,集中趋势测度-分组数据,为了计算分组数据的均值,计算每一组的中点,假设观察值都落在各组的中点上,总体均值 样本均值,集中趋势测度-分组数据,举例:下列频数分布显示了某家公司5

13、0名工人的每周工资收入,估计每周工资的平均水平,集中趋势测度-分组数据,每周的平均工资,集中趋势测度-分组数据,为了计算分组数据的中位数,计算每一组的累积频数,包括“最中心位置”观察值的那一组就是“中位数组”,LMd:中位数组的下 限,fMd:中位数组的频数,w:中位数组的宽度,c:位于中位数组之前那一组的累积频数,集中趋势测度-分组数据,举例:继续讨论前面的例子,即计算50名工人每周工资收入的中位数,集中趋势测度-分组数据,LMd=169.5,fMd=12,w=10,c=19,中位数组 170 179,每周工资收入的中位数,集中趋势测度-分组数据,为了计算分组数据的众数,出现最频繁的那一组就

14、是“众数组”,LMo:众数组的下限,d1:众数组的频数减去众数组之前那一组的频数,w:众数组的宽度,d2:众数组的频数减去众数组之后那一组的频数,集中趋势测度-分组数据,举例:继续讨论前面的例子,即计算50名工人每周工资收入的众数,集中趋势测度-分组数据,LMo=169.5,w=10,d1=12 9=3,众数组 170 179,每周工资收入的众数,d2=12 9=3,集中趋势测度,举例:,A列数据:55 56 57 58 59 60 61 62 63 64 65均值=Md=Mo=60,B列数据:35 40 45 50 55 60 65 70 75 80 85均值=Md=Mo=60,离中趋势测度

15、-未分组数据,测度离中趋势最常用的三种方法-,1.全距,2.标准差(SD),3.变异系数(CV),离中趋势测度-未分组数据,全距=最大观察值 最小观察值,全距有两个主要缺点-,1.对数据集中的极值显得非常敏感 2.忽略了位于最大观察值与最小观察值之间的数据是如何分布的,定义,离中趋势测度-未分组数据,离中趋势测度-未分组数据,举例:有5名工人组成一个样本,请找出他们每周工资的全距 151179163142180,X最大值=180X最小值=142,全距=180 142=38,标准差可以让我们大致了解数据值距离均值有多远,定义,标准差,离中趋势测度-未分组数据,总体标准差,样本标准差,s,离中趋势

16、测度-未分组数据,计算标准差的其他公式,总体标准差:,样本标准差:,离中趋势测度-未分组数据,举例:有5名工人组成一个总体,请找出他们每周工资的标准差 151179163142180,X,X,-m,(,X,-m,),2,151,-,12,144,179,16,256,163,0,0,142,-,21,441,180,17,289,S,X=815,S,(,X,-m,),2,=1130,数据分布的经验法则-,当数据集接近对称分布时,则大约,68.3%的数据落在均值的1倍标准差范围内 95.5%的数据落在均值的2倍标准差范围内 99.7 5%的数据落在均值的3倍标准差范围内,离中趋势测度-未分组数据

17、,测量数据相对于均值的离中趋势,定义,变异系数(CV),离中趋势测度-未分组数据,?什么时候采用变异系数(CV)来测度离中趋势?,比较具有不同单位的数据集 比较具有不同幅度的数据集,离中趋势测度-未分组数据,举例:,例如,我们想比较1993年2月至1994年1月期间黄金和锌块的价格波动情况,我们收集了价格数据并得出如下计算结果:,黄金:,锌块:,每盎司,每磅,离中趋势测度-未分组数据,CV表示每种商品相对于其自身平均价格的波动幅度:,黄金:,锌块:,离中趋势测度-未分组数据,离中趋势测度-分组数据,为了计算分组数据的标准差,计算每一组的中点,假设观察值都落在各组的中点上,总体标准差 样本标准差

18、,离中趋势测度-分组数据,总体标准差,样本标准差,计算标准差的其他公式,离中趋势测度-分组数据,举例:计算工人每周工资的总体标准差-,离中趋势测度-分组数据,每周工资,收入,工人人数,(,f,),中点,(,x,),(x,-m,),(x,-m,),2,f(x,-m,),2,140,149,4,144.5,-29.8,888.04,3552.16,150,159,6,154.5,-19.8,392.04,2352.24,160,169,9,164.5,-9.8,96.04,864.36,170,179,12,174.5,-0.2,0.04,0.48,180,189,9,184.5,-10.2,10

19、4.04,936.36,190,199,7,19,4.5,20.2,408.05,2856.28,200,209,3,204.5,30.2,912.04,2736.12,N,=,S,f,=50,S,f(x,-m,),2,=13298,总体标准差,离中趋势测度-分组数据,举例:计算工人每周工资的样本标准差,离中趋势测度-分组数据,每周工资,收入,工人人数,(,f,),中点,(,x,),(x,-,),(x,-,),2,f(x,-,),2,140,149,4,144.5,-29.8,888.04,3552.16,150,159,6,154.5,-19.8,392.04,2352.24,160,169

20、,9,164.5,-9.8,96.04,864.36,170,179,12,174.5,-0.2,0.04,0.48,180,189,9,184.5,-10.2,104.04,936.36,190,199,7,19,4.5,20.2,408.05,2856.28,200,209,3,204.5,30.2,912.04,2736.12,N,=,S,f,=50,S,f(x,-m,),2,=13298,样本标准差,样本数据的离散特征1、四分点 下四分点:把排序后的样本数据集合,分成左右两部分,使左边部分包含25%的样本总个数,使右边包含75%的样本总个数。上四分点:把排序后的样本数据集合,分成左右两

21、部分,使左边部分包含75%的样本总个数,使右边包含25%的样本总个数。2、十分点 下十分点:把排序后的样本数据集合,分成左右两部分,使左边部分包含10%的样本总个数,使右边包含 90%的样本总个数。,上十分点:把排序后的样本数据集合,分成左右两部分,使左边部分包含 90%的样本总个数,使右边包含10%的样本总个数。,样本数据离散特征的区间描述:极差(R):R=极大值-极小值 四分位距(Iqr):Iqr=上四分点 下四分点 离差:每个样本值与样本均值之差。离差平方和:(略)。离散状况的统计值描述:样本方差样本数据特征的综合表达:箱体图,箱体图基本结构,刻度尺,极差,极小值,极大值,下四分点,中位数,上四分点,四分位距,SPSS统计软件给我们的工作带来了方便,数值汇总:分析 描述统计学 频数 选择统计选项,注意,我们可以使用“样本”数据来计算标准差 2.SPSS 输出结果中不包含 CV,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 建筑/施工/环境 > 农业报告


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号