《商务与经济统计学.ppt》由会员分享,可在线阅读,更多相关《商务与经济统计学.ppt(73页珍藏版)》请在三一办公上搜索。
1、第3 讲 统计描述的数值方法,案例-SMALL FRY DESIGN公司,Small Fry Design公司成立于1997年,是一家设计和进口婴儿用品的公司,主要经营玩具和附属用品。公司产品包括泰德熊、玩具汽车、音乐玩具等,公司特长是设计强调颜色、材质和声音高质量的柔软玩具。公司的产品在美国设计,而在中国生产。在这个公司的日常运营中,现金流量管理是最重要的经营活动之一。现金流量管理的一个关键因素是对应收账款的分析和控制。通过度量未付款发票的平均帐龄和价值,经理能够预测可用现金和监视应收账款状态的变化。公司设置的目标是:未付款发票的平均帐龄不应超过45天,超过60天的未付款发票的价值不应超过所
2、有应收账款价值的5%。,案例-SMALL FRY DESIGN公司,在最近对应收账款的总结中,使用了下列描述性统计两来衡量未付款发票的帐龄:均值-40天中位数-35天众数-31天对这些统计量的解释表明,一张发票的平均帐龄是40天;而中位数显示一半的发票已经超过35天没有付账;31天的众数表示最高频率的发票帐龄,即一张未付款发票的最普通时间长度是31天。统计汇总还显示出应收账款总价值中只有3%超过了60天。基于这些统计信息,管理者可以感到满意,因为应收账款和收入现金流都处于控制之下。,未付款发票的平均帐龄不应超过45天,超过60天的未付款发票的价值不应超过所有应收账款价值的5%。,一 集中趋势的
3、定量描述 二 离散程度的定量描述三 偏态与峰度的测度,统计描述的数值方法,学习目标,1.集中趋势各测度值的计算方法2.集中趋势不同测度值的特点和应用场合3.离散程度各测度值的计算方法4.离散程度不同测度值的特点和应用场合5.偏态与峰度测度方法6.用SPSS(或Excel)计算描述统计量并进行分析,数据分布的特征,数据分布的特征和测度,第1节 集中趋势的定量描述,一.定类数据:众数二.定序数据:中位数和分位数三.定距和定比数据:均值四.众数、中位数和均值的比较,集中趋势(Central tendency),一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据一般水平的代表值或中心值不同类型
4、的数据用不同的集中趋势测度值低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定,众数(概念要点),集中趋势的测度值之一出现次数最多的变量值不受极端值的影响可能没有众数或有几个众数主要用于定类数据,也可用于定序数据和数值型数据,众数(Mode)(众数的不唯一性),无众数原始数据:10 5 9 12 6 8,一个众数原始数据:6 5 9 8 5 5,多于一个众数原始数据:25 28 28 36 42 42,定类数据的众数(算例),【例3.1】根据第2讲表2-1中的数据,计
5、算众数,解:这里的变量为“广告类型”,这是个定类变量,不同类型的广告就是变量值。我们看到,在所调查的200人当中,关注商品广告的人数最多,为112人,占总被调查人数的56%,因此众数为“商品广告”这一类别,即 Mo商品广告,定序数据的众数(算例),【例3.2】根据第2讲表2-2中的数据,计算众数,解:这里的数据为定序数据。变量为“回答类别”。甲城市中对该冰箱表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即 Mo不满意,数值型分组数据的众数(要点及计算公式),1.众数的值与相邻两组频数的分布有关,2.相邻两组的频数相等时,众数组的组中值即为众数,3.相邻两组的频数不相等时,众数
6、采用下列近似公式计算,4.该公式假定众数组的频数在众数组内均匀分布,L:频数最高所在组区间下限f:频数最高所在组的频数i:频数最高所在组的组距f-1:前一组的频数;f+1:后一组的频数,数值型分组数据的众数(算例),【例3.3】根据第2讲中的数据,计算50名工人日加工零件数的众数,定序数据:中位数和分位数,中位数(Median)(概念要点),1.集中趋势的测度值之一2.排序后处于中间位置上的值,不受极端值的影响主要用于定序数据,也可用数值型数据,但不能用于定类数据各变量值与中位数的离差绝对值之和最小,即,中位数,分组数据:,未分组数据:,定序数据的中位数(算例),【例3.4】根据第2讲表2-2
7、中的数据,计算甲城市用户对冰箱使用满意状况评价的中位数,解:中位数的位置为:300/2150从累计频数看,中位数的在“一般”这一组别中。因此 Me一般,数值型未分组数据的中位数(5个数据的算例),原始数据:24 22 21 26 20排 序:20 21 22 24 26位 置:1 2 3 4 5,中位数 22,数值型未分组数据的中位数(6个数据的算例),原始数据:10 5 9 12 6 8排 序:5 6 8 9 10 12位 置:1 2 3 4 5 6,数值型分组数据的中位数(要点及计算公式),根据位置公式确定中位数所在的组采用下列近似公式计算:,N:数据总数L:中位数所在组区间下限Sm-1:
8、中位数以前的累积频数i:中位数所在组的组距fm:中位数所在组的频数,该公式假定中位数组的频数在该组内均匀分布,数值型分组数据的中位数(算例),【例3.5】根据第2讲表2-5中的数据,计算50 名工人日加工零件数的中位数,N:数据总数L:中位数所在组区间下限Sm-1:中位数以前的累积频数i:中位数所在组的组距fm:中位数所在组的频数,四分位数(概念要点),1.集中趋势的测度值之一2.排序后处于25%和75%位置上的值,3.不受极端值的影响4.主要用于定序数据,也可用于数值型数据,但不能用于定类数据,四分位数(位置的确定),定距和定比数据:均值,均值(Mean)(概念要点),1.集中趋势的测度值之
9、一2.最常用的测度值3.一组数据的均衡点所在4.易受极端值的影响5.用于数值型数据,不能用于定类数据和定序数据,均值(计算公式),设一组数据为:X1,X2,XN 简单均值的计算公式为,设分组后的数据为:X1,X2,XK 相应的频数为:F1,F2,FK加权均值的计算公式为,调和平均数(概念要点),1.集中趋势的测度值之一2.均值的另一种表现形式3.易受极端值的影响4.用于定比数据5.不能用于定类数据和定序数据6.计算公式为,原来只是计算时使用了不同的数据!,调和平均数(算例),【例3.9】某蔬菜批发市场三种蔬菜的日成交数据如表3-9,计算三种蔬菜该日的平均批发价格,几何平均数(概念要点),1.集
10、中趋势的测度值之一2.N 个变量值乘积的 N 次方根3.适用于特殊的数据4.主要用于计算平均发展速度5.计算公式为,6.可看作是均值的一种变形,几何平均数(算例),【例3.10】一位投资者持有一种股票,1996年、1997年、1998年和1999年收益率分别为4.5%、2.0%、3.5%、5.4%。计算该投资者在这四年内的平均收益率。,平均收益率103.84%-1=3.84%,众数、中位数和均值的比较,众数、中位数和均值的关系,均值、中位数、众数哪个好?,均值:(1)使用目标是描述一组数据的中心位置,通常是人们首选的统计量(2)数据类型:数值型数据(3)缺点是对异常观测值敏感中位数:(1)使用
11、目标:描述一组数据的中心位置(2)数据类型:定序数据(3)不像均值那样对异常观测值敏感,有些情况下比均值更好:例:统计课考完后,你最想知道的信息有哪些?比较各班的成绩用均值和中位数哪个更好一些?众数:一般不用来描述数据组的中心位置,数据类型与集中趋势测度值,第1节 集中趋势的定量描述,一.定类数据:众数二.定序数据:中位数和分位数三.定距和定比数据:均值四.众数、中位数和均值的比较,第2节 离散程度(变异性)的定量描述,一.定类数据:异众比率二.定序数据:四分位差三.定距和定比数据:方差及标准差四.相对离散程度:离散系数,离中趋势,数据分布的另一个重要特征离中趋势的各测度值是对数据离散程度所作
12、的描述反映各变量值远离其中心值的程度,因此也称为离中趋势从另一个侧面说明了集中趋势测度值的代表程度不同类型的数据有不同的离散程度测度值,数据的特征和测度(本节位置),定序数据:四分位差,四分位差(概念要点),1.离散程度的测度值之一2.也称为内距或四分间距3.上四分位数与下四分位数之差 QD=QU-QL4.反映了中间50%数据的离散程度5.不受极端值的影响6.用于衡量中位数的代表性,四分位差(定序数据的算例),【例3.12】根据第2讲表2-2中的数据,计算甲城市家庭对住房满意状况评价的四分位差,解:设非常不满意为1,不满意为2,一般为3,满意为 4,非常满意为5 已知 QL=不满意=2,QU=
13、一般=3四分位差:QD=QU=QL=3 2=1,四分位差与箱线图(案例),在国外许多快餐店开设汽车窗口,为司机和乘客提供便利服务。为了研究测量这种服务的便利性,快餐店协会组织了一项研究,对5个快餐店分别抽取驾车顾客组成样本,并记录顾客花费的时间(秒),并利用箱线图作出分析说明。,快餐店A,四分位差与箱线图(案例),快餐店B,快餐店C,四分位差与箱线图(案例),快餐店D,如何解释?,快餐店B的看起来最短而且最稳定,D的服务时间更具有变异性,A最慢,A和B 对称性较强,C和D 右偏,四分位差与箱线图(案例),快餐店D,快餐店B的看起来最短而且最稳定,D的服务时间更具有变异性,A最慢,A和B 对称性
14、较强,C和D 右偏,如何绘制箱线图,1.根据上下四分位数画一个方盒。2.在方盒中中位数位置画一条线。3.利用四分位间距设定上下界限,确定异常值。4.在方盒的两边分别画虚线,直至上下界限内的最大值和最小值。5.标注出异常值。根据以下数据画箱线图:5,15,18,10,8,12,16,10,6,定距和定比数据:极差、方差和标准差,极差(全距 Range)(概念要点及计算公式),1.一组数据的最大值与最小值之差2.离散程度的最简单测度值3.易受极端值影响4.未考虑数据的分布,5.计算公式为,未分组数据 R=max(Xi)-min(Xi),方差(Variance)和标准差(概念要点),1.离散程度的测
15、度值之一2.最常用的测度值3.反映了数据的分布4.反映了各变量值与均值的平均差异5.根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差,总体方差和标准差(计算公式),未分组数据:,组距分组数据:,未分组数据:,组距分组数据:,方差,标准差,注意分组数据的计算,总体标准差(Standard deviation)计算过程及结果,【例3.14】根据下表数据,计算工人日加工零件数的标准差,样本方差和标准差(计算公式),未分组数据:,组距分组数据:,未分组数据:,组距分组数据:,方差的计算公式,标准差的计算公式,注意:样本方差用自由度n-1去除!,样本方差(案例),高尔夫
16、装备制造商要研究改进后球棒对提高高尔夫球手的稳定性是否有作用?稳定性的测量:击球距离的标准差数据的收集:采用实验的方法,让一位高尔夫选手用改进前和改进后的球棒个击球75次,记录击球距离,相对离散程度:离散系数,离散系数(变异系数)(概念要点和计算公式),1.标准差与其相应的均值之比2.消除了数据水平高低和计量单位的影响3.测度了数据的相对离散程度4.用于对不同组别数据离散程度的比较5.计算公式为,离散系数(实例和计算过程),【例3.16】某管理局抽查了所属的8家企业,其产品销售数据如表3-16。试比较产品销售额与销售利润的离散程度,离散系数(计算结果),结论:计算结果表明,V1V2,说明产品销
17、售额的离散程度小于销售利润的离散程度,数据类型与离散程度测度值,偏态与峰度的测度,一.偏态及其测度二.峰度及其测度,数据的特征和测度(本节位置),偏态与峰度分布的形状,峰度,偏态,偏态(Skewness)(概念要点),1.数据分布偏斜程度的测度2.偏态系数=0为对称分布3.偏态系数 0为右偏分布4.偏态系数 0为左偏分布5.计算公式为,偏态(实例),【例3.17】已知1997年我国农村居民家庭按纯收入分组的有关数据如表3-18。试计算偏态系数,偏态与峰度(从直方图上观察到什么?),请与现在的情形对比,农村居民家庭村收入数据的直方图,按纯收入分组(元),结论:1.为右偏分布 2.峰度适中,偏态系
18、数(计算过程),偏态系数(计算结果),根据上表数据计算得,将计算结果代入公式得,结论:偏态系数为正值,而且数值较大,说明农村居民家庭纯收入的分布为右偏分布,即收入较少的家庭占据多数,而收入较高的家庭则占少数,而且偏斜的程度较大,峰 度,峰度(Kurtosis)(概念要点),1.数据分布扁平程度的测度2.峰度系数=3为扁平程度适中3.偏态系数3为尖峰分布5.计算公式为,峰度系数系数(实例计算结果),代入公式得,【例3.18】根据表4-10中的计算结果,计算农村居民家庭纯收入分布的峰度系数,结论:由于=3.43,说明我国农村居民家庭纯收入的分布为尖峰分布,说明低收入家庭占有较大的比重,小结,1.集中趋势各测度值的含义、计算方法、特点和应用场合2.离散程度各测度值的含义、计算方法、特点和应用场合3.偏态及峰度的测度方法4.用Excel计算描述统计量,结 束,