《《数据分布特征》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《数据分布特征》PPT课件.ppt(42页珍藏版)》请在三一办公上搜索。
1、第 四 章 数据分布特征的描述,一、均值(mean),(一)概念 均值是反映数据分布集中趋势十分重要的数据,代表总体单位某一标志值的一般水平。(二)特征 1.具有抽象性。2.具有代表性。3.反映总体分布的集中趋势。(三)举例 1.某市中学生每周平均上网时间为21小时。2.某农贸市场2月份牛肉的平均价格为34元/千克。3.某地区“十五”期间经济平均增长率为9.6%。,第 一 节 数据分布集中趋势的测定,(四)均值的种类及计算,1.算术平均数*(1)概念 算术平均数又称平均值,是用一组数据中所有值之和除以该组数据的个数。(我们最熟悉,用途最广,但我们有时却不一定能计算出均值,要学好均值的计算。)(
2、2)基本公式,算术平均数的计算,*简单算术平均数:总体平均数 样本平均数,算术平均数的计算,*加权算术平均数(重点)概念:是对每个数据都根据其在全组中的重要程度赋予一定权重后得到的算术平均数。计算公式:(1)未分组数据 其中,w表示各组的标志总量,而不是各组变量值出现的次数,总体和样本加权算术平均数的公式是相同。(鸡兔同笼问题,15只鸡,20只兔子,平均每只动物有多少条腿),例4-1根据某公司四个品牌数码相机的销售资料计算平均利润率。(P71),表4-1 四个品牌数码相机的利润率和销售额资料,四个品牌数码相机的平均销售利润率为:,分组的加权平均数:根据分组数据计算均值。样本均值的计算公式(难点
3、)总体均值的计算公式:表示各组的变量值(组距式数列的组中值);表示各组变量值出现的频数(即权数)。(算术平均数的不足,P72.),其中,,例4-2根据某电脑公司在各市场上销售量的分组数据,计算电脑销售量的均值。,2.调和平均数,(1)概念:调和平均数又称倒数平均数,是各个变量值倒数的算术平均数的倒数。(调和平均数的特点,P73)(2)计算 简单调和平均数:针对未分组资料。计算公式为:,2.调和平均数,加权调和平均数:针对分组资料。计算公式为:其中:是一种特殊权数,它不是各组变量值出现的次数,表示各组标志总量。即,例4-3根据某商场职工月工资资料计算月平均工资。表4-3某商场职工月工资资料,3.
4、几何平均数,(1)概念:几何平均数(geometric mean)又称对称平均数,它是各变量值乘积的n次方根。(2)计算 基本公式:对数公式:在实际工作中,由于变量个数较多,通常要应用对数来进行计算。即,(3)几何平均数的应用及特点,应用条件 a.变量值是相对数据,如比率或发展速度。b.变量值的连乘积等于总比率或总发展速度。特点 a.如果数列中有一个标志值等于零或负值,则无法计算。b.受极端值影响较小,故较稳健。,例4-4 某电器销售公司20002005年销售量的环比增长率分别为:7.6%、2.5%、0.6、2.7%和2.2%。求这期间销售量的平均增长速度。,表4-4 销售量平均发展速度计算表
5、,几何平均数的计算示例,几何平均数的计算示例,1.采用基本公式计算的销售量平均发展速度为:2.采用对数公式计算的销售量平均发展速度为:所以,销售量的平均增长速度=103.1%-1=3.1%,二、位置平均数,(一)中位数(median)1.概念 中位数是将一组数据项按照数值大小升序或者降序排列后位于中间位置的那个数据,符号为。2.中位数的计算方法(1)未分组数据的中位数 将变量值按升序或降序排列,找中间位置的变量值。(2)单项数列的中位数 计算各组的累计频数(向上累计或向下累计);根据中位数位置确定中位数。,例4-5 计算某公司销售人员月销售冰箱中位数 表4-5 某公司销售人员月销售冰箱中位数计
6、算,中位数的位置,即中位数在累计频数为40的那一组内(向上累计或向下累计均可得出),则。,2.中位数的计算方法,(3)组距数列的中位数:由下列公式近似计算 下限公式,其中:,为总体单位总数;,为中位数组的下限;,为中位数组以下的累计频数;,为中位数组的频数;,为中位数组的组距;,例4-6 求以下组距数列的中位数。,中位数的近似值为:,表4-6 某地区家庭收入分组,中位数的位置在第46(92/2)位,应在第二组,中位数的特点,是一种位置平均数,不受极端值及开口组的影响。对于分配不对称的数据,中位数比平均值更适合当集中趋势的代表值。对某些不具有数字特征或不能用数字测定的现象,可用中位数表示其一般水
7、平。例如,对众多的消费者购买数码相机时,分别对价格、外观、品质的注重程度排序后,可以求出消费者在乎的中位数因素。,二、位置平均数,(二)众数 1.概念 众数(mode)是指在一组数中出现次数最多的那个数值,符号为。2.数据数列的众数分布情况 无众数 如数据数列:13 7 9 12 6 8 一个众数 如数据数列:6 5 9 8 6 6 多个众数 如数据数列:22 35 27 35 27 36,3.众数的计算方法,*品质变量的众数观察次数,出现次数最多的变量值就是众数。例如:企业的所有制结构分布、人口的城乡分布。*数值变量的众数 未分组资料观察次数,出现次数最多的数据就是众数。分组资料(1)单项式
8、数列直接观察,次数最多的组的变量值即为众数。,例4-7单项式变量数列确定众数实例,表4-7 某市居民家庭按家庭人口数分组,由上表可以看出,家庭人口数为3人的家庭数最多,因此本例中家庭人口数的众数为3人。,3.众数的计算方法,组距数列计算众数:由下列公式近似计算:,其中,为众数组与前一组频数之差;,为众数组的下限;,为众数组与后一组频数之差;,为众数组的组距。,例4-8 组距式数列计算众数示例,其众数的近似值为:,表4-8 某地区的人均月收入调查数据,三、均值、中位数和众数的比较,(一)均值、中位数和众数的数量关系 1.当数据呈对称分布时,三者合而为一。2.当数据呈左偏分布时,说明数据存在极小值
9、,必然拉动均值向极小值一方靠,则从左至右依次是均值、中位数和众数。3.当数据呈右偏分布时,说明数据存在极大值,必然拉动均值向极大值一方靠,则从左至右依次是众数、中位数和均值。,三、均值、中位数和众数的比较,(二)均值、众数和中位数的特点及应用场合*均值是对数值型数据的计算,利用了全部数据信息,具有优良的数学性质,是实际中应用最广泛的集中趋势测度值。*中位数是一组数据中间位置上的代表值,其特点是不受数据极端值的影响,主要适合于作为顺序数据的集中趋势测度值。*众数是一组数据分布的峰值,它也是一种位置代表值,不受极端值的影响,主要适合于作为分类数据的集中趋势测度值。(P79),一、极 差,(一)概念
10、:又称全距,是数据中最大值和最小值之差。记为。(二)计算 1.未分组数据的极差为:表示数据的最大值;表示数据的最小值。2.分组数据的极差 极差最大组的上限最小组的下限 若存在开口组,则:最大组的上限前一组的上限组距 最小组的下限下一组的下限组距,其中:,第 二 节 数据分布离散程度的测定,(三)修正极差,1.概念:修正极差(modified range)是去掉极端值后的极差,又称四分位全距(IQR,inter quartile range),是中间50的数据的间距,即数据分布中第25个和第75个百分位数的间距,也即第1个和第3个四分位数的间距。2.公式:其中,Q3表示第3个四分位数,即第75个
11、百分位数;Q1表示第1个四分位数,即第25百分位数。,二、平均差,(一)概念 平均差(mean absolute deviation,MAD)是各数据对平均数的离差绝对值的平均数。(假设有两个球员,五场比赛得分如下,A:8、10、12、13、7;B:2、30、0、11、7。如果你是教练,你选哪个?试计算平均差 和方差。)(二)样本平均差的计算公式 1.未分组数据:2.分组数据:,三、方差和标准差,(一)概念 方差(variance)是各变量值与其均值离差平方的平均数。标准差(standard deviation)是方差的平方根,又称“均方差”。(二)比较与评价 1.其内涵与平均差相似,均为各个
12、数据对其平均数的平均离差。但平均差采用求绝对值消除正负离差,标准差采用平方法消除正负离差,在数学处理上标准差比平均差更为科学合理。2.方差和标准差是测度数值型数据离散程度的最主要的指标。(例:P84),例4-9某电脑公司销售量分组数据如表4-7,计算销售量的方差和标准差(如何计算均值?)表4-7某电脑公司销售量分组数据,(三)总体方差和标准差计算示例,总体方差和标准差计算示例,根据公式计算可知总体均值为:总体方差为:总体标准差为:,例4-10 根据以下资料,计算企业职工平均工资的标准差。(已知平均工资为760元),表4-9 某企业职工工资分组数据表,总体方差和标准差计算示例,总体方差为:总体标
13、准差为:,(四)样本方差和标准差,1.说明 在大多数统计应用中,都针对样本数据来分析总体数量特征。因此通常用样本方差来估计总体方差,用样本标准差来估计总体标准差。2.符号 样本容量用n 表示;样本方差用S2 表示;样本标准差用S 表示。3.计算公式(P86)与总体方差和标准差公式类似,区别在于分母除以n-1。,四、离散系数,(一)概念:离散系数(coefficient of variation)也称变异系数,是一组数据的离散指标的绝对数与其相应的均值之比,是离散指标的相对数形式。(二)表现形式 有全距系数、平均差系数和标准差系数。最常用的是标准差系数。(三)计算公式,总体标准差系数,样本标准差
14、系数,四、离散系数,(四)应用:用于比较不同总体数据分布的离散程度。例题4-11 甲乙企业职工的年均收入分别为20 000元和50 000元,收入的标准差分别为3 000和5 000元,哪家企业职工的收入差距小一些?分析 不同企业的年均收入不同,不能直接比较标准差,只能比较标准差系数。结论 乙企业职工收入差距小于甲企业。,甲企业标准差系数,乙企业标准差系数,一、偏态及其测定,(一)偏态(skewness)是指数据分布的不对称性,其度量值称为偏态系数SK。(二)计算 未分组数据:分组数据:,是样本标准差的三次方。,第 三 节 数据分布偏态与峰态的测定,一、偏态及其测定,(三)偏态系数大小的说明
15、偏态系数 SK 0,说明数据为对称分布。偏态系数 SK 0,说明数据为偏态分布。其中:SK 0 说明数据为正偏(右偏)分布;SK 0 说明数据为负偏(左偏)分布。,二、峰态及其测定,(一)峰态(kurtosis)是指正态分布数据的平峰或尖峰程度,其度量值为峰态系数。(二)峰态通常是与标准正态分布相比较而言的。若数据服从标准正态分布,则峰态系数0。若数据服从非标准正态分布,则峰态系数0。当峰态系数0时为尖峰分布,即比正态分布更尖。当峰态系数0时为平峰分布,即比正态分布偏平。,本章小结,1.数据集中趋势的测定介绍了各种均值、中位数、众数的概念和特点,比较了均值、中位数、众数的特点,重点介绍其计算方法和应用场合。2.数据离散程度的测定介绍了极差、平均差、方差、标准差、离散系数的概念和计算方法。重点是方差、标准差及标准差系数的计算。3.数据偏态与峰态的测定简单介绍了偏态和峰态的基本概念及测定方法。(趣味小语:读史使人明智、读诗使人灵秀、数学使人周密、科学使人精深、伦理学使人庄重),END,