《数据的概括性度量 (2).ppt》由会员分享,可在线阅读,更多相关《数据的概括性度量 (2).ppt(123页珍藏版)》请在三一办公上搜索。
1、用统计量描述数据,第一节 水平的度量 第二节 差异的度量第三节 分布形状的度量,学习目标,1.水平的度量各测度值的计算方法2.水平的度量不同测度值的特点和应用场合3.差异的度量各测度值的计算方法4.差异的度量不同测度值的特点和应用场合5.分布形状的度量方法6.用Excel计算描述统计量并进行分析,数据分布的特征,数据分布的特征和测度,第一节 水平的度量,一.分类数据:众数二.顺序数据:中位数和分位数三.数值型数据:均值四.众数、中位数和均值的比较,数据特征分布的和测度(本节位置),水平的度量集中趋势,一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据一般水平的代表值或中心值不同类型的数
2、据用不同的集中趋势测度值,一、分类数据:众数(Mode),众数,集中趋势的测度值之一出现次数最多的变量值不受极端值的影响可能没有众数或有几个众数主要用于分类数据,也可用于顺序数据和数值型数据,Types of Mode 众数的种类,No mode无众数data:10 5 9 12 6 8Mode:一个众数data:6 5 9 8 5 5Bimodal:双众数data:25 28 28 36 42 42Multimodal:多众数 data:32 32 32 33 34 34 34 35 36 36 36,The modal class众数组,For large data sets the mo
3、dal class is much more relevant than the a single-value mode.对于大的数据集来说,众数组比单个众数更合适。,有时众数是一个合适的代表值,比如在服装行业中,生产商、批发商和零售商在做有关生产或存货的决策时,更感兴趣的是最普遍的尺寸而不是平均尺寸。,分类数据的众数,【例】计算众数,解:这里的变量为“饮料类型”,这是个分类变量,不同类型的饮料就是变量值。我们看到,在所调查的50人当中,喝“碳酸饮料”的人数最多,为15人,占总被调查人数的30%,因此众数为“碳酸饮料”这一品牌,即 Mo碳酸饮料,顺序数据的众数,【例】计算众数,解:这里的数据为
4、顺序数据。变量为“回答类别”。甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即 Mo不满意,数值型分组数据的众数,1.众数的值与相邻两组频数的分布有关,4.该公式假定众数组的频数在众数组内均匀分布,2.相邻两组的频数相等时,众数组的组中值即为众数,3.相邻两组的频数不相等时,众数采用下列近似公式计算,117 122 124 129 139 107 117 130 122 125108 131 125 117 122 133 126 122 118 108110 118 123 126 133 134 127 123 118 112112 134 127 123
5、119 113 120 123 127 135137 114 120 128 124 115 139 128 124 121,【例】某生产车间50名工人日加工零件数如下(单位:个)。试采用单变量值对数据进行分组。,数值型分组数据的众数,数值型分组数据的众数,【例】计算50名工人日加工零件数的众数,二、顺序数据:中位数和分位数,中位数 median,集中趋势的测度值之一排序后处于中间位置上的值,不受极端值的影响主要用于顺序数据,也可用数值型数据,但不能用于定类数据各变量值与中位数的离差绝对值之和最小,即,中位数(位置的确定),未分组数据:,组距分组数据:,未分组数据的中位数(计算公式),顺序数据
6、的中位数,【例】计算甲城市家庭对住房满意状况评价的中位数,解:中位数的位置为:300/2150从累计频数看,中位数的在“一般”这一组别中。因此 Me一般,数值型未分组数据的中位数(5个数据的算例),原始数据:24 22 21 26 20排 序:20 21 22 24 26位 置:1 2 3 4 5,中位数 22,数值型未分组数据的中位数(6个数据的算例),原始数据:10 5 9 12 6 8排 序:5 6 8 9 10 12位 置:1 2 3 4 5 6,根据位置公式确定中位数所在的组采用下列近似公式计算:,3.该公式假定中位数组的频数在该组内均匀分布,数值型分组数据的中位数,数值型分组数据的
7、中位数,【例】计算50 名工人日加工零件数的中位数,四分位数(Quartiles),1.集中趋势的测度值之一2.排序后处于25%和75%位置上的值,3.不受极端值的影响4.主要用于定序数据,也可用于数值型数据,但不能用于定类数据,四分位数(位置的确定),未分组数据:,组距分组数据:,顺序数据的四分位数,【例】计算甲城市家庭对住房满意状况评价的四分位数,解:下四分位数(QL)的位置为:QL位置(300)/475 上四分位数(QL)的位置为:QU位置(3300)/4225从累计频数看,QL在“不满意”这一组别中;QU在“一般”这一组别中。因此 QL 不满意 QU 一般,数值型未分组数据的四分位数(
8、7个数据的算例),原始数据:23 21 30 32 28 25 26排 序:21 23 25 26 28 30 32位 置:1 2 3 4 5 6 7,N+1,QL=23,QU=30,数值型未分组数据的四分位数(6个数据的算例),原始数据:23 2130 28 25 26排 序:21 23 25 26 28 30位 置:1 2 34 5 6,QL=21+0.75(23-21)=22.5,QU=28+0.25(30-28)=28.5,数值型分组数据的四分位数(计算公式),下四分位数:,数值型分组数据的四分位数,QL位置50/412.5,QU位置350/437.5,【例】计算50 名工人日加工零件
9、数的四分位数,一名统计学家遇到一位数学家,统计学家调侃数学家说道:“你们不是说若且,则吗!那么想必你若是喜欢一个女孩,那么那个女孩喜欢的男孩你也会喜欢喽!?”数学家想了一下反问道:“那么你把左手放到一锅一百度的开水中,右手放到一锅零度的冰水里想来也没事吧!因为它们平均的温度不过是五十度而已!”,统计学家与数学家,如果你的脚已经踩在炉子上,而头却在冰箱里,统计学家会告诉你,平均而言,你相当舒服。,调侃统计学家,三、定距和定比数据(数值型数据):均值(Mean),均值,1.集中趋势的测度值之一2.最常用的测度值3.一组数据的均衡点所在4.易受极端值的影响5.用于数值型数据,不能用于定类数据和定序数
10、据,均值(计算公式),设一组数据为:x1,x2,xN 简单均值的计算公式为,设分组后的数据为:M1,M2,MN相应的频数为:f1,f2,fN加权均值的计算公式为,简单均值 Simple Mean,原始数据:10591368,加权均值(Weighted Mean),【例】计算电脑销售额的平均数见Excel,权数与加权,权数与加权,权数与加权,权数与加权,权数与加权,算术平均数的计算取决于变量值和权数的共同作用:变量值决定平均数的范围;权数则决定平均数的位置,均值(数学性质),1.各变量值与均值的离差之和等于零,2.各变量值与均值的离差平方和最小,离差的概念,-1,-1,-2,1,3,调和平均数(
11、Harmonic Mean),1.集中趋势的测度值之一2.均值的另一种表现形式3.易受极端值的影响4.不能用于定类数据和定序数据,原来只是计算时使用了不同的数据!,例:小王早上买了3元钱的菜,1元的白菜,1元的芹菜、1元的菠菜,其中白菜0.5元/斤,菠菜0.8元/斤,芹菜0.9元/斤,问平均每斤的价格?,解:,解:,例:晚上白菜0.3元/斤,菠菜0.5元/斤,芹菜0.6元/斤,小王买了2元白菜,3元菠菜,4元芹菜,问平均每斤菜的价格?,【例】设X=(2,4,6,8),则计算其调和平均数,是总体各单位标志值倒数的算术平均数的倒数,又叫倒数平均数,调和平均数,A.简单调和平均数,适用于总体资料未经
12、分组整理、尚为原始资料的情况,调和平均数的计算方法,B.加权调和平均数,适用于总体资料经过分组整理形成变量数列的情况,调和平均数的计算方法,当己知各组变量值和标志总量时,作为算术平均数的变形使用。,调和平均数的应用,若只知 x 和xf,而f 未知,则不能使用加权算术平均方式,只能使用其变形即加权调和平均方式。,苹果 单价 购买量 总金额 品种(元)(公斤)(元)红富士 2 3 6青香蕉 1.8 5 9,计算该企业该日全部工人的平均日产量。,调和平均数的应用,几何平均数(Geometric Mean),1.集中趋势的测度值之一2.N 个变量值乘积的 N 次方根3.适用于特殊的数据4.主要用于计算
13、平均发展速度5.计算公式为,6.可看作是均值的一种变形,几何平均数,【例】一位投资者持有一种股票,2005年、2006年、2007年和2008年收益率分别为4.5%、2.0%、3.5%、5.4%。计算该投资者在这四年内的平均收益率。,平均收益率103.84%-1=3.84%,【例】某金融机构以复利计息。近12年来的年利率有4年为3,2年为5,2年为8,3年为10,1年为15。求平均年利率。,数值平均数均源于一个通式,四、众数、中位数和均值的比较,众数、中位数和均值的关系,众数、中位数、平均数的特点和应用,众数不受极端值影响具有不惟一性数据分布偏斜程度较大时应用中位数不受极端值影响数据分布偏斜程
14、度较大时应用平均数易受极端值影响数学性质优良数据对称分布或接近对称分布时应用,数据类型与集中趋势测度值,第二节 差异的度量,一.分类数据:异众比率二.顺序数据:四分位差三.数值型数据:方差及标准差四.相对离散程度:离散系数,差异的度量(离散程度)(离中趋势),数据分布的另一个重要特征离中趋势的各测度值是对数据离散程度所作的描述反映各变量值远离其中心值的程度,因此也称为离中趋势从另一个侧面说明了集中趋势测度值的代表程度不同类型的数据有不同的离散程度测度值,数据的特征和测度(本节位置),一、分类数据:异众比率,异众比率(Variation Ratio),1.离散程度的测度值之一2.非众数组的频数占
15、总频数的比率3.计算公式为,4.用于衡量众数的代表性,fm众数组频数,异众比率(算例),【例】见Excel(分类数据的众数)计算异众比率,二、顺序数据:四分位差 Quartile Deviation,四分位差,1.离散程度的测度值之一2.也称为内距或四分间距3.上四分位数与下四分位数之差 QD=QU-QL4.反映了中间50%数据的离散程度5.不受极端值的影响6.用于衡量中位数的代表性,四分位差,【例】计算甲城市家庭对住房满意状况评价的四分位差,解:设非常不满意为1,不满意为2,一般为3,满意为 4,非常满意为5 已知 QL=不满意=2,QU=一般=3四分位差:QD=QU=QL=3 2=1,三、
16、定距和定比数据(数值型):方差和标准差,极差(Range),1.一组数据的最大值与最小值之差2.离散程度的最简单测度值3.易受极端值影响4.未考虑数据的分布,未分组数据 R=max(Xi)-min(Xi),5.计算公式为,平均差(Mean Deviation),1.离散程度的测度值之一2.各变量值与其均值离差绝对值的平均数3.能全面反映一组数据的离散程度4.数学性质较差,实际中应用较少,5.计算公式为,未分组数据,组距分组数据,平均差,【例】计算电脑销售量的平均数,方差和标准差(Variance and standard deviation),1.离散程度的测度值之一2.最常用的测度值3.反映
17、了数据的分布反映了各变量值与均值的平均差异根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差,总体方差和标准差(计算公式),未分组数据:,组距分组数据:,未分组数据:,组距分组数据:,方差的计算公式,标准差的计算公式,总体标准差,【例】计算电脑销售量的标准差,样本方差和标准差(计算公式),未分组数据:,组距分组数据:,未分组数据:,组距分组数据:,方差的计算公式,标准差的计算公式,样本方差自由度(degree of freedom),一组数据中可以自由取值的数据的个数当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据
18、则不能自由取值例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x=5。当 x=5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差2时,它是2的无偏估计量,样本方差,原始数据:10 5 9 13 6 8,样本标准差,样本标准差,原始数据:10 5 9 13 6 8,方差(简化计算公式),样本方差,总体方差,方差,各变量值对均值的方差小于对任意值的方差设X0为不等于X 的任意数,D2为对X0的方差,则,标
19、准化值,1.也称标准分数2.给出某一个值在一组数据中的相对位置3.可用于判断一组数据是否有离群点4.用于对变量的标准化处理5.计算公式为,标准分数(例题分析),Indicate that x1 is 0.695 standard deviations greater than the sample mean.表示家庭人均收入与平均数相比高0.695个标准差。,Indicate that x2 is 1.042 standard deviations less than the sample mean.表示家庭人均收入与平均数相比低1.042个标准差。,Observations in two d
20、ifferent data sets with the same standard score can be said to have the same relative location in terms of being the same number of standard deviations from the mean.两个不同的数据集若标准分数相同,则表明它们有相同的相对位置。,标准分数没有改变一个数据在该组数据中的位置,也没有改变该组数据分布的形状,只是使该组数据的均值为0,标准差为1。,Standard score,The empirical rule can be used
21、to determine the percentage of data values that must be within a specified number of standard deviation of the mean.经验法则用于确定在特定的平均数与标准差的范围内数据所占的百分比。,Empirical Rule经验法则,经验法则用于确定在特定的平均数与标准差的范围内数据所占的百分比。如果一组数据对称分布时,约有68%的数据在平均数加减1个标准差的范围内。约有95%的数据在平均数加减1个标准差的范围内。约有99%的数据在平均数加减1个标准差的范围内。,Empirical Rule经
22、验法则,The measurements falling out of 3 are called the Outlier.落在3个标准差以外的数据称为异常值。,The Interval 用区间表示,m-3s,m-2s,m-1s,m,m+1s,m+2s,m+3s,Outlier,Outlier,Chebyshevs theorem:For any set of observations,the minimum proportion of the values that lie within k standard deviations of the mean is at least:对任意分布形态
23、的数据,落在k个标准差之内的数据至少有:where k is any constant greater than 1.K是大于1的常数。,Chebyshevs Theorem切比雪夫定理,相对离散程度:离散系数 Coefficient of Variation,离散系数(概念要点和计算公式),1.标准差与其相应的均值之比2.消除了数据水平高低和计量单位的影响3.测度了数据的相对离散程度4.用于对不同组别数据离散程度的比较5.计算公式为,离散系数(实例和计算过程),【例4.14】某管理局抽查了所属的8家企业,其产品销售数据如表4.7。试比较产品销售额与销售利润的离散程度,离散系数(计算结果),结
24、论:计算结果表明,V1V2,说明产品销售额的离散程度小于销售利润的离散程度,数据类型与离散程度测度值,第三节 分布形状的度量,一.偏态及其测度二.峰度及其测度,数据的特征和测度(本节位置),偏 态,偏态与峰度分布的形状,偏态,峰度,偏态(Skewness),1.数据分布偏斜程度的测度2.偏态系数=0为对称分布3.偏态系数 0为右偏分布4.偏态系数 0为左偏分布5.计算公式为,偏态(实例),【例4.17】已知1997年我国农村居民家庭按纯收入分组的有关数据如表4.9。试计算偏态系数,农村居民家庭村收入数据的直方图,偏态与峰度(从直方图上观察),按纯收入分组(元),结论:1.为右偏分布 2.峰度适
25、中,偏态系数(计算过程),偏态系数(计算结果),根据上表数据计算得,将计算结果代入公式得,结论:偏态系数为正值,而且数值较大,说明农村居民家庭纯收入的分布为右偏分布,即收入较少的家庭占据多数,而收入较高的家庭则占少数,而且偏斜的程度较大,峰 度,峰度(概念要点),1.数据分布扁平程度的测度2.峰度系数=3扁平程度适中3.偏态系数3为尖峰分布5.计算公式为,峰度系数系数(实例计算结果),代入公式得,【例4.18】根据表4-10中的计算结果,计算农村居民家庭纯收入分布的峰度系数,结论:由于=3.43,说明我国农村居民家庭纯收入的分布为尖峰分布,说明低收入家庭占有较大的比重,由Excel输出的描述统
26、计量,本章小节,1.集中趋势各测度值的含义、计算方法、特点和应用场合2.离散程度各测度值的含义、计算方法、特点和应用场合偏态及峰度的测度方法用Excel计算描述统计量,结 束,Case 1:“Old Faithful”间歇喷泉的喷发,间歇喷泉是一种向空中喷出热水和热气的温泉,其名字的由来是因为这种喷泉要经过一段相对稳定的状态后才能喷发。有时它喷射的时间间隔不太稳定。Ohio(俄亥俄)州黄石国家公园中的“Old Faithful”间歇喷泉是世界上最著名的间歇喷泉之一。参观者们都希望到公园后不用等多久就能看到喷泉的喷发。国家公园的服务部门就在喷泉处安装了一个指示牌预报下次喷泉喷发的时间如下表所示。
27、,Case Study,“Old Faithful”间歇喷泉喷发时间表,那么,公园是如何得到这个结果的呢?为了了解喷泉喷发间隔时间的规律,以1978年8月至1979年8月间喷泉222次喷发)的间隔时间记录为样本(见上表)进行分析。,将EXCEL所得的直方图进行修饰,便得到下图:从图中可以看出,喷泉喷发的间隔时间一般在40100分钟内变动。但是,在数据中明显地存在两个子群,它们的中心大约分别在喷发间隔55分钟和80分钟,这样在图形中间形成一个缺口。然而我们利用描述统计分析工具所得的结果与此便大不一样。,“Old Faithfaul”喷泉间隔时间描述统计表,(表一),(表二),由于描述统计指标的概
28、括性与抽象性,容易使人对事物的真实情况产生误解。例如:从上表中可以看出平均间隔时间大约为71分钟。事实上,间歇时间大致呈现双峰分布,因而这一平均数并不能确切描述上述两个子群中任何一个子群的特征。按喷发持续的时间将观察值分成两组,可以对两种喷发的不同特性在更多细节上作出检测。下表是以喷发持续的时间是少于还是大于3分钟为依据分组,分别列出喷发间歇时间的主要统计指标。,喷泉喷发间歇时间的主要描述统计指标,根据上述统计指标和图表,可以得出一个简单的预测规律:一个持续时间少于3分钟的喷发将必然伴随着一个大约55分钟的间歇;一个持续时间大于3分钟的喷发将必然伴随着一个大约80分钟的间歇。并且,后者这种较长的间歇发生的可能性为67%。这样,通过一个非常简单的规则,国家公园的工作人员能够保证来黄石公园的游客不用等很长时间就会观看到“旧费尔斯福”间歇喷泉的喷发。,