应用2统计量的计算和箱线图.ppt

上传人:sccc 文档编号:5964008 上传时间:2023-09-09 格式:PPT 页数:28 大小:1.77MB
返回 下载 相关 举报
应用2统计量的计算和箱线图.ppt_第1页
第1页 / 共28页
应用2统计量的计算和箱线图.ppt_第2页
第2页 / 共28页
应用2统计量的计算和箱线图.ppt_第3页
第3页 / 共28页
应用2统计量的计算和箱线图.ppt_第4页
第4页 / 共28页
应用2统计量的计算和箱线图.ppt_第5页
第5页 / 共28页
点击查看更多>>
资源描述

《应用2统计量的计算和箱线图.ppt》由会员分享,可在线阅读,更多相关《应用2统计量的计算和箱线图.ppt(28页珍藏版)》请在三一办公上搜索。

1、语言研究中的统计学()2009 年 3 月,山西大学数学科学学院,1,语言研究中的统计学,基本统计量,语言研究中的统计学,2,山西大学数学科学学院,(一)平均数(样本均值),语言研究中的统计学,3,山西大学数学科学学院,1、算术平均 根据频数分布表根据分组频数分布表2、加权平均,加权平均数例子,语言研究中的统计学,4,山西大学数学科学学院,例1 有3个班,人数分别为20、30和40,在某次考试中的平均成绩分别为85,75,80,那么这三个班的加权总平均成绩为:例2 综合测评成绩的计算:注意:权大小的确定要有一定的依据。特别地:如果所有权的和为1,则称为标准权。,(二)中位数,语言研究中的统计学

2、,5,山西大学数学科学学院,顺序样本中间位置的数,即样本容量(总次数)N的50%位置的数。1、对未分组数据求中位数2、根据分组频数分布表求中位数或,L 中位数所在组下限U 中位数所在组上限fL L以下各组总次数fU U以上各组总次数F 中数所在组次数i 中数所在组组距,(三)众数,语言研究中的统计学,6,山西大学数学科学学院,一组数据中出现次数最多的数值注意:1、如组中各数都相同,则没有众数;2、也可能出现两个以上的众数;3、称含有两个众数的次数分布为双众数分布。求法:从顺序样本中找,样本容量大的,先做频数统计表。,平均数、中位数和众数的关系,7,皮尔逊经验公式(P40)众数=3*中位数-2*

3、平均数,山西大学数学科学学院,语言研究中的统计学,平均数、中位数和众数的比较,语言研究中的统计学,8,山西大学数学科学学院,1、灵敏度平均数的计算涉及到每个样本值,所以对数值的变化比较敏感。2、稳定性对同一总体而言,均值比较稳定,受抽样影响较小。3、信息量平均数既反映了数值的顺序关系,又体现了所有样本的值,同时又稳定,所以它所提供的信息量最大。4、运算平均数适合代数运算,且比较简单。,平均数、中位数和众数的比较,语言研究中的统计学,9,山西大学数学科学学院,6、极端值样本中过大或过小的数值称为极值平均值不能体现极端值的信息,从而不能很好地反映分布的信息,有时中数和众数更好一点。7、数据分布对于

4、对称分布,三数非常接近,特别是正态分布时三数相等;对偏态分布,三数差异较大,一般地:正偏或右偏时,众数中位数平均数 负偏或左偏时,平均数中位数众数,平均数、中位数和众数的比较,语言研究中的统计学,10,山西大学数学科学学院,三数各有优缺点,平均数用得比较多。,正态分布,三数相同,正偏或右偏众数中位数平均数,负偏或左偏平均数中位数众数,语言研究中的统计学,11,山西大学数学科学学院,(四)极差,极差又称两极差,是样本值中最大值和最小值之间的差。,Xmax,语言研究中的统计学,12,山西大学数学科学学院,(五)四分差,定义:,分组数据四分点的求法:,语言研究中的统计学,13,山西大学数学科学学院,

5、(六)(绝对)平均差(AD),定义:,分组数据平均差的求法:,注意到:,所以我们需要取绝对值。,其中称右式为离均差:,语言研究中的统计学,14,山西大学数学科学学院,(七)方差与标准差,未分组数据:,变形一,变形二,由次数分布表来求更简单一些。略,语言研究中的统计学,15,山西大学数学科学学院,(七)方差与标准差(续),由分组次数分布表:,式中:f为组频数;d为各组数据的假定平均离均差,其中Xc为各组组中值,A为估计平均值。N为总次数,i为组距。,A的确定:取总次数一半的累积次数所对应的那一组的组中值,因为它更接近真正的平均值。,语言研究中的统计学,16,山西大学数学科学学院,离中趋势量的比较

6、,极差可以在一定程度上反映数据的差异情况,为数据分组提供依据;四分差比两级差稳定可靠,常与中位数结合使用;平均差优于两级差和四分差,用数值离开平均值的平均距离来反映数据的离散程度,但不适合微分运算;方差和标准差是最理想的差异量:概念易于理解,适合代数运算和微分运算,能反映所有数据的差异情况,不易受抽样的影响。,一个分数在一组分数中的位置是参照该组分数的典型分数来确定的,也就是说,一个分数可以描述为在典型分之上还是之下或者是等于典型分,以及它离开典型分有多远。这个典型分数用平均分表示,离开典型分的距离用标准差表示,这样我们就可以是“某个分数离开平均分多少个标准差单位”,同时用正负号表示该分数处于

7、平均分之上还是之下。这实际上就是把原始分数转换为标准差单位数,或以标准差为单位来表示一个分数与平均数的差,此过程称为标准化过程,语言研究中的统计学,17,山西大学数学科学学院,标准化,语言研究中的统计学,18,山西大学数学科学学院,标准分,一个分数离开平均分的“标准差单位数”称为标准分或Z分,常用Z表示。标准分的性质:一组分数的标准分的和为零,即;一组分数的标准分之平均值为0,即;一组分数的标准分之标准差为1,即;标准分具有对称性。标准分的应用:比较不同质(不同分布)的分数;将不同质的多个分数合成后再比较。,语言研究中的统计学,19,山西大学数学科学学院,标准分与百分位对照表,五数概括与箱线图

8、,20,对有序样本,容易计算以下五个值(五数):最小观测值xmin;最大观测值xmax;中位数m0.5=Q2;第一个四分位数Q1=m0.25;第三个四分位数Q3=m0.75;箱线图(Box plot),又称箱须图(Box-whisker Plot)、盒形图、箱图、盒子图。作法如下:画一个箱子,其两侧恰为第一4分位数和第三4分位数,在中位数位置画一条竖线。这个箱子包含了50%的数据。在箱子左右两侧各引一条水平线,分别至最小值和最大值,每条线段包含25%的数据。,山西大学数学科学学院,语言研究中的统计学,箱线图,21,箱线图可以对样本数据的分布形状进行大致的判断。,山西大学数学科学学院,语言研究中

9、的统计学,箱线图,22,箱线图可以对样本数据的分布形状进行大致的判断。例:以下是100个英语句子的长度。,山西大学数学科学学院,语言研究中的统计学,练习,23,山西大学数学科学学院,语言研究中的统计学,练习,24,山西大学数学科学学院,语言研究中的统计学,练习,25,山西大学数学科学学院,语言研究中的统计学,直方图,26,山西大学数学科学学院,语言研究中的统计学,Stem-and-LeafPlots,27,山西大学数学科学学院,语言研究中的统计学,V1Stem-and-LeafPlotFrequencyStem&Leaf8.00 0.6888999919.00 1.000112222223333444427.00 1.55556666666777777888889999918.00 2.0000011122223334449.00 2.5666678991.00 3.44.00 3.56796.00 4.0004448.00Extremes(=47)Stemwidth:10Eachleaf:1case(s),箱线图,28,山西大学数学科学学院,语言研究中的统计学,奇异值用o表示。表示数值与矩形框的上边(下边)的距离是四分位极差的1.5倍3倍;,极端值用*表示。表示数值与矩形框的上边(下边)的距离是四分位极差的3倍以上;,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/施工/环境 > 农业报告


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号