【教学课件】第3章数据分布特征的描述.ppt

上传人:小飞机 文档编号:5658579 上传时间:2023-08-06 格式:PPT 页数:124 大小:1.12MB
返回 下载 相关 举报
【教学课件】第3章数据分布特征的描述.ppt_第1页
第1页 / 共124页
【教学课件】第3章数据分布特征的描述.ppt_第2页
第2页 / 共124页
【教学课件】第3章数据分布特征的描述.ppt_第3页
第3页 / 共124页
【教学课件】第3章数据分布特征的描述.ppt_第4页
第4页 / 共124页
【教学课件】第3章数据分布特征的描述.ppt_第5页
第5页 / 共124页
点击查看更多>>
资源描述

《【教学课件】第3章数据分布特征的描述.ppt》由会员分享,可在线阅读,更多相关《【教学课件】第3章数据分布特征的描述.ppt(124页珍藏版)》请在三一办公上搜索。

1、第3章 数据分布特征的描述,学习目标:3.1 分布集中趋势的测度3.2 分布离散程度的测度3.3 分布偏态与峰度的测度3.4 统计表与统计图,学习重点,众数和中位数均值方差和标准差离散系数偏态系数峰度系数,3.1 分布集中趋势的测度,3.1.1 集中趋势和集中趋势测度值3.1.2 众数3.1.3 中位数3.1.4 均值3.1.5 调和平均数3.1.6 几何平均数3.1.7 众数、中位数和均值的比较,3.1.1 集中趋势和集中趋势测度值,集中趋势:是指一组数据向其中心值靠拢的倾向。测度集中趋势的目的:寻找数据一般水平的代表值或中心值。集中趋势测度值:就是指测度集中趋势的统计指标,表现为各种平均数

2、指标。,集中趋势测度值(平均数)种类,3.1.2 众数,众数的概念未分组数据或单变量分组数据计算众数组距分组数据计算众数计算众数应注意的问题,众数(MO)的概念,众数是一组数据中出现次数最多的变量值。从分布的角度看,众数是具有明显集中趋势点得数值,一组数据分布的最高峰电所对应的值,就是中枢。众数可以不存在,也可以有多个众数。如图3-1所示。,未分组数据或单变量分组数据计算众数(MO),只需找出出现次数最多的变量值即为众数。例1:(未分组数据)某班一个学习小组9名同学的英语口试成绩为:3 4 5 4 4 4 4 5 3 因为:4分出现次数最多,所以MO=4分。,例2:(单变量分组数据)某班一次统

3、计学测验成绩分组表,组距分组数据计算众数(MO),此时,众数(MO)的数值与相邻两组的频数分布有一定的关系。图3-2所示。,组距分组数据计算众数的公式,计算众数应注意的问题,两条假定:假定数据分布具有明显的集中趋势;假定众数组的频数在该组内是均匀分布的。若这两条假定不成立,则众数的代表性会很差。众数的统计思想:在一组数据的中心点附近,变量值出现的频数较高。众数是一个位置代表值(位置平均数),它不受数据中极端值的影响。适用于定类数据。,3.1.3 中位数,中位数的概念未分组数据计算中位数单变量分组数据计算中位数组距分组数据计算中位数中位数的特点,3.1.3 中位数(Me)的概念,是一组数据按从小

4、到大排序后,处在中间位置上的变量值。它将全部数据等分成两部分:一部分大于中位数,另一部分小于中位数。它也是一个位置代表值(位置平均数),不受数据中极端值的影响。适用于定序数据。,未分组数据计算中位数(Me),步骤:数据排序。确定中位数位置。中位数位置=(N+1)2其中:N为数据个数。确定中位数的具体数值。,设:一组数据X1、X2、XN,按从小到大排序后为:X(1)、X(2)、X(N)。若N为奇数时,则中位数MO=X(N+1)/2。例:某教研室11名教师的年龄排序后为:23 23 24 24 25 25 26 27 28 29 55解:N=11 中位数位置=(11+1)2=6 表明中位数Me为处

5、在第6位的那个教师的年龄,即Me=X(6)=25(岁)。,若N为偶数时,则:中位数Me=(XN/2+XN/2+1)2例:某教研室10名教师的年龄排序后为:23 23 24 24 25 26 27 28 29 55解:N=10 中位数位置=(10+1)2=2.5 表明中位数Me第5位和第6位教师年龄的平均数。即:中位数Me=(25+26)2=25.5(岁),单变量分组数据计算中位数,步骤:确定中位数位置。中位数位置=F/2。确定中位数组。向上累计频数或向下累计频数刚好大于或等于F/2的那一组即为中位数组。确定中位数的具体数值。中位数组对应的变量值,就是中位数。,组距分组数据计算中位数,步骤:确定

6、中位数位置。中位数位置=F/2。确定中位数组。向上累计频数或向下累计频数刚好大于或等于F/2的那一组即为中位数组。利用公式计算求得中为数Me。,组距分组数据计算中位数的公式,中位数的特点,利用公式计算中位数时,假定中位数组的频数在该组内是均匀分布的。中位数具有稳健性。各变量值与中位数的离差绝对值之和最小,即:|X-Me|=min(最小)。表明中位数与各数据的距离最短。,3.1.4 均值,均值的概念简单均值加权均值加权均值计算公式的变形加权均值的影响因素均值的数学性质,均值的概念,均值是全部数据的算术平均,也称为“算术平均数”,是一组数据的一般水平或重心。均值是集中趋势的最主要的测度值,在统计学

7、中具有重要地位。主要适用于定距数据和定比数据。属于计算平均数,受数据中的极端值影响。,简单均值的计算,设总体数据为:X1、X2、XN则总体均值的计算公式为:设样本数据为:x1、x2、xn则样本均值的计算公式为:,加权均值的计算,若:各组出现次数 F1=F2=FK 或 f1=f2=fk则:加权均值=简单均值简单均值之所以简单,就在于各组变量值出现的次数都相等。,单变量值分组数据计算加权均值,组距分组数据计算加权均值,基本方法和公式与“单变量分组数据计算加权均值”相同。组距分组数据只给出每一组变量值的“区间”,此时只能用“各组的组中值”近似地作为“各组的变量值X”。这里有一个基本假定是:各组的实际

8、变量值在组内是均匀分布的。这是用“组中值”代表“各组变量值”的前提条件。,加权均值计算公式的变形,加权均值的影响因素,加权均值的大小取决于以下两个因素:一是各组变量值(X)的大小。二是各组的频数(F)或频率(F/F)的大小。,权数的含义,各组频数F在均值的计算中起着“权衡轻重”的作用,故而将其称之为“权数”。在各组变量值(X)一定的情况下,频数或频率大的那一组的变量值对均值的影响大,频数或频率小的那一组的变量值对均值的影响小。,均值的数学性质,3.1.5 调和平均数,调和平均数的概念简单调和平均数加权调和平均数,调和平均数的概念,调和平均数:又称为“倒数平均数”,它是指各个变量值“倒数”的算术

9、平均数的“倒数”。它实际上是均值的一种变形。它与均值在本质上是一致的,唯一的区别在于计算时使用的数据不同。它只适用于定比数据,不适用于定距数据。,简单均值的计算公式,例:某农贸市场A、B、C三种蔬菜的单价分别为1.20元、0.50元和0.80元。现各买1元钱的,求平均价格。分析:已知单价和各自购买的金额,但不知道“各自购买的数量”,此时,只能用“各自购买的金额各自的单价”得到“各自购买的数量”,方能计算出平均单价。显然只能采用“调和平均法”计算平均单价。,加权调和平均数,3.1.6 几何平均数,几何平均数的概念简单几何平均数加权几何平均数,几何平均数的概念,几何平均数:是N个变量值乘积的N次方

10、根。主要适用于计算比率或速度的平均。当所掌握的变量值本身是比率的形式且各个比率(或速度)的乘积等于总比率(总速度),宜采用几何平均法计算“平均比率”或“平均速度”。变量值中有一个等于0或负数时不宜用。,简单几何平均数,加权几何平均数,3.1.7 众数、中位数和均值的关系,众数、中位数和均值在同一组数据和单峰分布条件下的关系卡尔皮尔逊经验公式众数、中位数和均值的特点和应用,众数、中位数和均值在同一组数据和单峰分布条件下的关系,卡尔皮尔逊经验公式,众数、中位数和均值的特点和应用,3.2 分布离散程度的测度,3.2.1 离散程度和离散程度测度值3.2.2 极差3.2.3 平均差3.2.4 方差和标准

11、差3.2.5 标准化值3.2.6 离散系数,3.2.1 离散程度和离散程度测度值,离散程度:是指数据分布的差异程度或分散程度,反映的是一组数据远离其中心值的程度,故也称为“离中趋势”。离散程度测度值:是指反映数据分布差异程度或分散程度的统计指标,主要有:极差、异众比率、四分位差、平均差、方差和标准差、离散系数等。这里只介绍其中的几个。,离散程度测度值与集中趋势测度值的关系,集中趋势测度值是对数据一般水平的概括性度量。集中趋势测度值对一组数据的代表性高低取决于离散程度测度值的大小。离散程度测度值越小,数据之间的差异程度越小,集中趋势测度值的代表性就越好。,3.2.2 极差(R),是一组数据的最大

12、值与最小值之差。计算公式见右边。它是描述数据离散程度的最简单的测度值。优点:计算简单,易于理解。缺点:易受极端值影响,不能反映中间数据的分散状况,故描述不准确。,3.2.3 平均差(MD),平均差的概念简单平均差加权平均差对平均差的评价,平均差的概念,平均差:又称为“平均离差”,它是各变量值其均值离差的绝对值的平均数。平均差反映各个变量值与其均值相比的平均差异程度。,简单平均差,计算结果表明:这10名同学测验成绩与其均值81分相比,平均相差13.6分。,加权平均差,计算结果表明,该车间100名工人月工资额与平均工资相比,平均相差90元。,对平均差的评价,优点:反映了一组数据与均值的平均差异程度

13、,能准确反映一组数据的离散状况。缺点:采用取绝对值的办法避免正负离差相抵,计算上很不方便且数学性质也不是最优的。故实际中应用较少。,3.2.4 方差和标准差,方差和标准差的概念总体方差和总体标准差样本方差和样本标准差总体方差和样本方差自由度的含义总体方差公式的变形方差的重要数学性质对方差和标准差的评价,方差和标准差的概念,方差(2):是各个变量值与其均值的离差平方的平均数,是测定定量数据(定距数据和定比数据)离散程度的最主要的方法,一般无量纲。标准差():又称为“均方差”,它是方差的平方根,其量纲与变量值的量纲相同,具有实际意义。故实际分析中,更多地采用标准差。,总体方差和总体标准差的计算公式

14、,样本方差和样本标准差的计算公式,自由度(n-1)的含义,自由度:是指在一组样本数据中可以自由取值的个数。当样本容量为n时,若样本均值确定之后,n个样本数据必然有一个失去自由取值的机会,可以自由取值的样本数据个数为n-1个。样本方差用“自由度(n-1)”去除离差平方和,是因为是因为Sn-12是总体方差2的无偏估计量。,总体方差公式的变形公式,方差的重要数学性质,对方差和标准差的评价,反映了全部数据与其均值的平均差异程度。能准确地反映出数据的离散程度。通过“平方”的办法避免正负离差相抵,在数学处理上较平均差方便,且具有许多优良的数学性质。是实际应用中应用最为广泛的离散程度测度值。,3.2.5 标

15、准化值,标准化值的计算公式标准化值的特点,标准化值的计算公式,标准化值的特点,多个不同量纲的指标进行处理时,常常需要计算标准化值。标准化值给出了一组数据中各个数据的相对位置。经验表明,当一组数据近似呈正态分布时,大约有68%的数据变量值在X范围内;大约有95%的数据变量值在X2范围内;大约有99%的数据变量值在X3范围内。统计上将3之外的数据称为离群点。,3.2.6 离散系数,离散系数的概念及公式离散系数的作用,离散系数的概念及公式,离散系数的作用,消除变量值水平高低和计量单位不同,对离散程度测度值的影响。反映数据的相对离散程度。主要用于比较不同总体、不同样本数据离散程度的大小。离散系数越大,

16、则数据离散程度越大。,3.3 分布偏态与峰度的测度,3.3.1 偏态及其测度3.3.2 峰度及其测度,偏态及其测度,偏态、偏态系数及其计算公式分布偏态的测度,偏态、偏态系数及其计算公式,分布偏态的测度,3.3.2 峰度及其测度,峰度的含义峰度系数的定义及其公式分布峰度的测度,峰度的含义,峰度:是数据分布集中趋势高峰的形状。它通常是与“正态分布”相比较而言。,峰度系数及其计算公式,分布峰度的测度,解:100名工人月工资数据的峰度系数为:,因为:a4=2.743,所以说明该车间100名工人的月工资数据的分布为“扁平分布”。,3.4 统计表与统计图,3.4.1 统计表3.4.2 统计图,3.4.1

17、统计表,统计表的概念统计表的形式统计表的内容统计表的设计要求,统计表的形式,总标题(表头)行标题列标题数字资料表外附加,1999年全国税收收入及其构成,统计表的内容,主词栏宾词栏,1999年全国税收收入及其构成,统计表的设计要求,总要求:科学、实用、简练、美观。具体要求:合理安排结构。总标题内容满足3W要求。行和列的标题要简明。其他要求。,3.4.2 统计图,线图条形图圆形图(饼图)环形图,线 图,在平面坐标图上用折线表现数量变化特征和规律的统计图。用于显示时间序列数据。如右图。,条形图,用宽度相同的条形的高度或长度来表示数据变动的统计图,可以横置或纵置,故也称“柱形图”。如右图。,圆形图(饼图),用圆形及圆形扇形的面积来表示数值大小的统计图。主要用于显示总体中各组成部分的所占的比例。见右图。,环形图,与“圆形图”类似,只是中间有一个洞。总体中的每一部分数据用环中的一段表示。可同时显示多个总体个部分所占的相应比例。见右图。,End of Chapter 3,休息片刻!,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号