第4章数据分布特征的描述.ppt

上传人:sccc 文档编号:5912110 上传时间:2023-09-03 格式:PPT 页数:86 大小:745.54KB
返回 下载 相关 举报
第4章数据分布特征的描述.ppt_第1页
第1页 / 共86页
第4章数据分布特征的描述.ppt_第2页
第2页 / 共86页
第4章数据分布特征的描述.ppt_第3页
第3页 / 共86页
第4章数据分布特征的描述.ppt_第4页
第4页 / 共86页
第4章数据分布特征的描述.ppt_第5页
第5页 / 共86页
点击查看更多>>
资源描述

《第4章数据分布特征的描述.ppt》由会员分享,可在线阅读,更多相关《第4章数据分布特征的描述.ppt(86页珍藏版)》请在三一办公上搜索。

1、第 4章 统计数据特征的描述,4.1 分布集中趋势的测度4.2 分布离散程度的测度4.3 分布偏态与峰度的侧度4.4 茎叶图与箱线图4.5 统计表与统计图 本章小结,学习目标,掌握数据集中趋势和离散程度的测度方法掌握茎叶图和箱线图的制作方法掌握分布偏态与峰度的测度方法掌握统计表和统计图的使用,学习重点,侧度数据集中趋势指标的计算方法及应用侧度数据离散程度指标的计算方法及应用统计表与统计图,学习难点,方差、标准差、变异系数的实质,授课学时,4学时,4.1分布集中趋势的测度,分布集中趋势的测度值是反映数据一般水平的代表值或者数据分布的中心值。一、众数二、中位数三、四分位数四、均值五、几何均值六、切

2、尾均值七、众数、中位数和均值的比较,众数,众数(mode),一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数主要用于分类数据,也可用于顺序数据和数值型数据众数计算公式见书页。,众数(不惟一性),无众数,一个众数,多于一个众数,中位数,中位数(median),排序后处于中间位置上的值,不受极端值的影响主要用于顺序数据,也可用数值型数据,但不能用于分类数据各变量值与中位数的离差绝对值之和最小,即,中位数计算,(1)为分组资料中位数位置=(n+1)/2(奇数项与偶数项)(2)分组资料中位数位置=n/2中位数在累计频数刚刚大于中位数位置的组众数计算公

3、式见书页。,四分位数,四分位数(quartile),排序后处于25%和75%位置上的值,不受极端值的影响主要用于顺序数据,也可用于数值型数据,但不能用于分类数据,四分位数(位置的确定),未分组数据:,分组数据:,均 值,均值(算数平均数)(mean),集中趋势的最常用测度值一组数据的均衡点所在体现了数据的必然性特征易受极端值的影响用于数值型数据,不能用于分类数据和顺序数据注意均值的平均性,简单算数平均数(simple mean),设一组数据为:x1,x2,xn,总体均值,样本均值,加权算数平均数(weighted mean),设一组数据为:x1,x2,xn相应的频数为:f1,f2,fk,总体均

4、值,样本均值,加权算数平均数(例题分析),均值(数学性质),1.各变量值与均值的离差之和等于零,2.各变量值与均值的离差平方和最小,几何平均数,几何平均数(geometric mean),n 个变量值乘积的 n 次方根主要用于计算平均比率或平均速度计算公式为,5.可看作是均值的一种变形,几何平均数(例题分析),【例】一位投资者购持有一种股票,在2000年、2001年、2002年和2003年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率,算术平均:,几何平均:,几何平均数(例题分析),【例】胡锦涛在十七大报告中提出,实现人均国内生产总值(GDP)到202

5、0年比2000年翻两番。,切尾均值,切尾均值(trimmed Mean),去掉大小两端的若干数值后计算中间数据的均值在电视大奖赛、体育比赛及需要人们进行综合评价的比赛项目中已得到广泛应用计算公式为,n 表示观察值的个数;表示切尾系数,,切尾均值(例题分析),【例】谋次比赛共有11名评委,对某位歌手的给分分别是:,经整理得到顺序统计量值为,去掉一个最高分和一个最低分,取1/11,众数、中位数和均值的比较,众数、中位数和均值的关系,众数、中位数、均值的特点和应用,众数不受极端值影响具有不惟一性数据分布偏斜程度较大时应用中位数不受极端值影响数据分布偏斜程度较大时应用均值易受极端值影响数学性质优良数据

6、对称分布或接近对称分布时应用,4.2 分布离散程度的测度,分布离散程度的测度值反映数据分布离散和差异程度。主要包括:一、极差二、内距三、方差和标准差四、离散系数,极差(range),一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布,R=max(xi)-min(xi),计算公式为,内距(Inter-Quartile Range,IQR),也称四分位差上四分位数与下四分位数之差 内 距=Q3 Q1反映了中间50%数据的离散程度不受极端值的影响可用于衡量中位数的代表性,方差和标准差,方差和标准差(Variance and Standard deviation),1.反

7、映了数据的分布离散程度和差异程度的最常用的测度值。2.反映了各变量值与均值的平均差异。3.根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差,总体方差和标准差(simple variance and standard deviation),未分组数据:,组距分组数据:,未分组数据:,组距分组数据:,方差的计算公式,标准差的计算公式,样本方差和标准差(simple variance and standard deviation),未分组数据:,组距分组数据:,未分组数据:,组距分组数据:,方差的计算公式,标准差的计算公式,样本方差自由度(degree of fre

8、edom),一组数据中可以自由取值的数据的个数当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x=5。当 x=5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值,样本标准差(例题分析),样本标准差(例题分析),含义:每一天的销售量与平均数相比,平均相差21.58台,离散系数,离散系数(coefficient of variation),1.标准差与其相应的均值之比对数据相对离散程度的测度消除了数

9、据水平高低和计量单位的影响4.用于对不同组别数据离散程度的比较5.计算公式为,在什么情况下使用离散系数呢?,当两个数列的性质相同且均值相等的情况下用标准差说明平均数代表性的高低。当两个数列的性质不同或均值不同的情况下需要用离散系数说明平均数代表性的高低。,离散系数(例题分析),【例】某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度,离散系数(例题分析),结论:计算结果表明,v1v2,说明产品销售额的离散程度小于销售利润的离散程度,例题:有甲、乙两个品种的粮食作物,经播种实验后得知乙品种的平均亩产量为998公斤,标准差为162.7公斤,甲品种实验资料如下,试

10、研究两个品种的平均亩产量,确定哪一品种具有较大稳定性,更有推广价值。,4.3 分布偏态与峰度的测度,偏态与峰态分布的形状,偏态,峰态,偏态及其测度(skewness),1.统计学家Pearson于1895年首次提出 2.数据分布偏斜程度的测度3.偏态系数=0为对称分布4.偏态系数 0为右偏分布偏态系数 0为左偏分布计算公式:,偏态系数(例题分析),偏态系数(例题分析),结论:偏态系数为正值,但与0的差异不大,说明电脑销售量为轻微右偏分布,即销售量较少的天数占据多数,而销售量较多的天数则占少数,峰态及其测度(kurtosis),统计学家Pearson于1905年首次提出数据分布扁平程度的测度峰态

11、系数=扁平峰度适中峰态系数为尖峰分布计算公式,峰态系数(例题分析),结论:偏态系数小于,但与的差异不大,说明电脑销售量为轻微扁平分布,4.4 茎叶图与箱线图,一、茎叶图二、箱线图,茎叶图(stem-and-leaf display),用于显示未分组的原始数据的分布。由“茎”和“叶”两部分构成,其图形是由数字组成的。以该组数据的高位数值作树茎,低位数字作树叶树叶上只保留一位数字(个位数)。茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有给出具体的数值。茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息。,茎叶图(例题分析P22表2.7),茎叶图(

12、扩展的茎叶图04,59),箱线图(box plot),用于显示未分组的原始数据的分布。箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成。箱线图的绘制方法首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU)。连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接。,箱线图(箱线图的构成),箱线图(例题分析),分布的形状与箱线图,不同分布的箱线图,未分组数据多批数据箱线图(例题分析),【例】从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的考试成绩进行调查,所得结果如表。试绘制各科考试成绩的批比较箱线图,并分析各

13、科考试成绩的分布特征,未分组数据多批数据箱线图(例题分析),8门课程考试成绩的箱线图,11名学生8门课程考试成绩的箱线图,min-max,25%-75%,median value,45,55,65,75,85,95,105,学生1,学生2,学生3,学生4,学生5,学生6,学生7,学生8,学生9,学生10,学生11,未分组数据多批数据箱线图(例题分析),4.5 统计表与统计图,统计表,是显示统计数据的工具。统计表由表头、行标题、列标题、和数字资料四部分组成。表头放在表的正上方,说明统计表的主要内容。行标题放在表的第一列,说明研究问题的类别。列标题放在表的第一行,说明研究问题的指标名称。表的其余部

14、分为统计数字。表外附加放在表的下方,指明资料来源,必要说明,指标注释等。,行标题,列标题,数字资料,表头,附加,统计表的设计,统计表设计原则:科学、实用、简练、美观首先,合理安排统计表的结构。其次,表头一般应包含标号、总标题和表中数据的单位等内容。(表头包含时间、地点、何种数据)。第三,通常情况下,统计表的左右两边不封口,上下两条线要粗,中间其他线要细。列标题用竖线隔开,行标题之间一般不用横线隔开。以小数点同一位数右对齐。第四,“”表示没有数据,“”表示缺少。第五,统计表的栏数较多,可以在表或各栏应用(1)、(2)、(3)等数字编号;第六,统计表要注明计量单位和资料来源。数据计量单位相同时,可放在表的右上角标明,不同时应放在每个指标后或单列出一列标明。,统计表某地区工业企业主要经济指标,统计表某企业职工计划完成程度统计表,统计表某企业商品销售统计表,统 计 图,直方图折线图圆饼图曲线图,统计图直方图,统计图折线图,统计图圆饼图,统计图曲线图,条形图、三维条形图,饼图、三维饼图,三维圆柱图,三维圆锥图,面积图,三维面积图,三维曲面图,折 线 图,本章小结,分布集中趋势的测度分布离散程度的测度分布偏态与峰度的侧度茎叶图与箱线图统计表与统计图,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/施工/环境 > 农业报告


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号