有限数据统计处理.ppt

上传人:牧羊曲112 文档编号:5990376 上传时间:2023-09-11 格式:PPT 页数:44 大小:748.50KB
返回 下载 相关 举报
有限数据统计处理.ppt_第1页
第1页 / 共44页
有限数据统计处理.ppt_第2页
第2页 / 共44页
有限数据统计处理.ppt_第3页
第3页 / 共44页
有限数据统计处理.ppt_第4页
第4页 / 共44页
有限数据统计处理.ppt_第5页
第5页 / 共44页
点击查看更多>>
资源描述

《有限数据统计处理.ppt》由会员分享,可在线阅读,更多相关《有限数据统计处理.ppt(44页珍藏版)》请在三一办公上搜索。

1、第三章 有限数据的统计处理,3.1 总体的参数估计 期望值和方差、参数估计 3.2 一般的统计检验 平均值检验、F检验、离群值检验,2,2023/9/11,总体、个体和样本:,总体(Population):调查研究的事物或现象的全体个体(Item unit):组成总体的每个元素样本(Sample):从总体中所抽取的部分个体样本容量(Sample size):样本中所含个体的数量,3,2023/9/11,示例:有限数据的统计处理,总体,样本,甲,样本容量,平均值,500g,乙,平行测定 3 次,平行测定 4 次,丙,平行测定 4 次,有限数据的处理:,计算,估计,显著性检验,没有系统误差,=T,

2、有系统误差,T,4,2023/9/11,3.1.1 期望值和方差,数据集中趋势的表示:对一B物质客观存在量为T 的分析对象进行分析,得到n 个个别测定值 x1、x2、x3、xn,,平均值 Average,中位数Median,有限次测量:测量值向平均值 集中,无限次测量:测量值向总体平均值 集中,数据集中趋势和分散程度的表示,5,2023/9/11,数据分散程度的表示:,极差R Range,相对极差R,偏差 Deviation,平均偏差 Mean deviation,相对平均偏差 relative mean deviation,标准偏差 standard deviation,相对标准偏差(变异系

3、数)Relative standard deviation(Coefficient of variation,CV),6,2023/9/11,总体标准偏差与标准偏差的比较:,总体标准偏差,标准偏差,无限次测量,对总体平均值的离散,有限次测量对平均值的离散,自由度,计算一组数据分散度的独立偏差数,自由度的理解:例如,有三个测量值,求得平均值,也知道x1和x2与平均值的差值,那么,x3与平均值的差值就是确定的了,不是一个独立的变数。,7,2023/9/11,S(x)的物理意义:在有限次测量中,每个测量值平均所具有的标准偏差。,8,2023/9/11,对有限次测量:,1、增加测量次数可以提高精密度。

4、,2、增加(过多)测量次数的代价不一定能从减小误差得到补偿。,结论:,9,2023/9/11,3.1.2 参数估计,矩估计法,最小二乘法,最大似然法,顺序统计量法,估 计 方 法,点 估 计,区间估计,10,2023/9/11,一、点估计,从总体中抽取一个样本,根据该样本的统计量对总体的未知参数作出一个数值点的估计例如:用样本均值作为总体未知均值的估计值就是一个点估计2.点估计没有给出估计值接近总体未知参数程度的信息点估计的方法有矩估计法、顺序统计量法、最大似然法、最小二乘法等,概念要点:,11,2023/9/11,被估计的总体参数,12,2023/9/11,估计量的优良性准则,无偏性:估计量

5、的数学期望等于被估计的总体参数,13,2023/9/11,有效性:一个方差较小的无偏估计量称为一个更有效的估计量。如,与其他估计量,样本相比均值是一个更有效的估计量。,14,2023/9/11,一致性:随着样本容量的增大,估计量越来越 接近被估计的总体参数,15,2023/9/11,二、区间估计,1.根据一个样本的观察值给出总体参数的估计范围给出总体参数落在这一区间的概率例如:总体均值落在5070之间,置信度为 95%,概念要点:,16,2023/9/11,置信区间估计内容:,17,2023/9/11,问题:,在 的某个范围 内包含 的概率 有多大?,对有限次测量,18,2023/9/11,总

6、体平均值的置信区间,例:,包含在 区间,几率相对大,几率 相对小,几率为100%无意义,平均值的置信区间的问题,19,2023/9/11,总体未知参数落在区间内的概率表示为(1-为显著性水平,是总体参数未在区间内的概率常用的置性水平值有 99%,95%,90%相应的 为0.01,0.05,0.10,置信水平:,20,2023/9/11,区间与置信水平:,均值的抽样分布,(1-)%区间包含了%的区间未包含,21,2023/9/11,影响区间宽度的因素:,1.数据的离散程度,用 来测度样本容量,置信水平(1-),影响 Z 的大小,22,2023/9/11,落在总体均值某一区间内的样本,23,202

7、3/9/11,总体均值的置信区间(已知),1.假定条件总体服从正态分布,且总体方差()已知如果不是正态分布,可以由正态分布来近似(n 30)2.使用正态分布统计量,总体均值 在1-置信水平下的置信区间为,24,2023/9/11,正态总体实例:总体均值的区间估计,解:已知N(,0.152),x21.4,n=9,1-=0.95,/2=1.96 总体均值的置信区间为,我们可以95的概率保证该种零件的平均长度在21.321.5 mm之间,【例】某种零件长度服从正态分布,从该批产品中随机抽取件,测得其平均长度为21.4mm。已知总体标准差=0.15mm,试建立该种零件平均长度的置信区间,给定置信水平为

8、0.95。,25,2023/9/11,非正态总体实例:总体均值的区间估计,解:已知 x26.0,=6,n=100,1-=0.95,/2=1.96,我们可以95的概率保证平均每天参加锻炼的时间在24.827.2 分钟之间,【例】某大学从该校学生中随机抽取100人,调查到他们平均每天参加体育锻炼的时间为26.0分钟。试以95的置信水平估计该大学全体学生平均每天参加体育锻炼的时间(已知总体方差为36小时)。,26,2023/9/11,1.假定条件总体方差()未知总体必须服从正态分布使用 t 分布统计量,3.总体均值 在1-置信水平下的置信区间为,总体均值的区间估计(未知),27,2023/9/11,

9、t 分布曲线:,无限次测量,得到,有限次测量,得到,s,t 分布曲线,u 分布曲线,28,2023/9/11,t 分布值表,P=1-,置信度,,显著水平,29,2023/9/11,t分布值表,还原为u 分布,单位为,单位为,30,2023/9/11,实例(未知):总体均值的区间估计,解:已知N(,2),x=50,s=8,n=25,1-=0.95,t/2=2.064。,我们可以95的概率保证总体均值在46.753.3 之间,【例】从一个正态总体中抽取一个随机样本,n=25,其均值x=50.0,标准差 s=8。建立总体均值m 的95%的置信区间。,31,2023/9/11,3.2 一般的统计检验,

10、问题:是由随机误差引起,或存在系统误差?,显著性差异,非显著性差异,校正,正常,显著性检验,3.2.1 平均值检验,32,2023/9/11,1.平均值与标准值的比较,t 检验法:,假设不存在系统误差,那么,是由随机误差引起的,测量误差应满足t 分布,,根据 计算出的t 值应落在指定的概率区间里。否则,假设不满足,表明存在着显著性差异。,t 检验法的步骤:,1、根据 算出t 值;,2、给出显著性水平或置信度,3、将计算出的t 值与表上查得的t 值进行比较,若,习惯上说 表明有系统误差存在。,表示 落在 为中心的某一指定概率之外。在一次测定中,这样的几率是极小的,故认为是不可能的,拒绝接受。,3

11、3,2023/9/11,【例】某化验室测定CaO的质量分数为30.43%的某样品中CaO的含量,得如下结果:,问此测定有无系统误差?(给定=0.05),解,查表,比较:,说明 和T 有显著差异,此测定有系统误差。,假设:=T,34,2023/9/11,u检验法:,u 检验法与t 检验的不同在于用u分布,而不是用t分布。,【例】某炼铁厂生产的铁水,从长期经验知道它的碳含量服从正态分布,T为4.55%,为0.08%。现在又生产了5炉铁水,其碳含量分别为4.28%,4.40%,4.42%,4.35%,4.37%。试问均值有无变化?(给定=0.05),解,假设:=T,查表,比较:,结论:均值比原来的降

12、低了。(表明生产过程有差异),问题:如果分析方法存在系统误差,这个结论可靠吗?,35,2023/9/11,2、两组平均值的比较,两个实验室对同一标样进行分析,得到:,和,假设不存在系统误差,那么:,是由于随机误差引起的,应满足自由度 f=(n1+n2 2)的 t 分布,,36,2023/9/11,两组平均值的比较的方法:,1、F 检验法检验两组实验数据的精密度S1和S2之间有无显著差异:,查表,精密度无显著差异。,2、t 检验确定两组平均值之间有无显著性差异,3、查表,4、比较,非显著差异,无系统误差,具体计算见教材的例题。,37,2023/9/11,置信度95%时部分F值(单边)置信度90%

13、时部分F值(双边),38,2023/9/11,3.2.2 离群值检验,39,2023/9/11,离群值检验的两类方法:,技术判别法 即在实验过程中,人们根据常识或经验,判别由于震动、误读等原因造成的坏值;或根据物理的或化学的性质,进行技术分析,以判别偏差较大的数据是否确系异常值。此种方法的特点,可随时发现,随时剔除。统计判别法 统计判别法的基本思想在于,给定一置信概率,并由此确定一个置信限,凡超过此限的误差,就认为它不属于随机误差范围,系属异常数据,应予剔除。,40,2023/9/11,统计学方法证明,当测定次数非常多(例如大于20时,总体标准偏差与总体平均偏差有下列关系=0.7979 0.8

14、0。,4 3,偏差超过4 的测量值可以舍弃。其步骤为:,41,2023/9/11,(2)Q检验法,(1)将测量的数据按从小至大顺序排列:,(2)计算测定值的极差R。,(3)计算可疑值与相邻值之差(应取绝对值)d。,(4)计算Q值:,(5)比较:,舍弃。,Q值表,42,2023/9/11,(3)狄克逊(Dixon),(1)将测量的数据按从小至大顺序排列:,(2)由测定次数和可疑数据位置选用相应统计量公式计算。,(3)由测定次数和显著性水平,从表中查临界值。,(4)若计算值大于临界值,应舍弃。,Dixon检验统计量和临界值见P223。,43,2023/9/11,(4)格鲁布斯(Grubbs)法,(1)将测量的数据按大小顺序排列。,(2)设第一个数据可疑,计算,或 设第n 个数据可疑,计算,(3)查表:T计算 T表,舍弃。,44,2023/9/11,值,P223,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号