《单一样本的推断问题.ppt》由会员分享,可在线阅读,更多相关《单一样本的推断问题.ppt(53页珍藏版)》请在三一办公上搜索。
1、第二章 单样本检验,假设某地的10栋房屋出售价格(由低到高排列)为56,69,85,87,90,94,96,113,118,179(单位:万元),问该地区的平均房屋价格是否和人们相信的84万元的水平大体一致。,我们用M表示价格分布的中心(这里考虑中位数),如假设该分布对称,则M也是均值。我们要检验 H0:M=84,H1:M84,按照传统的参数方法,假设房屋价格服从正态分布N(84,2),则检验统计量为,其值为1.384,结论呢?,第一节 符号检验和置信区间,假设总体,Me是总体的中位数,对于假设检验问题:是待检验的中位数取值,定义,,则,在零假设情况下,在显著性水平为 的拒绝域为其中k是满足上
2、式最大的k值。,结果讨论,结果讨论,大样本结论,当n较大时 双边:,p-值左侧:,p-值右侧:,p-值,检验步骤,Ex.某国12位总统的寿命(岁)分别为46,57,58,60,60,63,64,67,72,78,88,90.问该国总统寿命的中位数是否不小于71.5岁?,根据题目,要检验的是 H0:M0.571.5,H1:M0.571.5,显然,当S_太多时拒绝原假设。经计算,K=min(S_,S+)=4 P(K4)=?,0.1938,假设总体,Mp是总体的p分位数,对于假设检验问题:是待检验的分位数取值,定义,,则,在零假设情况下,在显著性水平为 的拒绝域为其中k是满足上式最大的k值。,广义符
3、号检验,例.5年前成年人在每日24小时中的睡眠量中位数是7.5小时,每日睡眠量为6小时或少于6小时的占调查总数的5%,9小时和9小时以上的也占5%。现对8个普通成年人的抽样调查结果为:7.2,8.3,5.6,7.4,7.8,5.2,9.1,5.8.问现在成年人的睡眠量是否少于5年前,根据5年前的数据,对0.05,0.5和0.95分位数,至少检验一个假定。H0:M0.5=7.5,H1:M0.57.5,H0:M0.05=6,H1:M0.056,H0:M0.95=9,H1:M0.959,字符型数据的符号检验,例.为了解顾客对咖啡、茶的喜好情况,在某商店随机抽取15名顾客进行调查,结果有12名顾客更喜
4、欢茶,2名顾客更喜欢咖啡,1名对两者同样喜好。问顾客对咖啡和茶的喜好是否有差异?若有,是否更喜欢茶?,此处的目的只是为了比较两者中哪个更受欢迎,并无定量的数值,因而可采用符号检验,只要把更喜欢茶视为“成功+”,反之视为“失败-”。故可建立如下假设:,H0:P+=P-,H1:P+P_,H0:P+=P-,H1:P+P_,在第一个检验中,仅判定对二者喜好程度有无差异。由调查结果,n=14,s+=12,s-=2.P(S_2|n=14,p=0.5)=0.0065,双侧检验概率为0.013.,在0.05的水平下,拒绝前面的两个假设.,中位数的置信区间,由于得到的区域是以中位数对称的,采用Neyman原则选
5、择最优置信区间,首先找出置信度大于 的所有区间,然后再从中选择区间长度最小的一个。对于大样本,可以用近似正态分布求置信区间。,根据顺序统计量构造置信区间:,构造置信度为90%的置信区间:,9.8,10.0,第二节 Wilcoxon符号秩检验,基本概念及性质 对称分布的中心一定是中位数,在非对称分布情况下,中位数不唯一,研究对称中心比中位数更有意义。,例:下面的数据中,O是对称中心吗?,检验步骤,Ex.某公司为减少加工费用,决定若铸件重量的中位数超过25公斤,就转包加工;若不超过25公斤则不转包。现从这批铸件中随机抽取8件,每件的重量分别为:24.3,25.8,25.4,24.8,25.2,25
6、.1,25.0,25.5。使用这些数据,能否作出这批铸件是否转包的决定。,第四节 Cox-Stuart趋势检验,检验原理:数据序列:,双边假设检验问题:令:取数对,为正的数目,为负的数目,当正号或者负号太多的时候,认为数据存在趋势。在零假设情况下 Di服从二项分布。从而转化为符号检验问题,X1,X2,Xn,例 某地区32年来的降雨量如下表 问(1):该地区前10年来降雨量是否有变化?(2):该地区32年来降雨量是否有变化?,年份 1971 1972 1973 1974 1975 1976 1977 1978 降雨量 206 223 235 264 229 217 188 204 年份 1979
7、 1980 1981 1982 1983 1984 1985 1986 降雨量 182 230 223 227 242 238 207 208 年份 1987 1988 1989 1990 1991 1992 1993 1994 降雨量 216 233 233 274 234 227 221 214 年份 1995 1996 1997 1998 1999 2000 2001 2002 降雨量 226 228 235 237 243 240 231 210,Ex 美国国家宇航局(NASA)自1966至1984年的科研和发展经费按时间顺序为问:经费有无上升趋势?,5.9 5.4 4.7 4.3 3
8、.8 3.4 3.4 3.3 3.3 3.3 3.7 3.9 4.0 4.2 4.9 5.2 6.0 6.7 7.0,首先用全部19个数据检验:n=19,c=10,S_=5,S+=4,再用1970年至1984年的15个数据检验:n=15,c=8,S_=7,S+=0,第五节 游程检验,游程的概念:,随机游程问题:一个二元0/1序列当中,一段全由0或者全由1构成的串成为一个游程,游程中数据的个数称为游程长度,序列中游程的个数记为R,反映0和1轮换交替的频繁程度。在序列长度N固定的时候,如果游程过少过者过多,都说明序列的随机性不好。当游程过多或者过少时,就会怀疑序列的随机性。序列共有8个游程,检验原
9、理和计算方法,设是由0或者1组成的序列,假设检验问题:,R为游程个数,假设有 个0,个1,这时R取任何一个值的概率都是,R的条件分布,建立了抽样分布之后,在零假设成立时,可以计算 或者 的值,进行检验。,X1,X2,Xn,随机游程问题:序列共有8个游程 R=8,m=10,n=11 查表可知,=0.05下临界值为c1=6,c2=17 因为6R=817,故认为这些数据符合随机性假设,游程检验的应用,1.用于检验两个总体的分布的位置参数是否相同,分析:如果原假设成立,则两个行业的负债水平的分布 是相同的,将其混合后,应能较为充分、均匀地混合,游程数R应该比较大,反之当游程数R较小,则说明两个总体的分
10、布可能不同。,2.检验单样本的随机性,对某型号20根电缆依次进行耐压试验,测得数据如下:这些数据能否认为受到非随机因素干扰,例如测量仪器工作条件的改变等的影响。,分析:这些观察值的中位数是204.6,如果原假设成立,则数据应在中位数附近随机出现。若把小于中位数的观察值换为0,大于或等于中位数的换为1,即可应用游程检验其随机性,Ex.一洗发剂厂家的质检科要求每瓶洗发剂的平均重量为12盎司,现从一台机器中随机抽取20瓶,测其重量如下:试验证这条机器多灌少灌是不是随机的.,补充:异常值的发现与剔除,在处理统计问题时,往往首先假设样本来自某个总体,然后在此基础上进行统计推断。可能发生以下这样的情况:在
11、得到了一组观察值后,发现其中的一个或几个观察值和其他观察值之间在数量上有较大的差异,不像是从同一个总体得到的。例如:天文学家肖维勒于1863年处理的关于金星垂直半径的15个观察数据的残差数据:-1.40,-0.44,-0.30,-0.24,-0.22,-0.13,-0.05,0.06,0.10,0.18,0.20,0.39,0.48,0.63,1.01,其中-1.40和1.01与其他观察值之间的差异较大。,我们不禁要问这15个观察值是不是在同一条件下得到的?-1.40和1.01是不是金星垂直半径的观察数据?,样本中的个别观察值,其数值明显地偏离子样中其余的观察值,这些个别观察值可能来自不同的总
12、体,我们称之为异常值(或离群值)。,用统计方法去发现异常值,实际上是某种显著性检验。在给定显著水平下,给出一个判断准则,使得当实际数据都是来自同一总体(无异常值)的时候,判断有异常值的概率(即犯错误的概率)不超过,我们主要介绍小样本时正态总体下单个异常值的发现准则。,设X1,X2,Xn是来自正态总体N(,2)的样本,记X(1)X(n)为其顺序统计量。检验X(1)或X(n)是否为异常值主要采用“半极差型检验法”。,若X(n)是异常值,则以作为刻度,应远离,即(X(n)-)/的值过大。因,未知,采用其矩估计代替,故检验统计量为:(X(n)-)/S(或(-X(1)/S),当其值大于某临界值时,拒绝原假设。,就前例,天文学家肖维勒于1863年处理的关于金星垂直半径的15个观察数据的残差数据:-1.40,-0.44,-0.30,-0.24,-0.22,-0.13,-0.05,0.06,0.10,0.18,0.20,0.39,0.48,0.63,1.01。,