《符号检验课件.ppt》由会员分享,可在线阅读,更多相关《符号检验课件.ppt(28页珍藏版)》请在三一办公上搜索。
1、第二章单一样本的推断问题,1,2.1符号检验及分位数的推断问题(连续分布),2,2.1 符号检验及分位数的推断问题(连续分布),例1:假设某城市16座预出售的楼盘均价(单位:百元/)如下表所示:16座预出售的楼盘均价 问:该地区平均楼盘价格是否与媒体公布的3700元/的说法相等?,3,解:若假设楼盘均价服从正态分布,则由参数统计分析,建立假设检验问题如下:,由于 为小样本,构造枢轴量 在零假设 成立下,代入数值得,而又知P值为,在显著性水平以下,都不能拒绝零假设.,4,以上16个数据中,其中有3个楼盘的均价高于37,13个楼盘的均价低于37,由正态分布的对称性,若37为楼盘均价格的平均水平,则
2、从总体中抽取的数据分布在37左右的个数应该大致相等,不应该出现比例失衡,因此37不能作为正态分布的对称中心。然而若知道某一连续数据总体中心位置的参数(中位数和均值),总体均值的点估计是样本均值,总体中位数的点估计是样本中位数,对于单峰对称分布来说,两者差别不大,而对于非对称分布来说,中位数较均值对总体的中心位置来说,将是更稳健的估计。,由于分布未知,使用参数估计会出现错误,则以上检验用中位数检验较为合理,由此引入非参数统计。,5,1.符号检验的基本概念,4,定义:通过符号“+”和“-”的个数来进行统计推断的方法,我们称为符号检验。符号检验是最古老的检验方法之一.符号检验的基本原理基本原理:对于
3、例1中的数据,要么大于37,要么小于37,记,,由于每一个样本等可能的出现在37的左右,从而有 而 过大或者过小都表示37不能作为总体的中心,故在 过大或者过小时我们拒绝零假设.,6,中位数检验的过程,4,假设总体为,为总体的中位数,则可以建立以下假设检验问题:其中 为待检验的中位数,为来自于 的简单随机样本.,7,记:,(其中#表示满足括号中表达式的个数)而,令 则在零假设 下,以双侧检验为例,检验问题就变为 其中 此时,可以按抽样分布 求解得到.在给定显著性水平 下,检验的拒绝域为,8,p值,当 时,则在显著性水平 下拒绝零假设 当 时,则在显著性水平 下接受零假设中位数检验的结果 当 时
4、,;当 时,;,9,例:(续前面的例1),由于分布未知,考虑非参数统计解:,P值 在给定显著性水平 下,拒绝零假设,故认为该地平均楼盘价格与与媒体公布的37之间存在显著性差异,10,在t检验中,不能拒绝零假设,但是也并不意味着接受零假设,而是得到了不犯第二类错误的概率,而符号检验仅在假定数据为常规连续分布下,得到了拒绝的结论,这一决策的风险至少是0.05以下,说明已收集的数据对于下可靠性的结论是充分的.综上可得,t检验在正态假设下得到了不可靠的结论,(可能由于信息不足,也有其他原因,如假定不当),由于符号检验说明了信息的充分性,于是分布假定不当才是使用t检验失败的原因.所以,符号检验的结果较t
5、检验的结果更可信.,11,2.分位数检验(广义符号检验),同样记:,(其中#表示满足括号中表达式的个数)在零假设 下,由于,(当 所有样本点都不等于 时,而如果有些样本点等于,那么这些样本点就不能参与推断,此时,),12,分位数检验的结果,如果检验不满足条件,不用计算也知道检验结果不显著,13,例2.(书中的例2.1),分位数检验P值 在给定显著性水平 下,拒绝零假设,即下四分位点 应该小于64,14,中位数检验P值 在给定显著性水平 下,拒绝零假设,即中位数 应该大于64,15,3.大样本近似,当样本较大时(),可以使用二项分布的正态近似进行检验,而当样本容量不够大时,可以使用正态性修正来近
6、似.a.中位数的近似检验 当 较大时,由,16,当 不够大时,可以使用Z的正态连续性修正,如下式 一般地,当 时,;当 时,;,17,由绪论知识可知,一个离散分布的点的概率 可以用连续(如正态分布)分布的相应区间 来近似,则离散分布的概率 可以用连续分布 来近似.因此,较大点处的分布函数作正态分布正修正结果 与二项分布的精确分布比较接近,而对于较小点处的分布函数作正态分布负修正结果与二项分布的精确分布比较接近.,18,b.分位数的近似检验 当 较大时,在零假设 下,当 不够大时,可以使用 的连续性修正 一般地,当,;当,;,19,近似检验的结果,20,例3:设某化妆品厂商有A和B两个品牌,为了
7、解客户对A,B两品牌化妆品在使用上的差异,将A,B品牌化妆品同时交给45位客户使用,一个月以后得到如下数据:喜欢A品牌的客户人数为:22人 喜欢B品牌的客户人数为:18人 不能区分的人数:5人分析在显著性水平 下,是否认为两种品牌在市场上的被喜欢程度有差异?,21,解:设 表示喜欢A,B品牌的客户比例,建立假设检验:记 表示喜欢A品牌的客户人数,为喜欢B品牌的客户人数由于,所以取正态分布正修正,22,在给定显著性水平 下,由于,证据不足,不能拒绝零假设,没有证据显示客户在品牌A和B上存在显著差异 而实际中,A品牌和B品牌固然存在差异,可能由于随机抽样产生,并非本质差异.随机性是客观存在而无法避
8、免的,检验中表现出来统计量显著的差异则是本质差异.,23,4.置信区间,有时不仅要估计参数的位置,也想知道它的的置信区间用顺序统计量构造分位数的置信区间 令 独立取自同一分布,为样本的顺序统计量,若 对于,若满足 则称 为 的 置信区间,24,当 时,为 的置信度为 的置信区间2)中位数 的对称置信区间 不失一般性,假定,如果 时可以拒绝零假设,而在 时不能拒绝零假设,或者说 是最大地能够拒绝 的数目,等价地,为最小的能够拒绝 的数目,则 或 为 的 的置信区间,25,例4:某一企业生产一种钢管,规定长度的中位数为10m,现随机地从正在生产的生产线上取10根进行测量如下:9.8 10.1 9.7 9.9 9.8 10.0 9.7 10.0 9.9 9.81)问生产需要调整吗?2)在给定置信度为0.95下,求测量钢管长度的中位数的置信区间?,26,解:建立假设检验问题:试验数据符号表 P值=,27,在给定显著性水平 下,,所以生产暂时不需要调整将数据按照从小到大的顺序排列,得到顺序统计量 9.7 9.7 9.8 9.8 9.8 9.9 9.9 10.0 10.0 10.1在显著性水平 下,样本数据个数为n,查到左尾的正好和右尾的负号的数目为,因此中位数 的 置信区间为 故中位数 的 的置信区间为,28,