数理统计与随机过程7-参数估计.ppt

资源描述

《数理统计与随机过程7-参数估计.ppt》由会员分享，可在线阅读，更多相关《数理统计与随机过程7-参数估计.ppt（39页珍藏版）》请在三一办公上搜索。

1、数理统计与随机过程,1,兰州大学信息科学与工程学院,主讲:路永刚,非正态总体的区间估计,7.6 非正态总体的区间估计,前面两节讨论了正态总体分布参数的区间估计。但是在实际应用中，我们有时不能判断手中的数据是否服从正态分布，或者有足够理由认为它们不服从正态分布。但是，只要样本大小 n 比较大，总体均值的置信区间仍可用正态总体情形的公式,或,2已知时,2未知时,所不同的是：这时的置信区间是近似的。,这是求一般总体均值的一种简单有效的方法，其理论依据是中心极限定理，它要求样本大小 n 比较大。因此，这个方法称为大样本方法。,设总体均值为,方差为2,X1,X2,Xn 为来自总体的样本。因为这些样本独

2、立同分布的，根据中心极限定理，对充分大的 n,下式近似成立,因而，近似地有,于是，的置信系数约为1-的置信区间为,当2未知时，用2的估计S2 来代替2，得,只要 n 很大，(2)式所提供的置信区间在应用上是令人满意的。,那么，n 究竟多大才算很大呢？,显然，对于相同的 n,(2)式所给出的置信区间的近似程度随总体分布与正态分布的接近程度而变化，因此，理论上很难给出 n 很大的一个界限。,但许多应用实践表明：当 n30时，近似程度是可以接受的；当 n50时，近似程度是很好的。,例1：某公司欲估计自己生产的电池寿命。现从其产品中随机抽取 50 只电池做寿命试验。这些电池寿命的平均值为 2.261(

3、单位：100小时)，标准差 S=1.935。求该公司生产的电池平均寿命的置信系数为 95%的置信区间。,解：查正态分布表，得 z/2=z0.025=1.96，由公式(2)，得电池平均寿命的置信系数为 95%的置信区间为,设事件 A 在一次试验中发生的概率为 p，现在做 n 次试验，以Yn记事件 A 发生的次数,则 Yn B(n,p)。依中心极限定理，对充分大的 n，近似地有,7.6.1 二项分布,(3)式是(1)式的特殊情形。,(4)式就是二项分布参数 p 的置信系数约为1-的置信区间。,例2：商品检验部门随机抽查了某公司生产的产品100件，发现其中合格产品为84件，试求该产品合格率的置信系数

4、为0.95的置信区间。,解：n=100,Yn=84,=0.05,z/2=1.96,将这些结果代入到(4)式，得 p 的置信系数为0.95的近似置信区间为 0.77,0.91。,例3：在环境保护问题中,饮水质量研究占有重要地位，其中一项工作是检查饮用水中是否存在某种类型的微生物。假设在随机抽取的100份一定容积的水样品中有20份含有这种类型的微生物。试求同样容积的这种水含有这种微生物的概率 p 的置信系数为0.90的置信区间。,解：n=100,Yn=20,=0.10,z/2=1.645,将这些结果代入到(4)式，得 p 的置信系数为0.90的近似置信区间为 0.134,0.226。,7.6.2

5、泊松分布,设 X1,X2,Xn 为抽自具有泊松分布P()的总体的样本，因为 E(X)=D(X)=，由:,例4：公共汽车站在一单位时间内(如半小时,或1小时,或一天等)到达的乘客数服从泊松分布 P(),对不同的车站,不同的仅是参数的取值不同。现对某城市某公共汽车站进行100个单位时间的调查。这里单位时间是20分钟。计算得到每 20 分钟内来到该车站的乘客数平均值为 15.2 人。试求参数的置信系数为95%的置信区间。,解:n=100,=0.05,z/2=1.96,将这些结果代入到(5)式,得的置信系数为0.95的近似置信区间为 14.44,15.96。,讨论,要对非正态分布的参数进行区间估

6、计，主要需要哪些条件？,14,非参数估计,参数估计：样本的概率密度函数P(x，i)的形式已知，去推断概率密度函数中的某些未知的参数i。非参数估计：样本的概率密度函数P(x，i)的形式未知，去推断概率密度函数。,参数估计的两种类型,非参数估计,当密度函数的形式未知时，只能用非参数方法。它能处理任意的概率分布。在参数估计中,密度函数的参数形式是单模的(单个局部极大值)，然而在现实中，所遇到的却常常是多模的情况。,基于直方图的概率密度估计就是一种典型的非参数估计,最简单的非参数估计,非参数概率密度函数的估计,基本思想:设有样本x的概率密度函数为 p(x)，则x 落在区域 R 中的概率为:,设 n 个

7、抽取样本为独立同分布样本，其概率密度函数为 p(x)，则其中 k 个样本落在区域 R 的概率为:,二项式分布（Binomial Distribution）,k 的期望值为:E(k)=nP,Pictire From:,即比值 k/n 就是概率 P 的一个很好的估计.若概率密度p(x)是连续的，并且区域R足够小，以致于在这个区间中p 几乎没有变化，那么近似地有:,对概率P，用最大似然估计，设参数向量为=概率P,其中 x 为R中的一个点，V 是区域 R 所包含的体积,从式(1)，(3)，(4)可得:,由二项式分布的性质得：当 knP 时Pk 最大，所以,这种情况毫无意义！区域 R 中含有样本:,收敛

8、条件,其实是 p(x)的空间平均.对有限的n，如果希望得到 p(x)，那么要求 V 的值趋于0。这时会出现两种情况：区域 R 中不含有任何样本:,在这种情况下，估计的结果就变成无穷大:也毫无意义!,所以要求：n为有限值，V 不能趋于零,当下面3个条件成立时，pn(x)收敛到 p(x)：,有两种经常采用的满足以上三种条件的途径:(1)体积Vn是N的确定函数，比如 VN=，来逐渐收缩一个给定的初始区间“Parzen 窗法”,24,(2)kn 是 N 的一个确定函数,比如 kN=，这样体积 VN 就必须逐渐生长，直到最后能包含进 x 的 kN 个相邻点.“K-近邻估计”,Parzen 窗法,K-近邻

9、估计,Parzen 窗法,根据某一个确定的体积函数，比如，来逐渐收缩一个给定的初始区间。,Parzen 窗法,Parzen 窗方法估计概率密度函数，我们假设区间Vn 是一个 d 维的超立方体其中hn为Vn的边长令窗函数为：,如果 xi 落在中心为 x 的超立方体 Vn 中，那么(x-xi)/hn)1，否则为0.,超立方体中的样本个数:,将 kn 代入 pn(x)=(kn/n)/Vn,得：p(x)的估计pn(x)是一系列关于 x 和 xi(i=1,n)的函数的平均.推广：窗函数可以是满足概率容许条件的任意函数,窗函数的选择,考虑一维 N(0,=1)正态概率密度函数令(h1:随意选取的一个参数)

10、则:表示Pn(x)就是以各个样本点xi为中心的正态概率密度函数的平均。,举例说明,如果 n=10、h=0.1,那么每个样本点各自的贡献能够清楚的观察到。,数值计算结果:,如果 n=1、h1=1,h1=1,h1=0.5,h1=0.1,在二维情况下有类似的结果:,K-近邻估计,K Nearest Neighbor Density Estimation 在 Parzen窗法中:体积由先确定体积内的点数不确定在K-近邻估计中:体积内的点数 kN 先确定体积再由包含 kN 个最近邻点来确定VN基本公式仍然为：,K-近邻估计,如果设，随着N增大，KN增大，所以体积也就增大。如果x点附近密度低，体积增大速度就快；如果x点附近密度高，体积增大速度就慢。可以克服Pazzen窗对于初值V1的依耐性,基本公式：,K-近邻估计,假设条件：,一个较好的确定kN的方法：,K-近邻估计举例,讨论,用直方图估计概率密度函数，和用 Parzen 窗估计概率密度函数有什么联系和区别?,

展开阅读全文