极大似然估计.docx

上传人:小飞机 文档编号:4034709 上传时间:2023-04-01 格式:DOCX 页数:12 大小:231.32KB
返回 下载 相关 举报
极大似然估计.docx_第1页
第1页 / 共12页
极大似然估计.docx_第2页
第2页 / 共12页
极大似然估计.docx_第3页
第3页 / 共12页
极大似然估计.docx_第4页
第4页 / 共12页
极大似然估计.docx_第5页
第5页 / 共12页
点击查看更多>>
资源描述

《极大似然估计.docx》由会员分享,可在线阅读,更多相关《极大似然估计.docx(12页珍藏版)》请在三一办公上搜索。

1、第1章 极大似然估计极大似然估计是非线性模型中非常重要的一种估计方法。最小二乘法是极大似然估计在线性模型中的特例。1.1 似然函数假设随机变量xt的概率密度函数为 f (xt),其参数用= (q1, q2, , qk )表示,则对于一组固定的参数 来说,xt的每一个值都与一定的概率相联系。即给定参数,随机变量xt的概率密度函数为f(xt)。相反若参数 未知,当得到观测值xt后,把概率密度函数看作给定xt的参数 的函数,这即是似然函数。L(| xt ) = f (xt| ) 似然函数L(| xt ) 与概率密度函数f (xt | ) 的表达形式相同。所不同的是在f (xt| ) 中参数 是已知的

2、,xt是未知的;而在L(| xt) 中xt是已知的观测值,参数 是未知的。对于n个独立的观测值x=(x1, x2, , xn),其联合概率密度函数为其对应的似然函数为:经常使用的是对数似然函数,即对L(| xt )取自然对数:LnL(| xt ) =logf (xt| ) 例 1.1正态分布随机变量的似然函数设一组随机变量xi,(i = 1, 2, , n)是相互独立的,且服从正态分布N(m,s2)。存在N个独立的观测值x=(x1, x2, , xn)。xi的似然函数为 =其中,f表示标准正态分布的概率密度函数,xi的对数似然函数为:其中,(x1, x2, , xn)的联合似然函数为 =例 1

3、.2 泊松分布的对数似然函数假设每5分钟到达商店的顾客的数目服从Poisson分布,有N个样本观测值(x1, x2, , xN)。每个随机变量的概率密度函数,即似然函数为:其对数似然函数为由于每个观测值都是独立的,因此这N个观测值的对数似然函数为例 1.3指数分布随机变量的似然函数1.2 极大似然估计1.2.1 极大似然估计的原理极大似然估计是指使得似然函数极大化的参数估计方法,即估计那些使得样本(x1, x2, , xn))出现的概率最大的参数。例 1.4正态分布的ML估计对于n个相互独立的随机变量x=(x1, x2, , xn),xi N(m,s2)(i = 1, 2, , n)。根据前面

4、推导的(x1, x2, , xn)的联合似然函数:两个一阶条件分别为可以求出未知参数的估计量分别为,例 1.5 泊松分布的ML估计。未知参数l要使得观测到这N个值得概率最大,即令上述对数似然函数对l的偏导数等于0。例 1.6 指数分布的ML估计。例 1.7 线性回归模型的ML估计。设回归模型为y= x+ u,uiNIID(0, s 2 )。由yiN(xi,s 2 ),得yi的似然函数是yi的对数似然函数为若yi是相互独立的,则( y1, y2, , yn)的对数似然函数为极大化似然函数,两个一阶条件为解上述方程可得;。另外一种常见的方便推导方法是利用集中对数似然函数(concentrated

5、log-likelihood)。由对数似然函数的第二个一阶条件可得:。将其带入对数似然函数便得到了集中对数似然函数根据一阶条件可得ML估计量。实际上,最大化极大似然函数等价于最小化残差平方和。因此,在误差项服从正态分布的假定下,的极大似然估计量与LS估计量完全相同。ML方法与LS方法对回归方差的估计量不同,ML估计量是有偏的。但后面将会看到,当误差项服不服从正态分布时,的ML估计量与LS估计量是不一样的,ML估计量比LS估计量渐进有效。1.2.2 ML估计量的统计特征ML估计方法的盛行在于其估计量的优良的大样本(或渐进)特征。在一定的正则条件下,ML估计量具有如下特征(正则条件及详细证明请参见

6、Greene(2000)。设DGP的真实参数值为0,ML估计量为。具有如下特征。1 一致性:2 渐进正态性:,其中,3 渐进有效性:的方差达到Cramer-Rao下界。Cramer-Rao下界:如果yi的概率密度函数满足正则条件,那么,所有一致渐进正态估计量的方差下限为4 不变性:如果函数f,如果f连续且连续可微,那么f (0)的ML估计量为f()。1.2.3 似然函数的导数矩对于随机变量yi,其概率密度函数为f(y, q)。在一定的正则条件下,似然函数的导数具有如下特征。1 ,都是随机变量的随机抽样。这意味着,如果样本是独立抽样的,那么gi与gj不相关,Hi与Hj也不相关。似然函数的一阶导数

7、称为梯度向量(Gradientvector):也称为得分向量(score vector)。对于N个观测值、K个参数,则gi为k1向量。将gi构成的矩阵G = g1,g2, .,gn(Nk)称为梯度向量的贡献矩阵。梯度向量g的每个元素为矩阵G的各列的和。似然函数的二阶导数称为海赛矩阵(Hessian Matrix):对于N个观测值、K个参数,则H为kk向量。将H i(kk)称为海塞矩阵的贡献矩阵。海赛矩阵H的每个元素为所有矩阵H i的和。比如,在线性回归模型中,b包含k个参数,加上标准差s,共k+1个参数。矩阵G的前k列的第i行第j列元素为最后一列的元素为231.2.4 方差矩阵的估计方法(1)

8、 由渐进公式,可以将带入上式作为的方差估计量,即信息矩阵的逆,。在线性回归模型中,因此,ML估计量的协方差矩阵为将b和s的估计量带入可得到方差估计量。显然,是不相关的。这表明,对于参数b的推断与s的估计无关;同样地,对于参数s的推断与b的估计无关。但实践中,非线性模型的二阶导数的形式不容易明确地解出。因此,这种方法用的比较少。(2) 第二种方法是:,即直接将带入二阶导数,而不是求二阶导数的期望。可以证明,这等价于在样本均值点求二阶导数的期望。与第一种方法相类似,这种方法面临着二阶导数求解的难题。在线性模型中,估计量的方差为:(3) 由导数矩的第三个特征,估计量的协方差矩阵等于一阶导数的协方差矩

9、阵的逆。由一阶导数,其方差估计量为:因此,ML估计量的方差估计量为:其中,(1K),(NK)。这种估计量称为BHHH估计量或OPG估计量(outer product of gradients)。这种方法的最大优点是计算方便。上述三种方法是渐进等价的,但在小样本情况下,三种方法的估计结果可能会出现很大差异,得到不同的统计推断结论。1.2.5 拟极大似然估计如果一个方程设定错误,但ML估计量仍然具有一致性,将这种情形下的ML估计量称之为拟极大似然估计量(QMLE)。比如,如果线性模型中的误差项服从正态分布,则ML估计等价于OLS估计。我们知道,OLS估计量的一致性与分布没有关系,因此ML估计也具有

10、一致性。即使误差项的真实分布不是正态分布,ML估计仍然具有一致性。这时,我们将ML估计量称为QML估计量。1.3 三种渐进等价的检验方法似然比检验(Likelihood Ratio,简写为LR)、沃尔德检验(Wald)和拉格朗日乘子检验(Lagrange Multiplier,简写为LM)是三种被广泛应用的检验。对于原假设H0:,LR检验、Wald检验和LM检验采用了不同的思路。如下图所示。图 1.1 LR、LM、Wald检验示意图1 似然比检验令LnLU = LnL()为无约束时的极大似然函数值,LnLR= LnL()为带约束的极大似然函数值。令表无约束的似然函数估计量,令表示受约束的似然函

11、数估计量。如果原假设H0:成立,那么LnLU应该近似等于LnLR,即(LnLU LnLR)应该比较小。如果(LnLU LnLR)比较高,就要拒绝原假设。LR检验统计量为如果原假设成立,那么LRc2(J)。J表示未知参数缩减的个数,即约束条件的个数,也是中方程的个数。我们来看似然比统计量的另一种简单的计算方法。在正态分布的线性模型中,无约束模型的集中对数似然函数为同样地,受约束模型的集中对数似然函数为因此,似然比统计量又可以写为2 Wald检验因为极大似然估计量具有一致性,因此如果原假设成立,那么应该近似等于q。如果显著不等于q,就要拒绝原假设。Wald统计量为如果原假设成立,Wc2(J),J表

12、示未知参数缩减的个数。3 拉格朗日乘子检验如果成立,那么应该距离真实参数比较近。而在似然函数在真实参数处的斜率为0,因此原假设成立的时候,似然函数在处的斜率也应该近似为0。LM检验就是基于受约束的似然函数在的斜率进行的检验。LM统计量为如果原假设成立,LMc2(J),J表示未知参数缩减的个数。我们来看LM统计量的另一种简单计算方法。在正态分布的线性模型中,根据一阶条件及方差估计量,将受约束模型中的残差项带入上两式,再将结果代入LM统计量中,可得其中,表示受约束模型的残差项对所有的解释变量进行回归得到的拟合优度。LM统计量也可以通过公式LM=nRi2进行计算。其中n为样本量,Ri2为用1对似然函

13、数在处的导数回归得到的拟合优度。这三种检验是渐进等价的,但在小样本情况下可能得到不同的推断。而三种检验的小样本特征并没有特别的规律。因此,人们一般根据计算上的方便性来选择采用哪一种形式的检验方法。如上所述,LR检验需要同时计算带约束方程的似然函数和不带约束的方程的似然函数。Wald检验只需要计算无约束的似然函数,而LM检验只需要计算带约束的似然函数。例 1.8消费模型的ML估计(数据文件:usmacro.dta)设消费模型为 yt = 0 + 1xt + ut ,假定utN(0, s2),那么yt =N(0 + 1xt, s2)。(1) 利用ML方法估计上述模型,并根据得分向量计算协方差矩阵上

14、述模型的ML估计Stata程序如下(程序文件:mylogl.ado)。-mylogl.ado-program define myloglversion 9.2args lnf b1x sigma tempvar res quietly gen double res=$ML_y1-b1x quietly replace lnf = -ln(sigma)-0.5*res2/sigma2end-mylogl.ado-. ml model lf mylogl (b1: realcons=realdpi) (sigma: ). ml maximize 得分向量可通过如下命令提取:. ml score s

15、c_* 根据BHHH公式,协方差矩阵可利用得分向量直接计算出来。或者也可以通过technique(bhhh)直接计算出来。. ml maximize, technique(bhhh)(2) 利用似然比、LM和Wald检验方法分别检验如下约束是否成立:H1:1 = 0; H2:1 = 0.7;似然比检验:. regress realcons realdpi. est store A. regress realcons . regress B. lrtest A B, stats dir LM检验:. regress realcons . predict res, residual. regres

16、s res realdpi. scalar lm=e(r2)*e(N) . scalar crit=invchi2tail(2, 0.05). scalar list lm crit Wald 检验. test realdpi=0 (3)观察估计量的协方差矩阵. matrix list e(V)1.4 非线性回归模型的ML估计对于一般的回归模型g(yi) = f(xi; ) + ui , uN(0, s2) (1)参数(; )仍然可以通过LS方法估计,即最小化 (2)但得到的估计量不具有一致性。这种情况下,ML估计是更好的估计方法。由ui的概率分布可以得到yi的概率密度为(3)其中,表示由ui

17、到yi转换的雅克比矩阵行列式,表示为显然,当被解释变量为y时,。yi的对数似然函数为 (4)观测值(y1, , yn)的似然函数为 (5)其对数似然函数为(6)显然,当被解释变量为y时,即当时,利用一阶条件极大化上式得到,由第三个一阶条件可以推出: (7)将(7)代入(6)式得到集中对数似然函数 (8B)极大似然函数关于参数是非线性的,利用数值最优化方法进行估计。例 1.9利用ML方法估计非线性消费函数(数据文件:usmacro.dta)例 1.10 利用ML方法估计如下生产函数模型。文件包含产出、资本、劳动力等数据。(数据文件:production)(1) CD生产函数(2) 广义CD(GCD)生产函数(3) 不变替代弹性(CES)生产函数(4) 广义CES生产函数附录:如果变量x的概率密度函数为f(x),y=g(x)是x的单调函数,那么y的概率密度函数为:其中,称之为由x到y转换的雅克比(Jacobian)。例:x N(m, s2),y=(x-m)/s。那么y的概率密度函数可以利用上述公式来求。由y=(x-m)/s x=m+sy (即反函数)因此,y的概率密度函数为

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号