随机微分方程在数理金融中的应用硕士学位论文.doc

上传人:仙人指路1688 文档编号:4195153 上传时间:2023-04-09 格式:DOC 页数:37 大小:2.31MB
返回 下载 相关 举报
随机微分方程在数理金融中的应用硕士学位论文.doc_第1页
第1页 / 共37页
随机微分方程在数理金融中的应用硕士学位论文.doc_第2页
第2页 / 共37页
随机微分方程在数理金融中的应用硕士学位论文.doc_第3页
第3页 / 共37页
随机微分方程在数理金融中的应用硕士学位论文.doc_第4页
第4页 / 共37页
随机微分方程在数理金融中的应用硕士学位论文.doc_第5页
第5页 / 共37页
点击查看更多>>
资源描述

《随机微分方程在数理金融中的应用硕士学位论文.doc》由会员分享,可在线阅读,更多相关《随机微分方程在数理金融中的应用硕士学位论文.doc(37页珍藏版)》请在三一办公上搜索。

1、摘 要复杂数据主要表现在相依、非线性、维数高与不完全观测等,在股市、基因序列和经济等领域中经常出现。为解决巨型数据集合问题,数据挖掘的理论、方法和技术已应运而生。而针对诸如怎样同时检验成千上万个基因中哪些基因的表达水平有显著性差异之类的高维统计推断问题,以错误发现率为主要特征的非参数估计方法无疑为其提供了一个有效的解决途径。本文主要研究考察错误发现率的在各种参数模型和非参数模型下的控制检验方法,全文共分为四章。文章首先介绍了所选取课题的背景和意义,以及国内外在该方向的研究现状。在多重假设检验的背景下,给出了错误发现率的定义,提出利用p值进行假设检验,并在假设检验独立和相依的情形下对错误发现率的

2、控制方法进行了探讨。在研究错误发现率的控制方法时,发现在处理多重假设检验问题时,核心的问题是如何估计真实零假设的个数,因此本文采用经验贝叶斯估计来估计它的值。在参数混合模型和非参数混合模型中研究真实零假设的估计问题是本文的核心内容。针对正态混合分布模型和Beta混合分布模型两种参数混合模型,文章采用矩估计方法和基于p值的最小二乘估计方法进行研究;在研究非参数混合模型时,分别介绍了最小二乘估计方法、Beta分布拟合模型和Beinstein多项式拟合模型的方法。文章的最后以Hedenfalk报告的一组乳腺癌患者的基因数据为例进行仿真研究,发现错误发现率为微阵列数据的多重假设检验提供了合适的错误控制

3、指标。 关键词:错误发现率;多重假设检验;p值;非参数估计;微阵列数据AbstractComplex data always appear in the stock market, gene sequences, economic and other fields, which mainly show the characteristic of dependent, nonlinear, high dimension and incomplete observations. In order to solve the problem of huge data collection, the t

4、heories, methods and techniques of data mining are proposed. While how to examine the high-dimensional statistical inference problem, such as the significant differences of expression levels in thousands of genes, the non-parametric estimation of false discovery rate provide an effective solution.Th

5、is paper mainly investigate the test method based on the false discovery rate of various parametric model and non-parametric model, which is divided into four chapters. Firstly, this paper introduce the background and significance of the topic, and the current studies in this direction at home and a

6、broad. Under the background of multiple hypotheses testing, the paper describe the definition of the false discovery rate, propose using the p-value to test the hypothesis testing, and discuss the controlling method of the false discovery rate when the hypotheses testing is independent or dependent.

7、 When we investigate the controlling method of the false discovery rate and studied the multiple hypothesis testing problem, we find that the central problem is how to estimate the number of true null hypothesis, so this paper use the empirical Bayes estimation to estimate its value. Investigating t

8、he estimation of true null hypothesis in the mixing parametric model and non-parametric model is core of the dissertation. Aiming at the mixed normal distribution model and Beta mixture distribution model, This paper use the method of moment estimation and least squares estimation method based on th

9、e p-value to estimate its value; On studying the non-parametric mixture model, the paper introduce the least square estimation method, Beta distribution fitting model method and the Beinstein polynomial fitting model method. Finally, the paper conduct the simulation research based on a group of pati

10、ents with breast cancer gene data by Hedenfalk, and find that the false discovery rate is able to provide a suitable error control targets for the multiple hypothesis testing of microarray data.Keywords: false discovery rate, multiple hypotheses testing, p-value, non-parametric estimation, microarra

11、y data目 录摘 要IAbstractII第1章 绪 论11.1 课题研究的背景及意义11.2 国内外在该方向的研究现状11.2.1 国外对错误发现率的研究现状11.2.2 国内研究现状31.3 本文拟研究的主要内容31.4 创新点3第2章 错误发现率的多重检验方法52.1 多重假设检验的错误测度52.2 值的定义、性质和计算方法62.3 独立情形下基于FDR控制的检验方法72.4 相依情形下基于FDR控制的检验方法82.5 真实零假设的个数或比值的估计92.5.1 估计92.5.2 经验贝叶斯估计112.6 本章小结12第3章 参数混合模型和非参数混合模型的估计133.1 引言133.2

12、 正态分布混合模型133.3 Beta分布混合模型173.4 非参数混合模型的估计213.4.1 最小二乘估计223.4.2 Beta分布拟合模型233.4.3 Beinstein多项式拟合模型253.5 本章小结26第4章 错误发现率的估计方法的应用274.1 引言274.2 微阵列数据实例研究274.3 本章小结29结 论30参考文献31哈尔滨工业大学学位论文原创性声明和使用权限34致 谢35第1章 绪 论1.1 课题研究的背景及意义复杂数据主要表现在相依、维数高、非线性与不完全观测等,经常出现在股市、基因序列和经济等领域中。在研究处理低维的简单数据时,采用传统的数理统计方法是有效的,但在

13、研究比较复杂的数据时,就会变得比较困难。因此,“复杂数据的统计推断问题”已被列为我国统计学研究的重点课题。随着科学技术的不断发展,在实际的统计研究过程中,出现了越来越多的大型数据集合问题。在研究巨型数据的高维统计推断问题时,以错误发现率为主要特征的非参数估计方法为其提供了一个有效地解决途径。在巨型数据问题的统计分析中,错误发现率( false discovery rate, FDR)有着非常重要的作用,现已被越来越多地应用在微阵列(Microarray)数据研究和功能磁共振成像(Functional magnetic resonance imaging, fMRI)等领域。以微阵列数据研究和功

14、能磁共振成像(fMRI)为代表的现代生物技术已经给医学界的研究带来了很大的影响。由于错误发现率可以为大规模数据多重检验中的错误控制提供一个合适的测量标准,因此在微阵列数据的研究中,研究者通常采用错误发现率(FDR)来控制多重假设检验的错误率。例如在研究基因表达的差异性试验中,假设我们挑选了个差异表达的基因,其中有个是真正有差异表达的,另外有个其实是没有差异表达的,也就是说是假阳性的。在试验中我们希望错误比例不能超过某个预先设定的值(比如),在统计学意义上,这就等价于控制FDR不能超过.1.2 国内外在该方向的研究现状1.2.1 国外对错误发现率的研究现状多重假设检验的统计显著性问题已经引起了许

15、多统计学者的注意。1995年,Benjamini和Hochberg在研究多重假设检验时首次提出了错误发现率的概念,并在多重检验中对它的控制方法做了研究,给出了计算方法1。然而,由于当时没有学者研究大规模数据,因此并未受到重视,甚至还受到广大学者的质疑。若干年后,随着微阵列数据研究的不断发展,大规模数据的频繁出现使得FDR有了实际的应用,错误发现率的理论和应用研究也在逐渐走向成熟。FDR(false discovery rate)的定义如下:上式中的和分别表示个假设检验中错误拒绝和正确拒绝检验的个数,表示个假设检验中总的拒绝原假设的个数,表示数学期望。Storey和Tibshirani(2003

16、)提出了阳性错误发现率( positive false discovery rate,pFDR)的定义,并在DNA微阵列数据试验应用过程中,分别给出了统计数据独立和相关条件下的程序计算过程2。pFDR的定义为:其中和的含义与上文相同。比较FDR和pFDR两者的定义可知,pFDR是FDR的一种特例。设假设检验的检验统计量为,分别假设和,令和分别表示检验统计量的零分布和相间分布。同时进行次试验。也就是说,考察个假设检验:及其检验统计量. 对每个,分别假设和. 假定对每个,都有和. 被当做的一个样本,且具有混合分布 (1-1)设全体试验的拒绝域的集合为。未被发现的错误率( false non-dis

17、covery rate,FNR)首次被Genovese和Wasserman(2002)3提出。从参考文献4和5中,我们可以得到正错误发现率(pFDR)和未被发现的错误率(FNR)的贝叶斯解释: 上式中的分母和可以由经验分布估计得出结果,有时也会从已知的或者由采样的方法得到的零分布中得到结果。如果可以由检验统计量估计,那么pFDR和pFNR就是可以估计的。Allison等人(2002)采用有限Beta混合模型,利用这些数量模拟了微阵列数据分析中的值6。关于多重假设检验问题的研究,也受到了国际著名统计学家的高度重视,且已编入了国际统计学的教材中。Erich Lehmann编著的Theory of

18、Point Estimation和Testing Statistical Hypotheses是世界各国培养统计学研究生的标准教材,被世界各国的大学广泛采用。2005年,Lehmann还撰文提出了k-族错误率(k-FWER)的概念。另外,斯坦福大学统计系教授Bradley Efron也对此问题作出了深入的研究,并在许多重要报告中介绍了FDR的应用成果7-9。1.2.2 国内研究现状 在国内统计学研究中,目前对多重假设检验中错误发现率问题的研究才刚刚起步。黄丽萍等(2003)以脑功能磁共振成像(fMRI)为实验,对多重假设检验的FDR控制方法进行了研究,他们利用计算机编程技术对FDR控制方法进行

19、了详细的研究,并在功能磁共振成像(fMRI)数据分析中加以应用10。缪柏其(2005)和朱钰(2005)介绍了FDR控制检验方法取得的显著成果11。东北师范大学郭建华教授指导的裴艳波(2005)的硕士论文对多重假设检验问题中关于三种错误测度-FWER,FDR和pFDR及其控制方法进行了较全面的介绍12。此外,苟鹏程(2006)对微阵列数据的多重比较进行了探讨13。1.3 本文拟研究的主要内容本文主要研究错误发现率的非参数估计方法,并以微阵列数据为实例进行仿真研究。在第二章中,我们从多重假设检验的错误测度的角度出发,引入错误发现率的概率意义,研究了p值的定义和性质,并着重介绍真实零假设的个数或比

20、值的估计方法;在第三章,我们详细介绍比值在参数混合模型与非参数混合模型下的估计方法;第四章以微阵列数据为例,进行仿真研究,并得出相关结论。1.4 创新点本文的创新点在于:首先,本文在多重假设检验的背景下,介绍了错误发现率的定义,并提出利用p值进行假设检验;其次,在对正态混合分布模型和Beta混合分布模型两种参数混合模型进行研究时,文章采用矩估计方法和基于p值的最小二乘估计方法进行研究;在研究非参数混合模型时,分别采用最小二乘估计方法、Beta分布拟合模型和Beinstein多项式拟合模型的方法进行研究;最后,在以Hedenfalk的乳腺癌微阵列数据作为实例对微阵列数据进行仿真研究时,本文采用置

21、换检验的方法对错误发现率的控制方法进行研究,得到合理的实验结果。第2章 错误发现率的多重检验方法2.1多重假设检验的错误测度在研究多重假设检验问题时,最核心的内容就是如何控制总体检验所犯的错误。由于涉及多重检验,因此情况将变得非常复杂。例如,同时对个假设进行检验,分别记为. 如果原假设为真,则令,否则令. 记. , 即分别为 和 中含有的元素的个数。显然有. 对于这个检验结果的分类见表2-1.其中,表示拒绝总数,即个检验中显著性假设的个数,是一个可观测的随机变量;表示个检验中犯第类错误的个数;表示犯第类错误(假阴性)的总数,和均为不可观测的随机变量。在实际的检验过程中我们发现,表2-1中的一些

22、量,例如是不可观测的。在多重假设检验中,为了衡量检验总体的第类错误,我们必须首先要寻找一种比较合理的错误测度,然后进一步研究该错误测度的控制检验方法,以达到尽可能多地发现显著性假设的目的。这里我们主要介绍错误发现率(FDR) 的定义及其衍生出来的各种相关测度。定义2.1:FDR 称为错误发现率(False discovery rate)。1995年,Cahgeton和Peshereg提出了错误发现率的概念。下面是由错误发现率衍生出来的各种相关概念。定义2.2:cFDR(r)称为条件错误发现率(conditional FDR).定义2.3:eFDR(r)称之为经验FDR(empirical FD

23、R).定义2.4:mFDR称之为边缘FDR(marginal FDR).定义2.5:pFDR称之为阳性FDR(positive FDR).定义2.6:FNR称之为假非发现错误率(False non-discovery rate).定义2.7:pFNR称之为阳性FNR(positive FNR).这些衍生的错误测度与FDR之间的关系可有下列式子表示出:且当时,有和2.2 值的定义、性质和计算方法为了能够直观的得到接受或拒绝原假设的置信程度,我们通常采用值来研究。在多重假设检验的研究中,采用值进行假设检验已经成为国际上比较流行的方法。因此,在研究模型的估计方法之前,有必要先研究下值的定义和性质。定

24、义2.8:设检验统计量为,样本观测值为,对于一族拒绝域统计量的值可以定义为: 在实际的假设检验中,由定义2.8所得到的值,如果, 说明检验结果是显著的;如果, 则说明检验结果非常显著。下面给出值的计算方法和作用,并不加证明的给出值的性质。(1)值的计算方法当为真时,统计量的值可由样本数据计算出,根据检验统计量的实际分布,可以求出值. 具体地讲,就是:1.左侧检验的值是统计量小于样本统计值的概率,即:;2.右侧检验的值是统计量大于样本统计值的概率,即:; 3.当统计量的分布具有对称的性质时(例如正态分布,t分布等),双侧检验的值是统计量落在样本统计值为端点的尾部区域内的概率的2倍,也就是说:当位

25、于分布曲线的右侧时,有当位于分布曲线的左侧时,有(2)值的性质1.如果原假设为真,那么由定义2.8计算出的值满足区间上的平均分布,即;2.如果原假设非真,则值的分布不易确定,但由值的统计意义可知,其分布具有递减的趋势。(3)值的作用在假设检验中,我们先利用样本数据计算出值,然后将值与提前给出的检验水平比较,得出检验的结论:1.如果则在显著水平下接受原假设;2.如果则在显著水平下拒绝原假设。在实际实验过程中,若,则可以适当提高样本的大小,再次进行检验。2.3 独立情形下基于FDR控制的检验方法在多重假设检验中,利用值来研究错误发现率的控制方法有很多。在这一节,我们先研究独立情形下基于FDR控制的

26、检验方法。Benjamini和Hochberg在提出错误发现率的概念的同时,给出了FDR最初的检验方法,记为BH法。BH法:设个假设检验对应的值分别为将他们从小到大排序,得到其中对应于 对于给定的检验水平,令则拒绝对应的原假设。实际上,当时提出的BH法只是用来控制总体的错误测度(FWER)。由下面的定理我们可以发现,如果检验水平已知,那么该方法就可以有效地控制FDR。定理2.1 :【Benjamini and Hochberg (1995)】14如果多重假设检验的统计量所对应的值相互独立,且具有连续的分布,为给定的检验水平,那么BH法控制.受BH法的启示,Benjamini和Liu(1999)

27、提出了一个step-up的错误发现率的检验方法,记为BL1法15。BL1法:取 经过计算可以知道,是单调上升的,即令 则拒绝所对应的零假设。注:在上面的BL1方法中,如果不存在这样的, 那么拒绝所有的原假设。定理2.2 :【Benjamini and Liu(1999a)】如果多重假设检验的统计量所对应的值相互独立,且具有连续的分布,则BL1法控制 其中为提前给定的检验水平。由定理2.2可知,在相互独立的条件下,BH法把FDR的水平控制在 若已知,则可令取代BH法中的检验水平,从而可以更精确地控制FDR在水平内。2.4相依情形下基于FDR控制的检验方法在上一节,我们讨论了独立情形下FDR控制的

28、检验方法,但是在实际的试验过程中,统计量一般会具有着这样或那样的依存关系,从而使得上面研究的控制方法是无效的。因此本节将介绍在统计量对应的值相依的条件下FDR的控制方法。针对多重检验中检验统计量自由分布的情形,我们有下述检验方法,由于该方法是由Benjamini and Liu提出来的,因此叫做BL2法16。BL2法:令, 有, 令,那么拒绝 对应的原假设;若不存在上述条件的, 则拒绝所有原假设。定理2.3 :【Benjamini and Liu(1999b)】上述针对分布自由的检验统计量的BL2法,有.针对多重检验中检验统计量自由分布的情形,还有下述的FDR控制方法,该方法由Benjamin

29、i and Yekutieli提出,因此记为BY法。BY法:令 ,则拒绝 所对应的原假设。注:在上述检验方法中,如果不存在这样的,则不拒绝任何原假设。定理2.4:【Benjamini and Yekutieli(2001)】上述对于多重检验自由分布的step-down 的FDR控制方法控制FDR在水平17。2.5 真实零假设的个数或比值的估计通过上文在独立情形和相依情形下基于FDR控制的检验方法的研究,我们可以知道,在多重假设检验中,如果真实零假设的个数或者比值已知,那么就可以根据检验统计量之间相依或者独立的关系,采用上文介绍的检验方法来控制FDR. 然而在实际研究中,或者往往是未知的,因此,

30、最重要的问题就是如何估计的值,或者等价的估计的值。本节就来研究这个问题,我们分两种方法进行具体研究。2.5.1 估计基于值在不同假设条件下的分布差异性,Storey(2002)提出了一种的估计方法,记为估计方法18。若假设同分布,设为个假设所对应的值。对,我们记,那么可由下式估计出: (2-1)由上式可以看出,的取值不同,由(2-1)式所得到的的估计值就不同,且所得到的估计值都比真实值偏大,这是因为,有 ,从而有 ,上式中的表示备择假设下值的密度函数。由值的性质可知,密度函数是渐进递减的,而且显然有. 因此由上式可以看出,当减小时,的误差就会变小,反之则变大。而且由可以看出,当增大时,的方差就

31、会增大,这就造成了估计值的不稳定性。那么如何才能寻找一个合适的,使得估计值达到最优呢?2002年,统计学家Storey提出了一个选取的计算方法:考虑使均方误差 (2-2)最小化的取值。由于上式中的未知,我们可以用取代(2-2)式的,这是因为对,估计值都偏大,于是有其中表示第次对值样本进行抽样后,采用(2-1)式重新计算得到的估计值。从而最优为从而可以得到最优估计由于,因此我们可以考虑采用格点法,即在区间上等距离地抽取有限个值,然后利用(2-1)式计算最小化均方误差19。2.5.2 经验贝叶斯估计在对微阵列数据进行研究时,Efron, B. and Tibshirani, R. (2002)20

32、提出可采用经验贝叶斯方法来估计FDR. 令表示不同条件下基因表达无差别的概率,则表示基因表达存在差别的概率。我们采用来表示零假设和备择假设检验下检验统计量的密度函数,对应的分布函数分别为. 则检验统计量的密度函数可以表示为计算后验概率,有如果是已知的,或者已经被估计出来,记为,则由得到不等式从而得到的一个估计式上式也可以改写为其中和为对应的经验分布函数。2.6 本章小结在第一节中,我们介绍了多重假设检验中错误测度的定义,给出了错误发现率的概念;第二节介绍了P值的定义和性质;第三节和第四节分别介绍了检验统计量在独立情形和相依情形下FDR控制的检验方法,第五节介绍了两种真实零假设或比值的估计方法,

33、为后面参数混合模型的估计方法奠定了基础。第3章 参数混合模型和非参数混合模型的估计3.1 引言在实际多重假设检验的研究中,我们往往使用随机的检验。当时,统计量的密度函数记为, 当时,统计量的密度函数与某个未知的参数有关,记为. 这里的. 如果固定,统计量的密度函数就可以表示为 (3-1)与之相对应的值密度函数就可以表示为 (3-2)其中上式中的和分别表示值在零假设和备择假设下的密度函数。显然模型(3-1)和(3-2)是关于的参数混合模型。在模型(3-1)中,参数与均是可辨别的,其中表示冗余参数。同理,在模型(3-2)里面,参数和也是可辨别的。下面分别研究在正态混合分布模型和Beta混合分布模型

34、下的估计方法。3.2 正态分布混合模型为了方便研究,本节我们对模型(3-1)中的密度函数加以条件限制。假设统计量在零假设下服从标准正态分布,即, 那么为标准正态分布密度函数,我们把它记为; 在备择假设下,统计量, 也就是说,是期望为,方差为1的正态分布密度函数,记为。从而随机变量的其密度函数可以表示为 (3-3)在这个模型中,参数是可辨别的,其中是我们要研究的参数,为冗余参数。对于任何一个样本,如果样本容量足够,就可以由样本的前两阶矩得到方程组解这个方程组,得 (3-4)即为参数的矩估计。 我们利用基于值的最小二乘估计来研究参数的估计方法,这里我们只考虑右侧检验。令表示标准正态分布的分布函数,

35、则有,即。于是有,其中表示正态分布的上侧分位点,为检验水平,有。记,则有 上式可以写成 (3-5)我们取,则上式变为再令 (3-6)若已知,对点列作最小二乘估计,可以得到参数的估计值,即由得到参数的估计值 (3-7) 而实际上是未知的,而可以采用矩估计的方法得到它的初始估计值。那么这个算法的步骤如下:算法一:第一步:采用矩估计方法,由(3-4)式得到参数和的估计,即参数和的初值,记为和;第二步:令,带入到(3-6)式中,计算点列;第三步:对点列作最小二乘估计,由(3-7)式得到新的估计值;第四步:利用的最小化方法,求得;第五步:令,重复计算第二步至第四步,直到估计值收敛为止。我们再来利用统计量

36、的拟合方法来研究参数的估计值。定义并记, 其中为给定的检验水平,经过计算得 从而 (3-8) (3-9) 那么,由(3-8)和(3-9)式可以得到 (3-10)其中。从而 (3-10)式可化为与前文类似,令,则有记 (3-11)于是,由可以得到的最小二乘估计值同式(3-7) 。从而这个算法的具体步骤如下:算法二:第一步:由(3-4)式得到参数和的初值和;第二步:令,代入到(3-11) 式中,计算点列;第三步:对点列作最小二乘估计,由(3-7) 式得到的新估计值;第四步:利用的最小化求得;第五步:令,重复计算第二步到第四步到估计值收敛为止。3.3 Beta分布混合模型这一节我们来研究关于值的模型

37、(3-2). 由第二章值的性质,我们可以考虑采用Beta分布来拟合模型,那么关于值的模型(3-2)转化为 (3-12) 其中是参数为的Beta分布的密度函数,其具体表示如下:特别情况下,当时,模型(3-12)就转化为 (3-13) 其中。再来看模型(3-12),我们令表示为Beta分布的分布函数,则有与前面所描述的正态混合模型类似,同样可以采用最小二乘估计。设为检验水平,记,则有令,代入上式中,经过计算得到记则若参数已知,利用点的最小二乘估计方法,可以求得的估计值同式(3-7)。和上节相同,我们仍然采用矩估计方法求得参数的初值。由样本的前三阶矩可以得到下列方程组 (3-14) 解这个方程组,得

38、到的初始矩估计,记为。我们来研究参数的极大似然估计方法。由模型(3-12),其对数似然函数为,上式中的. 关于的偏导数为 这里表示Digmma函数,即,为Gamma函数。从而有 其中同理,有令,则有方程组 (3-15)若已知,则可以由方程组(3-15)求的参数的估计值。与上文相同,我们利用基于值的最小二乘拟合来研究参数的估计方法。定义并记。与上文一致,记, 且。经过计算可得从而有 且有,则有 即 (3-16) 令,记 (3-17) 容易知道,若参数已知,当,(3-16)式的左边可以由来估计,而右边中括号的部分可由来估计。于是我们可以通过最小二乘估计,得到的最小二乘估计式同式(3-7)。类似于3

39、.2节中的算法二,我们可以得到模型(3-12)的的算法如下:第一步:采用矩估计方法,由方程组(3-14)得到参数的估计,即参数的初值,记为;第二步:令,代入到(3-17)式中计算点列,;第三步:对于点列,由(3-7)式得到的最小二乘估计值;第四步:由,解方程组(3-15),得到参数的新估计值,记为;第五步:令,重复计算第二步到第四步直至估计值收敛为止。考虑到后验概率,我们有如下EM算法:第一步:采用矩估计方法,由方程组(3-14)得到参数的估计,即参数的初值,记为;第二步(E步):计算 (3-18) 且有第三步(M步):解方程组(3-15) ,得到的新估计值,从而由(3-18) 式得到的新估计

40、值第四步:重复第一步到第三步致参数值收敛。3.4 非参数混合模型的估计在第二节和第三节中,我们介绍了参数混合模型,并分别研究了两种混合模型下的估计方法。设统计量在零假设和备择假设下下的密度函数分别为为和. 本节将这个模型推广到非参数的情形 (3-19) 或等价考虑其值密度函数 (3-20) 其中和分别表示值在零假设和备择假设下的密度函数。可以证明在这个没有条件限制的混合模型中,参数或是不可辨别的。事实上,如果存在,满足对任意的,有上式可化为当时,若,取由上式可以发现,参数与参数显然是不同的,所以说模型(3-19)中的参数是无法识别的。同理可证模型(3-20)中的参数也是不可辨别的。由此可以看出

41、,在研究模型(3-19)时,为了使参数是可辨别的,需要加以某些限制条件。本节就对统计量的观测值和值的分布情况加以限制进行研究。3.4.1 最小二乘估计在研究非参数混合模型时,我们仍然考虑随机的检验。与Beta分布混合模型(3-12)作对比,我们不难发现,模型(3-20)为模型(3-12)的非参数推广形式。因此,我们可以将Beta分布混合模型(3-12)的方法推广到非参数模型(3-20)上来。类似于第二节那样,定义并记。令表示服从0-1分布的随机变量,表示零假设成立,表示零假设不成立。记,。经过计算得 从而有 并且知道,。于是有 即有 (3-21)令,记 (3-22) 若函数是已知的,当时,式(

42、3-21)的左边可以由来估计,而右边中括号里面的部分可以由来估计。于是对点列作最小二乘拟合,即得到的最小二乘估计同式(3-7).而在实际研究过程中,密度函数往往是未知的,那么点列也是未知的,因此我们需要先估计出密度函数. 如果是带有两个参数的分布密度函数,记为,则这个模型就转化为参数混合模型(3-12),具体的估计方法见章节3.2.3.4.2 Beta分布拟合模型统计学家Parker and Rothenberg(1988)指出,区间上的任何概率分布都可由21。因此,统计学家Allison等人提出了利用Beta值的密度函数22。如果值的密度函数可以由个Beta分布来拟合,那么它的密度函数可以表示为: (3-23)这里的表示参数为的Beta分布的密度函数,即其中为Beta函数。易知在模型(3-23)中,参数满足下列条件:再来看模型(3-20),即Tang,Ghosal and Roy(2007)23提出,在模型的非参数部分采用Beta分布的混合模型: (3-24)上式中的为参数的联合分布函数。从而基于值的密度函数的模型(3-20)就可以写成 (3-25)下面我

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公文档 > 其他范文


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号