《第七章比估计与回归估计ppt课件.ppt》由会员分享,可在线阅读,更多相关《第七章比估计与回归估计ppt课件.ppt(53页珍藏版)》请在三一办公上搜索。
1、第七章 比估计与回归估计,第七章 比估计与回归估计,教学目的 通过本章的教学,使学生了解比率估计、回归估计的意义;掌握简单随机抽样的比率估计、回归估计的方法以及差值估计的方法等。,重点与难点 本章的重点是简单随机抽样的比率估计、回归估计的方法以及差值估计的方法等;难点是简单随机抽样的比率估计、回归估计的方法。,本章结构,前面讨论的简单随机抽样和分层抽样,我们所关心的参数都是单指标的,给出的估计量也是线性形式。这一章我们将要讨论比较复杂的情况,我们关心的参数不再是单指标的而是两个或两个以上的指标。此时,遇到的统计量不再是线性形式,往往呈现出非线性形式,比如两个变量之比,或呈现变量之间的回归关系。
2、,所谓回归关系就是变量之间的关系不是确定的,是带有随机影响的。比如身高和体重的关系,身高增加时,一般来说,体重也会增加,但又不能说一定如此。要确定身高和体重的关系,一般用回归的方法。这类问题首先是由英国统计学家高尔顿研究儿子的身高与父亲身高关系时提出的,他发现儿子的身高有回到家族平均身高的趋势,因而把所得关系式称为回归方程,于是回归的名词就沿用下来了。,7.1 比估计及其性质,设有一个二元变量的总体 :,有 4 个参数是我们所熟悉的:,指标 的平均数,指标 的方差,如果简单随机样本为 ,则 及 的估计为:,(7.3),(7.4),在讨论比估计之前,先考察总体的两个平均数之比,即,由于 分别是
3、的无偏估计, 的估计自然定义为,假如 或 已知,总体平均数 与总体总和 的比估计量定义为:,(7.5),(7.6),通常的比估计是指 (7.5) 式与 (7.6) 式,而 则称为比值 的估计。,由 (7.5) 式与 (7.6) 式可知, 与 的习性主要依赖于估计量 ,因此在不少场合,我们常用 来说明。,尽管 分别是 的无偏估计,由于 的非线性形式,因此 关于 是有偏的,从而 关于 也是有偏的。,一个合理的估计量,应该随着样本容量 n 的增加,估计量的期望与参数之差应该越来越小并渐渐趋于零,即“渐近无偏”,比估计是否渐近无偏呢?,利用Taylor展开式,有,将比估计 表示为:,(7.7),当 n
4、 相当大时, 与 相当接近,而 是常数,又 是 的无偏估计,因此,实质上 ,所以 。,(7.7)式的好处不单单告诉我们 这一事实,而且告诉了我们,当 n 相当大时, ,表明 可以表示成 的平均数,因此 的分布可近似正态分布,因此,可利用 近似标准正态分布获得 的置信区间,(7.10),公式(7.8)、(7.9)、(7.10)为我们提供了 的估计量的形式。具体计算时,只要将 分别换为 即可。我们将由此得到的估计量分别记为:,那么, 的置信水平为 的置信区间分别为:,( , ),( , ),下面说明比估计的优点。主要针对 与 来说明,因为它们仅相差一个常数因子,因此,只需讨论其中一个就可以。,当
5、n 充分大时,,而,欲使 ,仅需,或,(7.12)表明,如果变量X与Y正相关,且相关程度非常密切的话,那么比估计的精度高于简单随机抽样的精度。如果相关程度不那么密切( ),此时已知的X信息并没有较多地提供Y的信息,借助X来推断 也许会“帮倒忙”假如X与Y是负相关,则更不能采用比估计方法,此时应采用所谓乘积估计,即:,(7.13),成立,例7.1 某县小麦种植面积为218756亩,分布在N=576个村,为估计全县产量,随机无放回地抽取n=24个村,所得数据如下:,每个村有两个指标:面积 和产量 ,即:,经计算可得:,所以该县平均亩产小麦估计为:,采用比估计可得 和 分别为:,仅利用 数据估计该县
6、小麦总产量 与估计量方差分别为:,显然, 的方差远远小于 的方差。理由很清楚!小麦亩产量与土地拥有量呈现正相关,且相关程度相当密切,因此,在抽样调查中对每个村了解有关产量和土地亩数,利用已知该县土地的固有已知数,能比较精确地推断总产量。事实上在实际操作中人们正是这样去做的!,现在来求总产量的95的置信区间,7.2 分层抽样中的比估计,1、分别比估计,设总体分为 k 层,第 h 层的样本均值记为 ,在该层中 与 的比估计记为 ,又记 和 为第 h 层中指标 的平均数与总和, 与 分别为该层中 的方差和协方差,若 换为 , 换为 ,则显然表示该层样本的方差和协方差。,我们可以得到有关总体 和 的分
7、别比估计为:,分层抽样中的比估计有两种:一是分层之后,先在各层获得比估计,然后按层权平均得到总体参数估计;二是先对 作分层估计,然后再采用比估计方法。前者称为分别比估计,后者称为联合比估计。,(7.15),(7.16),由上节可知,各层中的 是 的渐近无偏估计量,因此 是 的渐近无偏估计量:,各层的抽样又是独立进行的,由(7.10)式,可以近似得到 的方差或均方误差,当各个 都相当大时:,(7.17),(7.18),(7.17), (7.18)告诉我们,即使每层 相当大,但如果层数 k 比较大,由于误差的积累, 产生的偏倚与误差可能相当大。,2、联合比估计,而 的相应(联合)比估计可以写成:,
8、(7.20),(7.21),为与分别比估计进行比较,我们讨论联合比估计的期望和方差。当 n 相当大时,有,(7.23),其中 为总体的比值。,(7.22),(7.22)表明, 是 的渐近无偏估计,(7.23)与(7.18)非常相似,唯一不同的是在(7.18)中用的是各层的比值 ,而(7.23)中用的是总体的比值 。,3、分别比估计与联合比估计的比较,(7.24),仅就总体总和进行比较。如果各层的 相当大,由(7.18)和(7.23)可得:,当对一切 h 有 时,这两种估计方差相同,也就是说当分层对比值并无多大意义情况下,谈论分别比估计与联合比估计孰优孰劣已经无多大意义。,然而,如果各层有自己的
9、特色, 不可能在每一层均等于 ,此时倘若对每一层来说, 与 之间的关系是比例关系,即 ,此时 ,于是(7.24)式内求和式内每一项中括号内第二部分等于零,这样显然有,即“分别比估计”比“联合比估计”精度高一些。其实,只要比估计非常有效,即对一切 h , 时,这一项值相对地就小,此时中括号中均以第一部分占主导地位,仍有,当然,有些层的 不是相当大,这种场合分别比估计的偏倚可能很大而使总的均方误差增大,于是我们宁可采用联合比估计的方法。,7.3 数值例子,例7.2 某地区有976个自然村,根据该地区的地貌将各村所属耕地划为三种类型,各村按类型上报了耕地面积 (以亩计算)为核实这些上报数据,采用按比
10、例分配的分层随机抽样方法在每一种类型中抽取若干村进行实测核实,倘若以 X表示上报数据,以Y表示实测数据,抽样结果如下表:,有关计算结果及其它数据如下表:,试对总体总和 (该地区实际耕地面积总和)用各种手法进行估计。,(1)简单随机抽样估计,由于分层抽样是在各层按比例分配进行的,因此可以将23个村所得数据看作是从总体 976 个村中抽取的一个较合理的简单随机样本,上表中最后一行的数据都是基于这样的“简单随机样本”而计算的。,为求精度,常用其标准差,若用 ,则有,然而我们的这些数据毕竟是从分层抽样而得到的,利用分层估计真正的简单随机抽样的平均数的方差,可以借用一个近似公式(用于按比例分配的分层抽样
11、情况)也许更为精确:,(7.25),此时,两种算法的差距并不大。,(2)简单随机抽样比估计,(3)分层随机抽样简单估计,(4)分层随机抽样分别比估计,(5)分层随机抽样联合比估计,从以上五种情况的结果分析,两种简单估计的精度较差因为他们没有充分利用已知的 及 的信息,三种比估计由于利用了 的信息,显然精度大大提高了。,同时我们注意到分层随机抽样的两种比估计比起简单随机抽样的比估计效果略好一些,这是因为在实际测量中已分的三层的确有所区别。,最后我们指出,在分层随机抽样中,分别比估计与联合比估计有着几乎差不多的效果,这正是我们在正文中所阐述的理由,当每层抽样容量 不很大时,联合比估计不比分别比估计
12、来的差。,一个有趣的事实是对于 的估计,恰好三个比估计比起两个简单估计要略低一些,由于随机性,当然我们不能指认到底哪一个估计比较接近事实,但是三种比估计统统略低会使我们产生这样一个想法:这是否会是由于比估计本身时有偏性而引起的呢?对于上面具体例子,我们缺乏根据说它们偏小了些。但是比估计的有偏性却在理论上是无法否认的事实,调查工作者与统计学家一直在设法尽力减少偏差,这称为估计量的“纠偏”。,7.4 回归估计量,前面讨论的比估计之所以能在精度方面获益匪浅,是因为我们充分利用了已知的辅助变量 X 的信息,而且这个辅助变量 X 与我们所关心的变量 Y 之间有着密切的关系,这种关系越密切,对 Y 的某些
13、指标的估计精度就越高。,现在假定变量Y与X之间存在着线性回归关系(但不是通过原点),又假设X的信息已知或部分已知,我们想利用X的信息提高对Y的估计精度。,1、简单随机抽样情况,设从总体 中随机无放回的抽取样本 ,若变量 关于 的回归直线不通过原点,具有如下形式:,(7.26),的回归值 估计为,相应的,总体总和 的回归估计为:,这里 可以是一个设定的常数,也可以是估计得到的回归系数。例如,若设定 ,则 即为简单估计量;若令 是一个估计量,则,其中 是 的估计量。为方便起见,记 ,我们可以用所有 N个 的回归值 的平均值来估计总体平均数这样就得到 的线性回归估计,倘若 已知,有:,即为比估计量。
14、可见回归估计包含简单估计和比估计。,(7.27),(7.28),(7.29),(1) 为设定常数的情形,这种情况在实际应用中是存在的。比如为同一目的进行的调查已重复进行多次,将以前数据中 关于 计算而得的回归系数(倘若前几次该系数比较稳定在某一数值的话)直接作为最新调查的 设定值。,首先研究这种简单回归估计值的期望。注意到 是 的无偏估计, 又是 的无偏估计,因此,有:,(7.30),即回归估计量是总体平均数的无偏估计。,的方差可计算为:,(7.31),由(7.30)以及(7.31)可知,无论 是怎样的设定值, 总是 的无偏估计,估计的精度与 的设定值有关。,(7.31)式的右端实际上是 的二
15、次三项式,又由于 前的系数为 是个正数,因此,只要适当选取 就可使 达到最小值,利用高等数学的知识,可得使 达到最小值的 应为:,其中 为 X 和 Y 的相关系数,此时最小方差为:,(7.33),(7.32),(2) 取样本回归系数的情形,(7.34),这实际上就是样本回归系数。利用 得到的回归,由于 是比值型随机变量,与比估计一样的理由, 不可能是总体平均数的无偏估计。,因此,对简单随机抽样,当样本容量 n 相当大时,回归估计 (不管 是否设定)的方差均近似地看作:,与简单随机抽样时 的简单估计 的方差相比,只要 ,则回归估计一定优于简单估计。,至于 的情况,则表示X与Y没有任何线性关系,那
16、么用X、Y的线性回归来估计 就相当于单纯依赖 去估计,回归估计与简单随机抽样时的比估计相比孰优孰劣呢?,当 n 相当大时,比估计的方差为:,欲使回归估计优于比估计,当且仅当:,即,这是一个当然的不等式。一般情况总是回归估计优于比估计除非 ,此时这两种估计量效果几乎一样。,当 n 相当大时, 或 如何估计呢?,实质上是残差平方和,其自由度为(n2),因此得到或 的估计为:,(7.36),为样本回归系数,故,例7.3 (续例7.1)使用回归估计继续讨论某县小麦亩产与总产量问题。,样本回归系数,小麦产量的估计为:,小麦总产量的估计为:,显见,回归估计比起比估计精度略高一点,但相差不大,它们比简单估计
17、则要精确的多!,2、分层随机抽样情况,与比估计情形一样,在分层随机抽样中考虑两种形式的回归估计:分别回归估计与联合回归估计。,(1)分别回归估计,所谓分别回归估计,就是先在各层中对该层的平均数或总和进行回归估计,然后再按层权平均或相加。,设第 h 层的样本平均数回归估计为 ,那么分别回归估计为,其中 分别为第 h 层的样本均值、回归参数。,(7.38),(7.37),当各层的 为预先设定时,那么这两个估计量都是无偏估计量。又由于各层抽样都是相互独立的, 由 (7.31) 式立即可得:,(7.39),并且当 时,达到最小值:,(7.40),(7.41),(7.42),(7.43),若以 表示第
18、h 层的相关系数,那么 的估计为:,当各层的 都比较大时:,如果 需要利用样本来估计,还是采用最小二乘估计:,(2)联合回归估计,然后构造 与 的联合回归估计:,联合回归估计是先对 与 作分层估计:,同样当 事先给定时,它们是无偏估计,方差为:,(7.46),(7.44),(7.45),它在 取如下值时达到极小值,(7.47),(7.49),这里的 恰好就是分别回归估计中的 ,它使分别回归(平均数)估计的方差达到最小。为比较分别回归估计与联合回归估计之间的优劣,将 代入(7.46)式,再减去(7.40)式右边,得到差为:,直观上这是因为“分别”方法比起“联合”方法更多地关心到各层的指标与特征,
19、只要分层有意义,也就是说所划分的层各具有自己鲜明的特色,那么“分别”对各层过多的关注将当然地得到精度上的回报。以回归估计来说,如果各层的回归系数相差很大,那么分别回归估计的效果将更加显著。,(7.51)式表明,若在分别回归估计中设定最优 ,又在联合回归估计中设定最优 ,那么除非一切最优 均等于分别回归估计总是优于联合回归估计的。我们又一次谈到对于分层抽样来讲,“分别估计”总是优于“联合估计”。不管是比估计还是回归估计都是如此。,当 必须根据样本来进行估计时,我们当然地取 的样本来估计:,(7.50),如果样本量按比例分配,又用 代替(7.50)式中的 ,则,(7.51),(7.52),的方差可以近似计算为:,它可用下式进行估计:,(7.53),以上讨论都是建立在X、Y之间有较强烈回归关系的基础之上,倘若在各层内回归规律性不是很强,则除非 均相当大,否则也许还是采用联合估计比较稳妥一些。,若各层的抽样容量 不太大, 的变化也不大(各层特色不明显),则为了避免由 过小而引起的偏倚,此时宜用联合回归估计。若 的变化比较大,各 也比较大,由以上分析自然采用分别回归估计效果会更好一些。,