第二章 回归分析ppt课件.pptx

上传人:小飞机 文档编号:1902112 上传时间:2022-12-24 格式:PPTX 页数:73 大小:4.76MB
返回 下载 相关 举报
第二章 回归分析ppt课件.pptx_第1页
第1页 / 共73页
第二章 回归分析ppt课件.pptx_第2页
第2页 / 共73页
第二章 回归分析ppt课件.pptx_第3页
第3页 / 共73页
第二章 回归分析ppt课件.pptx_第4页
第4页 / 共73页
第二章 回归分析ppt课件.pptx_第5页
第5页 / 共73页
点击查看更多>>
资源描述

《第二章 回归分析ppt课件.pptx》由会员分享,可在线阅读,更多相关《第二章 回归分析ppt课件.pptx(73页珍藏版)》请在三一办公上搜索。

1、第二章 回归分析,一元线性回归多元线性回归逐步回归非线性回归,第二章1 一元线性回归,回归分析是研究变量之间关系的一种数学工具它帮助我们根据一个变量的取值去估计另一变量的值。在气象上,可以利用回归分析建立被预报的变量(称为“预报量”)与预报因子之间的关系式。,变量之间的关系可以分为确定性的和非确定性的有两种:确定性关系: 两变量之间的函数关系如:圆的周长与半径,Y与x的一次函数关系非确定性关系:两变量在宏观上存在关系,但却无法用确定的函数来表达。如:体重与身高,血压与年龄,温度与湿度回归分析研究的是变量之间的非确定性关系。,一元线性回归模型设随机变量y(预报量)的取值与一个预报因子x之间存在某

2、种线性关系: y = 0 + x + e ,y的取值包含以下两部分:第一部分:关于x的线性函数0 + x ,0和都是不依赖于x的常数,未知;第二部分:随机误差e ,服从期望为0的正态分布N(0, 2), 是x以外的其他各种因素导致的y的随机误差,属于y中“不可控的部分”;该模型称为一元线性回归模型(称其为“一元”是因为:预报因子只有一个x), 0和被称为“回归系数”。,对回归模型 y = 0 + x + e 的理解: x不是随机变量,是可以精确控制或观察的变量(如时间、年龄等)。 对于一个确定的x, y的取值具有随机性,将围绕0 + x上下波动,但y的数学期望是固定的,,对回归模型y = 0

3、+ x + e 两边取数学期望, 则有:E(y) = 0 + x这反映出y的“总体”与x之间确定的线性关系,称为“总体”的一元线性回归模型。,实际应用中,对于一组确定的x数据,可以观测到相应的y数据,如右侧散点图中的蓝色圆圈,,利用x和y数据通过回归分析把0和估记出来,分别记为b0和b,这就经验性地得到x和y的之间的近似线性关系(右图红色直线),该过程又称为“线性拟合”。,于是,对于任意一个x,可以根据回归方程做出对y的估计,记作 (右图中红线上的红色圆点) , = b0 + bx 被称作“经验线性回归模型”,b0与b分别是回归系数 0和 的估计值。, = b0 + b x,与y 什么关系?,

4、如何确定出参数b0和b?,最小二乘法确定b0 和b我们最终所确定出的b0和b应该使得全部观测值y与估计值 的离差平方和达到最小,即:,根据极值原理:分别取Q关于b0和b的偏导数,并令它们等于零:,上式可进一步整理得:,以上得到了关于求解b0和b的方程组,称为“正规方程组”,解此二元一次方程组可得:,注意, b0 , b与0 , 的关系:b0与b是根据y的样本数据所作出的对0 和 的估计值,而0 和 永远是未知的参数。,特别地,当y和x都采用距平资料时, b0=_这时,回归方程可以不用求b0,只需求b,回归方程为: = bx这时,b数值的含义为: 当x的变化为1时,y所产生的变化为b。实际气象应

5、用中,经常使用距平值进行分析预报。,0,b0 = 3.25 b = 2.29,一元线性回归模型中x, y, 和 的时间序列举例,在分析y 和的方差之前,先考察他们的均值有何联系?,回归问题的方差分析 为了衡量回归方程的优劣,回归方程建立后,y的取值在多大程度上是由x决定?即:y的变化在多大程度上是由x的变化所决定?x的变化全部直接体现在上,而的方差与y的方差有何关系?,考虑到与y具有相同的平均值,同时再结合 y - = e,通过分析y的方差构成,寻找与y两者方差的关系。,y = b0+bx + e = + e,b0 = 3.25 b = 2.29,可以证明:上式最后一项交叉积的值为0,于是有:

6、,y, , 和 y 示例,对上式两边分别乘以n,研究各变量的离差平方和的关系。为避免过多数学符号,等号左边仍采用方差的记号syy。,“回归平方和”与“剩余平方和”,由上式可知,y的离差平方和可分为以下两部分: 第一项:U,被称为“回归平方和”,反映因子x的变化对y的贡献。 第二项:Q,被称为“残差平方和”(或“剩余平方和”),反映除x以外的随机因素e(e=y-)的影响。 U和Q的相对大小反映了因子x对y的影响程度, 在n固定的情况下,如果回归方差所占y方差的比重越大,剩余方差所占的比重越小,就表明回归的效果越好, 即:x的变化对y的变化起主要作用, 利用回归方程所估计出的也会越接近观测值y。,

7、的方差占y的方差的比重(U/(U+Q))可作为衡量回归模型效果的标准:,把 t = b0 + b xt 带入上式,得:,可见,回归方差占总方差的百分比=相关系数的平方。,想象|r|=1或r=0时的回归模型应该是怎样的?,因此,可以通过syy与相关系数r来计算U与Q,U/(U+Q)=r2; Q/(U+Q)=1-r2,回归系数与相关系数的关系,结合相关系数的表达式:,可得回归系数b与相关系数r之间的关系:,由上式可见: b与r的符号的关系是?_ 如果x是标准化的数据,那么b与r的关系是? _ 如果x和y都是标准化数据,那么b与r的关系是?_,不要忘记本课程对标记符号的约定: x的方差sx x的标准

8、差sxx x与x的协方差,即x的方差,等价于,所以,原始数据算得的回归系数b与标准化数据算得的回归系数b*的关系是: b= _?,一元回归方程(回归效果)的显著性检验,与相关系数的检验类似,回归方程的检验就是利用样本检验两个总体之间是否存在回归关系。通过方差分析可知,可用“回归平方和”U与“剩余平方和”Q的比值来衡量回归效果的好坏。可以证明,假设总体的回归系数为0的条件下,统计量:,上式可以用相关系数的平方来表示:,所以,一元回归方程的F检验等价于相关系数的检验。,因为当分子自由度为1时,F(1, n) 等价于t 2(n),注意Q的自由度为n-2, 即:残差e的方差的无偏估计为:Q/(n-2)

9、,预报值的置信区间,根据回归方程可作出y的预报值,但真正的y应当是以一定概率出现在的左右,给一个置信概率(0.95),如何估计出y的区间?,回忆前文所讲, y的第i个观测值yi服从怎样的分布? yi N (0 +xi , 2),e=yi- (0 +xi ) 服从N(0, 2),于是,,在95%的置信概率下:,第二章2 多元线性回归,气象统计预报中,预报量往往与前期多个因子有关,因而大多数统计预报中的回归分析都是采用多元回归技术。一元回归的预报因子只有一个x,而多元回归预报因子有多个,设随机变量y与m个变量x1, x2, xm之间存在如下线性关系: y = 0 + 1 x1+ 2 x2 + +

10、m xm + e , 其中,e N(0, 2)该模型称为:多元线性回归模型,回归系数 i也称为“偏回归系数”。,根据此回归模型,如果做n次抽样,获得了y的n次观测记为一列向量:y1,y2, ynT; xi的第j次观测记为xij那么,列向量y可以写为:,利用这组样本对回归模型进行估计,估算出向量 ,得到经验回归模型为:其中,b0, b1, b2, , bm 分别是0,1,2 ,m的估计,上式的矩阵形式为: = Xb, = b0 + b1 x1 + b2 x2 + + bm xm,如何估算出向量回归系数向量b (b0, b1, b2, , bm )?,注意:此处的X第一列是常数向量1,对应于0。另

11、外:每行表示一个时间 ,每列表示一个变量。,多元回归系数的估算,最小二乘法:类似求解一元回归系数的方法,最终确定的各回归系数应使得与y的离差平方和达到最小。,根据极值原理,Q对各回归系数的偏导数应该为0,即:,对第一式整理后得:,该方程组称为:求解bi(i=1,2, m)的正规方程组,可进一步写成矩阵的形式:,把正规方程组写成矩阵形式:,其中,,S为正规方程组的系数矩阵,一般情况下S是非奇异矩阵,必然存在其唯一逆矩阵S-1使我们能够解出回归系数向量b:b = S -1SY,想想什么情况下S会变成奇异矩阵?,原始变量回归方程:,回归模型的不同形式,距平变量回归方程:,标准化变量的回归方程:?,因

12、为标准化数据的协方差就是相关系数,因此,为了考察标准化数据算得的回归系数与原始数据的回归系数有何关系,需要把正规方程组中的系数阵S从协方差阵变成相关系数阵。,(根据距平变量算得b0=0),正规方程组的第i个方程为:,把等号两边同除以 , 然后等号右边的第j项乘以,以上把等号左边的协方差都变成了相关系数,为了让等号右侧也变为相关系数,把等号同两侧除以 得:,(其中, b*=?),所以,这时正规方程组的解为:,请与一元回归的回归系数与相关系数的关系进行对照,所以标准化变量的回归方程:,(其中, ),回归问题的方差分析可以证明,与一元回归的方差分析类似,多元回归预报量的离差平方和也可分解为回归平方和

13、与剩余平方和之和:,类似一元回归,可证明:U可用“各回归系数”与“各因子与y的离差平方和”的乘积之和来表示,,衡量回归效果的数量指标 (1):剩余方差剩余平方和除以它的自由度,定义为剩余方差,记为:,越少的因子数(m)在越大的样本(n)情形下获得越小的剩余平方和(Q),回归效果就越好!,剩余方差越小,回归效果越好。,是否记得一元回归时的对应情景?,衡量回归效果的数量指标(2):复相关系数回归平方和U是表示m个因子对预报量y的离差平方和的贡献,表征m个因子对y的影响程度。引入U的相对量数,即回归平方和占y的总离差平方和的比例,再开根号,定义为复相关系数R:,因此: 复相关系数没有正负号之分,永远

14、是正值。当n和m固定时,复相关系数越大,表明回归效果越好。,y与m个因子之间的复相关系数也就是与y之间的简单相关系数。,复相关系数反映预报量y与m个因子之间的综合相关关系,不仅涉及到y与m个变量之间的单相关关系,而且也涉及到x1,x2,xm之间的单相关关系。,相对于复相关系数,前面所学的两个变量之间的线性相关系数可称为“简单相关系数”或“单相关系数”,注意是当样本容量(n)和因子数(m)都固定时。,复相关系数可以用各变量(y,x1,x2,xm)之间的简单相关系数来表示,设x1, x2, , xm, y之间的相关矩阵为:,R是(m+1)行(m+1)列,那么,y与x1,x2,xm的复相关系数可写为

15、,其中,|R|为R的行列式,Ryy为R中除去第m+1行和第m+1列之后的代数余子式。,特别地,当只有两个(m=2)预报因子时,y与x1和x2的复相关系数计算公式为:,可见,在r1y和r2y一定的情况下,r12越小,y与两因子的复相关系数越高。,回归效果的显著性检验,如果y与各个预报因子之间没有关系,检验回归方程的效果,就是检验y与x1,x2,xm之间是否存在线性关系。于是可归结为检验以下原假设是否成立:H0: 1= 2 = = m=0 在该假设成立的情况下,有:,根据统计检验方法,在给定显著性水平下,比较F与F 的大小,若F F ,拒绝原假设,认为回归效果显著,即认为y与各预报因子之间存在线性

16、关系(回归系数不全为零)。,图:F分布举例(n11),回归方程也可用“临界复相关系数”来检验,根据复相关系数的定义,统计量F可用复相关系数来表达:,反推出临界复相关系数的值:,当算得的复相关系数大于临界复相关系数Rc时,回归方程效果显著。,注意这里的临界复相关系数与一元回归(或简单相关)时的“临界单相关系数”不同:,样本容量(n)越小,因子个数(m)越多,临界复相关系数就越大(门槛越高),图. =0.05时的临界复相关系数,临界单相关系数rc只与样本容量n有关;临界复相关系数Rc与样本容量n和因子个数m都有关。,单个因子重要性的衡量以及显著性检验,前面介绍的回归方程的假设检验是检验原假设H0:

17、 1= 2 = = m=0因此,如果回归方程通过了检验,我们只能相信1, 2 , , m不全为0,然而对于某一个i,我们如何检验它是否为0?即检验该因子对预报量是否是重要的。,单个因子的方差贡献,从残差平方和的计算公式可知,每加入一个因子,残差平方和就会减小一部分,回归平方和会增加一部分。设m个因子组成的回归方程的残差平方和为Q,回归系数为b ,当从这m个因子中去掉第i个因子后重新组成的回归方程的残差平方和为Q, 回归系数记为b, 于是,第i个因子的方差贡献为:,上式较为复杂不易计算,但可证明(P47),Vi可用下式方便地计算:,其中,cii是正规方程组系数阵S的逆矩阵的第i行第i列元素。,单

18、个因子的显著性检验,假设H0: i=0,则有统计量:,给定显著性水平后,查表得到统计量的临界值F, 当Fi F时, 拒绝原假设,认为xi的方差贡献是显著的;当Fi F时,接收原假设,认为xi对预报量y不重要,可以将其剔除,重新建立线性回归方程。,预报量的区间估计,与一元回归的预报量估计类似,,y的第j个观测值yj服从正态分布: yj N (0 +x1j +x2j + +xmj , 2),在95%的置信概率下:z0.025=1.96,偏相关系数,请看以下例子:有y, x1, x2三个变量,假设他们存在以下关系:,设= -1, 则x1与x2之间的相关系数为负:r120,设1=0.5,2 =1, 即

19、x1和x2对y都是正的影响。,在以上、1、和2的控制下,观测到了y, x1, x2的样本数据,如下图:,r12= -0.83,由y=0.5*x1+x2+e可知,y与x1本应是正相关关系,但由于受到了x2的影响,根据样本计算出的y与x1之间的简单相关系数被歪曲为负值(-0.58)。,r2y= 0.90r1y= -0.58,如何才能正确得到y与x1之间的关系?把x2带来的影响分别从x1和y中扣除,然后再计算x1与y的相关,应该可以得到两者之间“真正”的关系。,如何分别从x1和y中扣除x2的影响?方法:以x2为自变量,分别以x1和y为因变量建立两个一元回归模型。,如此计算的相关系数就叫做x1和y在消

20、除x2影响之后的偏相关系数。,其他方案:建立y和x1、x2的多元回归模型y=b0+b1x1+b2x2也可得到正确的y与x1的关系,对于该例,计算出的回归系数b1=0.55, b2=1.09 (对应于1=0.5; 1=1.0)。,如果预报量y与多个预报因子都存在关系、并且各预报因子内部也存在相互关系,这时预报量y与某一个因子的单相关系数可能不会正确反映二者之间真正的关系,需要计算偏相关系数。,偏相关系数还可以利用相关系数阵来计算:如果m+1个变量(包括y)的相关矩阵R如右所示,则xi与y在去除其他变量影响后的偏相关系数为:,Ryi是相关矩阵R中删去第m+1行和第i列后的代数余子式, Rii是中除

21、去第i行和第i列后的代数余子式。Ryy是除去第m+1行和m+1列之后的代数余子式。当m时:,可见,有时候虽然因子与预报量之间的偏相关很好,但由于因子之间存在相关性(例如负相关),会使得某个因子与预报量之间的单相关系数变得不明显甚至符号颠倒。这启示我们:在选择预报因子时不能片面追求单相关系数高,而要充分考虑因子的物理意义以及因子之间的相互关系。,因子数目对多元回归方程的影响,在样本容量n固定的情况下,预报量y的总离差平方和(U+Q)是固定的,回归平方和U越大/越小,剩余平方和Q就越小/越大。,当多元回归方程每增加一个因子时,剩余平方和Q就会减小,回归平方和U增大,即复相关系数(与y的简单相关系数

22、)将增大。,Q自由度的极端情况:当因子个数m增加至n-1时(即Q的自由度n-m-1=0):回归方程变为恰定方程组能够求解,存在一组b的解使得向量e直接等于0,即与y将完全重合。这时的剩余平方和Q只能等于0,没有任何“自由”。,但:因子并不一定越多越好!,在样本容量一定的情况下,多引入一个因子会降低剩余方差的自由度(n-m-1)虽然多引入一个因子能使剩余平方和减小,但由于自由度减小了,所以剩余方差不一定减小。,当无任何因子时(m=0)时, 剩余平方和的自由度为: n-1每引入一个因子,相当于Q又多了一个限制条件,因此自由度减1。,Q/(n-m-1)是残差e的方差的无偏估计!,m=n-1时,即便m

23、个因子全是随机数(如右图),也能够解出恰定方程组使得Q=0( 与y完全重合,相关系数为1),但这时的回归模型已毫无意义,如果用此模型来对未来作预报将无任何预报效果。,总之,如果样本数n太少或因子数m太多,回归方程要想通过显著性检验的门槛就越高。,如果引入的是和y不相关的因子,就预报量带来了更多的随机因素,影响了回归方程的稳定性(或显著性), 使得预报效果降低。因此,既要选择对预报量影响显著的因子,同时又要使回归方程的剩余方差(Q/(n-m-1)尽可能小,才有利于预报。,如何挑选一批优秀的因子加入回归方程?,逐步回归!,第二章3 逐步回归,问题:如何从可能影响预报量y的大量因子中,挑选一批较好的

24、因子,组建多元回归方程?,方案一:把所有可能的因子组合逐个全部计算出来,计算剩余方差,判断每种组合的回归方程的优劣。当因子太多时,工作量巨大,不可取。 方案二:逐步回归(1)每一步从众多待选因子中选择一个对预报量贡献大的因子,通过显著性检验(称为“引入检验”),引入回归方程。(2)当引入一个因子之后,新引入的因子可能会使已进入回归方程的因子变得不显著,于是再对方程中已引入的因子逐个进行“剔除检验”,直至不显著的因子都剔除为止。然后再重复第(1)步,引入一个因子。(3) 引入一个因子后再重复地2步剔除因子,直到没有因子可以剔除也没有因子可以引入为止。,逐步回归需要使用矩阵的“紧凑型求解与求逆变换

25、法”。 它是由“求解变换”、“求解求逆变换”逐步发展而来。,求解变换,例如: 为了求解多元回归的正规方程组:,将增广矩阵中的系数阵通过初等变换变成单位阵,最后一列就是回归系数的解。,从第l-1步到第l步处理第k列时所需要做的动作:,初等变换可按任意次序进行!,求解与求逆变换,因为求解与求系数阵S的逆矩阵方法相同,因此可用把求解与求逆放在一起计算。在原增广矩阵的右边放入单位阵,作为初始阵A(0) :,0.1 = 1 / 10-0.7 = 0 - 1*7/10-0.4 = 0 - 1*4/10,注意:最终所求出的解向量和逆矩阵,与初等变换的顺序无关!,求解求逆与多元回归方程因子筛选的关系,注意求解

26、求逆变换的一个重要性质: 最终求出的解向量和逆矩阵,与变换顺序无关。求解求逆变换可按任意次序进行。,当对系数阵的第k列(a(k,k))做初等变换使其变为单位阵元素后,解向量的第k行就是第k个因子所对应的回归系数bk, ,因此这相当于把第k个因子引入了回归方程。每当对k1, k2, , km列做完初等变换后,相当于把这m个因子引入了回归方程。解向量中的第k1,k2, , km行就是这m个因子所对应的回归系数 ;逆矩阵中的第k1, k2, , km行就是这m个因子的协方差阵S的逆矩阵。,为什么我们希望得到协方差阵S的逆矩阵S-1 ?,因为计算单个因子的方差贡献需要用到逆矩阵中的元素Cii:,紧凑型

27、求解与求逆变换,求解求逆的计算过程中,可以发现:每做一次变换,原系数阵的就有一列变为单位阵元素并保持不变,而逆矩阵中则减少一列单位元素,即: 总矩阵中总有三列保持单位阵元素。为了节省空间,在做变换时,可将系数阵中的单位阵元素用逆矩阵中对应列来代替,这就是紧凑型求解与求逆变换。,先后引入第1、2、3个因子的紧凑型求解求逆变换为:,结合求解变换的公式,以及求解求逆的变换公式,容易得到“紧凑型求解求逆”的变换公式为:,A (0) A (1) A (2) A (3),以A(1)A(2)为例(k=2),对四条变换法则逐条解释:,每次计算,涉及四个元素,以a(3,4) 为例(从1.4到1.29) 如右图圆

28、圈所示:1.4-1.2*0.2/2.1 = 1.29,解和逆的最终结果与变换顺序无关随时得到解和逆的中间结果:因为每作一次变换,就得到一个方程组的解以及方程组系数矩阵的逆,所以利用该变换,可以得到逐步引进因子的过程中所建立的那些过渡回归方程的正规方程组的解,以及对应系数矩阵的逆。求解求逆紧凑变换具有恢复能力对A矩阵的第k个因子实施变换可记为:LkA容易证明,LkLkA(l-1) = LkA(l)=A(l+1)=A(l-1)对已经变换的因子再进行一次变换,则该列将恢复到变换之前的状态。例如依次对a(1,1)、a(2,2)实施变换,然后再对a(1,1)再次实施变换,这时所得到结果与只对a(2,2)

29、实施变换所得的结果是完全一致的。这就相当于把第一个因子引入之后又剔除出去,与只引进第二个因子的结果完全相同。该功能的好处是:在引进因子的同时,可以随时将那些原先显著却后来由于新因子的引入变得不显著的因子剔除出回归方程。对称和反对称性设K=k1,k2, km, 表示已引入的各因子的集合,A中元素具有以下对称和反对称性:,逐步回归计算步骤,准备工作: (1)计算m个备选因子与y (共m+1个变量)的相关系数阵。即:把原增广矩阵的最后一列放到第m+1行,扩为对称矩阵。因此在排列资料阵X时,需要把y的n次观测放到最后一行:,(2)设置一个变量 :l, 记录当前已经引入回归方程的因子个数,初始状态 l=

30、0。建立一个集合K,记录已引入的因子,初始状态K为空集。,采用相关系数阵是为了计算方便。先得到标准化变量回归方程的回归系数,最后再转成原始变量回归方程的回归系数。,第(1)步:,计算各“待选因子”的方差贡献并检验,然后引入一个因子,根据相关矩阵R(0),计算各待选因子的方差贡献,决定要引入哪个因子。,加入一个因子后将变成一元回归方程:U=bsxy-0=(sxy)2/sxx,所以回归平方和增加量(剩余平方和减少量)为:,注意此时的方差贡献是指:该因子被引入之后,相比起引入之前,能让回归平方和增加多少,或剩余平方和减少多少。不同于前面所学的单个回归系数的检验时的方差贡献 表示当把该因子从回归方程中

31、剔除后,能让回归平方和减少多少。,根据上式,对所有待选因子计算方差贡献,找出最大的一个(如:第k个因子),进行显著性检验,统计量为:,Q表示将该因子引入回归方程之后的剩余平方和。在无任何因子引入之前,剩余平方和就是y的全部离差平方和 , 当引入一个因子之后,剩余平方和应为原剩余平方和减去该因子的方差贡献。即: , 因此统计量F可用下式计算:,如果FF,则表示该因子的贡献是显著的,可以引入该因子。否则,不引入该因子。,对于相关矩阵R(0)(即标准化数据的协方差阵)来说,r(0)iy相当于sxy,r(0)ii 相当于sxx,方差贡献最大的因子是xk,如果显著性检验的结果为可以引入,则对rkk作一次

32、求解求逆紧凑变换,这表示已把第k个因子引入。变换后的矩阵记为R(1)。引入后,把回归方程中的因子个数l加1,把k加入回归方程的因子集合K。,第(2-3)步:,继续引入因子,直到引够3个为止。,在回归方程的起步阶段,如果已引入的因子个数l3, 则一直引入因子。逐个计算余下的待选因子的方差贡献,选择方差贡献最大的进行显著性检验并引入。,如果目前为止,已历经了l次变换,已引入的因子数为l,当前的矩阵为R(l), 要引入第l+1个因子,那么可以证明(略):余下的各待选因子的方差贡献,仍然可以表示为:,检验统计量:,在引够3个因子之前,如果某个因子的显著性检验的结果为不宜引入,则逐步回归停止。连续引入3

33、个因子之后,需要对已选因子进行剔除检验,以剔除不显著因子。,可以结合紧凑求解求逆变换法则用数学归纳法证明(略):矩阵的右下角元素 ryy始终代表着当前回归方程的剩余平方和, 即: 。因此引入新因子后的剩余平方和,引入新因子后的因子个数为:l+1,所以剩余平方和的自由度为:n-(l+1)-1,第(4)步:,计算各“已选因子”的方差贡献并检验,然后剔除一个因子,对已入选回归方程的各个因子考察其方差贡献,在介绍“单个因子的重要性的衡量及检验” 时已经提到Vi, 该式可用R矩阵中的元素来计算( bi和cii分别对应矩阵中的哪个元素?)。,设:目前为止,已引入的因子数为l,当前的矩阵为R(l), 那么已

34、引入的各因子的方差贡献可用矩阵R(l) 中的元素计算,如下:,由求解求逆紧凑变换法则可知:回归系数bi就相当于“引入变换”后的riy, 逆矩阵中的cii就相当于“引入变换”后的rii,选择一个方差贡献最小的(Vk),进行检验,统计量为:,矩阵的右下角元素 ryy始终代表着当前回归方程的剩余平方和, 即: 。这一剩余平方和是在l个因子下获得的,所以自由度为:n-l-1,如果FF,则表示该因子的贡献是不显著的,剔除该因子。否则,不剔除该因子。,当确定要剔除该因子(如第k个因子)后,进行一次求解求逆紧凑变换,把已引入回归方程的因子个数 l 减1,并把k从已选因子的集合K中删除。,当剔除完一个因子之后

35、,继续检验并剔除其他因子,直至剩下的因子都不宜剔除为止。进行引入检验,引入一个因子连续地剔除检验、剔除因子,直至剩下的因子都不宜剔除为止。进行引入检验,引入一个因子,如果没有显著的因子可供引入,逐步回归结束。,逐步回归结束时的情形是:既没有因子可以被剔除也没有因子可以被引入。,第(5、6、7)步:,可见,逐步回归中,因子的剔除需要连续剔除,把所有不显著的因子都剔除掉,但因子的引入却不能连续引入(起步阶段除外)。每次只引入一个因子,然后进行剔除检验。,引入检验与剔除检验时的显著性水平的设置(引入与 剔除 ),为了避免使逐步回归进入无穷无尽的死循环,需要将“引入检验”和“剔除检验”的显著性水平设成

36、: 引入剔除 , 例如 引入=0.05, 剔除 =0.1,思考: 一个刚被引入的因子是否会在接下来的剔除检验中被剔除?设某个因子xi是第l+1个被引入的因子,那么它当初在引入检验时,方差贡献和统计量为:,所以,以上两个统计量是完全相同的,当“引入检验”与“剔除检验”取相同的显著性水平时,刚引入的因子不可能在下一步被剔除。同理,刚被剔除的因子也不会在下一步被引入。否则,逐步回归将陷入死循环无法结束。,当第l+1个因子xi被引入后,要检验其是否可以在下一步被立刻剔除,方差贡献和统计量为:,总结、逐步回归流程图,起步,先引入3个因子,关于引入检验: (目前已选l个因子,要引入第l+1个):,F统计量

37、:,方差贡献:,关于剔除检验: (设目前已选l个因子):,方差贡献:,F统计量:,每引入一个因子就把l加1,并把因子的代号加入已选因子集合。,每剔除一个因子就把l减1,并把因子的代号从已选因子集合中删去。,逐步回归结束,最优回归方程确定后,回归系数、剩余方差、复相关系数的计算,注意这些回归系数都是利用相关系数阵计算的,即标准化变量的回归系数,需要把它们还原到原始变量的回归系数:,逐步回归过程结束后,如果已引入了l个因子(k1, k2, , kl),当前矩阵为R(l), 那么回归系数的解就是解向量中的对应元素:,可以证明,原始变量回归方程的剩余平方和Q等于标准化变量回归方程的剩余平方和r(l)y

38、y 乘以y的离差平方和syy:,所以剩余方差为:,演示:教材P60 例6,逐步回归方法建立预报当年1月平均温度(y)的回归方程总共四个备选因子: x1, x2, x3, x4,数据准备:计算相关系数矩阵R(0)回归方程中的因子数l=0; 已选因子集合K= (空集)。,1. 当前因子数l=0, 进行引入检验。,逐个计算方差贡献,发现方差贡献最大的是:x3=0.2809,,所以,可以引入x3,为了应对该例子,我们在此选取一个较低的检验门槛,设 引入= 剔除 = 0.2 否则,在该例子的起步阶段无法引够3个因子。,2. 对R(0)33进行求解求逆紧凑变换,引入x3,得到R(1),变换完毕之后, 因子

39、数l加1,并把k1=3加入已选因子集合K。现在,l=1, K=3,3. 判断当前的因子数l是否小于3:当前l=13,所以应继续引入检验。,当前因子数l=1,在余下的待选因子x1, x2, x4中,寻找方差贡献最大者:,方差贡献最大的是x2,检验是否可以引入x2.,所以,可以引入x2,4. 对R(1)22进行求解求逆紧凑变换,引入x2,得到R(2),变换完毕之后, 因子数l加1,并把k2=2加入已选因子集合K。现在,l=2, K=3,2,5. 判断当前的因子数l是否小于3:当前l=23,所以应继续进行引入检验。,当前因子数l=2, 在余下的待选因子x1, x4中,寻找方差贡献最大者:,贡献最大的

40、是x4,检验是否可以引入x4。,所以,可以引入x4,6. 对R(2)44进行求解求逆紧凑变换,引入x4,得到R(3)。,变换完毕之后, 因子数l加1,并把k2=4加入已选因子集合K。现在,l=3, K=3,2,4,注意: 到目前为止,已经引入了3个因子,所以,起步阶段结束。从下一步开始,检验并剔除因子。,当前因子数l=3, 在已选因子x3, x2, x4中,寻找方差贡献最小者:,方差贡献最小的是x4,检验是否可以剔除x4。,所以,不应剔除x4,其实,检验是否剔除x4时的统计量与上一步引入x4时的统计量相同,所以x4肯定不会被剔除。刚引入的因子不会在下一步被剔除,所以,此处的x4的剔除检验可以省

41、略。,7. 判断当前的因子数l=3,起步结束,不再继续引入,应进行剔除检验。,当前因子数l=3, 在余下的待选因子x1中,寻找方差贡献最大者。只剩一个待选因子x1,检验它是否可以被引入。,所以,可以引入x1,8. 上一步的结果是已经没有可以剔除的因子,因此本步应进行引入检验,9. 对R(3)11进行求解求逆紧凑变换,引入x1,得到R(4)。,变换完毕之后: 因子数l加1,并把 k2=1加入已选因子集合K。现在:l=4, K=3, 2, 4, 1,当前因子数l=4, 在已选因子x3, x2, x4 ,x1中,寻找方差贡献最小者:,方差贡献最小的是x3,检验是否可以剔除x3。,FF,所以, 应将x

42、3 剔除。,10. 上一步刚引入了一个因子,所以本步应进行剔除检验。,11. 上一步剔除检验的结论是“剔除”, 所以,对R(4)33进行求解求逆紧凑变换,剔除x3,注意:得到新矩阵记为:R(3),变换完毕之后, 因子数l减1,并把k2=3从已选因子集合K中删去。现在,l=3, K=2,4,1,注意:剔除x3之前的矩阵记为:R(4);剔除x3之后的矩阵记为:R(3);不建议如教材那样把剔除x3之后的矩阵记为R(5),两个R(3):引入x1之前的矩阵也叫R(3) ,但它与现在剔除x3后的R(4)矩阵并不相同,因为虽然回归方程的因子数都是3个,但包含的因子不同:引入x1之前的R(3) ,回归方程包含

43、因子K=3,2,4剔除x3以后的R(3), 回归方程包含因子K=2,4,1,12. 上一步刚剔除了一个因子,所以本步应继续进行剔除检验。,当前因子数l=3, 在已选因子x2, x4 ,x1中,寻找方差贡献最小者进行检验:,方差贡献最小的是x1,检验是否可以剔除x1。,所以,不应剔除x1。,13. 上一步已剔除完毕,所以本步应进行引入检验。,当前因子数l=3, 目前只剩一个待选因子x3,检验它是否可以被引入。,因此, x3不应被引入。事实上,x3是在上一步刚被剔除的,所以不可能在这一步被引入。,14. 逐步回归因子筛选工作结束,计算与回归方程有关的各统计量。,逐步回归的最终结果: 选择了x1,

44、x2, x4三个因子(l=3),把标准化回归方程的偏回归系数转化成原始数据回归方程的偏回归系数:,复相关系数:,剩余方差:,F统计量:,因此,回归效果显著。,“逐步回归”注意事项,逐步回归方法筛选出的l个因子,很可能是最优的(从统计概率的意义上相对而言), 但无论从理论上还是实践中都无法证明这l个因子一定是最优组合。评判回归方程优劣的标准是剩余方差。由于逐步回归无法严格保证最优,所以当备选因子的数量并不大时,可采用穷举法寻找最优因子组合。为使逐步回归能够顺利进行(刚引入/剔除的因子不会在下一轮被剔除/引入),引入检验和剔除检验的显著性水平应保证:引入剔除 。有时针对资料的特殊情况,为了能顺利引

45、入因子,可采取较低的引入门槛(较大的),如本例中取=0.2,逐步回归的过程中,引入的因子数(l)会逐渐发生变化,因此在进行显著性检验时,剩余平方和的自由度(n-l-1)会发生细微变化,于是,在固定显著性水平的情况时,引入检验或剔除检验的临界F值会发生细微变化。课本上为了计算方便,采取固定F(F =2)的办法,这样的结果是导致每次检验的显著性水平会出现细微变化;在计算机软件发达的当今,可以不必采取这种方案,而是固定显著性水平,使每一步都使用一个新的临界值F。逐步回归可以与一般的回归混合使用,例如如果已经确定有些因子一定和预报量有关联,可以把它们预先强迫性地引入(不剔除),而让其他的因子参与逐步回

46、归来进行筛选。,回归分析应用举例,两变量之间的关系(诊断或预报),线性趋势的估计以及扣除, =b0+bx,这里的x为:连续整数序列,如:1,2,3, n (n为样本容量)或:1948, 1949, , 2013,扣除线性趋势后的新的距平序列:y = y - ,线性回归补充:两个随机变量线性回归方程的确定,前面所介绍的线性回归模型适用于:y为随机变量,而x为确定变量的情形: y= 0 + x + e,当x和y都是随机变量时,如何确定回归方程?,若y中含有随机成分eN(0, 2y),而且x也含有随机成分N(0, 2x),那么,线性回归的数学模型可以写为:y= 0 + (x-) + e,经验回归方程

47、为:,这时,应该如何确定回归方程?,总体最小二乘的估算准则与传统最小二乘法不同:传统最小二乘:要求“各散点与其估计点的纵坐标之差的平方和”达最小,如右图蓝色小线段。,当只有一个预报因子(一元回归)时, TLS回归又可称为Deming回归(W. Edwards Deming),t时刻观测到的点(xt, yt) 到回归直线的垂直距离dt为:,总体最小二乘(Total Least Square (TLS),或正交(Orthogonal)回归,为了消除x和y的方差的差异,使x和y在求回归方程时具有等价性,令:,这时的经验回归方程可写成:,总体最小二乘:要求“各散点到直线的垂直距离的平方和”达到最小,如

48、右图红色小线段。,式中,syy表示y的离差平方和:注意,b中加减号“”的选择与回归直线的斜率有关,当斜率为正时取“+”,反之取“-”,可由相关系数的正负来判断。,第二章3 非线性回归,适合非线性回归(如二次函数),适合线性回归,回归模型种类的选择(线性或非线性),应该根据因子与预报量之间可能的物理联系来判断。当无法判断可能存在的物理联系时,用剩余方差来衡量优劣。特别地,对于二元回归,可先画出散点图进行大致判断应采用线性回归还是非线性回归或者哪种非线性回归,如下图。,可化为线性的曲线回归,幂函数,双曲函数,指数函数,对数函数,多项式回归,设预报量y与x之间为P阶一元多项式回归:,此多项式可以化为多元线性回归问题:,则原多项式回归方程可写为:,一元多项式回归,多元多项式回归,预报量y与x1,x2之间的2元2阶多项式回归:,则原多项式回归方程可写为:,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号