《《多元逐步回归》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《多元逐步回归》PPT课件.ppt(27页珍藏版)》请在三一办公上搜索。
1、 2.5 多元逐步回归算法原理,多元回归模型首先将实际问题所提取的全部变量引入方程,然后再根据变量的显著性检验把方程中不重要的变量逐一剔除,建立新方程。缺点:(1)首先在实际问题中,要提取合适的变量来建立回归方程本身不是一件很容易的事情,变量间可能存在高度的相互依赖性会给回归系数的估计带来不合理的解释;(2)其次变量的一次性引入方程,易导致计算量增大,运算效率降低,精度不够等问题。,为了得到一个稳健的、可靠的回归模型,这就需要给出一种方法,使得能从影响 的因素中自动根据某种准则将 对 贡献大的变量(或者说对 重要的变量)引入方程,不重要的变量从方程中剔除。最终在观测数据基础上建立最优的回归方程
2、。,2.5 多元逐步回归算法原理,2.5.1 逐步回归算法的形成思路,逐步回归算法基本思路 根据各自变量的重要性,每一步选一个重要的变量进入回归方程。第一步是在所有可供挑选的变量中选出一个变量,使它组成的一元回归方程比其他变量有更大的回归平方和。第二步是在剩下的自变量中选这样一个变量,它与已选入方程的那个变量所组成的二元回归方程,比其他任一变量与已先选入方程的变量所组成的二元回归方程,有更大的回归平方和。,如此继续下去,假设已经进行到 步,那第 步是在未选的变量中选出这样一个变量,它与已选入回归方程的变量组成 元回归方程,比其他余下的任何一个变量组成的 元回归方程,有更大的回归平方和。逐步回归
3、不仅考虑到按贡献大小逐一挑选重要变量,而且还考虑到较早选入回归方程的某些变量,有可能随着其后一些变量的选入而失去原有的重要性,这样的变量也应当及时从回归方程中剔除,使回归方程中始终只保留重要的变量。,2.5.1 逐步回归算法的形成思路,如 引入方程后,再引入,也许由 的引入而 的重要性反而变得不重要,应及时剔除。假设已有 个自变量引入回归方程,即已知回归方程是:此时该方程相应的总离差平方和记为,(2.14),2.5.1 逐步回归算法的形成思路,2.5.2 引入自变量的依据,现在在已有的 个自变量所组成的回归方程中再引入一个自变量,不妨记为,于是引入了一个自变量 的回归方程可表示为现在用式(2.
4、15)减去式(2.14),并注意到式(2.14)与式(2.15)总离差平方和不变,可得,(2.15),令于是称 为自变量 对因变量 的方差贡献。也就是,如果 越大,则 对 的影响就越大,对回归方程就越显重要,应该引入。但是 应大到什么程度,自变量 才可被引入方程呢?这就需要给出 的引入标准(或称引入门坎值)。,统计理论表明,用统计量可以检验自变量 是否可以引入方程。式中,是样本容量,是已进入方程的自变量个数。对于给定水平,查 分布表,可得临界值。如果,则表明 可引入方程;,如果,则说明自变量 不重要,不能引入方程。需要说明的是,实际问题可能 有多个,由于每次只能引入一个变量进入方程,因此在算法
5、上,我们是选最大的 值所对应的变量考虑引入,即,先求然后将它与 比较,如,相应的自变量 入选;如,引入变量的步骤就到此为止。,2.5.3 剔除自变量的依据,设已有 个自变量引入回归方程,即已知回归方程为此时该方程的总离差平方和可表示为 现在已有的 个自变量中剔除一个自变量,不妨剔除,于是可得剔除自变量 后的回归方程,记为,(2.17),(2.16),该方程的总离差平方和记为由式(2.16)与式(2.17)可得这里仍然称 为 对 的方差贡献。,越大说明 对 的影响越大,即 对 越重要,当然 在方程中就不能被剔除,反之亦然。然而 应小到什么程度,自变量 才考虑从方程中被剔除呢?这就需要给出 的剔除
6、标准(或称剔除门坎值)。和前面所介绍的引入标准一样,可用统计量 来检验方程中哪个自变量 可被考虑剔除出方程。,对于给定的水平,查 分布表得临界值。如果,则 应从方程中剔除;如果,则 不应从方程中剔除。同样需要说明的是,实际问题可能有多个,由于每次只能从方程中剔除一个变量,因此在算法上,我们选最小的 值所对应的变量考虑剔除,即先求,然后将 与 比较,如 时,就应从回归方程中剔除变量;如,则方程中没有变量被剔除,转入是否可以引入新变量的讨论。,2.6 逐步回归的计算步骤,前面已经讲过,“引入”或“剔除”变量的依据是根据自变量 对因变量 的方差贡献的大小决定。当开始进行逐步回归时,第一步、第二步只考
7、虑“引入”。至于以后各步,则应首先考虑能否剔除,如果已断定不能剔除时,再考虑“引入”。当既不能引入又不能剔除时,则逐步回归的变量挑选即告结束。在下面的介绍中,我们只给出逐步回归的计算方法而不去讨论它的数学原理。,2.6.1 数据准备,回归分析的原始数据包括两部分,一部分是自变量 及因变量 的观测值。我们称为模型数据值。另一部分是只有自变量的观测值,因变量 的取值未知,称预测数据部分。模型数据用来求回归方程的参数,在模型显著时,再用以对预测部分作 的预测计算。,1输入模型原始数据,其中,为样品个数,为自变量个数。,该变换使变换后的数据各变量均值为0,离差平方和为l。,2作如下预处理变换(1)求各
8、变量均值(2)求(3)作变换,这一步与多元回归中叙述的内容相同。为了使计算有更好的效果,可把正规方程组式(2.10),改为,(2.18),2.6.2 建立正规方程组,式(2.18)中,是相关系数,即,(2.19),新方程组 与式(2.10)中 有如下关系:,方程组式(2.18)中左端的系数项定为矩阵,即零步矩阵。在计算技巧上为了方便,把 扩充为,(2.20),2.6.3 逐步计算,假设已计算了 步(包括 步),在回归方程中已引入了 个变量,这时初始的 阵已经变换为,(2.21),1首先对已引入方程变量 计算方差贡献,即 步的从 中选出最小的,记为,计算,(2.22),如果 乃事先规定的变量剔除
9、门坎值),则将贡献最小的变量 从回归方程中剔除。2对作消去变换,消去运行公式为,(2.23),如果不存在应被剔除的变量,则进行引入变量的计算,转入下一 步。,3对未引入方程的变量计算其方差贡献,从中选出最大的,即,计算 如果 为事先规定引入变量的门坎值),则将该方差贡献最大的变量引入回归方程。4对 进行消去运算,运算所遵循的公式仍为式(2.23),消去运算得到的结果为。5重复14的步骤,直到既无变量引入又无变量剔除为止。,(2.24),2.6.4 计算最终结果,1引入方程变量的系数(设到 步结束)式中,乃引入变量 和因变量 的标准差,乃引入变量 的离差平方和。2常数项,(2.25),(2.26),3回归值与偏差值,偏差(2.27)4复相关系数 和剩余标准差 最后还可根据 进行 的区间估计。至于回归方程的 检验与多元回归相同。,(2.28),(2.29),