数学模型与数学建模6.3节ppt课件.ppt

上传人:小飞机 文档编号:2082087 上传时间:2023-01-08 格式:PPT 页数:30 大小:1MB
返回 下载 相关 举报
数学模型与数学建模6.3节ppt课件.ppt_第1页
第1页 / 共30页
数学模型与数学建模6.3节ppt课件.ppt_第2页
第2页 / 共30页
数学模型与数学建模6.3节ppt课件.ppt_第3页
第3页 / 共30页
数学模型与数学建模6.3节ppt课件.ppt_第4页
第4页 / 共30页
数学模型与数学建模6.3节ppt课件.ppt_第5页
第5页 / 共30页
点击查看更多>>
资源描述

《数学模型与数学建模6.3节ppt课件.ppt》由会员分享,可在线阅读,更多相关《数学模型与数学建模6.3节ppt课件.ppt(30页珍藏版)》请在三一办公上搜索。

1、6.3线性回归模型,6.3.1多元线性回归模型在回归分析中,如果有两个或两个以上的自变量,就称为多元回归或多重回归。在实际的应用中,多元线性回归比一元线性回归用途更广且实用意义更大。在建立多元线性回归模型时,随机变量与一般变量 的多元线性回归模型为:,,,其中,是 个未知参数,称为回归常数项,称为回归系数;称为被解释变量(因变量),是个可以精确测量并可控制的一般变量,称为解释变量(自变量)。为随机扰动项,,代表主观或客观原因造成的不可观测的随机误差,它是一个随机变量通常假定 满足。(1)样本回归模型的建立设,是随机变量 与一般变量 的n次独立观测值,则此时多元线性模型可表示为:(6.3.1)其

2、中,独立同分布。多元线性回归样本方程为,式中 为 的估计值。,为方便起见,令,,,则式(6.3.1)可改写为:(6.3.2)且满足,。回归方程可改写为:。多元线性回归方程中回归系数的估计采用最小二乘法。记残差平方和为,根据微积分中求极小值原理,可知残差平方,和存在最小值,即:,(6.3.3),通过求解这一方程组便可求出 的估计值,得。则 为残差向量,取(6.3.4)为 的估计,也称 为的最小二乘估计。可以证明:.进一步可以证明 的方差估计为。相应的 的标准差为,其中 是 对角线上第i个元素。,(2)显著性检验在多元线性回归分析中,很难用图形来判断E(y)是否随 作线性变化,因而显著性检验尤为重

3、要。对多元线性回归方程的拟合程度进行测定、检验回归方程和回归系数的显著性。拟合优度检验。测定多元线性回归的拟合程度,使用多重判定系数,其定义为:式中SSR为回归平方和,SSE为残差平方和,SST为总离差平方和。,当 的值范围为,越接近1,回归平面拟合程度越高;反之 越接近0,回归平面拟合程度越低。回归方程的显著性检验(F检验)。所谓回归方程的显著性检验就是检验假设:所有回归系数都等于零,即检验:;不全为0。多元线性回归方程的显著性检验一般采用F检验。F统计量定义为回归平方和的平均与残差平方和的平均(均方误差)之比,对于多元线性回归方程,在 成立的条件下:,式中,SSR为回归平方和,SSE为残差

4、平方和,为样本,为自变量个数。F统计量服从的是第一自由度为,第二自由度为 的F分布。从F统计量的定义式可看出,如果F值较大,则说明自变量造成的因变量的变动远远大于随机因素对因变量造成的影响。另外,从另一个角度来看,F统计量也可以反映回归方程的拟合优度。将F统计量的公式与 的公式可得。可见,如果回归方程的拟合优度高,F统计量就越显著;F统计量越显著,回归方程拟合优度就越高。利用F统计量进行回归方程显著性检验的步骤总结如下:,Step 1 提出假设:,不全为0。Step 2 在 成立条件下,计算F统计量,由样本观测值计算F值。Step 3根据给定的显著性水平 确定临界值,或者计算F值所对应的相伴概

5、率值p。如果(或者),就拒绝原假设,接受备择假设,认为所有回归系数同时与零有显著性差异,自变量与应变量之间存在显著性的线性关系,自变量的变化确实能够反映因变量的线性变化,回归方程显著。如果(或者),则接受原假设,自变量与应变量之间不存在显著性的线性关系,回归方程不显著。,回归系数显著性检验(t检验)回归方程的显著性检验是对线性回归方程的一个整体性检验。如果检验的结果是拒绝原假设,则因变量Y线性地依赖于自变量,这个回归自变量的整体。但是,这并不排除Y并不依赖于其中某些自变量。因此,我们还要对每个自变量逐一做显著性检验,即回归系数的显著性检验。回归系数的显著性检验是检验各自变量 对因变量 的影响是

6、否显著,从而找出哪些自变量对 的影响是重要的,哪些是不重要的。对于多元回归方程,回归系数的显著性检验,即检验假设,在假设成立的条件下,T统计量,式中 为 的对角线上第j个元素。,t检验步骤如下:Step 1 提出假设;式中,表示零假设,表示备择假设。如果零假设成立,则说明 对 没有显著性的影响,反之,则说明 对 有显著性的影响;Step 2 在 成立的前提下,计算回归系数的T统计量 Step 3 给定的显著性水平,确定临界值,或者计算t值所对应的相伴率值p的大小。应注意的是,t检验的临界值是由显著性水平 和自由度决定的,对于双侧检验,临界值为。如果(或者),就拒绝原假设,认为回归系数 与零有显

7、著性差异,,该自变量和应变量之间存在显著的线性关系,它的变动较好地解释说明应变量的变动,应保留在回归方程中;反之,应剔除出去。例6.3.1 近年来,高等学校招生规模急剧扩大,在教育产业 化的背景下,选取1985-2003年相关数据对影响我国高校招生人数的各因素及其影响程度的大小进行定量分析。,首先将数据EXCEL文件存为csv格式。然后编程如下:X-read.csv(d:programFilesRchengxudata2.csv,header=TRUE)y-X,2;x1-X,3;x2-X,4;lm.sol-lm(yx1+x2)summary(lm.sol)运行结果见图6.3.1。从运行结果可以

8、看出,回归系数和回归方程的检验都是显著的,因此,回归方程为:(3)回归系数的区间估计,由参数 的统计性质可知:(6.3.6)因此,的区间估计为:,(4)预测当多元线性回归方程经过检验是显著的,且其中每个系数均显著不为0,则说明回归的结果是合理的,在此基础上可用回归方程作预测。当 时,代入回归方程可得.当观测值为 时,的置信度为 的预测区间为:,如求例6.3.1回归方程中,当 x=(900,1300)T 时的预测区间。这里即为求x=(900,1300)T时的预测值,和置信程度为0.95的置信区间。,编程如下:new-data.frame(x1-900,x2-1300)lm.pred-predic

9、t(lm.sol,new,interval=prediction,level=0.95)lm.pred fit lwr upr1 51668.3 28980.95 74355.66因此,当x=(900,1300)T时,得到相应的预测值为51668.3,预测区间为28980.95,74355.66。,6.3.2逐步回归模型 逐步回归的实质是在建立多元回归方程的过程中,首先按偏相关系数的大小次序,将自变量逐个引入方程,并且对引入方程中的每个自变量偏相关系数进行统计检验,效应显著的自变量留在回归方程内。继续遴选下一个自变量,如果效应不显著,停止引入新自变量。由于新自变量的引入,原已引入方程中的自变量

10、由于变量之间的相互作用其效应有可能变的不显著,经统计检验后要随时从方程中剔除,只保留效应显著的自变量,直到不再引入和剔除自变量为止,从而得到最优的回归方程。,在多元线性逐步回归中,“最优”的含义是指从可供选择的所有变量中选出对Y有显著影响的变量建立方程,且在方程中不含对Y无显著影响的变量。R软件提供了较为方便的“逐步回归”计算函数step(),它是以信息统计量为准则,通过选择最小的AIC信息统计量,来达到删除或增加变量的目的。我们通过一个例子来说明如何通过R软件来实现逐步回归的过程。例 6.3.2 某水泥在凝固时放出的热量y(单位:卡/克)与水泥中下列四种化学成分有关:3CaO.Al2O3的成

11、分(%);:3CaO.Si2O3的成分(%);:4CaO.Al2O3.Fe2O3的成分(%);:2CaO.SiO2的成分(%)。所测定的数据如表6.3.2所示。用回归分析建立y与四种化学成分的线性回归模型。,表6.3.2 水泥中所含化学成分表,首先做多元线性回归如下:x-read.csv(d:program FilesRchengxuzhubuhuigui.csv,header=F)y-x,5;x1-x,1;x2-x,2;x3-x,3;x4-x,4;lms-lm(yx1+x2+x3+x4)summary(lms)运行结果如下:Call:lm(formula=y x1+x2+x3+x4)Resi

12、duals:Min 1Q Median 3Q Max-3.1750-1.6709 0.2508 1.3783 3.9254,Coefficients:Estimate Std.Error t value Pr(|t|)(Intercept)62.4054 70.0710 0.891 0.3991 x1 1.5511 0.7448 2.083 0.0708.x2 0.5102 0.7238 0.705 0.5009 x3 0.1019 0.7547 0.135 0.8959 x4-0.1441 0.7091-0.203 0.8441 Signif.codes:0*0.001*0.01*0.05.

13、0.1 1,Residual standard error:2.446 on 8 degrees of freedomMultiple R-squared:0.9824,Adjusted R-squared:0.9736 F-statistic:111.5 on 4 and 8 DF,p-value:4.756e-07,从回归方程的计算可以看到,如果选择全部变量作回归方程,效果是不好的,因为回归方程的系数只有一个通过了检验。在R软件中,step()函数时逐步回归函数,它是以AIC信息统计量为准则,通过删除或增加变量,使能得到的“最优”回归方程的AIC值达到最小。lm2-step(lms),显示

14、如下结果:Start:AIC=26.94y x1+x2+x3+x4 Df Sum of Sq RSS AIC-x3 1 0.1091 47.973 24.974-x4 1 0.2470 48.111 25.011-x2 1 2.9725 50.836 25.728,从结果可以看出,用全部变量做回归时,AIC值为26.94;去掉变量 时,AIC变为24.974;去掉变量 时,AIC值变为25.011;去掉变量 时,AIC值为25.728;去掉变量 时,AIC值为30.576。,因此,R软件自动去掉变量,进行下一轮计算。下一轮计算中,无论去掉哪个变量后,AIC值均会升高,因此,R软件终止计算,得到

15、“最优”回归方程。下面分析一下计算过程,见图6.3.2。,由逐步回归后的结果可以看出,回归系数检验的显著性水平有很大提高,但变量的回归系数检验显著性水平仍不理想。下面该如何处理呢?在R软件中,还有两个函数可以用来作逐步回归,这两个函数是add1()和drop1()。drop1(lm2)Single term deletionsModel:y x1+x2+x4 Df Sum of Sq RSS AIC 47.97 24.974x1 1 820.91 868.88 60.629x2 1 26.79 74.76 28.742x4 1 9.93 57.90 25.420,从运算变量来看,如果删去变量,AIC的值会从24.97增加到25.42,是增加的最少的。另外,除AIC准则外,残差的平方和也是逐步回归的重要指标之一,一般来说,拟合越好的方程,残差的平方和越小。去掉变量,残差平方和上升9.93,也是最少的。因此,从这两项指标来看,应该再去掉变量。,图 6.3.3 逐步回归后的最终结果分析,最后的回归结果见图6.3.3,从最后的回归结果可以看出,该结果的回归方程和回归系数都通过了检验。因此,逐步回归的结果为:,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号