《回归分析课件.ppt》由会员分享,可在线阅读,更多相关《回归分析课件.ppt(102页珍藏版)》请在三一办公上搜索。
1、.,1,数学建模培训插值与拟合,王惠群2015年9月2日,线性回归 非线性回归 回归分析的Matlab函数,主要内容:,主要掌握:回归分析的基本理论 用数学软件求解回归分析问题,.,3,理学院,在实际生活中,某种现象的发生与某种结果的得出往往与其他某个或某些因素有关,但这种关系又不是确定的,只是从数据上可以看出有“有关”的趋势。回归分析就是用来研究具有这种特征的变量之间的相关关系的。,血压和体重指数间的关系,.,4,1)从一组样本数据出发,确定变量之间的数学关系式2)对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著3)利用所求的关系式,
2、根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度,什么是回归分析?,.,5,理学院,涉及的自变量的多少分为回归和多重回归分析;因变量的多少分为一元回归分析和多元回归分析;自变量和因变量之间的关系类型分为线性回归分析和非线性回归分析,一元线性回归最简单的情形是只包括一个自变量和一个因变量,且它们大体上有线性关系,这叫一元线性回归,即模型为Y=a+bX+,这里X是自变量,Y是因变量,是随机误差。正态线性模型若进一步假定随机误差遵从正态分布,就叫做正态线性模型。,回归分析的分类,.,6,理学院,一般的情形,有多个自变量和一个因变量(多元回归),因变量的值可以分
3、解为两部分:一部分是由自变量的影响,即表示为自变量的函数,其中函数形式已知,但含一些未知参数;另一部分是由于其他未被考虑的因素和随机性的影响,即随机误差。当函数形式为未知参数的线性函数时,称线性回归分析模型;当函数形式为未知参数的非线性函数时,称为非线性回归分析模型;当回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,称为多重线性回归分析模型。,.,7,理学院,从一组数据出发确定某些变量之间的定量关系式,即建立数学模型并估计其中的未知参数。估计参数的常用方法是最小二乘法。对这些关系式的可信程度进行检验。在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变量的影响
4、是显著的,哪些自变量的影响是不显著的,将影响显著的自变量选入模型中,而剔除影响不显著的变量,通常用逐步回归、向前回归和向后回归等方法。利用所求的关系式对某一生产过程进行预测或控制。回归分析的应用是非常广泛的,统计软件包使各种回归方法计算十分方便。,回归分析的主要内容,.,8,理学院,在回归分析中,把变量分为两类。一类是因变量,它们通常是实际问题中所关心的一类指标,通常用Y表示;而影响因变量取值的的另一变量成为自变量,用X来表示。回归分析研究的主要问题是:(1)确定Y与X间的定量关系表达式。这种表达式成为回归方程;(2)对求得的回归方程的可信度进行检验;(3)判断自变量X对Y有无影响;(4)利用
5、所求得的回归方程进行预测和控制。,.,9,理学院,1)根据预测目标,确定自变量和因变量 明确预测的具体目标,也就确定了因变量。如预测具体目标是下一年度的销售量,那么销售量Y就是因变量。通过市场调查和查阅资料,寻找与预测目标的相关影响因素,即自变量,并从中选出主要的影响因素。2)建立回归预测模型 依据自变量和因变量的历史统计资料进行计算,在此基础上建立回归分析方程,即回归分析预测模型。,回归分析的步骤,.,10,理学院,3)进行相关分析 回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。只有当变量与因变量确实存在某种关系时,建立的回归方程才有意义。因此,作
6、为自变量的因素与作为因变量的预测对象是否有关,相关程度如何,以及判断这种相关程度的把握性多大,就成为进行回归分析必须要解决的问题。进行相关分析,一般要求出相关关系,以相关系数的大小来判断自变量和因变量的相关的程度。,.,11,理学院,4)检验回归预测模型,计算预测误差 回归预测模型是否可用于实际预测,取决于对回归预测模型的检验和对预测误差的计算。回归方程只有通过各种检验,且预测误差较小,才能将回归方程作为预测模型进行预测。5)计算并确定预测值 利用回归预测模型计算预测值,并对预测值进行综合分析,确定最后的预测值。,.,12,对于回归模型,我们假设:,可得到:,y 称为因变量,x 称为自变量,称
7、为随机误差,a,b 称为待估计的回归参数,下标 i 表示第 i 个观测值。,若两个变量x,y之间有线性相关关系,其回归模型为:,一元线性回归分析,1回归模型,理学院,.,13,例 测16名成年女子的身高与腿长所得数据如下:,以身高x为横坐标,以腿长y为纵坐标将这些数据点(xI,yi)在平面直角坐标系上标出.,散点图,腿长Y随身高X的增加而增大且呈直线趋势,但并非每个点都恰好在一条直线上,这与两变量间严格的直线函数关系不同。,.,14,如果给出a 和b 的估计量分别为,则经验回归方程为:,一般地,,称为残差,,残差 可视为误差 的“估计量”。,去掉回归模型中的扰动项,得理论回归方程为:,2回归方
8、程,理学院,.,15,理学院,3一元线性回归图示,.,16,二元函数 的最小值点 称为a,b的最小二乘估计,记,4回归系数的最小二乘估计,最小二乘法就是选择a和b的估计值 使得二元函数Q 能够最接近,即,等于 的最小值。,理学院,.,17,上面讨论了如何根据实验数据求得线性回归方程,然而,实际上,对于变量 和 的任意对观测值,只要不全相等,则无论变量 和 之间是否存在线性相关关系,都可根据上面介绍的方法求得一个线性回归方程。显然,这样写出的线性方程当且仅当变量 和 之间存在线性相关关系时才是有意义的;若不存在线性相关关系,则这样写出的线性方程就毫无意义了。为了使求得的线性回归方程真正有意义,就
9、需要进行回归方程的显著性检验。,5回归方程的显著性检验,理学院,.,18,(1)因变量y的取值是不同的,y取值的这种波动称为变差。变差来源于两个方面由于自变量x的取值不同造成的除x以外的其他因素(如x对 y的非线性影响、测量误差等)的影响(2)对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差 来表示,离差平方和分解,理学院,.,19,两边平方后求和有,从图上看有,SST=SSR+SSE 自由度(df)n-1=1+n-2,总变差平方和(SST),回归平方和(SSR),残差平方和(SSE),三个平方和的关系,理学院,.,20,(1)总平方和(SST)反映因变量的n个观察值与其均值
10、的总离差(2)回归平方和(SSR)反映自变量x的变化对因变量y取值变化的影响,或者说,是由于 x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和(3)残差平方和(SSE)反映除x以外的其他因素对y取值的影响,也称为不可解释的 平方和或剩余平方和,三个平方和的意义,理学院,.,21,回归方程的显著性检验,理学院,对回归方程 的显著性进行检验,归结为对假设:H0:b=0 H1:b0 的检验。假设 H0:b=0被拒绝,则回归显著,认为y与x存在线性关系,所求的线性回归方程有意义;否则回归不显著,y与x的关系不能用一元线性回归模型来描述,所得的回归方程也无意义。,.,22,线性关系的检验(F
11、 检验),(1)提出假设,(2)计算检验统计量F,(3)确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F(1,n-2),检验的步骤,H0:b=0 H1:b 0,(4)作出决策:若FF,拒绝H0;若FF,接受H0,如果拒绝 H0,两个变量之间存在显著线性关系如果接受H0,两个变量间不存在显著线性关系,理学院,.,23,(1)检验两个变量之间是否存在线性相关关系,计算检验的统计量:,确定显著性水平,并作出决策 若t t,拒绝H0 若t t,接受H0,线性关系的检验(t 检验),(2)等价于对回归系数b的检验,(3)采用t检验,(4)检验的步骤为,提出假设:H0:;H1:0,理学院,
12、式中 为回归的剩余标准差。,.,24,计算检验的统计量:,确定显著性水平,并作出决策 若t t,拒绝H0 若t t,接受H0,相关系数的显著性检验(t 检验),理学院,.,25,(1)检验 x 与 y 之间是否具有线性关系,或者说,检验自变量 x 对因变量 y 的影响是否显著(2),(3)在一元线性回归中,等价于回归方程的显著性检验,回归系数的显著性检验(t 检验),理学院,(3)在一元线性回归中,等价于回归方程的显著性检验,.,26,(1)提出假设 H0:b=0(没有线性关系)H1:b 0(有线性关系),(3)确定显著性水平,并进行决策 tt,拒绝H0;tt,接受H0,回归系数的显著性检验(
13、步骤),(2)计算检验的统计量,理学院,.,27,(1)根据自变量 x 的取值估计或预测因变量 y 的取值(2)估计或预测的类型 点估计y 的平均值的点估计y 的个别值的点估计 区间估计y 的平均值的置信区间估计y 的个别值的预测区间估计,6利用回归方程进行估计和预测,理学院,.,28,理学院,点估计:,.,29,理学院,.,30,理学院,.,31,理学院,.,32,理学院,.,33,理学院,.,34,理学院,多元线性回归分析,.,35,理学院,.,36,理学院,.,37,理学院,.,38,理学院,.,39,理学院,.,40,理学院,最小二乘法整理运算得到:,.,41,理学院,.,42,理学院
14、,.,43,理学院,.,44,理学院,.,45,理学院,非线性回归分析,因变量y与x之间不是线性关系 可通过变量代换转换成线性关系 用最小二乘法求出参数的估计值 并非所有的非线性模型都可以化为线性模型 对于不能化为线性模型的非线性模型,应直接 用非线性最小二乘法处理,.,46,理学院,通常选择的六类曲线如下:,1、指数函数2、负指数函数3、幂函数4、双曲线函数5、对数函数6、S型曲线7、多项式曲线,.,47,理学院,.,48,理学院,.,49,理学院,.,50,理学院,.,51,理学院,.,52,理学院,.,53,理学院,.,54,理学院,回归分析的Matlab函数,线性回归函数 多项式回归函
15、数 非线性回归函数 逐步回归函数,.,55,理学院,.,56,理学院,.,57,理学院,.,58,理学院,例 考察15名不同程度的烟民的每日抽烟量、饮酒量(啤酒)与其心电图指标(zb)的对应数据,试建立心电图指标关于日抽烟量和日饮酒量的适合的回归模型。,.,59,理学院,.,60,理学院,画散点图的Matlab程序,xyz=30 10 280 25 11 260 35 13 330 40 14 400 45 14 410 20 12 170 18 11 210 25 12 280 25 13 300 23 13 290 40 14 410 45 15 420 48 16 425 50 18 4
16、50 55 19 470;plot3(xyz(:,1),xyz(:,2),xyz(:,3),o)grid onset(gca,color,none)xlabel(日抽烟量(x)/支);ylabel(日饮酒量(y)/升);zlabel(心电图指标(zb);set(gca,Xcolor,1 0 0,Ycolor,1 0 0,Zcolor,1 0 0),.,61,理学院,.,62,理学院,调用regress函数作回归分析的Matlab程序,x=xyz(:,1);y=xyz(:,2);z=xyz(:,3);n=size(x,1);xy=ones(n,1),x,y;b,bint,r,rint,stats
17、=regress(z,xy),.,63,理学院,b(系数)=r(残差)=rint(置信区间)=66.0944-17.7298-63.67228.21246.9774-5.0743-62.548652.40012.2314-9.3109-68.599949.978123.5708-33.731980.8734bint(区间估计)=-1.3161-56.505553.8732-38.5544170.7431-62.4187-98.9014-25.9364.32059.6342-6.2326-61.331148.866-10.424214.886912.6943-45.36370.751730.46
18、3-22.603583.529434.4177-15.112983.948433.5708-21.538188.67976.4525-51.661864.5667-11.7111-68.682245.26-5.1286-57.497147.2399-22.2469-68.625824.132stats=0.9246 73.5741 0.0000 751.6477,计算结果:,.,64,理学院,回归方程:,rcoplot(r,rint),残差分析:,.,65,理学院,作回归平面的Matlab程序,xdat,ydat=meshgrid(15:5:60,8:21);zdat1=ones(length
19、(xdat(:),1)xdat(:)ydat(:)*b;zdat1=reshape(zdat1,size(xdat);mesh(xdat,ydat,zdat1)alpha(0)hold onplot3(x,y,z,b*,markersize,10)xlabel(日抽烟量(x)/支);ylabel(日饮酒量(y)/升);zlabel(心电图指标(zb);set(gca,Xcolor,1 0 0,Ycolor,1 0 0,Zcolor,1 0 0)set(gca,color,none),.,66,理学院,.,67,理学院,.,68,理学院,.,69,理学院,例 出钢时所用的盛钢水的钢包,由于钢水对
20、耐火材料的浸蚀,容积不断增大。我们希望找到使用次数与增大的容积之间的关系。对一钢包做试验,测得数据列于下表:,(1)作出散点图;(2)求y关于x的经验回归方程;,.,70,理学院,原始数据散点与折线图,.,71,理学院,调用polyfit函数作多项式拟合的Matlab程序,xy=2 3 4 5 6 7 8 9 10 11 12 13 14 15 166.42 8.2 9.58 9.5 9.7 10 9.93 9.99 10.49 10.59 10.6 10.8 10.6 10.9 10.76;x=xy(1,:);y=xy(2,:);figure(1)plot(x,y,bo);grid on;x
21、label(使用次数);ylabel(增大容积)set(gca,color,none)p,s=polyfit(x,y,2);yhat,delta=polyconf(p,x,s);py yhat y-yhat yhat-delta yhat+deltafigure(2)plot(x,y,bo,x,yhat,r,x,yhat-delta,c,x,yhat+delta,c);grid on;xlabel(使用次数);ylabel(增大容积)set(gca,color,none),.,72,理学院,Y,Yhat,r,Yhat-delta,Yhat+delta,.,73,理学院,模型预测图,.,74,理
22、学院,模型检验,ybar=mean(y);n=length(x);SSR1=sum(yhat-ybar).2);MSR1=SSR1/1;SSE1=sum(y-yhat).2);MSE1=SSE1/(n-2);r2=SSR1/(SSR1+SSE1)fvalue1=MSR1/MSE1falpha1=finv(0.95,1,n-2)pvalue1=1-fcdf(fvalue1,1,n-2),.,75,理学院,.,76,理学院,xy=2 3 4 5 6 7 8 9 10 11 12 13 14 15 166.42 8.2 9.58 9.5 9.7 10 9.93 9.99 10.49 10.59 10
23、.6 10.8 10.6 10.9 10.76;x=xy(1,:);y=xy(2,:);figure(1)plot(x,y,bo);grid on;xlabel(使用次数);ylabel(增大容积)set(gca,color,none)h=polytool(x,y,2,0.05,使用次数,增大容积);yhat,delta=polyconf(h,x,s);hy yhat y-yhat yhat-delta yhat+deltafigure(2)plot(x,y,bo,x,yhat,r,x,yhat-delta,c,x,yhat+delta,c);grid on;xlabel(使用次数);ylab
24、el(增大容积)set(gca,color,none),.,77,理学院,交互式工具预测图,.,78,理学院,.,79,理学院,.,80,理学院,.,81,理学院,.,82,理学院,原始数据散点和折线图,.,83,理学院,调用nlinfit函数作logistic回归的matlab程序,renkou_data=19750924209.24219761937179.371719772949749.497419783962599.625919794975429.754219805987059.87051981610007210.00721982710165410.165419992412578612
25、.578620002512674312.674320012612762712.762720022712845312.845320032812922712.922720042912998812.998820053013075613.0756;year=renkou_data(:,1);t=renkou_data(:,2);y=renkou_data(:,4);figure(1)plot(year,y,r,year,y,bo);grid on;xlabel(时间(1975-2005年));ylabel(中国人口(亿人))set(gca,color,none)fun=(beta,t)beta(1).
26、/(1+beta(2)*exp(beta(3)*t);beta,resid,J,Sigma,mse=nlinfit(t,y,fun,15,1,1);yp=fun(beta,t);betaci=nlparci(beta,resid,covar,Sigma)ypred,delta=nlpredci(fun,t,beta,resid,covar,Sigma);year y ypred resid ypred-delta ypred+delta,.,84,理学院,画预测图和模型检验的matlab程序,figure(2)plot(year,y,k.,year,ypred,r,year,ypred-del
27、ta,b,year,ypred+delta,b);grid onxlabel(时间(1975-2005年));ylabel(中国人口(亿人))set(gca,color,none)ybar=mean(y);n=length(t);SSR1=sum(ypred-ybar).2);MSR1=SSR1/3;SSE1=sum(y-ypred).2);MSE1=SSE1/(n-3);r2=SSR1/(SSR1+SSE1)fvalue1=MSR1/MSE1falpha1=finv(0.95,3,n-3)pvalue1=1-fcdf(fvalue1,3,n-3),.,85,理学院,模型预测图,.,86,理学
28、院,运行结果:,由上面结果知模型非常显著(p=0),得到的Logistic函数表达式为:,.,87,理学院,例 在一丘陵地带测量高程,x和y方向每隔100米测一个点,得高程如下表,试拟合一曲面,确定合适的模型,并由此找出最高点和该点的高程。,.,88,理学院,原始数据面图,.,89,理学院,调用nlinfit函数作二元非线性回归的Matlab程序,z=636 697 624 478 450698 712 630 478 420680 674 598 412 400662 626 552 334 310;x,y=meshgrid(100:100:500,100:100:400);figure(1
29、)surf(x,y,z)grid onxlabel(X);ylabel(Y);zlabel(Z);set(gca,color,none)xy=x(:),y(:);zd=z(:);fun_gc=(beta,t)beta(1)*t(:,1)+beta(2)*t(:,2).+beta(3)*(t(:,1).2+beta(4)*t(:,1).*t(:,2).+beta(5)*(t(:,2).2+beta(6)*(t(:,1).3.+beta(7)*(t(:,1).2.*t(:,2)+beta(8)*t(:,1).*(t(:,2).2.+beta(9)*(t(:,2).3+beta(10);beta,r
30、esid,J,Sigma,mse=nlinfit(xy,zd,fun_gc,ones(10,1),.,90,理学院,部分结果,beta=5.3339e+000 1.9410e+000-1.9341e-002-3.6381e-003-4.8775e-003 1.9125e-005 3.4643e-006 6.2500e-007 4.0333e-006 1.6353e+002,拟合的曲面方程为:z=5.3339x+1.9410*y-0.0193*x2-0.00364xy-0.00488y2+0.000019x3+(3.464e-6)x2y+(6.25e-7)xy2+(4.033e-6)y3+163
31、.5;通过求偏导,然后由偏导等于0解得最高点为(167.2419 200.6160),最高点处的高程为731.6817,.,91,理学院,.,92,理学院,.,93,理学院,.,94,理学院,.,95,理学院,.,96,理学院,.,97,理学院,例 研究光合速率y与比叶重x1、气孔密度x2、叶绿素含量x3之间的关系,试验得到红薯性状观测值的数据如下表,试建立y关于x1,x2,x3的回归模型。,.,98,理学院,调用stepwise函数作逐步回归的Matlab程序,x123y=1.999311.44.057511.71612.02548.13.77506.98622.001010.73.3733
32、11.34442.107211.23.135212.47701.89419.03.51905.96182.018812.53.427811.22101.936210.13.85188.84162.10728.54.13737.94881.98438.34.27199.80141.990410.84.987211.07651.783610.73.00196.37441.97308.84.30739.39931.941410.24.39659.84202.05199.04.16738.25101.962611.14.018610.64001.865114.23.41756.6433;x1=x123y(:,1);x2=x123y(:,2);x3=x123y(:,3);y=x123y(:,4);x123=x1 x2 x3 x1.2 x2.2 x3.2 x1.*x2 x1.*x3 x2.*x3;stepwise(x123,y,1:9,0.05,0.05),.,99,理学院,初始结果界面,.,100,理学院,最终结果界面,.,101,理学院,结果分析,得到最终回归模型为:,模型的判定系数R_Square=0.8949,F值为12.7721,p值0.00059,模型显著性回归。,.,102,谢谢,