《《线性回归》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《线性回归》PPT课件.ppt(33页珍藏版)》请在三一办公上搜索。
1、2023/7/31,1,第四部分 回归分析,回归分析的概念一元线性回归多元线性回归多项式回归非线性回归逐步回归,2023/7/31,2,4.1 回归分析的概念,在工农业生产和科学研究中,常常需要研究变量之间的关系。变量之间的关系可以分为两类:确定性关系、非确定性关系。确定性关系就是指存在某种函数关系。然而,更常见的变量之间的关系存在着某种不确定性。例如:商品的销售量与当地人口有关,人口越多,销售量越大,但它们之间并没有确定性的数值关系,同样的人口,可能有不同的销售量。这种既有关联,又不存在确定性数值关系的相互关系,就称为相关关系。回归分析就是研究变量之间相关关系的一种数理统计分析方法。在回归分
2、析中,主要研究以下几个问题:,2023/7/31,3,4.1 回归分析的概念,(1)拟合:建立变量之间有效的经验函数关系;(2)变量选择:在一批变量中确定哪些变量对因变量有显著影响,哪些没有实质影响;(3)估计与检验:估计回归模型中的未知参数,并且对模型提出的各种假设进行推断;(4)预测:给定某个自变量,预测因变量的值或范围。根据自变量个数和经验函数形式的不同,回归分析可以分为许多类别。,2023/7/31,4,4.2 一元线性回归,一元线性回归模型给定一组数据点(x1,y1),(x2,y2),.,(xn,yn),如果通过散点图可以观察出变量间大致存在线性函数关系,则可以建立如下模型:,其中a
3、,b称为一元线性回归的回归系数;表示回归值与测量值之间的误差。针对该模型,需要解决以下问题:(1)如何估计参数a,b以及2;(2)模型的假设是否正确?(3)如何应用所求的回归方程对试验指标进行预测。,2023/7/31,5,4.2 一元线性回归,回归系数的最小二乘估计已知(x1,y1),(x2,y2),.,(xn,yn),代入回归模型得到:,采用最小二乘法(即使观测值与回归值的离差平方和最小):,2023/7/31,6,4.2 一元线性回归,回归系数估计量的性质,2023/7/31,7,4.2 一元线性回归,对2的估计,对a,b,2的区间估计,2023/7/31,8,4.2 一元线性回归,样本
4、相关系数及其显著性检验,显然:样本相关系数R的符号决定于Lxy,因此与相关系数b的符号一致。说明:(1)当R=0时,Lxy=0,因此b=0,说明Y的变化与X无关,此时Y与X毫无线性相关关系;(2)当R=1时,所有的样本点都在回归直线上,此时称Y与X完全线性相关,R=1,完全正相关,R=-1,完全负相关;(3)当0|R|1时,说明X与Y存在一定的线性相关关系,0R1,正相关;-1 R0,负相关;R的绝对值越大,相关关系越显著。,2023/7/31,9,4.2 一元线性回归,给定显著性水平a,查表得F的临界值Fa,若F*Fa(F*为F的观测值),则拒绝假设即认为X与Y之间相关关系显著;否则认为Y与
5、X不存在线性相关关系;也可使用P=PFF*来比较,若P Fa),则拒绝假设即认为X与Y之间相关关系显著;一般使用时,P接近于0。,显著性检验:原假设H0:b=0,的值可以使用polyfit()或regress()命令计算,用法参看MATLAB具体说明。,2023/7/31,10,4.2 一元线性回归,利用回归模型进行预测,当回归模型和系数通过检验后,可由给定的x0值代入回归方程得到Y的点预测值y0:,给定显著性水平a,可以得到Y的预测区间:,2023/7/31,11,4.2 一元线性回归,利用回归模型进行控制,观察值y在某个区间(y1,y2)取值时,应如何控制x的取值范围,使得响应的观察值落入
6、指定区间的概率至少为1-a.解方程:,解得x1,x2,即可以得到x的控制区间的两个端点值。,x1,x2,y2,y1,2023/7/31,12,4.2 一元线性回归,异常数据的剔除,当用regress()命令得到回归模型的系数估计值和残差及残差置信区间时,由于残差符合均值为零的正态分布,所以残差置信区间应该通过零点。用rcoplot(r,rint)画出残差图,由图可容易看出异常数据点,剔除这些异常点,重新进行回归分析,可使模型预测更精确。,2023/7/31,13,4.2 一元线性回归,例4.1人口预测1949年1994年我国人口数据资料如下:年份xi 49 54 59 64 69 74 79
7、84 89 94人数yi 5.4 6.0 6.7 7.0 8.1 9.1 9.8 10.3 11.3 11.8 建模分析我国人口增长的规律,预报1999、2005年我国人口数。,建模分析步骤:(1)在坐标系上作观测数据的散点图。(2)根据散点分布的几何特征提出模型(3)利用数据估计模型的参数(4)计算拟合效果(1)散点图,2023/7/31,14,4.2 一元线性回归,(2)人口线性增长模型假设:人口随时间线性地增加,模型:y=a+b x+(3)利用数据估计模型的参数观测值的模型:yi=a+b xi+i,i=1,n拟合的精度:Q=i 2=(yi-a b xi)2,误差平方和。最小二乘法:求参数
8、 a 和 b,使得误差平方和最小。用MATLAB中的regress()命令可以算出:a=2.032,b=0.148模型:y=2.032+0.148 x(4)拟合精度 Q=0.3280,R2=0.9928,F=1101.878,P=0由R2和P表明拟合效果很好!(5)预报当X=99时,Y=12.62亿;当X=105时,Y=13.508亿,2023/7/31,15,4.3 多元线性回归,多元线性回归模型,其中i称为多元线性回归的回归系数;表示回归值与测量值之间的误差。,2023/7/31,16,4.3 多元线性回归,回归系数的最小二乘估计,已知(xi1,xi2,.,xim,yi),i=1,2,.,
9、n,代入回归模型,利用最小二乘法可得到回归系数的最小二乘估计。令:,2023/7/31,17,4.3 多元线性回归,2023/7/31,18,4.3 多元线性回归,回归模型的检验回归模型是否为线性函数形式?问题可转化为检验原假设:H0:1=2=.=m=0,与一元回归分析一样F检验,命令说明等类似。,2023/7/31,19,4.3 多元线性回归,回归系数的检验上个检验被拒绝时,表明回归系数不全为零,但不排除某个或某些系数为零。检验原假设:H0:i=0,若假设成立,表明因素Xi对Y的影响不显著。,2023/7/31,20,4.3 多元线性回归,例4.2 为了研究火柴销量与各因素间的回归关系,收集
10、数据:,2023/7/31,21,4.3 多元线性回归,MATLAB实现:x1=17.84,27.43,21.43,11.09,25.78;18.27,29.95,24.96,.14.48,28.16;20.29,33.53,28.37,16.97,24.26;22.61,37.31,.42.57,20.16,30.18;26.71,41.16,45.16,26.39,17.08;31.19,.45.73,52.46,27.04,7.39;30.5,50.59,45.3,23.08,3.88;29.63,.58.82,46.8,24.46,10.53;29.69,65.28,51.11,33.
11、82,20.09;.29.25,71.25,53.29,33.57,21.22;x=ones(size(x1(:,1),x1(:,2:5);y=x1(:,1);b,bint,r,rint,stats=regress(y,x,0.05)b=17.2597 0.0486 0.2218 0.0705-0.2469stats=0.9980 626.2680 0.0000 0.1011Q=r*r=0.5057 2=Q/n-2=0.0632,2023/7/31,22,4.4 多项式回归,一元多项式回归模型,可以转化为多元线性回归推导公式(略)。可用polyfit()命令实现。辅助命令:polyval()、
12、polyconj()、polytool()等参看MATLAB帮助。,多元二项式回归模型,命令:rstool()参看MATLAB帮助。,2023/7/31,23,4.5 非线性回归,非线性回归命令:,nlinfit()、nlparci()、nlpredci()、nlintool()等参看MATLAB帮助。,非线性回归转化为线性回归:,如:y=aebx z=ln a+b x=a*+b x.y=a xb z=ln y=lnb ln x=a*+b uy=1/(abx)z=1/y=a+bx.y=x/(b+ax)z=1/y=a+b/x=a+b uy=(1+ax)/(1+bx)?,y=cxe-dx?,y=L
13、/(1+ceax)?,2023/7/31,24,4.5 非线性回归,例4.3 赛跑的成绩与赛跑距离表列数据为1977年以前六个不同距离的中短距离赛跑成绩的世界纪录.距离 x(m)100 200 400 800 1000 1500时间 t(s)9.95 19.72 43.86 102.4 133.9 212.1试用这些数据建模分析赛跑的成绩与赛跑距离的关系,(1)散点图用线性模型误差比较大,2023/7/31,25,4.5 非线性回归,(2)模型假设:t=a xb,令 z=ln t,u=ln x,则有:z=ln t=ln ab ln x=a*+bu(3)利用数据估计模型的参数可以算出:a*=3.
14、0341,b=1.1453,a=ea*=0.0481R2=0.9987,P=0 模型:y=0.0481*x1.1453(4)拟合精度 拟合值:9.395 20.782 45.968 101.679 131.288 208.88 原值:9.95 19.72 43.86 102.4 133.9 212.1Q=23.5746,2023/7/31,26,4.6 逐步回归,实际问题中影响因变量的因素可能很多,我们希望从中挑选出影响显著的自变量来建立回归模型,这就涉及到变量选择的问题。逐步回归是一种从众多变量中有效选择重要变量的方法。以下只讨论线性回归的情况。原理:若候选的自变量集合为S=x1,x2,.,
15、xm,从中选出一个子集S1,假设包含k个自变量,由S1和因变量y构造的回归模型的误差平方和为Q,则模型的剩余平方和s2=Q/(n-l-1),n为数据样本容量。所选子集S1应使s尽量小。通常模型包含的自变量越多,Q越小,但若模型中包含有对y影响很小的量,那么Q不会由于包含这些变量在内而减少,反而可能因k的增大而增大,因此可将s2最小作为衡量变量选择的一个数量标准。,2023/7/31,27,4.6 逐步回归,步骤:先确定一初始子集,然后每次从子集外影响显著的变量中引入一个对 有影响最大的,再对原来子集中的变量进行检验,从变得不显著得变量中剔除一个影响最小的,直到不能引入和剔除为止。注意事项:一要
16、适当地选定引入变量的显著性水平ain和剔除变量的显著性水平aout,显然,ain越大,引入的额变量越多,aout越大,剔除的变量越少;二在最初选择变量时应尽量选择相互独立性强的那些变量。MATLAB实现:命令stepwise(x,y,inmodel,alpha)x是自变量数据(n行m列);y是因变量数据(n行1列);inmodel是矩阵x的列数的指标,给出初始模型中包括的子集,缺省时设定为全部自变量;alpha为显著性水平。,2023/7/31,28,4.4 逐步回归,例4.4 为了研究火柴销量与各因素间的回归关系,收集数据:,2023/7/31,29,4.4 逐步回归,确定一个线性模型。MA
17、TLAB实现:x1=17.84,27.43,21.43,11.09,25.78;18.27,29.95,24.96,.14.48,28.16;20.29,33.53,28.37,16.97,24.26;22.61,37.31,.42.57,20.16,30.18;26.71,41.16,45.16,26.39,17.08;31.19,.45.73,52.46,27.04,7.39;30.5,50.59,45.3,23.08,3.88;29.63,.58.82,46.8,24.46,10.53;29.69,65.28,51.11,33.82,20.09;.29.25,71.25,53.29,33
18、.57,21.22;x=x1(:,2:5);y=x1(:,1);stepwise(x,y),2023/7/31,30,4.4 逐步回归,stepwise初始界面:S1为空。(红色表示未加入),2023/7/31,31,4.4 逐步回归,第一步:将最显著的x2加入S1。,2023/7/31,32,4.4 逐步回归,第二步:将x4、x3加入S1(可以看出剩余标准差RMSE在减小),2023/7/31,33,4.4 逐步回归,最后利用regress()求逐步回归后的回归方程:,x=ones(size(x1(:,1),x1(:,2:3),x1(:,5);y=x1(:,1);b,bint,r,rint,st=regress(y,x)b=16.8107 0.0630 0.2522-0.2383即 y=16.8107+0.0630 x1+0.2522x2-0.2383x4st=0.9974 753.0367 0.0000 0.1121stats=0.9980 626.2680 0.0000 0.1011可以看到与例4.2相比,F值变大了Q=0.6725,