统计回归模型举例.ppt

上传人:牧羊曲112 文档编号:5299638 上传时间:2023-06-23 格式:PPT 页数:60 大小:665KB
返回 下载 相关 举报
统计回归模型举例.ppt_第1页
第1页 / 共60页
统计回归模型举例.ppt_第2页
第2页 / 共60页
统计回归模型举例.ppt_第3页
第3页 / 共60页
统计回归模型举例.ppt_第4页
第4页 / 共60页
统计回归模型举例.ppt_第5页
第5页 / 共60页
点击查看更多>>
资源描述

《统计回归模型举例.ppt》由会员分享,可在线阅读,更多相关《统计回归模型举例.ppt(60页珍藏版)》请在三一办公上搜索。

1、统计回归模型举例,1、用plot(x,y,*)作出散点图,与常见函数曲线作比较,确定回归模型曲线;2、用MATLAB求出相关参数,得到回归曲线;3、讨论回归曲线模型的显著性。,几个常见回归命令,1、多元线性回归命令:b,bint,r,rint,stats=regress(y,x,alpha)2、一元多项式回归命令:p,s=polyfit(x,y,m)3、多元二项式回归命令:rstool(x,y,model,alpha)线性(linear),完全二次(quadratic),纯二次(purequadratic),交叉(interaction)4、非线性回归命令:beta,r,j=nlinfit(x

2、,y,model,beta0),几个常见回归命令,例1 牙膏的销售量,问题,建立牙膏销售量与价格、广告投入之间的模型,预测在不同价格和广告费用下的牙膏销售量,收集了30个销售周期本公司牙膏销售量、价格、广告费用,及同期其它厂家同类牙膏的平均售价,令y表示公司牙膏的销售量,x1表示其它厂家与本公司价格差,x2 表示公司广告费用,则数据如下:x1=-0.05 0.25 0.6 0 0.25 0.2 0.15 0.05-0.15 0.15 0.2 0.1 0.4 0.45 0.35 0.3 0.5 0.5 0.4-0.05-0.05-0.1 0.2 0.1 0.5 0.6-0.05 0 0.05 0

3、.55;x2=5.5 6.75 7.25 5.5 7 6.5 6.75 5.25 5.25 6 6.5 6.25 7 6.9 6.8 6.8 7.1 7 6.8 6.5 6.25 6 6.5 7 6.8 6.8 6.5 5.75 5.8 6.8;y=7.38 8.51 9.52 7.5 9.33 8.28 8.75 7.87 7.1 8 7.89 8.15 9.1 8.86 8.9 8.87 9.26 9 8.75 7.95 7.65 7.27 8 8.5 8.75 9.21 8.27 7.67 7.93 9.26;,下面探讨y与x1、x2的关系:用matlab软件作图:plot(x1,y,*

4、);plot(x2,y,*)运行得如下图形:,从右图看出,y与x1成线性关系,y与x2成二次曲线关系。,x3=x2.2;x=ones(30,1)x1 x2 x3;b,bint,r,rint,stats=regress(y,x)运行结果:b=17.3244,1.3070,-3.6956,0.3486bint=5.7282 28.9206 0.6829 1.9311-7.4989 0.1077 0.0379 0.6594stats=0.9054,82.9409,0.0000,0.0490,模型求解,MATLAB 统计工具箱,结果分析,y的90.54%可由模型确定,F远超过F检验的临界值,P=0.0

5、5,2的置信区间包含零点(右端点距零点很近),x2对因变量y 的影响不太显著,由于x22项显著,可将x2保留在模型中,模型从整体上看成立,销售量预测,价格差x1=其它厂家价格x3-本公司价格x4,估计x3,调整x4,控制价格差x1=0.2元,投入广告费x2=650万元,x1=0.2;x2=6.5;Y=b(1)+b(2)*x1+b(3)*x2+b(4)*(x2.2)运行结果:Y=8.2933,即预测牙膏销售量为8.2933百万支。,上述模型中的回归变量x1,x2对因变量y的影响是相互独立的。即牙膏销售量y的均值与广告费x2的二次关系由回归系数2和3确定,而不必依赖于差价x1,同样y的均值与x1的

6、线性关系仅由回归系数1确定,不依赖于x2.根据直觉和经验可以猜想,x1和x2之间的交互作用也会对y有影响,不妨简单地用x1,x2的乘积来表示他们的相互作用,于是上述模型中增加一项,得到:,模型改进,x=ones(30,1)x1,x2(x2.2)(x1.*x2);b,bint,r,rint,stats=regress(y,x)b=29.1133 11.1342-7.6080 0.6712-1.4777bint=3.7013 44.5252 1.9778 20.2906-12.6932-2.5228 0.2538 1.0887-2.8518-0.1037stats=0.9209,72.7771,0

7、.0000,0.0426,模型比较,x1和x2对y的影响独立,由于R2有所提高,所以模型(*)比模型(*)有所改进,并且参数的置信区间不再包含0点,所以有理由认为模型(*)比模型(*)更符合实际。预测比较:x1=0.2;x2=6.5;Y=b(1)+b(2)*x1+b(3)*x2+b(4)*(x2.2)+b(5)*(x1.*x2)Y=8.3272,两模型销售量预测比较,(百万支),区间 7.8230,8.7636,区间 7.8953,8.7592,(百万支),控制价格差x1=0.2元,投入广告费x2=6.5百万元,预测区间长度更短,略有增加,完全二次多项式模型,x=x1 x2;rstool(x,

8、y,quadratic)运行结果:beta=2.0984 14.7436-8.6367-2.1038 1.1074 0.7594rmse=0.2083,剩余标准差为0.2.83较小,说明回归模型的显著性比较好。,问题:一家高技术公司人事部门为研究软件开发人员的薪金与他们的资历、管理责任、教育程度等因素之间的关系,要建立一个数学模型,以便分析公司人事策略的合理性,并作为新聘人员的薪金的参考。他们认为目前公司人员的薪金总体上是合理的,可以作为建模的依据。于是调查了46名软件开发人员的档案资料,如下表,其中资历一列指从事专业工作的年数,管理一列中:1表示管理人员,0表示非管理人员,教育一列中:1表示

9、中学程度,2表示大学程度,3表示更高程度(研究生)。,例2 软件开发人员的薪金,分析与假设按照常识,薪金自然随着资历(年)的增长而增加,管理人员的薪金应高于非管理人员,教育程度越高薪金也越高。令y表示薪金,x1表示资历,x2表示是否管理人员,x3表示学历,基本模型假设薪金y与资历x1、管理x2、学历x3成线性关系:,y=13876 11608 18701 11283 11767 20872 11772 10535 12195 12313 14975 21371 19800 11417 20263 13231 12884 13245 13677 15965 12366 21352 13839 2

10、2884 16978 14803 17404 22184 13548 14467 15942 23174 23780 25410 14861 16882 24170 15990 26330 17949 25685 27837 18838 17483 19207 19346;x1=1 1 1 1 1 2 2 2 2 3 3 3 3 4 4 4 4 5 5 5 6 6 6 6 7 8 8 8 8 10 10 10 10 11 11 12 12 13 13 14 15 16 16 16 17 20;,x2=1 0 1 0 0 1 0 0 0 0 1 1 1 0 1 0 0 0 0 1 0 1 0 1

11、 1 0 1 1 0 0 0 1 1 1 0 0 1 0 1 0 1 1 0 0 0 0;x3=1 3 3 2 3 2 2 1 3 2 1 2 3 1 3 3 2 2 3 1 1 3 2 2 1 2 1 3 1 1 2 3 2 3 1 2 3 1 2 2 3 2 2 1 2 1;x=ones(46,1),x1,x2,x3;b,bint,r,rint,stats=regress(y,x)b=1.0e+003*6.9333,0.5659,6.5936,1.6134bint=1.0e+003*5.6612 8.2054 0.4911 0.6406 5.8134 7.3737 1.1111 2.115

12、6stats=0.9327 194.0169 0 1603719.76601,由于R2=0.9327接近于1,F=194.0169大于临界值,p0.05 所以模型的显著性较好。回归模型为:,残差分析:Rcoplot(r,rint),模型修正在上述模型中,资历、管理、学历对薪金的影响都是独立的。事实上,管理与学历对薪金应具有交叉影响,为此增加交叉项x2x3,得模型:,模型求解,x=ones(46,1),x1,x2,x3,(x2.*x3);b,bint,r,rint,stats=regress(y,x)b=8135.915 538.366 4525.249 1077.139 1019.748,bi

13、nt=6410.849 9860.982 461.000 615.732 2311.748 6738.750 351.363 1802.914-6.314 2045.810stats=0.9387 157.012 0 1495857.511,R2=0.93870.9327,所以,该模型较好。,为了表示三种教育程度,也可引进两个01变量来表示:,y=13876 11608 18701 11283 11767 20872 11772 10535 12195 12313 14975 21371 19800 11417 20263 13231 12884 13245 13677 15965 12366

14、 21352 13839 22884 16978 14803 17404 22184 13548 14467 15942 23174 23780 25410 14861 16882 24170 15990 26330 17949 25685 27837 18838 17483 19207 19346;x1=1 1 1 1 1 2 2 2 2 3 3 3 3 4 4 4 4 5 5 5 6 6 6 6 7 8 8 8 8 10 10 10 10 11 11 12 12 13 13 14 15 16 16 16 17 20;x2=1 0 1 0 0 1 0 0 0 0 1 1 1 0 1 0 0

15、0 0 1 0 1 0 1 1 0 1 1 0 0 0 1 1 1 0 0 1 0 1 0 1 1 0 0 0 0;,X3=1 0 0 0 0 0 0 1 0 0 1 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 1 0 1 1 0 0 0 0 1 0 0 1 0 0 0 0 0 1 0 1;X4=0 0 0 1 0 1 1 0 0 1 0 1 0 0 0 0 1 1 0 0 0 0 1 1 0 1 0 0 0 0 1 0 1 1 0 1 0 0 1 1 0 1 1 0 1 0;,x=ones(46,1),x1,x2,x3,x4;b,bint,r,rint,stats=regre

16、ss(y,x),b=11032.7343011281 546.1276492977 6882.53291698754-2994.17834433349 147.737980069428stats=0.956691811962102 226.425798835777 0 1057144.84841479,R2=0.956691811962102 F=226.425798835777 p0.05,所以模型的显著性较好。,残差分析:rcoplot(r,rint),模型修正在上述模型中,资历、管理、学历对薪金的影响都是独立的。事实上,管理与学历对薪金应具有交叉影响,为此增加交叉项x2x3,x2x4,得

17、模型,模型求解:X=x(x2.*x3)(x2.*x4);b,bint,r,rint,stats=regress(y,X),b=11203.7537822278 96.863929912392 7047.99973466834-1726.5041924628-348.392543178968-3070.59618801279 1835.9676370463stats=0.998829102890402,5544.79903960134,0 30047.093445917,R2=0.9988291028904020.956691811962102 所以,该模型较好。,例3 投资额与国民生产总值和物

18、价指数,问题,建立投资额模型,研究某地区实际投资额与国民生产总值(GNP)及物价指数(PI)的关系,2.0688,3073.0,424.5,20,1.0000,1185.9,195.0,10,1.9514,2954.7,474.9,19,0.9601,1077.6,166.4,9,1.7842,2631.7,401.9,18,0.9145,992.7,144.2,8,1.6342,2417.8,423.0,17,0.8679,944.0,149.3,7,1.5042,2163.9,386.6,16,0.8254,873.4,133.3,6,1.4005,1918.3,324.1,15,0.79

19、06,799.0,122.8,5,1.3234,1718.0,257.9,14,0.7676,756.0,125.7,4,1.2579,1549.2,206.1,13,0.7436,691.1,113.5,3,1.1508,1434.2,228.7,12,0.7277,637.7,97.4,2,1.0575,1326.4,229.8,11,0.7167,596.7,90.9,1,物价指数,国民生产总值,投资额,年份序号,物价指数,国民生产总值,投资额,年份序号,根据对未来GNP及PI的估计,预测未来投资额,该地区连续20年的统计数据,时间序列中同一变量的顺序观测值之间存在自相关,以时间为序的数

20、据,称为时间序列,分析,许多经济数据在时间上有一定的滞后性,需要诊断并消除数据的自相关性,建立新的模型,若采用普通回归模型直接处理,将会出现不良后果,投资额与国民生产总值和物价指数,y=90.9 97.4 113.5 125.7 122.8 133.3 149.3 144.2 166.4 195.0 229.8 228.7 206.1 257.9 324.1 386.6 423.0 401.9 474.9 424.5;x1=596.7 637.7 691.1 756.0 799.0 873.4 944.0 992.7 1077.6 1185.9 1326.4 1434.2 1549.2 171

21、8.0 1918.3 2163.9 2417.8 2631.7 2954.7 3073.0;x2=0.7167 0.7277 0.7436 0.7676 0.7906 0.8254 0.8679 0.9145 0.9601 1.0 1.0575 1.1508 1.2579 1.3234 1.4005 1.5042 1.6342 1.7842 1.9514 2.0688;,t 年份,yt 投资额,x1t GNP,x2t 物价指数,画出散点图,投资额与 GNP及物价指数间均有很强的线性关系,0,1,2 回归系数,t 对t相互独立的零均值正态随机变量,Plot(x1,y,*),Plot(x2,y,*

22、),x=ones(20,1)x1 x2;b,bint,r,rint,stats=regress(y,x)b=322.724963028216;0.618456651396034;-859.478998026578bint=224.338557066255;421.111368990178 0.477272347881124;0.759640954910943-1121.47567088142;-597.482325171736stats=0.990843999027999 919.852894019238 0 161.707321609199,基本回归模型的结果与分析,MATLAB 统计工具箱

23、,剩余标准差 s=12.7164,没有考虑时间序列数据的滞后性影响,R20.9908,拟合度高,模型优点,模型缺点,可能忽视了随机误差存在自相关;如果存在自相关性,用此模型会有不良后果,例4、教学评估,问题:为了考评教师的教学质量,教学研究部门设计了一个教学评估表,对学生进行一次问卷调查,要求学生对12名教师的15门课程(其中3位教师有2门课)按以下7项内容打分,分值为15分(5分最好,1分最差)。X1课程内容的合理性;x2主要问题展开的逻辑性;X3回答学生问题的有效性;x4课下交流的有助性;X5教科书的帮助性;x6考试平分的公平性;y对教师的总体评价。,收回问卷调查后,得到了学生对12位教师

24、15门课的各项评分的平均值,见下表:,教学研究部门认为,所列各项具体内容x1x6不一定每项都对教师总体评价y有显著影响,并且各项内容之间也可能存在很强的相关性,他们希望得到一个总体评价与各项具体内容之间的模型,这个模型应 尽量简单和有效,并且由由此能给教师一个合理的建议,以提高总体评价。,逐步回归的基本思想先确定一个包含若干自变量的初始集合,然后每次从集合外的变量中引入一个对因变量影响最大的,再对集合中的变量进行检验,从变得不显著的变量中移出一个影响最小的。依次进行,直到不能引入和移出为止。引入和移出都以给定的显著性水平为标准。,虽然给出了6个变量,但是我们希望从中挑选出对因变量y有显著影响的

25、哪些来建立回归模型。为此我们采用逐步回归方法。,MATLAB统计工具箱中逐步回归命令为:stepwise通常的用法为:Stepwise(x,y,inmdel,penter,premove)x:自变量数据矩阵;y:因变量数据;Inmodel:自变量初始集合的指标(即矩阵x中哪些列进入初始集合),缺省时设定为没有选取任何x的列向量;Penter:引入变量时设定的最大p值,缺省时为0.05;Premove:移出变量时设定的最小p值,缺省时为0.10。注意:Premove 的值不能小于Penter的值。,x1=4.46 4.11 3.58 4.42 4.62 3.18 2.47 4.29 4.41 4

26、.59 4.55 4.67 3.71 4.28 4.24;x2=4.42 3.82 3.31 4.37 4.47 3.82 2.79 3.92 4.36 4.34 4.45 4.64 3.41 4.45 4.38;x3=4.23 3.29 3.24 4.34 4.53 3.92 3.58 4.05 4.27 4.24 4.43 4.52 3.39 4.10 4.35;x4=4.10 3.60 3.76 4.40 4.67 3.62 3.50 3.76 4.75 4.39 4.57 4.39 4.18 4.07 4.48;x5=4.56 3.99 4.39 3.63 4.63 3.50 2.84

27、 2.76 4.59 2.64 4.45 3.48 4.06 3.76 4.15;x6=4.37 3.82 3.75 4.27 4.57 4.14 3.84 4.11 4.11 4.38 4.40 4.21 4.06 4.43 4.50;y=4.11 3.38 3.17 4.39 4.69 3.25 2.84 3.95 4.18 4.44 4.47 4.61 3.17 4.15 4.33;x=x1 x2 x3 x4 x5 x6;,模型解释:在最终模型里回归变量只有x1,x2,是一个简单易用的模型。据此可把课程内容组织的合理性(x1)和回答学生问题的有效性(x3),列入考评的重点,模型(*)表明

28、,x1的分值每增加一分,对教师的总体评价就增加0.5分;x3的每增加1分,对教师的总体评价就增加0.77分,应建议教师注重这两方面的工作。,为了分析其他自变量没有最终进入模型的原因,可以计算x1x6,y的相关系数。,A=x y;corrcoef(A)ans=1.0000,0.9008,0.6752,0.7361,0.2910,0.6471,0.8973 0.9008,1.0000,0.8504,0.7399,0.2775,0.8026,0.9363 0.6752,0.8504,1.0000,0.7499,0.0808,0.8490,0.9116 0.7361,0.7399,0.7499,1.0

29、000,0.4370,0.7041,0.8219 0.2910,0.2775,0.0808,0.4370,1.0000,0.1872,0.1783 0.6471,0.8026,0.8490,0.7041,0.1872,1.0000,0.8246 0.8973,0.9363,0.9116,0.8219,0.1783,0.8246,1.0000,一般认为,两个变量的相关系数超过0.85时才具有显著的相关性。由上面结果知道,与y相关性显著的只有x1,x2,x3,而X2未进入最终模型,是由于它与x1,x3的相关性显著(r12=0.9008,r23=0.8504),可以说,模型中有了x1,x3之后,变量

30、X2是多余的,应该去掉。,例6 冠心病与年龄,问题:冠心病简称CHD,是一种常见的心脏疾病,严重地危害着人类的健康。到目前为止,其疾病尚未完全研究清楚,医学界普遍认同的、重要的易患因素是高领、高血压、糖尿病、动脉粥样硬化及家族史等。多项研究表明,冠心病发病率随着年龄的增加而上升,在冠心病的流行病学研究中,年龄也最常见的混杂因素之一。为了更好地说明冠心病发病率与年龄的关系,医学界对100名不同年龄的人进行观察,表1给出了这100名被观察者的年龄及是否患冠心病的数据。,表1冠心病一栏中,1代表患冠心病,0表示不患冠心病。试根据这些数据建立数学模型,来分析冠心病发病率与年龄的关系,并进行统计预测。,

31、分析与假设假设这100名被观察者是独立选取的,记x被观察者的年龄,Y为观察者患冠心病的情况(Y=1表示患冠心病,Y=0表示未患),x=20 23 24 25 25 26 26 28 28 29 30 30 30 30 30 30 32 32 33 33 34 34 34 34 34 35 35 36 36 36 37 37 37 38 38 39 39 40 40 41 41 42 42 42 42 43 43 43 44 44 44 44 45 45 46 46 47 47 47 48 48 48 49 49 49 50 50 51 52 52 53 53 54 55 55 55 56 56

32、 56 57 57 57 57 57 57 58 58 58 59 59 60 60 61 62 62 63 64 64 65 69;,Y=0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 1 0 0 0 0 1 0 1 0 0 0 0 0 1 0 0 1 0 0 1 1 0 1 0 1 0 0 1 0 1 1 0 0 1 0 1 0 0 1 1 1 1 0 1 1 1 1 1 0 0 1 1 1 1 0 1 1 1 1 0 1 1 1 1 1 0 1 1 1;,作出Y对x的散点图Plot(x,Y.*),从右图可以看出,

33、直接对上述数据建立回归模型是行不通的,需要对数据进行处理。,数据处理的一种常见方法是将被观察者按年龄进行分组,并统计各年龄段中患冠心病的人数,及患病人数占该组人数的比例(以下简称患病比例)为方便起见,将年龄分成8个年龄段,分组数据如下表:,考察年龄与患病比例的关系:x=24.5 32 37 42 47 52 57 64.5;y=0.1 0.13 0.25 0.33 0.46 0.63 0.76 0.80;,作散点图:Plot(x,y.*),由散点图知,回归曲线近似于三次多形式曲线。,利用MATLAB求解令:x1=x.2;x2=x.3;X=ones(8,1),x,x1,x2;b,bint,r,r

34、int,stats=regress(y,X),b=1.7391-0.1416 0.0037-0.0000,bint=0.5537,2.9246-0.2292,-0.0541 0.0017,0.0058-0.0000,-0.0000,stats=0.9949,259.9287,0.0000,0.0007,例7 沼气的生成问题,沼气的主要成分是甲烷,它是由含纤维素的有机物质在隔绝空气的情况下受到细菌作用所产生的有毒易燃气体。在我国农村广泛利用沼气池生成沼气,作为一种卫生快捷的能源,一般是用植物秸秆残体在保持一定湿度和温度的条件下,并与空气隔绝一段时间后经自然分解而成。实验证明,如果适当底加入一些有

35、机肥料作为发酵剂,则可以加快沼气的生成。下面是在一个缺点沼气池中加入相同数量的同质物秸秆,加入不同数量的水(W)和有机肥(F)后形成沼气的时间(T)对比数据,请根据这些试验数据分析研究沼气形成的时间与水和有机肥之间的关系,并由此关系讨论最佳的配料方案。,W=300 400 500 300 400 500 300 400 500;F=200 200 200 250 250 250 300 300 300;T=77 68 59 66 62 52 59 55 50;,模型假设1、试验数据是在相同的试验条件下的进行的;2、在此不考虑环境温度的影响;3、每次试验是独立进行的,且W、F、T的数据是准确的。

36、,模型求解令w=(W-400)/100;f=(F-250)/50;t=T;x=w f;rstool(x,t,linear)剩余标准差(均方根误差)rmse1=2.2381,rstool*(x,t,quadratic)rmse2=1.0844,rstool*(x,t,purequadratic)rmse3=2.4381,rstool*(x,t,interaction)rmse4=1.4004,beta2=60.7778-6.8333-6.6667 2.2500-1.1667 1.3333,模型为:,本题也可用线性规划方法求解:x3=w.*f;x4=w.2;x5=f.2;x=ones(9,1)w f x3 x4 x5;b,bint,r,rint,stats=regress(T,x),b=60.7778,-6.8333,-6.6667,2.2500,-1.1667,1.3333,bint=58.2055 63.3500-8.2422-5.4244-8.0756-5.2578 0.5245 3.9755-3.6069 1.2736-1.1069 3.7736,stats=0.9939,97.5165 0.0016,1.1759,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号