【数学课件】多元线性回归分析.doc

上传人:文库蛋蛋多 文档编号:2526801 上传时间:2023-02-20 格式:DOC 页数:43 大小:1.04MB
返回 下载 相关 举报
【数学课件】多元线性回归分析.doc_第1页
第1页 / 共43页
【数学课件】多元线性回归分析.doc_第2页
第2页 / 共43页
【数学课件】多元线性回归分析.doc_第3页
第3页 / 共43页
【数学课件】多元线性回归分析.doc_第4页
第4页 / 共43页
【数学课件】多元线性回归分析.doc_第5页
第5页 / 共43页
点击查看更多>>
资源描述

《【数学课件】多元线性回归分析.doc》由会员分享,可在线阅读,更多相关《【数学课件】多元线性回归分析.doc(43页珍藏版)》请在三一办公上搜索。

1、肚多元线性回归分析直线回归概念复习例:为了研究3岁至8岁男孩身高与年龄的规律,在某地区在3岁至8岁男孩中随机抽样,共分6个年龄层抽样:3岁,4岁,8岁,每个层抽10个男孩,共抽60个男孩。资料如下:60个男孩的身高资料如下年龄3岁4岁5岁6岁7岁8岁身高92.596.5106.0115.5125.5121.597.0101.0104.0115.5117.5128.596.0105.5107.0111.5118.0124.096.5102.0109.5110.0117.0125.597.0105.0111.0114.5122.0122.592.099.5107.5112.5119.0123.59

2、6.5102.0107.0116.5119.0120.591.0100.0111.5110.0125.5123.096.0106.5103.0114.5120.5124.099.0100.0109.0110.0122.0126.5平均身高95.4101.8107.6113.1120.6124.0图1 某地男童身高与年龄的散点图从散点图上,我们可以发现样本点(X,Y)随机地出现在一条直线附近,并且从资料背景上考察,同一年龄的儿童身高应近似服从一个正态分布,而儿童身高的总体均数应随着年龄增长而增大,并由每个年龄的身高样本均数与儿童年龄的散点图可以发现:这些点非常接近一条直线以及样本均数存在抽样误差

3、,因此推测儿童身高的总体均数与年龄可能呈直线关系。故假定身高Y在年龄X点上的总体均数与X呈直线关系。其中y表示身高,x表示年龄。由于身高的总体均数与年龄有关,所以更准确地标记应为表示在固定年龄情况下的身高总体均数。身高的样本均数与年龄的散点图故有理由认为身高的总体均数与年龄的关系可能是一条直线关系上述公式称为直线回归方程。其中b为回归系数(regression coefficient),或称为斜率(slope);a称为常数项(constant),或称为截距(intercept)。回归系数b表示x变化一个单位y平均变化b个单位。当x和y都是随机的,x、y间呈正相关时b0,x、y间呈负相关时b F

4、 = 0.0000 Residual | 447.467619 58 7.71495895 R-squared = 0.9306-+- Adj R-squared = 0.9294 Total | 6445.18333 59 109.240395 Root MSE = 2.7776- y | Coef. Std. Err. t P|t| 95% Conf. Interval-+- x | 5.854286 .2099654 27.88 0.000 5.433994 6.274577 _cons | 78.18476 1.209202 64.66 0.000 75.76428 80.60524-

5、回归方程 b=5.854286 , a= 78.18476se(b)= 0.2099654 回归系数检验:H0:b=0 vs H1:b0回归系数统计量t=b/se(b)= 5.854286/ .2099654=27.88,P值 F = 0.0232残差平方和残差均方和决定系数Residual982143.457140306.207R-squared = 0.6587校正和决定系数Adj R-squared = 0.5611Total2877250.009319694.444Root MSE = 374.57总平方和SS总描述样本量为n10的因变量y总的变异。回归平方和SSR描述了样本量为n时,

6、由自变量x1,x2变化而引起的因变量y的这部分变异,SSe描述了样本量为n时,由随机误差项e所引起的因变量y的一部分变异,因此:总变异自变量引起y的变异随机误差e引起变异对应:SS总SS回归SS误差由于SS总,SS回归和SS误差均与样本量n有关,样本量n越大,对应变异就越大。所以取平均变异指标:均方差MS,回归系数回归系数标准误t值P值95可信区间yCoef.Std.Err.tP|t|95% Conf. Intervalx1113.998738.311092.9760.02123.40741204.5901x245.4836828.184281.6140.151-21.16155112.128

7、9_cons-5545.8062293.933-2.4180.046-10970.1-121.5156回归方程 解释回归系数的意义简述SST总SSR回归SSE残差,自由度df回归模型中的回归系数个数(不含常数项),df残差=ndf回归1, 模型的假设检验H0:b1=b2=0 vs b1,b2不全为0当H0成立时,F(df回归,df残差) 单个回归系数检验:H0:b0 vs H1:b0当H0:b0成立时,简述回归系数b的95CI 意义与t检验的对应关系。(d) 假设检验一般情况叙述(e) 决定系数(f) 复相关系数R(g) H0:b1=b2=br=0 vs b1,b2,br不全为0。当H0成立时

8、m(x1,x2,xp)的估计及其误差(STATA命令:predict y1) (STATA命令:predict meansd,stdp)(因为有抽样误差)95%CI ,自由度v=n-1-p个体预测值和标准误(STATA命令:predict y1)线性回归模型应用的条件总结理论上且独立。具体检查是否复合线性回归模型步骤1. 先做线性回归2. 计算残差ei 3. 检查残差ei是否服从正态分布(引起正态分布)4. 检查残差ei的离散程度是否与其它自变量呈某种趋势关系。(要求无任何趋势关系)5. 检查残差ei变化是否与其它自变量呈某种对应趋势关系。(要求无任何趋势关系)多元线性回归常见的应用以及应用中

9、的问题l 全回归模型(析因分析)l 多重共线对分析的影响VIFs (variance inflation factors)l 对于自变量p个自变量x1,x2,xp中,以其中一个xi作为因变量作回归以及其它p-1个变量为自变量,得到相应的决定系数Ri。定义xi的膨胀因子l VIFi=1对应说明xi与其它p-1个自变量无共线。l 当对应VIFi1l 当,说明xi与其它p-1个自变量完全共线,对应VIFi成为无穷大。l 通常认为在p个自变量x1,x2,xp中,最大的VIF10,则认为严重共线,最小二乘估计受到较严重的影响。l 平均VIF1,则认为l 寻找影响因变量的主要因素。l 用回归进行两组或多组

10、的均数比较并校正混杂因素的影响。全回归分析举例例:据儿童保健部门的考察,4至7岁儿童的身高与年龄近似呈线性关系,且男女身高也有差异。下列收集了50名男孩和50名女孩的身高,年龄均在4岁至7岁之间。请试建立回归方程描述年龄与身高的关系(其中sex=1表示男,sex=0表示女)sexagey14.59016.511116.210716.410716.711414.48816.410914.28616.210717.4122159514.18515.610017.51211610617.312014.8931待添加的隐藏文字内容36.2105159417.712515.19614.48815.610

11、116.811317.412115.810515.610217.512214.28416.711316.811516.711414.99314.38616.310815.49917.211614.48716.310914.48917.812514.892159514.6901711715.49915.510217.812716.311017.111904.38707.2114059505.810004.59004.99104.18604.69005.19406.510907.511605.910404.99407.711807.511607.411704.79106.510706.911206

12、.110504.38905.59904.18507.211305.61010610405.49805.19505.610104.79007.912004.79005.19504.99406.410804.38806.210706.8110059404.89405.910406.410704.79307.411606.811005.49905.49905.19607.311507.8121考虑身高总体均数为模型为:用拟合上述模型gen sexage=sex*ageregress y age sex sexage- y | Coef. Std. Err. t P|t| 95% Conf. Inte

13、rval-+- sex | -9.513794 1.119899 -8.50 0.000 -11.73678 -7.290813 age | 9.075835 .1337354 67.86 0.000 8.810372 9.341298 sexage | 1.929241 .1883106 10.24 0.000 1.555447 2.303035 _cons | 48.97983 .7869668 62.24 0.000 47.41771 50.54194回归方程为则女孩为身高与年龄的回归方程为(sex=0)age的回归系数的意义为每年身高增长的速度则男孩为身高与年龄的回归方程为(sex=1

14、)age的回归系数的意义为每年身高增长的速度因此女孩身高的增长速度为b2,样本估计值为9.075835男孩身高的增长数为b2b3,样本估计值为11.005076男孩与女孩身高的增长速度差异为b3,b30说明男孩身高增长速度快,b30,P值0.001。因此男孩身高速度高于女孩,并且差别有统计学意义。例:治疗缺铁性贫血100人,随机分为2组,给予不同疗法治疗:经过一个月治疗后,治疗前后的红细胞数(万/ml)如下:A组B组治疗前y1治疗后y2组别group治疗前y1治疗后y2组别group32533713273480312325133435403313431347368032834113173370

15、316330135137103673801299319035436713363570311325131733803643781305326034536013623820335348131533303293441370394033634913463680293306132434503453581324346036437813623830311325131833803473601329350035036413563780295308135637603693831356378032333613403620385399132234203243381310330031232513573780322336

16、134536503403531340361033034413303510347361135838003613741306329037438913223420327340130432503353491327348036337713533740338350135537603283441346369030331613693900329342132634803173311333355033434613673890334348136338403353481337360033034313683890338353133936103533661337358033234513693900303317135838

17、003693841357378032834313453680治疗前治疗后第一组335.2820.840541348.8221.04678第二组339.9819.875623361.1420.188914考虑以治疗前后的改变量为评价的效应指标先不考虑校正基线则可以用成组t检验进行统计分析gen y=y2-y1ttest y,by(group)结果如下:Two-sample t test with equal variances- Group | Obs Mean Std. Err. Std. Dev. 95% Conf. Interval-+- 0 | 49 21.16327 .1524933

18、1.067453 20.85666 21.46987 1 | 49 13.57143 .1271081 .8897565 13.31586 13.827-+-combined | 98 17.36735 .3978661 3.938674 16.57769 18.157-+- diff | 7.591837 .1985212 7.197775 7.985898-Degrees of freedom: 96 Ho: mean(0) - mean(1) = diff = 0 Ha: diff 0 t = 38.2419 t = 38.2419 t = 38.2419 P |t| = 0.0000

19、P t = 0.0000现用线性回归完成上述分析设B组(group=0)受试者的红细胞数改变量的总体均数为md=a,设A组(group=1)受试者的红细胞数改变量的总体均数为md=a+b因此两组的总体均数可以表示为md=a+bgroup用线性回归. regress y group Source | SS df MS Number of obs = 98-+- F( 1, 96) = 1462.45 Model | 1412.08163 1 1412.08163 Prob F = 0.0000 Residual | 92.6938776 96 .965561224 R-squared = 0.9

20、384-+- Adj R-squared = 0.9378 Total | 1504.77551 97 15.5131496 Root MSE = .98263- y | Coef. Std. Err. t P|t| 95% Conf. Interval-+- group | -7.591837 .1985212 -38.24 0.000 -7.985898 -7.197775 _cons | 21.16327 .1403757 150.76 0.000 20.88462 21.44191- a的估计值为21.16327,正是B组的样本均数 b的估计值为-7.591837,ab21.16327

21、-7.59183713.571433,正是A组的样本均数 b的估计值为两组样本均数的差值,b的检验统计量t=-38.24,与t检验结果对应,P值也对应。 可以证明:成组t检验也可以用线性回归分析进行。 从本例中可以发现回归系数b的意义就是两组总体均数的差值,其估计值同样为两组样本均数的差值。gen y=y2-y1regress y group y1 Source | SS df MS Number of obs = 98-+- F( 2, 95) = 769.69 Model | 1417.30895 2 708.654475 Prob F = 0.0000 Residual | 87.466

22、5611 95 .920700644 R-squared = 0.9419-+- Adj R-squared = 0.9407 Total | 1504.77551 97 15.5131496 Root MSE = .95953- y | Coef. Std. Err. t P|t| 95% Conf. Interval-+- group | -7.546723 .194777 -38.75 0.000 -7.933405 -7.160042 y1 | .0114537 .0048069 2.38 0.019 .0019108 .0209966 _cons | 17.27509 1.63754

23、1 10.55 0.000 14.02416 20.52602-predict e,residual 计算残差值eisktest e 残差正态性检验 Skewness/Kurtosis tests for Normality - joint - Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Probchi2-+- e | 0.233 0.221 3.00 0.2230gen ee=abs(e) 产生残差e的绝对值,放在变量ee(检验方差齐性:Levens方差检验) anova ee group Number of obs = 98 R-squared = 0.0042 Root MSE = .589872 Adj R-squared = -0.0061 Source | Partial SS df MS F Prob F -+- Model | .141918237 1 .141918237 0.41 0.5246 group | .141918237 1 .141918237 0.41 0.5246 Residual | 33.4030971 96 .347948928 -+-

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/施工/环境 > 项目建议


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号