信息与计算科学专业论文08544.doc

上传人:文库蛋蛋多 文档编号:4020903 上传时间:2023-04-01 格式:DOC 页数:13 大小:361.50KB
返回 下载 相关 举报
信息与计算科学专业论文08544.doc_第1页
第1页 / 共13页
信息与计算科学专业论文08544.doc_第2页
第2页 / 共13页
信息与计算科学专业论文08544.doc_第3页
第3页 / 共13页
信息与计算科学专业论文08544.doc_第4页
第4页 / 共13页
信息与计算科学专业论文08544.doc_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《信息与计算科学专业论文08544.doc》由会员分享,可在线阅读,更多相关《信息与计算科学专业论文08544.doc(13页珍藏版)》请在三一办公上搜索。

1、论 文 题 目: 回归分析和残差分析 回归分析和残差分析摘要回归分析师应用极其广泛的数理统计方法之一,它基于观测数据建立变量间适当的相关关系,以分析数据的内在规律,并可用于预报、控制等问题在数理统计基础部分,我们已经学习了一元线性回归分析的基本内容,即当影响因变量Y的因素只有一个(记为Y)时,如何建立Y于X的适当的线性回归关系,在实际问题中,影响Y的因素往往很多,本文讨论多元线性回归模型的系统建模方法,主要包括模型的参数估计、假设检验、残差分析等,而在诸如对回归函数的线性假设、误差的正态性和同方差性假设等都有可能不适合所给数据,因此拟合一个模型之后进一步考察模型对所给数据的适用性是必须的,而且

2、也是十分重要的一个环节,为使拟合的模型较好的反映数据的特点,通过残差分析对模型作必要的修正或者对数据作某些处理就起着十分重要的作用关键词 回归分析 SAS编程 残差分析 线性诊断目录1分析目的2分析原理2.1 多元回归分析原理与方法简述 2.1.1 回归方程的建立2.1.2回归方程的显著性检验(-检验)2.1.3回归系数的显著性检验(-检验)2.1.4利用回归方程进行预测2.2 回归诊断的简述2.2.1线性回归模型的假定:2.2.2残差及其性质2.2.3回归函数线性的诊断;2.2.4误差方差齐性的诊断,2.2.4.1 Hartley检验(水平重复次数相等)2.2.4.2 Cochran检验(水

3、平重复次数相等)2.2.4.3 Barlett检验2.2.5 误差的独立性诊断2.2.6异常点与强影响点2.2.6.1 异常点2.2.6.2强影响点2.3 实例分析2.3.1建立多元线性回归模型2.3.1.1 回归分析2.3.1.2残差分析2.4 参考文献 1分析目的(1)熟悉运用SAS编程进行数据整理和加工;(2)掌握用SAS编程进行多元回归分析;(3)用残差图进行回归函数线性诊断,误差方差齐性的诊断,误差的独立性诊断,异常点和强影响点的判断;(4)会用回归方程进行预测。2分析原理 21 多元回归分析原理与方法简述 211 回归方程的建立多元线性回归是研究因变量与个自变量之间的线性相关关系的

4、.设是一个可观测的随机变量,它受非随机变量和随机因素的影响.若与有如下关系: 其中是未知参数,并假定.对Y、X作n次观测,得到n组数据 设分别是的估计值,称 为多元线性回归方程,称为回归系数.确定可根据最小二乘法,使残差平方和达到最小,即 由多元函数求极值的方法,得正规方程 可由正规方程求得 其中,.2.1.2回归方程的显著性检验(-检验)检验假设 检验统计量为 若拒绝,则回归模型显著.2.1.3回归系数的显著性检验(-检验)检验的目的是把次要的变量从回归方程中剔除,重新建立更为简洁的回归方程.检验假设 检验统计量为 其中,为正规方程系数矩阵的逆 的对角线上一个元素. 注意:在剔除变量时,每次

5、只剔除一个,如果有几个变量经检验都不显著,则先剔除其中值最小的一个变量,然后对所求的新回归方程的回归系数进行检验,有不显著的再剔除,直到保留的变量都显著为止.2.1.4利用回归方程进行预测对于给定的,求预测区间.计算回归值:写出的可靠性为的预测区间2.2 回归诊断的简述2.2.1线性回归模型的假定假设1 自变量是确定性变量,不是随机变量,且,即是满秩矩阵。假设2 满足高斯-马尔科夫条件,即 假设3 正态分布的条件 2.2.2残差及其性质 称为帽子矩阵,因为将因变量的观测值向量变换成响应变量的拟合值向量,残差向量被定义为 残差的性质:(1);(2);(3)若时,标准化残差:,其中是的第个元素,标

6、准化残差近似服从标准正态分布,且近似的相互独立。残差图:以残差或为纵轴标,以拟合值或自变量,或观测时间或序号等为横坐标的散点图。利用残差图可对于模型假设的合理性进行检验。2.2.2回归函数线性的诊断;2.2.3误差方差齐性的诊断,2.2.3.1 Hartley检验(水平重复次数相等) 其拒绝域为 ,其中是总体个数,各水平重复的次数,而且当为零或很小,或时,不能用此检验。2.2.3.2 Cochran检验(水平重复次数相等) 其拒绝域为 2.2.3.3 Barlett检验 其中,是第个样本的容量,当中有一个为零或很小时,此检验不能用。2.2.4 误差的独立性诊断 D-W检验 其中为一阶自相关系数

7、,根据DW的值可按下面规则判断:当时,认为间存在正相关;当时,认为间存在不相关;当认为间存在负相关;当或时,对于是否相关暂不能下结论.2.2.5异常点与强影响点2.2.5.1 异常点异常点通常是指数据中的极端点或来自与其 模型不同的数据点。常用的诊断统计量有:标准化残差的绝对值2的观测值认为是可疑点,而标准化残差的绝对值3的观测值认为是异常点;外学生化残差检验统计量,其拒绝域为2.2.5.2强影响点强影响点是指保留该点与删除该点两种情况下建立的回归方程中的回归系数会产生很大差异的点。常用的诊断统计量有:描述性统计量 设投影阵的对角元为,的值越大,则第点对回归系数的估计的影响越大;采用CooK距

8、离 ,其中是第点标准化残差,该值越大,则第点对回归系数的估计的影响越大。W-K统计量 ,其中是第点的外学生化残差,该值越大,则第点对回归系数的估计的影响越大。若某点为异常点,它可能是强影响点,也可能不是强影响点。同样,强影响点可能是异常点也可能不是。当存在异常点或强影响点时,要避免它对于估计和拟合的影响的一种方法是删除该点后建立回归方程。2.3 实例分析在平炉炼钢中,钢在冶炼初期总去碳量y与两种矿石x1,x2的量和熔化时x3有关,所测得的49组数据如下.X1X2X3YX1X2X3Y2 18 50 4.3302 9 6 39 2.7066 7 9 40 3.6485 12 5 51 5.6314

9、 5 14 46 4.4830 6 13 41 5.8152 12 3 43 5.5468 12 7 47 5.1302 1 20 64 5.4970 0 24 61 5.3910 3 12 40 3.1125 .5 12 37 4.4533 3 17 64 5.1182 4 15 49 4.6569 6 5 39 3.8759 0 20 45 4.5212 7 8 37 4.6700 6 16 42 4.8650 0 23 55 4.9536 4 17 48 5.3566 3 16 60 5.0060 10 4 48 4.6098 0 18 49 5.2701 4 14 36 2.3815

10、8 4 50 5.3772 5 13 36 3.8746 6 14 51 5.4849 9 8 51 4.5919 0 21 51 4.5960 6 13 54 5.1588 3 14 51 5.6645 5 8 100 5.4373 7 12 56 6.0795 5 11 44 3.9960 16 0 48 3.2194 8 6 63 4.3970 6 16 45 5.8076 2 13 55 4.0622 0 15 52 4.7306 7 8 50 2.2905 9 0 40 4.6805 4 10 45 4.7115 4 6 32 3.1272 10 5 40 4.5310 0 17 4

11、7 2.6104 3 17 64 5.3637 9 0 44 3.7174 4 15 72 6.0771 2 16 39 3.8946 请给出(1)它们之间的线性回归方程及显著性检验;(2)用残差图判断三元回归模型是否合适;并判断方差是否齐性;(3)试用DW统计量检验数据间有无一阶自相关;(4)诊断是否存在异常点和强影响点.2.3.1建立多元线性回归模型2.3.1.1 回归分析proc import out=ffiron datafile=D:sasdatanew4.xls DBMS=EXCEL2000 replace; proc reg data= ffiron outest=outest;

12、 model y=x1-x3/cli clm; run;程序说明: 第一个proc步:调用import 过程导入excel数据,生成SAS数据集ffiron.;out=,等号后为导入后的数据集名;datafile=,excel数据所在物理位置;DBMS=,说明导入的数据文件类型. 第二个proc步:调用reg过程进行回归分析;outest=,输出数据集,存入模型估计值;model语句定义线性回归模型,y是因变量,三个自变量分别是x1,x2,x3.注意,在model语句斜杠(/)后的选项cli表示对因变量的各预测值输出95置信上、下限,clm表示对每个观测输出因变量期望值的95置信上、下限.运行

13、结果:结果The SAS 系统 1 The REG Procedure Model: MODEL1 Dependent Variable: Y Analysis of Variance(方差分析表) Sum of Mean Source DF Squares Square F Value Pr F (变异来源) (自由度) (平方和) (均方) (F值) (P值) Model (模型) 3 15.23391 5.07797 7.70 0.0003 Error (误差) 45 29.67210 0.65938 Corrected Total(总和) 48 44.90601 Root MSE(误差

14、均方根) 0.81202 R-Square (R2) 0.3392 Dependent Mean (因变量均值) 4.58188 Adj R-Sq(校正R2) 0.2952 Coeff Var(变异系数) 17.72248 Parameter Estimates(参数估计值) Parameter Standard Variable DF Estimate Error t Value Pr |t| (变量) (自由度) (参数估计值) (标准误差S)(t值,H0:j=0)(P值) Intercept 1 0.69518 0.86527 0.80 0.4260 X1 1 0.16061 0.060

15、30 2.66 0.0107 X2 1 0.10758 0.03741 2.88 0.0061 X3 1 0.03595 0.01057 3.40 0.0014结果 SAS 系统 2 The REG Procedure Model: MODEL1 Dependent Variable: Y Output Statistics Dependent Predicted Std Error Obs Variable Value Mean Predict 95% CL Mean 95% CL Predict Residual (观测值)(预测值)(预测均值的标准差)(预测均值的上下限)(预测值的上下限

16、) (残差) 1 4.3302 4.7502 0.1684 4.4111 5.0894 3.0799 6.4205 -0.4200 2 3.6485 4.2256 0.1541 3.9151 4.5360 2.5609 5.8902 -0.5771 3 4.4830 4.6579 0.1416 4.3727 4.9431 2.9977 6.3181 -0.1749 4 5.5468 4.4909 0.2438 3.9999 4.9820 2.7833 6.1986 1.0559 5 5.4970 5.3080 0.2295 4.8457 5.7703 3.6085 7.0076 0.1890

17、45 2.2905 4.4774 0.1409 4.1937 4.7612 2.8175 6.1374 -2.1869 46 4.7115 4.0310 0.1839 3.6606 4.4015 2.3541 5.7080 0.6805 47 4.5310 4.2770 0.2003 3.8736 4.6805 2.5925 5.9616 0.2540 48 5.3637 5.3065 0.2041 4.8954 5.7176 3.6201 6.9929 0.0572 49 6.0771 5.5395 0.2622 5.0114 6.0676 3.8209 7.2582 0.5376Sum o

18、f Residuals (残差和) 0 Sum of Squared Residuals (残差平方和) 29.67210 Predicted Residual SS (PRESS) (预测残差平方和) 36.02817结果分析: 输出模型信息.方差分析给出多元回归拟合这组数据的效果信息。方差分析表变异来源自由度平方和均方FP值模型315.233915.077977.700.0003误差4529.672100.65938总和4844.90601检验统计量F值=7.70概率P值=0.003 F Model 3 15.23391 5.07797 7.70 0.0003 Error 45 29.67

19、210 0.65938 Corrected Total 48 44.90601 Root MSE 0.81202 R-Square 0.3392 Dependent Mean 4.58188 Adj R-Sq 0.2952 Coeff Var 17.72248 Parameter Estimates(参数估计) Parameter Standard Variable DF Estimate Error t Value Pr |t| Type I SS Type II SS Intercept 1 0.69518 0.86527 0.80 0.4260 1028.68558 0.42562 X1

20、 1 0.16061 0.06030 2.66 0.0107 0.06248 4.67730 X2 1 0.10758 0.03741 2.88 0.0061 7.54354 5.45415 X3 1 0.03595 0.01057 3.40 0.0014 7.62788 7.62788 (误差项的独立性检验) Durbin-Watson D 1.910 Number of Observations 49 1st Order Autocorrelation 0.037结果 Output Statistics(输出统计量) Dependent Predicted Std Error Std Er

21、ror Student Cooks Obs Variable Value Mean Predict Residual Residual Residual -2-1 0 1 2 D 1 4.3302 4.7502 0.1684 -0.4200 0.794 -0.529 | *| | 0.003 2 3.6485 4.2256 0.1541 -0.5771 0.797 -0.724 | *| | 0.005 3 4.4830 4.6579 0.1416 -0.1749 0.800 -0.219 | | | 0.000 4 5.5468 4.4909 0.2438 1.0559 0.775 1.36

22、3 | |* | 0.046 5 5.4970 5.3080 0.2295 0.1890 0.779 0.243 | | | 0.001 6 3.1125 3.9059 0.1999 -0.7934 0.787 -1.008 | *| | 0.016 7 5.1182 5.3065 0.2041 -0.1883 0.786 -0.240 | | | 0.00144 4.0622 4.3921 0.2075 -0.3299 0.785 -0.420 | | | 0.003 45 2.2905 4.4774 0.1409 -2.1869 0.800 -2.735 | *| | 0.058 46 4

23、.7115 4.0310 0.1839 0.6805 0.791 0.860 | |* | 0.010 47 4.5310 4.2770 0.2003 0.2540 0.787 0.323 | | | 0.002 48 5.3637 5.3065 0.2041 0.0572 0.786 0.0728 | | | 0.000 49 6.0771 5.5395 0.2622 0.5376 0.769 0.699 | |* | 0.014 Sum of Residuals 0 Sum of Squared Residuals (离差平方和) 29.67210 Predicted Residual SS (PRESS) (预测残差平方和) 36.02817结果 两个残差图2.4 参考文献实用统计方法(梅长林、周家良)科学出版社

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公文档 > 其他范文


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号