【教学课件】第九章回归分析和方差分析.ppt

上传人:小飞机 文档编号:5661385 上传时间:2023-08-07 格式:PPT 页数:130 大小:1.66MB
返回 下载 相关 举报
【教学课件】第九章回归分析和方差分析.ppt_第1页
第1页 / 共130页
【教学课件】第九章回归分析和方差分析.ppt_第2页
第2页 / 共130页
【教学课件】第九章回归分析和方差分析.ppt_第3页
第3页 / 共130页
【教学课件】第九章回归分析和方差分析.ppt_第4页
第4页 / 共130页
【教学课件】第九章回归分析和方差分析.ppt_第5页
第5页 / 共130页
点击查看更多>>
资源描述

《【教学课件】第九章回归分析和方差分析.ppt》由会员分享,可在线阅读,更多相关《【教学课件】第九章回归分析和方差分析.ppt(130页珍藏版)》请在三一办公上搜索。

1、第九章 回归分析和方差分析,关键词:单因素试验 一元线性回归 回归诊断,方差分析(Analysis of variance,简称:ANOVA),是由英国统计学家费歇尔(Fisher)在20世纪20年代提出的,可用于推断两个或两个以上总体均值是否有差异的显著性检验.,9.1单因素方差分析,例:为了比较三种不同类型日光灯管的寿命(小时),现将从每种类型日光灯管中抽取 8个,总共 24 个日光灯管进行老化试验,根据下面经老化试验后测算得出的各个日光灯管的寿命(小时),试判断三种不同类型日光灯管的寿命是不是有存在差异.,日光灯管的寿命(小时),引起日光灯管寿命不同的原因有二个方面:其一,由于日光灯类型

2、不同,而引起寿命不同.其二,同一种类型日光灯管,由于其它随机因素的影响,也使其寿命不同.,在方差分析中,通常把研究对象的特征值,即所考察的试验结果(例如日光灯管的寿命)称为 试验指标.对试验指标产生影响的原因称为 因素,“日光灯管类型”即为因素.因素中各个不同状态称为 水平,如日光灯管三个不同的类型,即为三个水平.,单因素方差分析 仅考虑有一个因素A对试验指标的影响.假如因素 A有r 个水平,分别在第 i 水平下进行了 多次独立观测,所得到的试验指标的数据,每个总体相互独立.因此,可写成如下的 数学模型:,方差分析的目的就是要比较因素A 的r 个水平下试验指标理论均值的差异,问题可归结为比较这

3、r个总体的均值差异.,检验假设,假设等价于,为给出上面的检验,主要采用的方法是平方和分解。假设数据总的差异用总离差平方和 分解为二个部分:一部分是由于因素 A引起的差异,即效应平方和 另一部分则由随机误差所引起的差异,即误差平方和。,证明:,定理,单因素试验方差分析表,例1 设有5种治疗荨麻疹的药,要比较它们的疗效。假设将30个病人分成5组,每组6人,令同组病人使用一种药,并记录病人从使用药物开始到痊愈所需时间,得到下面的记录:(=0.05),这里药物是因子,共有5个水平,这是一个单因素方差分析问题,要检验的假设是“所有药物的效果都没有差别”。,未知参数的估计,在Excel上实现方差分析,先加

4、载数据分析 这个模块,方法如下:在excel工作表中点击主菜单中“工具”点击下拉式菜单中“加载宏”就会出现一个“加载宏”的框.在“分析工具库”前的框内打勾点击“确定”.这时候再点击下拉式菜单会新出现“数据分析”.然后就可以进行统计分析了.,以下面的例子来说明用Excel进行方差分析的方法:,保险公司某一险种在四个不同地区一年的索赔额情况记录如表所示.试判断在四个不同地区索赔额有无显著的差异?,在Excel工作表中输入上面的数据点击主菜单中“工具”点击下拉式菜单中“数据分析”就会出现一个“数据分析”的框.点击菜单中“方差分析:单因素方差分析”点击“确定”,出现“方差分析:单因素方差分析”框.,在

5、“输入区域”中标定你已经输入的数据的位置根据你输入数据分组情况(是按行分或按列分)确定分组.选定方差分析中F检验的显著水平选定输出结果的位置点击“确定”.在你指定的区域中出现如下方差分析表:,方差分析表,根据Excel给出的方差分析表,假设H0的判别有二种方法:,方差分析的前提,方差分析和其它统计推断一样,样本的独立性对方差分析是非常重要的,在实际应用中会经常遇到非随机样本的情况,这时使用方差分析得出的结论不可靠.因此,在安排试验或采集数据的过程中,一定要注意样本的独立性问题.,在实际中,没有一个总体真正服从正态分布的,但方差分析却依赖于正态性的假设.但经验可知,方差分析F.检验对正态性的假设

6、并不是非常敏感,也就是说,实际所得到的数据,如果没有异常值和偏性,或者说,数据显示的分布比较对称的话,即使样本容量比较小(如每个水平下的样本容量仅为5左右),方差分析的结果仍是值得依赖的.,方差齐性对于方差分析是非常重要的,因此在方差分析之前往往要进行方差齐性的诊断,即检验假设通常可采用Barlett检验.方差齐性检验也可采用如下的经验准则:当最大样本标准差不超过最小样本标准差的两倍时,方差分析F检验结果近似正确.,3 一元线性回归分析,一、确定性关系:当自变量给定一个值时,就确定应变量的值与之对应。如:在自由落体中,物体下落的高度h与下落时间t之间有函数关系:,变量与变量之间的关系,二、相关

7、性关系:变量之间的关系并不确定,而是表现为具有随机性的一种“趋势”。即对自变量x的同一值,在不同的观测中,因变量Y可以取不同的值,而且取值是随机的,但对应x在一定范围的不同值,对Y进行观测时,可以观察到Y随x的变化而呈现有一定趋势的变化。,如:身高与体重,不存在这样的函数可以由身高计算出体重,但从统计意义上来说,身高者,体也重。如:父亲的身高与儿子的身高之间也有一定联系,通常父亲高,儿子也高。,我们以一个例子来建立回归模型,某户人家打算安装太阳能热水器.为了了解室外温度与燃气消耗的关系,记录了16个月燃气的消耗量,数据见下表.,在回归分析时,我们称“燃气消耗量”为响应变量记为Y,“室外温度”为

8、解释变量记为X,由所得数据计算相关系数得r=0.995,表明室外温度与燃气消耗之间有非常好的线性相关性.如果以室外温度作为横轴,以消耗燃气量作为纵轴,得到散点图的形状大致呈线形.,一元线性回归要解决的问题:,参数估计,整理得正规方程系数行列式,在误差为正态分布假定下,最小二乘估计等价于极大似然估计。,采用最大似然估计给出参数a,b的估计与最小二乘法给出的估计完全一致。采用最大似然估计给出误差 的估计与最小二乘法给出的估计不一致。此时给出的估计不是无偏估计。,例1 K.Pearson收集了大量父亲身高与儿子身高的资料。其中十对如下:,求Y关于x的线性回归方程。,参数性质,即为正态随机变量的线性组

9、合,所以服从正态分布。,证明(1),(2)类似可得。,回归方程显著性检验,采用最小二乘法估计参数a和b,并不需要事先知道Y与x之间一定具有相关关系。因此(x)是否为x的线性函数:一要根据专业知识和实践来判断,二要根据实际观察得到的数据用假设检验方法来判断。,(1)影响Y取值的,除了x,还有其他不可忽略的因素;(2)E(Y)与x的关系不是线性关系,而是其他关系;(3)Y与x不存在关系。,若原假设被拒绝,说明回归效果是显著的,否则,若接受原假设,说明Y与x不是线性关系,回归方程无意义。回归效果不显著的原因可能有以下几种:,假设的检验统计量,与方差分析方法类似,仍采用平方和分解。,可以证明:,可以证

10、明,,由参数估计的性质可知,当b=0时,,也可采用t检验,例3 检验例1中回归效果是否显著,取=0.05。,回归系数 的置信区间,由于,回归参数估计和显著性检验的Excel实现,例 1(续)前面我们已经分析了室外温度与燃气消耗量之间的关系,认为两者具有较好的线性关系,下面我们进一步建立燃气消耗量(响应变量)与室外温度(解释变量)之间的回归方程.采用Excel中的“数据分析”模块.在Excel工作表中输入上面的数据 点击主菜单中“工具”点击下拉式菜单中“数据分析”就会出现一个“数据分析”的框,点击菜单中“回归”,点击“确定”,出现“回归”框.,在“Y值输入区域”中标定你已经输入的响应变量数据的位

11、置,在“X值输入区域”中标定你已经输入的解释变量数据的位置(注意:数据安“列”输入)“置信度”中输入你已经确定置信度的值选定输出结果的位置点击“确定”.在指定位置输出相应的方差分析表和回归系数输出结果,例1的输出结果如下所示,方差分析表,Coef.标准误差 t Stat P value Lower 95%Upper 95%Intercept 1.089 0.139 7.841 1.729E-06 0.791 1.387X 0.189 0.005 38.309 1.415E-15 0.178 0.200,方差分析中,给出了假设检验H0:b=0的F检验.方差分析表中各项也前一节方差分析表中的意义类

12、似.值得注意的是,方差分析表中MS“列中,相应于误差”行的值即为模型误码差方差的估计,即=0.115.,预测,预测一般有两种意义.,例 合金钢的强度y与钢材中碳的含量x有密切关系。为了冶炼出符合要求强度的钢常常通过控制钢水中的碳含量来达到目的,为此需要了解y与x之间的关系。其中x:碳含量()y:钢的强度(kg/mm2)数据见下:,(1)画出散点图;(2)设(x)=a+bx,求a,b的估计;(3)求误差方差的估计,画出残差图;(4)检验回归系数b是否为零(取=0.05);(5)求回归系数b的95置信区间;(6)求在x=0.06点,回归函数的点估计和95置信区间;(7)求在x=0.06点,Y的点预

13、测和95区间预测。,(1)合金钢的强度y与钢材中碳的含量x的散点图,合金钢的强度y与钢材中碳的含量x的回归直线图,显著水平为0.05,回归诊断,回归函数线性的诊断误差方差齐性诊断误差的独立性诊断误差的正态性诊断,一、回归函数线性的诊断,(2)模型修正,模型修改后的预测值及残差,模型修改后的残差图,二、误差方差齐性诊断,(2)模型修正,如果发现线性假设是不适合,那么就需要修改模型.在目前的回归分析的知识水平下,不一定能很好地修改误差方差不相等这类模型,但可以尝试响应变量的数据变换。,用变换后的数据,求出线性回归方程,求出残差,并画出以拟合值主义为横座标的残差图,如果这里残差图已经没有任何规律,那

14、么说明这种变换是适合的.,三、误差的独立性诊断,在不少有关时间问题中,观测值往往呈相关的趋势。如河流的水位总有一个变化过程,当一场暴雨使河流水位上涨后往往需要几天才能使水位降低,因而当我们逐日测定河流最高水位时,相邻两天的观测间就不一定独立。,(1)模型诊断,常用的残差图是以“时间”或“序号”为横座标的残差图.相关性大约有二类.,一类是正相关,随机误差之间具有正相关的话,那么残差图中残差符号会出现集团性的趋势,即连续有一段时间内残差均为 正号,然后又一段时间内残差均为负号 另一类是负相关,此时,残差的符号改变非常频繁,大致有正负相间的趋势.,残差图,残差图,(2)模型修改,四、误差的正态性诊断,我们可采用卡方拟合检验对残差进行正态性的检验,也可以用残差画一下直方图,直观地判断残差量不是具有正态性.如果模型的误差不满足正态性时,一般可以作Box-Cox变换,这部分的内容这里不详细介绍,有兴趣的同学可以参考有关的回归分析的参考文献.,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号