回归分析的基本思想及其初步应用第二第三课时ppt课件.ppt

上传人:牧羊曲112 文档编号:1967849 上传时间:2022-12-28 格式:PPT 页数:27 大小:1,004KB
返回 下载 相关 举报
回归分析的基本思想及其初步应用第二第三课时ppt课件.ppt_第1页
第1页 / 共27页
回归分析的基本思想及其初步应用第二第三课时ppt课件.ppt_第2页
第2页 / 共27页
回归分析的基本思想及其初步应用第二第三课时ppt课件.ppt_第3页
第3页 / 共27页
回归分析的基本思想及其初步应用第二第三课时ppt课件.ppt_第4页
第4页 / 共27页
回归分析的基本思想及其初步应用第二第三课时ppt课件.ppt_第5页
第5页 / 共27页
点击查看更多>>
资源描述

《回归分析的基本思想及其初步应用第二第三课时ppt课件.ppt》由会员分享,可在线阅读,更多相关《回归分析的基本思想及其初步应用第二第三课时ppt课件.ppt(27页珍藏版)》请在三一办公上搜索。

1、1.1相关分析的基本思想及其初步应用(2),1:自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系。,复习回顾,3:最小二乘法,样本点的中心:,回归方程:,4:思考产生随机误差项e的原因,随机误差e的来源(可以推广到一般):1、其它因素的影响:影响体重y 的因素不只是身高 x,可能还包括遗传基因、饮食习惯、是否喜欢运动、生长环境、度量误差等因素;2、用线性回归模型近似真实模型所引起的误差;3、身高 x 的观测误差。,函数模型与回归模型之间的差别,函数模型:,回归模型:,线性回归模型y=bx+a+e增加了随机误差项e,因变量y的值由自变量x和随机误差项e共同确定,即自变

2、量x只能解释部分y的变化。,在统计中,我们也把自变量x称为解释变量,因变量y称为预报变量。,1.用相关系数 r 来衡量,2.公式:,求出线性相关方程后, 说明身高x每增加一个单位,体重y就增加0.849个单位,这表明体重与身高具有正的线性相关关系.如何描述它们之间线性相关关系的强弱呢?,、当 时,x与y为完全线性相关,它们之间存在确定的函数关系。、当 时,表示x与y存在着一定的线性相关,r的绝对值越大,越接近于1,表示x与y直线相关程度越高,反之越低。,3.性质:,相关系数,相关系数的性质: (1)|r|1 (2)|r|越接近于1,相关程度越强;|r|越接近于0, 相关程度越弱,如何描述两个变

3、量之间线性相关关系的强弱?,问题:达到怎样程度,x、y线性相关呢?它们的相关程度怎样呢?,显然,R2的值越大,说明残差平方和越小,也就是说模型拟合效果越好。,在线性回归模型中,R2表示解释变量对预报变量变化的贡献率。,R2越接近1,表示回归的效果越好(因为R2越接近1,表示解释变量和预报变量的线性相关性越强)。,如果某组数据可能采取几种不同回归方程进行回归分析,则可以通过比较R2的值来做出选择,即选取R2较大的模型作为这组数据的模型。,总的来说:相关指数R2是度量模型拟合效果的一种指标。在线性模型中,它代表自变量刻画预报变量的能力。,表1-3,从表3-1中可以看出,解释变量对总效应约贡献了64

4、%,即R20.64,可以叙述为“身高解析了64%的体重变化”,而随机误差贡献了剩余的36%。所以,身高对体重的效应比随机误差的效应大得多。,为了回归的准确和计算的方便我们引入残差平方和(residual sum of squares)它代表随机误差的效应,求出了随机误差的效应后,我们就比较容易得到解释变量的效应了。同学们知道怎样求吗?,解释变量的效应总体偏差平方和残差平方和,回归平方和(regression sun of squares),我们可以利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图。,表1-4列出了女大学生身

5、高和体重的原始数据以及相应的残差数据。,使用公式 计算残差,残差图的制作及作用。坐标纵轴为残差变量,横轴可以有不同的选择;若模型选择的正确,残差图中的点应该分布在以横轴为心的带形区域;对于远离横轴的点,要特别注意。,身高与体重残差图,几点说明: 第一个样本点和第6个样本点的残差比较大,需要确认在采集过程中是否有人为的错误。如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数据;如果数据采集没有错误,则需要寻找其他的原因。 另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高。,一般地,建立回归模型

6、的基本步骤为:,(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量。,(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等)。,(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程y=bx+a).,(4)按一定规则估计回归方程中的参数(如最小二乘法)。,(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性,等等),过存在异常,则检查数据是否有误,或模型是否合适等。,基本步骤,抽取样本,采集数据,作出散点图,确定类型,求回归方程,残差分析,相关指数,判定拟合程度,某大学中随机选取8名女大学生,

7、其身高和体重数据如下表所示.,求根据女大学生的身高预报体重的回归方程,并预报一名身高为172cm的女大学生的体重.并求相关指数的值?,案例1:女大学生的身高与体重,样本点呈条状分布,身高和体重有较好的线性相关关系,因此可以用线性回归方程来近似的刻画它们之间的关系.,解:选取身高为自变量x,体重为因变量y, 作散点图:,由,得:,故所求线性回归方程为:,因此,对于身高172cm的女大学生,由线性回归方程可以预报其体重为:,是斜率的估计值,说明身高x每增加1个单位时,体重y就增加0.849个单位,这表明体重与身高具有正的线性相关关系.,一般方法:,1.利用散点图观察两个变量是否线性相关,2.利用残

8、差来判断模型拟合的效果(残差分析),利用残差图来分析数据,对可疑数据(残差较大的数据)进行重新调查,有错误就更正,然后重新利用回归模型拟合,如果没有错误,则需要找其他原因。,非线性回归,红铃虫喜高温高湿,适宜各虫态发育的温度为 25 一32 ,相对湿度为80一100,低于 20 和高于35 卵不能孵化,相对湿度60 以下成虫不产卵。冬季月平均气温低于一48 时,红铃虫就不能越冬而被冻死。,1953年,18省发生红铃虫大灾害,受灾面积300万公顷,损失皮棉约二十万吨。,例2一只红蛉虫的产卵数y与温度x有关,现收集了7组数据,请建立y与x建德回归方程,解,1.制作散点图,2.观察模拟,样本点不能直

9、接利用线性回归,根据我们的函数知识,它应该是一个指数模型:y=c1ec2x其中c1c2为参数或二次函数模型,根据对数回归知识我们知道:令z=lny将其变换到样本点的分布直线z=a+bx,z=0272x-3.843,会求着条直线吗?,则:y=e0.272x-3.843,2.我们认为样本点集中在某二次函数y=c3x2+c4附近,c3c4为参数,则,令tx2则:y=c5t+c6其中c5c6为参数,y=0.367t-202.54,不适合利用线性回归,为什么这样说?,4.残差分析:,由图的对比可以看出,指数模拟优于线性模拟,小结,回归分析基本思想及其初步应用,基本思想,实际应用,回归分析,相关性方法分析,回归优劣分析,总偏差平方和,残差平方和,回归平方和,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号