选修233.1回归分析的基本思想及其初步应用ppt课件.ppt

上传人:小飞机 文档编号:1460143 上传时间:2022-11-27 格式:PPT 页数:37 大小:1,008KB
返回 下载 相关 举报
选修233.1回归分析的基本思想及其初步应用ppt课件.ppt_第1页
第1页 / 共37页
选修233.1回归分析的基本思想及其初步应用ppt课件.ppt_第2页
第2页 / 共37页
选修233.1回归分析的基本思想及其初步应用ppt课件.ppt_第3页
第3页 / 共37页
选修233.1回归分析的基本思想及其初步应用ppt课件.ppt_第4页
第4页 / 共37页
选修233.1回归分析的基本思想及其初步应用ppt课件.ppt_第5页
第5页 / 共37页
点击查看更多>>
资源描述

《选修233.1回归分析的基本思想及其初步应用ppt课件.ppt》由会员分享,可在线阅读,更多相关《选修233.1回归分析的基本思想及其初步应用ppt课件.ppt(37页珍藏版)》请在三一办公上搜索。

1、2022/11/27,3.1回归分析的基本思想及其初步应用(一),高二数学 选修2-3,2022/11/27,数学统计内容画散点图了解最小二乘法的思想求回归直线方程 ybxa用回归直线方程解决应用问题,2022/11/27,问题1:正方形的面积y与正方形的边长x之间 的函数关系是,y = x2,问题2:某水田水稻产量y与施肥量x之间是否 有一个确定性的关系?,复习 变量之间的两种关系,自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系。,2022/11/27,现实生活中存在着大量的相关关系。 如:人的身高与年龄; 产品的成本与生产数量; 商品的销售额与广告费; 家庭的

2、支出与收入。等等,探索:水稻产量y与施肥量x之间大致有何规律?,2022/11/27,10 20 30 40 50,500450400350300,发现:图中各点,大致分布在某条直线附近。,探索2:在这些点附近可画直线不止一条,哪条直线最能代表x与y之间的关系呢?,散点图,施化肥量,水稻产量,2022/11/27,称为样本点的中心,线性回归直线一定过样本中心。,2、对两个变量进行的线性分析叫做线性回归分析。,1、所求直线方程 叫做回归直线方程; 相应的直线叫做回归直线。,2022/11/27,求回归直线方程的步骤:,(3)代入公式,(4)写出直线方程为 ,即为所求的回归直线方程。,2022/1

3、1/27,例1、观察两相关量得如下数据:,求两变量间的回归方程.,解:列表:,2022/11/27,所求回归直线方程为,2022/11/27,例题 从某大学中随机选出8名女大学生,其身高和体重数据如下表:,求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172的女大学生的体重。,2022/11/27,分析:由于问题中要求根据身高预报体重,因此选取身高为自变量,体重为因变量,2.回归方程:,1. 散点图;,2022/11/27,探究:身高为172cm的女大学生的体重一定是60.316kg吗?如果不是,你能解析一下原因吗?,答:身高为172cm的女大学生的体重不一定是60.316k

4、g,但一般可以认为她的体重接近于60.316kg。,2022/11/27,例1 从某大学中随机选取8名女大学生,其身高和体重数据如表1-1所示。,求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女大学生的体重。,案例1:女大学生的身高与体重,解:1、选取身高为自变量x,体重为因变量y,作散点图:,2、由散点图知道身高和体重有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系。,3、从散点图还看到,样本点散布在某一条直线的附近,而不是在一条直线上,所以不能用一次函数y=bx+a描述它们关系。,2022/11/27,在线性回归模型(4)中,随机误差e的方差

5、越小。,由于样本点不在同一条直线上,只是散布在某一条直线附近,所以身高与体重的关系可用线性回归模型:y=bx+a+e, (3) 来表示,其中a和b为模型的未知参数,e是y与bx+a之间的误差.通常e为随机变量,称为随机误差(random error),即e称为随机误差.它的均值E(e)=0,方差D(e)=2.这样线性回归模型的完整表达式为:,2022/11/27,思考:产生随机误差项e的原因是什么?,随机误差e的来源(可以推广到一般):1、忽略了其它因素的影响:影响身高 y 的因素不只是体重 x,可能还包括遗传基因、饮食习惯、生长环境等因素;2、用线性回归模型近似真实模型所引起的误差;3、身高

6、 y 的观测误差。 以上三项误差越小,说明我们的回归模型的拟合效果越好。,2022/11/27,探究3:在线性回归模型中,e是用bx+a预报真实值y的随机误差,它是一个不可观测的量,那么怎样研究随机误差呢?,是真实值与估计值的差!,2022/11/27,思考:如何发现数据中的错误?如何衡量模型的拟合效果?,2022/11/27,2022/11/27,2022/11/27,2022/11/27,例2、在一段时间内,某中商品的价格x元和需求量Y件之间的一组数据为:,求出Y对的回归直线方程,并说明拟合效果的好坏。,解:,2022/11/27,例2、在一段时间内,某中商品的价格x元和需求量Y件之间的一

7、组数据为:,求出Y对的回归直线方程,并说明拟合效果的好坏。,列出残差表为,0.994,因而,拟合效果较好。,0,0.3,-0.4,-0.1,0.2,4.6,2.6,-0.4,-2.4,-4.4,2022/11/27,即在实际应用中应该尽量选择 R2 大的回归模型.,案例 一只红铃虫的产卵数y和温度x有关。现收集了7组观测数据列于表中:,(1)试建立产卵数y与温度x之间的回归方程;并预测温度为28oC时产卵数目。(2)你所建立的模型中温度在多大程度上解释了产卵数的变化?,非线性回归问题,由计算器得:线性回归方程为y=19.87x-463.73 相关指数R2=r20.8642=0.7464,解:选

8、取气温为解释变量x,产卵数 为预报变量y。,所以,一次函数模型中温度解释了74.64%的产卵数变化。,探索新知,方案1,当x=28时,y =19.8728-463.73 93,一元线性模型,假设线性回归方程为 :,奇怪?,9366 ?模型不好?,方案2,问题3,合作探究,t=x2,二次函数模型,方案2解答,平方变换:令t=x2,产卵数y和温度x之间二次函数模型y=bx2+a就转化为产卵数y和温度的平方t之间线性回归模型y=bt+a,作散点图,并由计算器得:y和t之间的线性回归方程为y=0.367t-202.543,相关指数R2=0.802,将t=x2代入线性回归方程得: y=0.367x2 -

9、202.543当x=28时,y=0.367282-202.5485,且R2=0.802,所以,二次函数模型中温度解释了80.2%的产卵数变化。,产卵数,气温,指数函数模型,方案3,合作探究,对数,方案3解答,当x=28oC 时,y 44 ,指数回归模型中温度解释了98.5%的产卵数的变化,由计算器得:z关于x的线性回归方程为,对数变换:在 中两边取常用对数得,令 ,则 就转换为z=bx+a.,相关指数R2=0.98,最好的模型是哪个?,线性模型,二次函数模型,指数函数模型,比一比,最好的模型是哪个?,回归分析(二),则回归方程的残差计算公式分别为:,由计算可得:,因此模型(1)的拟合效果远远优

10、于模型(2)。,2022/11/27,这些问题也适用于其他问题。,涉及到统计的一些思想:模型适用的总体;模型的时间性;样本的取值范围对模型的影响;模型预报结果的正确理解。,小结,2022/11/27,一般地,建立回归模型的基本步骤为:,(1)确定研究对象,明确哪个变量是解析变量,哪个变量是预报变量。,(2)画出确定好的解析变量和预报变量的散点图,观察它们之间的关系 (如是否存在线性关系等)。,(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程y=bx+a).,(4)按一定规则估计回归方程中的参数(如最小二乘法)。,(5)得出结果后分析残差图是否有异常(个别数据对应残

11、差过大,或残差呈现不随机的规律性,等等),过存在异常,则检查数据是否有误,或模型是否合适等。,2022/11/27,什么是回归分析? (内容),从一组样本数据出发,确定变量之间的数学关系式对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度,2022/11/27,回归分析与相关分析的区别,相关分析中,变量 x 变量 y 处于平等的地位;回归分析中,变量 y 称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化相关分析中所涉及的变量 x 和 y 都是随机变量;回归分析中,因变量 y 是随机变量,自变量 x 可以是随机变量,也可以是非随机的确定变量相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行预测和控制,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号