《成对数据的统计分析 第3课时 一元线性回归模型及其应用.docx》由会员分享,可在线阅读,更多相关《成对数据的统计分析 第3课时 一元线性回归模型及其应用.docx(12页珍藏版)》请在三一办公上搜索。
1、8.2一元线性回归模型及其应用(3课时,单元教学设计)第一课时刘谦(安徽省淮南第一中学)第二、三课时石伟伟(安徽省寿县第二中学)1单元内容与内容解析1.1 内容一元线性回归模型,一元线性回归模型参数的最小二乘估计.第1课时:一元线性回归模型.第2课时:一元线性回归模型参数的最小二乘估计.第3课时:一元线性回归模型的应用.1.2 内容解析一元线性回归模型是描述两个随机变量之间相关关系的最简单的回归模型.当两个变量具有显著的线性相关关系时,可以建立一元线性回归模型来刻画两个变量间的随机关系,并通过模型进行预测.建立一元线性回归模型的基础是对成对样本数据进行相关性分析.通过散点图,直观观察相关关系的
2、类型、方向和强弱;构造相关系数,定量刻画两个变量相关的正负性和线性相关关系的密切程度.在此基础上,建立一元线性回归模型,使用最小二乘法估计参数,得到经验回归方程,进行预测.为了评价和改进模型,引入残差和残差图,以及决定系数R2对模型进行诊断,使其不断完善,帮助决策.一元线性回归模型是统计学中一种最基础且重要的模型,许多回归模型都是以一元线性回归模型为基础进行研究.其涉及的统计模型的思想、最小二乘思想、方差分析思想(构造统计量,评价回归拟合效果)在统计学中占有重要的地位.在一元线性回归模型的建立和应用过程中,通过创建回归方程、估计模型参数、分析模型有效性、将非线性回归模型转化为线性回归模型等内容
3、的学习,使学生亲力亲为、参与其中,体会统计的思想,理解统计的概念,了解统计分析的一般方法,积累数据分析的经验,增强应用意识.让学生感悟到根据实际情况进行科学决策的必要性和可能性,体会统计思维与确定性思维的差异、归纳推理与演绎证明的差异,夯实“四基”,提高“四能”,全面培养学生的数据分析、数学建模、逻辑推理、数学抽象、数学运算等数学核心素养基于以上分析,确定本单元的教学重点:(1)一元线性回归模型的意义;(2)用最小二乘法估计回归模型参数的方法;(3)残差分析和决定系数R2的意义;(4)一元线性问归模型的应用.2单元目标与目标解析2.1目标(1)结合具体事例,了解一元线性回归模型的含义,了解模型
4、参数的统计意义,了解最小二乘原理.(2)掌握一元线性回归模型参数的最小二乘估计方法,会使用相关的统计软件进行数据分析.(3)掌握残差分析的方法,理解决定系数R2的意义.(4)针对实际问题,会用一元线性回归模型进行预测.2.2目标解析达成上述目标的标志是:(1)知道线性回归模型与函数模型的区别,知道线性回归模型中误差e的含义,知道假2设误差e满足E(e)=O,D(e)=的理由.(2)能依据使用距离来刻画接近程度的数学方法了解最小二乘原理,并利用该原理推导参数估计值的计算公式.(3)会使用统计软件绘制散点图,计算样本相关系数、求回归方程,能用残差、残差图和决定系数R2对回归模型进行评价等.(4)通
5、过具体案例,理解利用一元线性回归模型可以刻画随机变量之间的线性相关关系,在建立一元线性回归模型解决实际问题的过程中,提升数据分析、数学建模、逻辑推理等素养.3单元教学问题诊断分析“一元线性回归模型及其应用”与“成对数据的统计相关性”一样,都是关于定量变量进行的研究.在前一节”成对数据的统计相关性”的学习中,主要介绍了散点图和相关系数,侧重于考查变量之间相关的形态和程度,而“一元线性回归模型及其应用”侧重于考查变量之间的数量关系,展示变量之间的具体形态.因此,可以看作是在前一节基础上的进一步深入刻画.为了揭示这种数量关系,在第一节里引入回归模型这一概念,教学时要注意与函数模型的区别,体会统计思维
6、和确定性思维的差异,这也是由于统计学的学科特点决定的.统计学是建立在数据的基础上,通过演绎方式,对随机现象进行研究的科学.许多样本数据带有随机性,因此,在构建模型时,特地设置了随机误差项e,反映未列入方程的其它各种因素对y的影响,并对其均值和方差做了要求.学生们在学习随机误差时可能会存在理解困难.在第二节里,介绍了利用最小二乘原理寻求最佳拟合直线的方法,让学生体会其蕴含的最小二乘思想,认识到最小二乘法是统计分析中一种常用的数据处理方法.利用该方法对模型的参数做出估计时,学生们容易误将参数的估计值当作模型的参数,对参数的意义理解不够准确,这是由于对样本的随机性了解不够造成的.教学设计时专门设置解
7、惑环节,消除隙碍,深化理解.基于以上分析,确定本单元的教学难点:(1)对随机误差的理解;(2)最小二乘的原理和方法;参数的意义及参数估计公式的推导;(4)残差变量的解释与分析;(5)模型的应用以及优度的判断.4单元教学支持条件分析一元线性回归模型主要研究两个随机变量的线性相关关系,通过成对样本数据建立模型,寻找数据背后隐藏的规律.在教学时,由于需要处理大量数据,涉及画散点图、求回归方程、画回归直线、计算残差和决定系数R2以及数据变换等等,计算量大.课标(2017年版)里明确要求“会使用相关的统计软件”.因此,在本单元教学中,需要使用GeoGebra.Excek图形计算器等统计软件帮助处理数据.
8、利用信息技术工具辅助教学,不仅仅是教学的需要,也是现如今大数据时代,对于每个受教育者掌握必备的信息技术提出的要求.借助大数据的东风,创建信息技术高效课堂.5课时教学设计1第一课时5.1 教学内容1 .构建一元线性回归模型.2 .理解一元线性回归模型.5.2 教学目标1 .理解一元线性回归模型的表达式及模型中参数的意义.2 .能利用样本数据建立统计模型并会进行预测.3 .知道一元线性回归模型建立的必要性.5.3 教学重点与难点教学重点:一元线性回归模型的概念,随机误差的概念,表示与假设.教学难点:回归模型与函数模型的区别,随机误差产生的原因与影响.5.4 教学过程设计引言通过前面的学习我们已经了
9、解到,根据成对样本数据的散点图和样本相关系数,可以推断两个变量是否存在相关关系、是正相关还是负相关,以及线性相关程度的强弱等.进一步地,如果能像建立函数模型刻画两个变量之间的确定性关系那样,通过建立适当的统计模型刻画两个随机变量的相关关系,那么我们就可以利用这个模型研究两个变量之间的随机关系,并通过模型进行预测.下面我们研究当两个变量线性相关时,如何利用成对样本数据建立统计模型,并利用模型进行预测的问题.5. 4.1复习旧知,导入新课问题情境:我们在长大的过程中,经常听到家长嘱咐孩子不要在家里打伞,不然会长不高,类似的还有不要站在门框下,不要在桥下走,不要从晾晒的裤子面走过等,这些听了几十年的
10、话,长大了自然都知道是因为家长不愿让孩子调皮捣蛋才“编造”的。从科学角度来看,孩子的身高是由父母共同决定的。但是,孩子的身高并不是完全靠遗传影响,实际上遗传因素只占身高的60-70%,剩下的30-40%是受后天因素影响的。所以说儿子的身高与父亲的身高有关。一般来说,父亲的身高较高时,儿子的身高通常也较高,但会受到其他因素的影响。为了进一步研究两者之间的关系,有人调查了14名男大学生的身高及其父亲的身高,得到数据如表所示:编号123-1567910U121314父亲身即Cm174170173169182172180172168166182173164180儿子身高/cm1761761701701
11、851761781741701681781721651825.4.2直观感知,引入新知问题L根据表中的数据,儿子身高和父亲身高这两个变量之间的关系可以用函数模型刻画吗?师生活动:学生阅读教材,回答问题,教师补充一一在表中的数据,存在父亲身高相同而儿子身高不同的情况.例如,第6个和第8个观测父亲的身高均为172cm,而对应的儿子的身高为176Cm和174cm;同样在第3,4个观测中,儿子的身高都是170Cnb而父亲的身高分别为173cm,169cm.可见儿子的身高不是父亲身高的函数同样父亲的身高也不是儿子身高的函数,所以不能用函数模型来刻画.*JI2345TH91011121314父东4席Zca
12、174170173169IK2172IM)17:;168166182173164180cam176170ITO185171170168ITO172165182儿子身高父亲身高I235679IOIl1213M父朱c17417017:1821T2180IT2168166182173161IHOfA176!761.111.IH5ITe178IT4170168178172165IH2儿子身高父亲身高儿子身高不是父亲身高的函数父亲身高不是儿r身高的函数设计意图:通过分析发现,两者不满足函数关系,由此引入新的模型来刻画两者关系.5.4.3复习旧知,探究新知利用前面表示数据的方法,以横轴表示父亲身高、纵轴表
13、示儿子身高建立直角坐标系,将表格中的成对样本数据表示为散点图,如下图所示:问题2:经过刚才的分析,你觉得儿子身高与父亲身高的关系是怎样的?师生活动:教师引导学生回忆之前学过的变量间的相关关系的内容,给出答案一一儿子身高与父亲身高不是函数关系,而是相关关系.追问:儿子身高与父亲身高的关系是正相关还是负相关?是线性相关还是曲线相关?师生活动:引导学生积极讨论,给出结论一散点大致分布在一条直线附近,表明儿子身高和父亲身高有较强的线性相关关系.185180儿子身高/cm190170165160170160180185父亲身高/cm问题3:能否进一步验证刚才的结论?师生活动:引导学生回忆样本相关系数公式
14、_(xz-XXy-y)i=l点Ci-)2(Y-5)2计算可得相关系数-R886,表明儿子身高和父亲身高正线性相关,且相关程度较强.设计意图:复习样本相关系数公式,进一步明确儿子身高和父亲身高有较强的线性相关关系.问题4:除父亲身高外,还有哪些因素影响儿子的身高?师生活动:通过组织学生讨论问题,形成以下主要结论:影响儿子身高的因素,除父亲的身高外,还有母亲的身高、生活的环境、饮食习惯、营养水平、体育锻炼等随机的因素,儿子身高不是父亲身高的函数的原因是存在这些随机的因素.设计意图:找出父亲身高和儿子身高不能用函数模型刻画的原因.问题5:如何理解随机误差e对儿子身高的影响?师生活动:教师指出,如果用
15、工表示父亲身高,Y表示儿子的身高,用e表示各种其他随机因素影响之和,称e为随机误差,由于儿子身高与父亲身高线性相关,假设没有随机误差,则儿子身高只受父亲身高影响,则Y=bx+a事实上,相关系数r0.886,故Ybx+a,也可以记作Y=bx+a+e设计意图:理解影响儿子身高的因素,并用数学语言刻画它们之间的关系.问题6:随机误差e有哪些特征?师生活动:通过组织学生讨论问题,形成以下主要结论:可取正或取负,有些无法测量,不可事先设定,故e是一个随机变量.由于随机误差表示大量己知和未知的各种影响之和,是随机的,即取各种正负误差的可能性一样,他们会相互抵消(如图3),所以它们均值的理想状态应该为零.为
16、使问题简洁,可以假设随机误差e的均值为零,方差为与父亲身高无关的定值er?.设计意图:了解随机误差特征,虽然单个随机误差是无法预先设定的,但是随机误差的总体可以定量刻画.5.4.4形成概念,构建模型通过以上分析,我们用类似于函数的表达式,构建统计模型,来表达儿子身高与父亲身高的关系。师生活动:教师引导学生写出Y=bx+a-ve,E(e)=09D(e)=2.称(1)式为Y关于X的一元线性回归模型(simplelinearregressionmodel).其中Y称为因变量或响应变量,X称为自变量或解释变量,。和力为模型的未知参数,。称为截距参数,匕称为斜率参数;e是y与加+。之间的随机误差;模型中
17、的y是随机变量,其值虽然不能由变量X的值确定,但却能表示为法+与C的和(叠加),前一部分由九唯一确定,后一部分是随机的.如果e=o,那么y与X之间的关系就可以用一元线性函数模型来描述.设计意图:r解随机现象,并尝试用数学语言描述随机现象.追问1:为什么要假设E(e)=0而不假设为某个不为零的常数?追问2:为什么要假设方差为与父亲身高无关的定值。2?师生活动:教师引导学生分析问题,并适时指出,随机误差通常服从正态分布,如果随机误差的均值为一个不为零的常数,则表示存在系统误差,在实际建模中,也不希望模型有系统误差,即模型不存在非随机误差.而e为随机误差,跟父亲身高无关,而是跟母亲身高、饮食、锻炼等
18、有关,所以假设方差为与父亲身高无关的定值设计意图:理解研究随机问题的重要思想,即将一个随机变量表示成一个主要的确定性的量与一个次要的随机量之和,只要控制次要的随机量在一定的范围之内,那么随机问题就可以通过研究确定性问题得到理想的结果.5.4.5模型理解问题7:(1)函数模型与回归模型有什么区别?(2)己知父亲身高巧,能用一元线性回归模型,(1)确E(e)=0,O(e)=2.定儿子身高丫吗?师生活动:教师引导学生分析问题,并得出结论:(1)函数模型刻画的是变量之间具有的函数关系,是一种确定性的关系。回归模型刻画的是变量之间具有的相关关系,不是一种确定性的关系。即回归模型刻画的是两个变量之间的随机
19、关系。(2)不能,因为随机误差e不可事先设定.追问1:你能结合父亲与儿子身高的实例,说明回归模型(1)的意义?追问2:对于父亲身高为乐的某一名男大学生,他的身高为一定为bx,+吗?-(1)可以解释为父亲身高为超的所有男大学生身高组成一个子总体,该子总体的均值为bXj+a,即该子总体的均值与父亲的身高是线性函数关系.当父亲身高为王,对应的儿子身高乃不是唯一确定的,而是有很多可能的取值,记作yi=bxia+et它们的均值为:E(yj)=E(bxi+a+e)=bExi)+E(a)+E(C)=如+a+0=bxj+a.(2)对于父亲身高为王的某一名男大学生,他的身高必并不一定为瓜;.+,它仅是该子总体的
20、一个观测值,这个观测值与均值有一个误差项C=M-Sxj+)设计意图:通过具体实例,加深学生对一元线性回归模型的理解.追问3:你能结合具体实例解释产生模型(1)中随机误差项的原因吗?师生活动:组织学生展开讨论,形成共识,在研究儿子身高与父亲身高的关系时,产生随机误差e的原因有:(1)除父亲身高外,其他可能影响儿子身高的因素,比如母亲身高、生活环境、饮食习惯和锻炼时间等.(2)在测量儿子身高时,由于测量工具、测量精度所产生的测量误差.(3)实际问题中,我们不知道儿子身高和父亲身高的相关关系是什么,可以利用一元线性回归模型来近似这种关系,这种近似关系也是产生随机误差e的原因.设计意图:通过具体实例,
21、加深学生对随机误差的理解.5. 4.6总结归纳问题8:一元线性回归模型有何作用?师生活动:教师引导学生分析问题,并适时指出:当父亲身高为再时可以通过后(%)二匕七十。了解儿子身高的总体情况,从而预测儿子的身高.设计意图:通过具体实例,使学生了解一元线性回归模型的作用.6. 4.7应用新知,学以致用例1、若某地财政收入X与支出y满足一元线性回归模型y=bx+a+e(单元:亿元),其中b=0.7,a=3,e0.5,如果今年该地区财政收入10亿元,年支出预计不会超过多少?解:因为财政收入X与支出y满足一元线性回归模型y=bxa+e,其中b=0.7,a=3,所以得到y=0.7x+3e,当X=Io时,得
22、y=0.7X10+3+e=10+e,而IelWo.5,即一0.5WeW0.5,所以9.5WyWlO.5,所以年支出预计不会超过10.5亿元.师生活动:教师引导学生分析题意,抓住IelWO.5这个关键.学生动笔,完成整个计算.例2、在刑侦学领域,脚印专家利用遗留在现场的足迹长度,推测出罪犯的大致身高,这是符合科学的一种推断方法。在犯罪现场分析一书中就记载了我国成年人的足迹长与身高之间的推算公式,即Y=4.45x+63.7(Y为身高,X为平面赤足足迹长)。那么,参数4.45的含义是什么?解:因为我国成年人的足迹与身高满足一元线性回归模型,参数4.45的含义可以解释为解释变量X对响应变量Y的均值的影
23、响,解释变量X每增加1个单位,响应变量Y的均值将增加4.45个单位.即赤足长每增加1厘米,成年人身高的均值增加4.45厘米.追问:4.45和63.7这两个数据是怎么得到的?用什么方法得到的?有没有什么根据?推测的结果准不准?通过一元线性回归模型参数的最小二乘估计来得到的,并借助决定系数R-2来检验模型的拟合效果,进而判断出推测的结果是否准确。师生活动:教师引导学生分析问题,并指出:赤足长每增加1厘米,成年人身高的均值增加4.45厘米.设计意图:通过具体实例,使学生认识一元线性回归模型中参数的统计意义。并承上启下,激发学生的学习兴趣,为下一节一元线性回归模型参数的最小二乘估计的引入做好铺垫。跟踪
24、训练1思维辨析(对的打“J”,错的打“X”)(1)两个变量之间产生随机误差的原因仅仅是因为测量工具产生的误差()(2)在一元线性回归模型中,可以假设随机误差e的均值为某个不为O的常数()跟踪训练2某人计算出父亲身高与儿子身高的一元线性回归模型Y=bx+a+e,E(e)=O,O(e)=b.中参数b=0.839,请说明参数b的含义是什么?师生活动:教师引导学生分析问题,并适时指出:父亲身高每增加1厘米,儿子身高的均值增加0.839厘米.设计意图:通过具体实例,使学生认识一元线性回归模型中参数的统计意义.跟踪训练3将图8.2-1中的点按父亲身高的大小次序用折线连起来,所得到的图象是一一是父亲的身高与
25、儿子的身高之间是随机关系,不是函数关系;二是这组数据仅是总体的一个样本,不一定能很好地描述两个变量之间的关系.设计意图:让学生进一步认识到一元线性回归模型建立的必要性.5. 4.8梳理新知,提炼思想教师与学生一起回顾本节课所学的主要内容,并请学生回答以下问题:回顾建立一元线性同归模型的过程,你能说出建立回归模型的依据,并谈一谈对回归模型的认识吗?师生活动:要求学生思考后回答并相互补充,教师进行总结.1 .由于成对样本数据的散点图中,散点分布在一条直线y=+。的周围,因此可以用法+表示Y的均值,引入随机误差e,用以囊括其他所有随机影响因素,可建立一元线性回归模型Y=bx+a+e,(1)E(e)=
26、O,D(e)2.在一元线性回归模型中,表达式V=法+e刻画的是随机变量Y与变量X之间的线性相关关系,其中参数和b为模型的未知参数,需要根据成对样本数据进行估计.2 .建立一元线性回归模型的步骤(1)整理数据(2)分析数据(3)建立模型(4)模型求解(5)模型检验(6)统计推断设计意图:帮助学生进一步理清一元线性回归模型的含义,掌握用数学语言表达随机事件,了解总体参数与样本数据之间的关系.5. 4.9布置作业,检测目标(1)分层训练8.2.1节(2)预习&2.2一元线性回归模型参数的最小二乘估计5.5目标检测设计某地某品牌太阳镜2020年12个月的销售量与广告投入如表2所示.表2月份123456789101112广告费用x/万元2567222528302218102销售量Y/万件759014818324226327831825620014080(1)销售量丫与广告费用X之间是函数关系还是相关关系?(2)销售量丫与广告费用X之间的关系能否用一元线性回归模型y=A+%来刻旧e)=0,O(e)=.画?(3)请说明模型中法+。与e分别表示什么?本题中e的具体含义是什么?设计意图:通过具体实例,回顾建立一元线性回归模型的过程,理解随机误差和回归模型。