《统计学概念和方法-第10章.ppt》由会员分享,可在线阅读,更多相关《统计学概念和方法-第10章.ppt(38页珍藏版)》请在三一办公上搜索。
1、第十章 两个数值型变量的回归分析,数学与信息科学学院 王 坤,统计学概念和方法,主要内容,回归的含义一元线性回归最小二乘估计回归方程的检验残差分析多元回归分析,回归的含义,高尔顿(1822-1911,Galton)是生物学家达尔文的表弟.他早年在剑桥学习数学,后到伦敦攻读医学.1860年当选为皇家学会会员,1909年被封为爵士.18451852年深入到非洲腹地探险、考察.高尔顿是生物统计学派的奠基人,他的表哥达尔文的巨著物种起源问世以后,触动他用统计方法研究智力遗传进化问题,第一次将概率统计原理等数学方法用于生物科学,明确提出“生物统计学”的名词.现在统计学上的“相关”和“回归”的概念也是高尔
2、顿第一次使用的,他是怎样产生这些概念的呢,Galton于1886年在论文“Regression towwards mediocrity in hereditary stature”中正式提出回归(regression)一词。他在研究人类身高的遗传时,发现子女的身高趋势与父母的身高有微妙的关系:高个子的父母的子女,其身高有低于父母身高的趋势,反之,矮个子父母的子女,其身高有高于他们父母身高的趋势。从总体看,高个子的人“回归”于一般人身高的平均值,而矮个子的人则作相反的“回归”,这就是“回归的最初涵义。Galton收集了1078对父母的身高x与子女的身高y数据,建立了一条回归直线 y=33.73+
3、0.516x(单位:英寸,一英寸=2.54厘米)他用这条回归直线来描述子女身高与父母身高的关系。如x=80,y=75.01;x=60,y=64.99。,散点图(scatter diagram),2.一元线性回归,例1 在NaNO3的溶解度试验中,测得在不同的温度x(0C)下,溶解于100份水中的NaNO3份数y如下表所示:绘出(xi,yi)的散点图,从图中可以看到,本例中可用x的线性函数a+bx 来估计y,那么如何求出这条直线方程呢?,3.最小二乘估计,设给定n个点(x1,y1),(xn,yn)。,图示,直线截距,直线斜率,也叫做 对 的回归系数,它表示 每变动一个单位所引起的 的平均变动量,
4、残差(也称为回归误差或预测误差),代表除 外的其它次要因素形成的随机扰动。,当样本量较大时,正负干扰可相互抵消,所以我们认为 的均值为0。,续例1,工具-加载宏-数据分析工具工具-数据分析,于是得到回归方程:回归方程的作用:预测:由自变量x的值预测因变量y的值。(点估计)控制:要求y1yy2,那么x在什么范围?(置信区间),常数项,截距斜率,置信区间、预测区间、回归方程,4.回归方程的检验,回归方程的显著性检验 回归系数的显著性检验是要检验y对x的影响程度是否显著,为此;H0:b=0若b=0,显然,回归方程无意义。为此可以采用t检验、F检验法。而多数软件皆提供此功能。P值远小于显著水平a=0.
5、05,故拒绝H0:b=0,认为一元线性回归的效果显著。,4.2 相关系数的显著性检验,4.3离差平方和的分解(三个平方和的关系),离差平方和的分解(三个平方和的意义),总平方和(SST)反映因变量的 n 个观察值与其均值的总离差回归平方和(SSR)反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和残差平方和(SSE)反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和,4.3拟合效果的度量-决定系数,样本相关系数(相关系数),定义 即 称 为可决系数(也叫做判定系数)。越大,说明
6、回归平方和占总平方和的比例越大,残差平方和占总平方和的比例越小,回归直线拟合优度越好。,相关系数的显著性检验(检验的步骤),1.检验两个变量之间是否存在线性相关关系采用提出的 t 检验检验的步骤为提出假设:H0:r;H1:r 0,计算检验的统计量:,确定显著性水平,并作出决策 若tt,拒绝H0 若tt,不能拒绝H0,5.残差分析,残差定义:残差图:以自变量x为横轴(或以因变量回归值作横轴),以残差作纵轴,将相应的残差点画在直角坐标系中,即得残差图。如,例1的残差图为:可看到此例中残差在e=0附近随机变化,并在一条带子之内。,可化为线性的一元非线性回归,许多问题中,两个变量之间并不一定是线性关系
7、,而是某种非线性关系。有的非线性模型可以转化为线性模型来处理,有的则不可以。常见的可以转化为线性模型的非线性函数形式有:通过转换,仍然可以使用一元线性回归的方法。,例2 下表给出了一批混凝土的抗压强度X和抗剪强度Y的对应数据,求Y与X的关系式:Y=AXB.解:对Y=AXB两边取对数,得:LnY=LnA+BLnX令y=LnY,x=LnX,上式可以化为:y=a+bx对题中表格数据相应取对数得:,算得a=-0.2005,b=0.678于是A=ea=e-0.2005,B=b=0.678因而X与Y的关系式为:Y=0.818X0.678,例 已知11颗树的直径(单位:寸)和高度(单位:尺)数据如下:,此例
8、应用方程y=aLnx+b来进行回归。,回归方程为:Y=19.25374+21.61044LnX,6 多元线性回归,一元线性回归描述了一个解释变量x和一个响应变量y的线性关系,而在许多实际问题中,经常会碰到多个解释变量对应一个响应变量的情形,这就需要讨论多元线性回归问题了。例如,公司销售额y可能以下因素影响:广告宣传费用x1,价格x2,研发费用x3,销售成本x4。那么这些因素间的关系是什么呢?,多元线性回归模型的一般形式为:y=b0+b1x1+b2x2+bpxp+其中bi(i=0,.,p)是p+1个未知参数。通常假定:E(i)=0,var(i)=2.若获得n组数据,例已知1995年到2004年城
9、镇居民家庭平均每人全年食品消费支出(单位:元)、城镇居民家庭人均可支配收入(单位:元)、食品价格指数(上年为100)的数据如下表所示,请建立食品消费支出y与可支配收入x1和食品价格指数之间的多元关系。,故回归方程为 食品消费=516.32+0.169864可支配收入+4.64食品价格指数相关系数为0.970707,高度相关判决系数为0.942273,相关分析与回归分析的关系,(2)对两个变量x与y而言,相关分析只能计算一个反映两变量相关密切程度的相关系效,回归分析有时可根据研究目的不同分别建立两个不同的回归方程;,二者的区别有,(1)相关分析所研究的两个变量是对等关系,回归分析所研究的两个变量不是对等关系,必须根据研究目的确定自变量和因变量,(3)相关分析的两变量都必须是随机变量回归分析的自变量是给定的变量,而因变量是随机变量。,(1)相关分析是回归分析的基础和前提;(2)回归分析是相关分析的深入和继续。,二者的联系:,