《第五章回归分析 统计计算及方法课件.ppt》由会员分享,可在线阅读,更多相关《第五章回归分析 统计计算及方法课件.ppt(113页珍藏版)》请在三一办公上搜索。
1、第五章 回归分析,回归分析一元线性回归多元线性回归非线性回归,2,5.0 引言,回归名称的由来,回归分析是研究变量之间相互依赖关系的一种统计方法,是数理统计学中应用最广泛的分支之一.,3,回归分析的基本思想以及 “回归”名称的由来最初是由英国生物学家兼统计学家高尔顿提出来的.,他从一千多对父母身高与其子女身高的数据分析中得出:当父亲身高很高时,儿子的身高并不像期待的那样高,而要稍矮一些,有向同龄人平均身高靠拢的现象;而当父亲身高很矮时,儿子的身高要比预期的高,也有向同龄人平均身高靠拢的现象.,4,正是因为儿子的身高有回到同龄人平均身高的这种趋势,才使人类的身高在一定时间内相对稳定,没有出现父辈
2、个子高其子女更高,父辈个子矮其子女更矮的两极分化现象,说明后代的平均身高向中心靠拢了,这种现象叫回归,这就是“回归”一词的最初含义. 现在的意思是:凡是利用一个变量或一组变量的变异来估计或预测另一个变量的变异情况都称之为回归。,在现实问题中处于同一个过程中的一些变量往往是相互依赖和相互制约的,它们之间的相互关系大致可分为两种:,(1)确定性关系 -函数关系,(2)非确定性关系 - 相关关系:变量之间有一定的依赖关系,但这种关系并不完全确定。,可控变量:可以在某范围内随意地取指定数值- 自变量不可控变量:可以观测但不可控制(随机变量)- 因变量,6,例2 人的血压y与年龄x之间的关 系,不可能由
3、一个人的年龄完全确定 他的血压. 一般说人的年龄越大血压 越高,但年龄相同者,血压未必相同.,例1 人的体重y与身高x之间的关系一般来说,身高高一些,体重也要重一些,但身高不能严格地确定体重,即同样身高的人,体重可能不同.,7,这几个例子中的两个变量之间都有一定的关系,且是一种非确定性的关系,称这类关系为相关关系.,例3 水稻亩产量y与其施肥量x1、播种量x2、种子x3有关系,但 x1、x2、x3 取相同的一组数值时,亩产量y可取不同数值.,8,上述例子中身高x,年龄x,施肥量 x1、播种量x2 、种子 x3 都是可以在一定范围内随意的取指定数值,是可控变量称之为自变量,而体重 y, 血压 y
4、,亩产量 y 都是不可控变量称为因变量.,研究一个变量与一个(或几个)可控变量之间 相关关系的统计分析方法称为回归分析.,回归分析:研究一个随机变量与一个(或几个)可控变量之间相关关系地统计方法。只有一个自变量的回归分析叫做一元回归分析;多于一个自变量的回归分析叫做多元回归分析。,回归分析主要内容:,提供建立有相关关系的变量之间的数学关系式(经验公式)的一般方法;,(2)判别所建立的经验公式是否有效;,(3)利用所得到的经验公式进行预测和控制.,5.1 一元线性回归,(一) 一元线性回归模型,设 与 有相关关系,当自变量 时, 因变量 并不取固定的值与其对应. 如果要用函数关系近似 与 的相关
5、关系,很自然想到,应该以 作为 与 相对应的数值.,(51),其中 为常数,则称 与 之间存在线性相关关系,称(51)为一元正态线性回归模型,简称一元线性模型,其回归函数记为,称为 对 的线性回归, 称为回归常数, 称为回归系数。,由(51)得,,可知 取,不同数值时,便得到不同的正态变量。,其中,为未知的常数。,由,独立知道,也相互独立,且,称为独立样本,的一个(或一组)样本观测,值,其中,为,取固定值,时,对,进行一次试验所得到的观测值。,利用独立样本及其样本值可得,的估计量及,估计值,和,从而得到回归函数,的估计,称为 对 的经验回归方程或经验公式。注:确定变量间相关关系数学关系式的三种
6、方法1.经验公式。2.假设检验。3.散点图法。,把样本值,作为平面直角坐标系的 个点描出来,构成实验的散点图。,根据散点图,适当地选择一个函数,使得,在一定意义下最好地吻合,于观测结果,常用的是最小,二乘法,即,.,.,.,.,.,.,.,二、未知参数的估计,1. 正规方程组、回归系数的点估计,根据最小二乘法求线性回归函数,的估计,就是求使得,取得最小值的,即,根据微分学中的二元函数极值的充分条件,将,分别对,求一阶偏导数并令其为零,经过整理后得到线性方程组,其中,正规方程组,解此方程组即得使,取得最小值的,分别称为,的最小二乘估计值.于是, 得到,对,的经验回归方程,注:,用最小二乘法得到的
7、经验回归直线通过已知,个数据点,的几何重心,把估计值中的,分别用,来代替,就得到了参数,的估计量.为了方便, 我们引进几个常用的记号,则,参数估计量,回归方程,定理1: 在一元线性回归模型中,和,相互,独立.,证明:,即,与,不相关.,但,与,都是独立正态变量,的线性组合,因此,与,的联合分布为正,态分布. 对于正态随机向量来说不相关和相互独立是等价的. 证毕,定理2: 在一元线性回归模型中, 的最小二 乘估计量 的数学期望和方差为,证明:,证毕.,由定理2可看出, 当 时, 取最小值 ; 与 成反比.所以,为了提高 和 的估计精度, 最好选择 使 ,并且 应比较分散.,注:,的最小二乘估计量
8、与极大似然估计量相等.,24,实际上: 在 ,0和 1的最大似然估计为最小二乘估计,2. 参数 的点估计,当 的极大似然估计量 已得到后, 的估计量可由似然方程,可得 的极大似然估计量为,记,即,是 的极大似然估计量.,定理3: 在一元线性模型中,证明:,而,又,于是有,证毕.,由定理3可得,是 的无偏估计.,3. 估计量 和 的分布,定理4: 在一元线性模型中,(1),(2),(3),(4),(5),相互独立.,4. 未知参数 和 的区间估计,定理5. 在一元线性模型中,证明:,由定理4,得,由定理4的(5)可知,分别相互独立,再由,t分布的定义,即得,证毕,由定理5及t分布的分位数,得,即
9、得 的 置信区间为,类似, 的 置信区间为,由,易得 的 置信区间为,三、线性回归效果的显著性检验,我们在求 Y 对 x 的线性回归之前,必须判断Y与 x 的关系是否满足一元线性回归模型。理论上讲,这要求检验,(1) 对x取任一固定值时,Y都服从正态分布,而且 方差相同;,(2) x在某一范围取值时,EY是x的线性函数;,(3) 在x取各个不同值时,相应的Y是相互独立的。,但要检验这三条不仅需要大量的试验,还要进行大量的计算,实际上很难办到。,(1) x对Y没有显著影响,应丢掉自变量x;,(2) x对Y有显著影响,但不能用线性相关关系来 表示;,(3) 除x外还有其它不可忽略的变量对Y也有显著
10、 影响,从而削弱了x对Y的影响,应考虑多元 线性回归。,1. F检验法,考虑,令,计算后可得一元线性模型中的平方和分解公式:,总偏差平方和,回归平方和,残差平方和,总偏差(离差)平方和,回归平方和,因为,剩余平方和(或残差平方和),平方和分解公式:,(1)由于x对Y的线性相关关系而引起的Y的分散性。,(2)剩余因素引起的Y的分散性。,定理6:,证明:,对于检验,证毕,2. t检验法,由定理5知,3. r检验法,为了检验Y与x是否有线性相关性,也可用统计量,相关系数,进行检验,两边平方得,于是得到,即,这说明Y与x之间不存在线性相关关系。,(2),(3),检验假设,r检验法与F检验实质上是一回事
11、,因为,F检验法与r检验法的拒绝域是相同的。,50,对于一元线性回归模型,上述3种检验的结果是完全一致的.,4.三种检验的关系,(1)由于t分布与F分布的关系,因此t检验与F检验完全一致,51,r检验与F检验也一致,因此,等价于,四、利用回归方程进行预测,预测:对固定的x值预测它所对应的Y的取值。,考虑,(1)点预测,(2)区间预测,定理7:,由定理7知,即,其中,其中,56,当 x0 越靠近 ,区间宽度越窄,预测就越精确,当 x0 离 不太远且n较大时, ,而,于是,y0的1置信区间可近似表示为,57,于是,y0的95%置信区间可近似表示为,于是,y0的99%置信区间可近似表示为,58,控制
12、问题,对x的控制范围,当要求 y 在某个区间范围内变化时,如 ,如何求得 x 的相应控制范围.,即要求以 1 的置信度求出相应的 使当 时,x 所对应的 y落在,59,只考虑 n 较大情形,令,60,例 在钢线碳含量x对于电阻效应y的研究中, 得到了以下数据:,碳含量(%) 0.10 0.30 0.40 0.55 0.70 0.80 0.95电阻(微欧) 15 18 19 21 22.6 23.8 26,假设对于给定的 x,y 为正态变量, 且方差与 x 无关.,如果x,y满足经验公式,求线性回归方程,解 设,现在,所求的线性回归方程为,的无偏估计.,由例得,检验例中的线性回归是否显著.,解
13、检验假设,拒绝域为,由例2得,=拒绝,即认为线性回归显著,例 求上例中当碳含量为0.50时,电阻的置信水平为0.95的置信区间,解 由例1和例2可得,68,5.2 多元线性回归分析,一.多元线性回归模型,模型1,模型2,69,70,在模型1下,有,在模型2下,有,71,72,称模型3和模型4为y关于x的p元样本线性回归模型.,73,对多元线性回归模型,需研究如下几个问题:,(2)对建立的关系式进行统计假设检验,(3)对变量y进行预测和对自变量x进行控制,74,np1,记,75,模型3和模型4可表示为如下矩阵形式,其中In为 n 阶单位矩阵,矩阵X是n(p+1)矩阵称为设计矩阵,且秩(X)=p+
14、1,76,二.未知参数的估计,1.最小二乘估计,最小二乘法:求 使,误差平方和,77,求 并令其都等于0,整理后得到如下正规方程组:,78,正规方程组的解就是 的最小二乘估计,由于,79,及,于是正规方程组用矩阵表示为,80,由于Rank(X)=p+1,因此 必存在逆阵,解正规方程组得到 的估计为,称之为 的最小二乘估计.,于是线性回归方程为,81,2.最大似然估计,多元线性回归系数的最大似然估计与一元线性回归时求最大似然估计的想法一样,82,3.参数估计的性质,性质3,性质1 估计量 是随机变量 的线性变换,性质2 估计量 是 的无偏估计,在模型1下有如下性质,83,性质4(2),性质4(1
15、),在模型2下有如下性质,84,三.回归方程的显著性检验,检验问题:,考虑模型2,85,平方和分解,交叉项为0,86,称为总变差平方和,反映数据 的波动性,即这些数据的分散程度,越大表明n个观测值 的波动越大即之间越分散,,反之 越小表明 的数值波动越小即 之间越接近.,87,称为残差平方和.,Se,反映了除掉由 对y的影响之外的剩余因素对 分散程度的作用,即随机因素引起的波动.,称为回归平方和,反映了 的波动程度,88,而SR越小,Se越大,此时x 对y 的 线性影响不显著.,ST给定后,SR越大,Se越小,x对y 的线性影响越显著;,因此,F=SR/Se的比值反映了x 对y 的线性影响的显
16、著性,进而检验假设.,89,定理:在p元线性回归模型2下,有,90,根据定理构造F检验统计量,91,对于给定的显著性水平,当 时,拒绝 ,认为线性回归效果显著,即y与 之间存在显著的线性相关关系;,当 时,接受 ,认为线性回归效果不显著,即y与 之间不存在显著的线性相关关系;,92,上述分析方法通过下表来描述,93,四.回归系数的显著性检验,在多元线性回归分析中,回归方程的显著性并不意味着每个自变量对因变量y的影响都是显著的,实际上,某些回归系数仍有可能接近于零,若某 接近于零,说明 的变化对y的影响很小,甚至我们可以把 从回归方程中去掉,从而得到更为简单的线性回归方程. 因此在拒绝 之后,需
17、要进一步对每个自变量进行显著性检验.,94,检验问题:,考虑模型2,若接受 ,表明 对y的影响不显著;,若拒绝 ,表明 对y有一定的影响,95,根据性质4和定理,得到,由此构造t检验统计量,96,对于给定的显著性水平,当 时,拒绝 ,认为 对 y的线性影响显著;,当 时,接受 ,认为 对 y的线性影响不显著;,97,5.3非线性回归,在很多实际问题中,两个或者多个变量之间的关系不一定是线性关系. 若此时建立线性回归方程,效果肯定不会好. 而如果观测值的散点图大致呈某一曲线,又存在某种变换可将该曲线转换成直线,于是就可以选择该变换把问题转换成线性回归的问题,从而利用线性回归的一些结果解决问题.
18、我们主要介绍非线性回归方法.,具体做法:,1)根据样本数据,在直角坐标系中画出散点图,2)根据散点图,推测出Y与x之间的函数关系,3)选择适当的坐标变换,使之变成线性关系,4)用线性回归方法求出线性回归方程,5)返回到原来的函数关系,得到要求的回归方程,可线性化的一元非线性回归,1.双曲线:,2.幂函数:,3.指数曲线:,4.倒指数曲线:,取对数得,取对数得,5.对数曲线:,6、S型(Logistic)曲线,令,变形,102,7、 多项式模型,任意连续函数都可由多项式逼近,例1,在彩色显影中,根据以往经验,形成染料光学密度,与析出银的光学密度之间呈倒指数曲线关系:,已测得11对数据见下表,(1
19、)求出经验回归曲线方程;(2)对回归曲线的显著性进行检验.,解 (1)由,令,经计算得,=线性回归方程为,=曲线回归方程为,(2)检验假设,拒绝域为,现在 n=11,取,(2),=拒绝原假设,=y对x的回归方程是显著的.,例2 测定某肉鸡的生长过程,每两周记录一次鸡的重量,数据如下表,由经验知鸡的生长曲线为Logistic曲线,且极限生长量为k=2.827,试求y对x的回归曲线方程。,解 由题设可建立鸡重y与时间x的相关关系为,令,则有,列表计算,所以,所以所求曲线方程为,112,需要指出一点的是新引进的自变量只能依赖于原始变量,而与未知参数无关. 一般来说,变换的选择并不是一件容易的事. 事实上,根据散点图选择一种变换只能近似反映y与x的关系.,113,应该指出,对原始数据变换,把曲线回归转化为线性回归,利用线性回归的性质,即使对变换后的线性回归成立,也不能保证对原始数据的曲线回归成立,即线性回归性质经过变换后不一定能保持.,对于非线性回归模型的深入讨论,可以参阅何晓群,刘文卿编应用回归分析.,