《统计学线性回归分析.ppt》由会员分享,可在线阅读,更多相关《统计学线性回归分析.ppt(36页珍藏版)》请在三一办公上搜索。
1、,第十章 线性回归分析,变量之间的关系有两种:确定型的函数关系 不确定型的函数关系,这里主要研究不确定型的函数关系,如收入与受教育程度之间的关系,等等问题。但它们之间存在明显的相互关系(称为相关关系),又是不确定的。回归分析是研究随机变量之间相关关系的统计方法。其研究一个被解释变量(因变量)与一个或多个解释变量(自变量)之间的统计关系。,例:人均收入 X 与人均食品消费支出 Y 的散点图的关系如图。,1.一元线性回归是研究一个自变量与一个因变量的统计关系。,一.一元线性回归,人均收入X,人均食品支出 Y,这两个变量之间的不确定关系,可以用下式表示:,式中,人均食品消费支出Y 是被解释变量,人均
2、收入 X 是解释变量,1,2是待估计参数;u 是随机干扰项,且与 X 无关,它反映了 Y 被 X 解释的不确定性。,如果随机干扰项 u 的均值为 0,对上式求条件均值,有,反映出从“平均”角度看,是确定性关系。,例:地区的多孩率与人均国民收入的散点图如下:,人均收入X,多孩率 Y,这两个变量之间的不确定关系,大致可以用下式表示:,设 Z=Ln X,可将上式线性关系为:,线性回归的任务:就是用恰当的方法,估计出参数 1,2,并且使估计出来的参数具有良好的统计特征,所以,回归问题从某种视角看,视同参数估计问题。,如果把X,Y的样本观测值代到线性回归方程中,就得到,i=1,2,n,n为样本容量.,从
3、重复抽样的角度看,Xi,Yi也可以视为随机变量。,2.高斯基本假设,对于线性回归模型,i=1,2,n,n为样本容量.,高斯基本假设如下:ui 为随机变量(本假设成立,因为我们研究就是不确定关系).E(ui)=0,随机干扰项的期望值等于零(本假设成立,如果其均值不是零,可以把它并入到 1 中).Var(ui)=2u,随机干扰项的方差等于常数(本假设有可能不成立,以后讨论不成立时如何处理).E(uiuj)=0(ij)随机干扰项协方差等于零(本假设,有可能不成立,以后讨论不成立时如何处理).(5)ui 服从 N(0,2u)分布;(6)E(Xiuj)=0,对Xi 的性质有两种解释:a.Xi 视为随机变
4、量,但与uj无关,所以(6)成立.b.Xi 视为确定型变量,所以(6)也成立.,3.普通最小二乘法(OLS),设线性回归模型,其中,为1,2 的估计值,则 Y 的计算值,可以,用下式表达:,所要求出待估参数,要使 Y 与其计算值之间的“误差平方和”最小.即:使得,最小.为此,分别求Q 对 的偏导,并令其为零:,由上两式,就可求出待估参数 的值.,4.所求参数的计算公式,的另一个表达式为:,例::在上述家庭可支配收入-消费支出例中,对于所抽出的一组样本数,参数估计的计算可通过下面的表进行。,参数估计的计算表,因此,由该样本估计的回归方程为:,5.几何解释,残差向量 e=Y=(Y-Y)-(-Y)=
5、y-向量 y,e 三者之间关系如图所示,普通最小二乘法要使残差平方和 e2i 最小,也就是要使 e 的长度尽可能小,等价于在几何上 e x.或者说,的长度应当是 y 在 x 上的投影长度.,二.多元线性回归,本节要研究一个被解释变量(因变量),多个解释变量(自变量)的线性模型,即,1.基本假设,u 为随机变量向量;E(u)=0;cov(u)=E(u uT)=2u In(包含了两个其本假设:一是不存在序列相关,即 ij 时,cov(ui,uj)=E(uiuj)=0;二是具有同方差性(齐次方差性),即Var(ui)=2u).,(4)u N(0,2u In)(5)E(XTu)=0,或者,X 为确定矩
6、阵,(6)秩(X)=k,(kn),2.普通最小二乘法估计式,在模型中,代入样本观测值之后,可得,用矩阵方式表达为 Y=X+u,其中,Y=(Y1,Y2,Yn)T u=(u1,u2,un)T=(1,2,k)T,若估计出,则有,所以,于是有,两边左乘XT,得,由几何解释XT e,故有XTe=0,所以可以求出:,这就是普通最小二乘法估计系数公式.,3.估计系数 的性质,高斯-马尔柯夫定理:在模型的基本假设下,所估计的参数值 是最优的.,即,满足最小方差性,线性的、无偏的,且有,4.的方差及分布,表示矩阵 的对角线元素,简记 cjj.,(注:为向量),所以,可以证明:,(1)(2),5.干扰项方差的无偏
7、估计,得到回归系数后,就可以得到 Y 的计算值如下:,从而有残差值ei,向量e 由 ei 组成,称为残差平方和,记为Q.,且,为 的无偏估计量。,R2 称为判定系数,它反映了回归效果的好坏.其定义可以从线性回归的几何解释中引出.,多元回归的几何解释的图形与一元回归的几何解释图形完全相同,只是横坐标 x 不再表示一个变量,而是表示 k-1 个变量.,6.判定系数R2,判定系数R2的定义为:,e,y,x,式中,其经济解释为,已解释变差占总变差的百分比.,判定系数R2的另一种表达:,7.回归效果的F检验,检验回归效果的F统计量的定义式为:,服从F(k-1,n-k)分布.,F越大越好.当计算出的统计值
8、 f f(k-1,n-k),就表示回归,效果是好的,在 水平下,已解释方差(Y的变化中已经解释的部分)明显大于未解释方差(Y的变化中尚未解释的部分).,8.F与 R2的关系,F 统计量与R2的统计量的关系,可以从下式的推演中看到:,推演中用到勾股定理:。,一个二元线性回归的例子,【例】一家百货公司在10个地区设有经销分公司。公司认为商品销售额与该地区的人口数和年人均收入有关,并希望建立它们之间的数量关系式,以预测销售额。有关数据如下表。试确定销售额对人口数和年人均收入的线性回归方程,并分析回归方程的拟合程度,对线性关系和回归系数进行显著性检验(=0.05)。,一个二元线性回归的例子(Excel
9、 输出的结果),一个二元线性回归的例子(计算机输出结果解释),销售额与人口数和年人均收入的二元回归方程为,多重判定系数R2=0.9373;调整后的R2=0.9194 回归方程的显著性检验F=52.3498 FF0.05(2,7)=4.74,回归方程显著 回归系数的显著性检验t=9.3548t=0.3646,;t2=4.7962 t=2.3646;两个回归系数均显著,一个含有四个变量的回归,9.校正的判定系数(Adjusted R2),统计量R2中不含有自由度。所谓校正的判定系数,就是指“考虑了自由度的判定系数R2adj”。其定义如下:,这样,R2adj剔除了自由度的影响。,10.回归系数的 T
10、 检验,假设Ho:j=0;备择假设H1:j 0(即 Ho 不成立).,用统计量:,服从t(n-k),可以完成上述假设检验.,当 时,H1成立,即 j 显著异于0.,(n 5 时,若取=0.05,则当t 2 时,有H1 成立,即j显著异于0)针对回归系数的 t 统计量的显著性检验,决定了相应的变量能否作为解释变量进入回归方程.,注意:,11.回归系数的置信区间,得到区间 为 水平上的置信区间.,例:=0.05,则,给定一置信水平,用统计量,即,12.偏相关系数的另一种几何解释,定义:偏相关系数是在其他变量不变的情况下,任意两个变量之间的相关系数.,例如:已知,偏相关系数,表示排除X3,Xk影响,
11、后的Y和X2之间的相关关系,其计算过程如下:,(1)求中心化数据y 对中心化数据x3,xk的OLS估计值:,要求出上式结果,需经两个步骤:,a.用中心化数据 y 对中心化数据x3,xk 回归,求出回归系数,b.依托已经求出的回归系数 和由样本得到的中心化数据,计算.,(2)令(从 yi 中剔除 x3,xk 的影响).,(3)求 x2 对x3,xk的最小二乘估计值:,要求出上式结果,同样需经两个步骤:先用x2 对x3,xk,回归,求出回归系数,然后求出.,(4)令(从 中剔除 x3,xk 的影响).,(5)求得偏相关系数如下:,偏相关系数的几何解释:在下图中,偏相关系数是图中 角的余弦:,偏相关
12、系数的几何解释,注意:图中,已知从图中左边的虚线,平移到右边的虚线.,13.复相关系数的另一种几何解释复相关系数 R 是图中y与其投影向量的夹角 的余弦.或者说,判定系数是该余弦的平方.,x2,复相关系数的另一种几何解释,14.标准回归系数,在上述回归方程中,自变量的单位对回归系数的数量级有很大影响,例如:元、百元、千元、万元等。为了从回归系数的大小中,简单比较相应的自变量对因变量的作用大小,就应当剔除自变量单位的影响。一般的处理方法是把所有的变量“标准化”。所谓标准化就是指对变量Y,X2,Xk进行如下处理:,式中,于是,原始方程:,就转化为标准方程:,注:在SPSS中,所谓标准回归系数,就是指这一方程的回归系数.,