《古典线性回归模型.ppt》由会员分享,可在线阅读,更多相关《古典线性回归模型.ppt(58页珍藏版)》请在三一办公上搜索。
1、第2章 古典线性回归模型,一、古典线性回归模型二、回归参数的估计三、参数估计的性质四、回归方程的显著性检验五、中心化和标准化六、相关阵与偏相关系数七、预测,一、古典线性回归模型,1.多元线性回归模型的一般形式,y=0+1x1+2x2+pxp+,对n组观测数据(xi1,xi2,xip;yi),i=1,2,n,线性回归模型表示为:,一、古典线性回归模型,古典回归模型的一般形式,2.古典回归模型的基本假定,(1)解释变量x1,x2,xp是确定性变量,不是随机变量;而且各X之间互不相关(无多重共线性)(1)矩阵X是非随机的;且X的秩rk(X)=p+1n;表明设计矩阵X中的自变量列之间不相关,X是一满秩
2、矩阵。此时XTX也是满秩的。,(2)随机误差项具有0均值,等方差和序列不相关,即,(2)0期望,无异方差,无自相关假定,这个假定称为Gauss-Markov条件,(3)随机扰动项服从正态分布,(3)用矩阵形式表示,即向量为多维正态分布,N(0,s2In),(4)解释变量与随机扰动项不相关,,(4)用矩阵形式表示,即,在正态假定下:,yN(X,s2In),E(y)=Xvar(y)=s2In,3.多元线性回归方程的解释例1,y表示空调机的销售量,x1表示空调机的价格,x2表示消费者可用于支配的收入。,y=0+1x1+2x2+E(y)=0+1x1+2x2,在x2保持不变时,有,在x1保持不变时,有,
3、对一般情况含有p个自变量的多元线性回归,每个回归系数 表示在回归方程中其他自变量保持不变的情况下,自变量 每增加一个单位时因变量 的平均增加程度。,总结:,考虑国内生产总值GDP和三次产业增加值的关系,GDP=x1+x2+x3,现在做GDP对第二产业增加值x2的一元线性回归,得回归方程,例2,二、满足古典假定下的参数估计,1.普通最小二乘估计,最小二乘估计要寻找,用矩阵形式表示的正规方程组,移项得,存在时,即得回归参数的最小二乘估计为:,2.方差的估计,3.回归参数的最大似然估计,yN(X,2In),似然函数为,等价于使(y-X)(y-X)达到最小,这又完全与OLSE一样,思想:使当前发生的样
4、本出现的可能性最大的参数,三、参数估计量的性质,性质1 是随机向量y的一个线性变换。,性质2,是的无偏估计。,当p=1时,四、回归模型的检验,F检验 参数检验 拟合优度检验 检验的关系 经济检验,什么是P 值?(P-value),P 值即显著性概率值 Significence Probability Value是当原假设为真时得到比目前的 样本更极端的样本的 概率,所谓极端就是与原假设相背离它是用此样本拒绝原假设所犯弃真错误的 真实概率,被称为观察到的(或实测的)显著性水平,双侧检验的P 值,/2,/2,t,拒绝,拒绝,H0值,临界值,计算出的样本统计量,计算出的样本统计量,临界值,1/2 P
5、 值,1/2 P 值,左侧检验的P 值,H0值,临界值,a,样本统计量,拒绝域,抽样分布,1-,置信水平,计算出的样本统计量,P 值,右侧检验的P 值,H0值,临界值,a,拒绝域,抽样分布,1-,置信水平,计算出的样本统计量,P 值,利用 P 值进行检验的决策准则,若p-值,不能拒绝 H0若p-值,拒绝 H0双侧检验p-值=2单侧检验p-值,1 F检验,H0:1=2=p=0,SST=SSR+SSE,当H0成立时服从,2 回归系数的显著性检验t 检验的实质是检验解释变量是不是被解释变量的影响因素,H0j:j=0,j=1,2,p,(,(X)-1),记(X)-1=(cij)i,j=0,1,2,p,构
6、造t统计量,其中,3 拟合优度检验,决定系数为:,y关于x1,x2,xp的样本复相关系数,4.检验的关系,(1)拟合优度检验与F检验(2)F检验与t统计量,5.经济检验,(1)判断参数的正负号(2)判断取值范围,五、中心化和标准化,1.中心化,经验回归方程,经过样本中心,将坐标原点移至样本中心,即做坐标变换:,回归方程转变为:,回归常数项为,五、中心化和标准化,2.标准化回归系数,样本数据的标准化公式为:,得标准化的回归方程,五、中心化和标准化,2.标准化回归系数,当自变量的单位不同时普通最小二乘估计的回归系数不具有可比性,例如有一回归方程为:,其中x1的单位是吨,x2的单位是公斤,五、中心化
7、和标准化,2.标准化回归系数,标准化回归系数,六、相关阵与偏相关系数,1.样本相关阵,自变量样本相关阵,增广的样本相关阵为:,六、相关阵与偏相关系数,1.样本相关阵,六、相关阵与偏相关系数,2.偏判定系数,当其他变量被固定后,给定的任两个变量之间的相关系数,叫偏相关系数。偏相关系数可以度量p+1个变量y,x1,x2,xp之中任意两个变量的线性相关程度,而这种相关程度是在固定其余p-1个变量的影响下的线性相关。,六、相关阵与偏相关系数,2.偏判定系数,偏判定系数测量在回归方程中已包含若干个自变量时,再引入某一个新的自变量后y的剩余变差的相对减少量,它衡量y的变差减少的边际贡献。,六、相关阵与偏相
8、关系数,(1)两个自变量的偏判定系数,二元线性回归模型为:yi=0+1xi1+2xi2+i,记SSE(x2)是模型中只含有自变量x2时y的残差平方和,SSE(x1,x2)是模型中同时含有自变量x1和x2时y的残差平方和。因此模型中已含有x2时再加入x1使y的剩余变差的相对减小量为:,此即模型中已含有x2时,y与x1的偏判定系数。,六、相关阵与偏相关系数,(1)两个自变量的偏判定系数,同样地,模型中已含有x1时,y与x2的偏判定系数为:,六、相关阵与偏相关系数,(2)一般情况,在模型中已含有x2,xp时,y与x1的偏判定系数为:,偏决定系数两个自变量的偏决定系数,模型中已含有x2时,y与x1的偏
9、判定系数,模型中已含有x1时,y与x2的偏判定系数为,模型中已含有x2,xp时,y与x1的偏判定系数为,一般情况,六、相关阵与偏相关系数,3.偏相关系数,偏判定系数的平方根称为偏相关系数,其符号与相应的回归系数的符号相同。,例 研究北京市各经济开发区经济发展与招商投资的关系,因变量y为各开发区的销售收入(百万元),选取两个自变量,x1为截至1998年底各开发区累计招商数目,x2为招商企业注册资本(百万元)。表中列出了至1998年底招商企业注册资本x2在5亿至50亿元的15个开发区的数据。,六、相关阵与偏相关系数,3.偏相关系数,北京开发区数据,六、相关阵与偏相关系数,3.偏相关系数,偏相关系数
10、表,六、相关阵与偏相关系数,3.偏相关系数,用y与x1做一元线性回归时,x1能消除y的变差SST的比例为,再引入x2时,x2能消除剩余变差SSE(X1)的比例为,因而自变量x1和x2消除y变差的总比例为,=1-(1-0.651)(1-0.546)=0.842=84.2%。,这个值84.2%恰好是y对x1和x2二元线性回归的判定系数R2,六、相关阵与偏相关系数,3.偏相关系数,对任意p个变量x1,x2,xp定义它们之间的偏相关系数,其中符号ij表示相关阵第i行第j列元素的代数余子式,验证,六、相关阵与偏相关系数,偏相关系数和简单相关系数,以x1表示某种商品的销售量,x2表示消费者人均可支配收入,x3表示商品价格。从经验上看,销售量x1与消费者人均可支配收入x2之间应该有正相关,简单相关系数r12应该是正的。但是如果你计算出的r12是个负数也不要感到惊讶,这是因为还有其它没有被固定的变量在发挥影响,例如商品价格x3在这期间大幅提高了。反映固定x3后x1与x2相关程度的偏相关系数r12;3会是个正数。,七、预测,1.点预测,经验回归方程,对于样本以外自变量的值,因变量的点预测值:,2.区间预测,矩阵表示,