《管理统计学回归分析课件.ppt》由会员分享,可在线阅读,更多相关《管理统计学回归分析课件.ppt(86页珍藏版)》请在三一办公上搜索。
1、线性回归模型,1 回归分析概述2 线性回归模型的参数估计3 线性回归模型的统计检验4回 归 预 测5 极大似然估计6 有约束回归,1 回归分析概述,一、线性回归模型的特征二、线性回归模型的普遍性三、线性回归模型的基本假设,一、线性回归模型的特征,1、线性回归模型的特征,一个例子 凯恩斯绝对收入假设消费理论:消费(C)是由收入(Y)唯一决定的,是收入的线性函数: C = + Y (2.2.1) 但实际上上述等式不能准确实现。原因 消费除受收入影响外,还受其他因素的影响; 线性关系只是一个近似描述; 收入变量观测值的近似性:收入数据本身并不绝对准确地反映收入水平。,因此,一个更符合实际的数学描述为
2、: C = + Y+ (2.2.2)其中: 是一个随机误差项,是其他影响因素的“综合体”。线性回归模型的特征: 通过引入随机误差项,将变量之间的关系用一个线性随机方程来描述,并用随机数学的方法来估计方程中的参数; 在线性回归模型中,被解释变量的特征由解释变量与随机误差项共同决定。,2、模型的理论方程中为什么必须包含随机误差项?,(1)在解释变量中被忽略的因素的影响; (2)变量观测值的观测误差的影响;(3)模型关系的设定误差的影响;(4)其它随机因素的影响。,3、随机误差项主要包括哪些因素的影响?,4. 单方程线性回归模型的一般形式,二、线性回归模型的普遍性,线性回归模型是计量经济学模型的主要
3、形式,许多实际经济活动中经济变量间的复杂关系都可以通过一些简单的数学处理,使之化为数学上的线性关系。,1.线性的含义对变量而言对参数而言,2.将非线性模型转化为线性模型的数学处理方法,变量置换例如,描述税收与税率关系的拉弗曲线:抛物线 s = a + b r + c r2 c0 s:税收; r:税率设X1 = r,X2 = r2, 则原方程变换为 s = a + b X1 + c X2 c0变量置换仅用于变量非线性的情况。, 函数变换,例如,Cobb-Dauglas生产函数:幂函数 Q = AKLQ:产出量,K:投入的资本;L:投入的劳动,方程两边取对数: ln Q = ln A + ln K
4、 + ln L,(3)级数展开,例如,不变替代弹性CES生产函数:方程两边取对数后,得到:对在=0处展开台劳级数,取关于的线性项,即得到一个线性近似式。,变量置换得到,结论:,实际中的许多问题,都可以最终化为线性问题,所以,线性回归模型有其普遍意义。 即使对于无法采取任何变换方法使之变成线性的非线性模型,目前使用得较多的参数估计方法非线性最小二乘法,其原理仍然是以线性估计方法为基础。线性模型理论方法在计量经济学模型理论方法的基础。,Back:,三、线性回归模型的基本假设,对于线性回归模型,模型估计的任务是用回归分析的方法估计模型的参数。最常用的估计方法是普通最小二乘法。为保证参数估计量具有良好
5、的性质,通常对模型提出若干基本假设。如果实际模型满足这些基本假设,普通最小二乘法就是一种适用的估计方法;如果实际模型不满足这些基本假设,普通最小二乘法就不再适用,而要发展其它方法来估计模型。,线性回归模型在上述意义上的基本假设,(1)解释变量X1,X2,Xk 是确定性变量,不是随机变量;解释变量之间互不相关。 (2)随机误差项具有均值和同方差。即 E(i)=0 i=1,2, ,n Var (i)=2 i=1,2, ,n,(5)随机误差项服从均值、同方差的正态分布。即 iN(0, 2 ) i=1,2, ,n,(3)随机误差项在不同样本点之间是独立的,不存在序列相关。即 Cov(i, j)=0 i
6、j i,j= 1,2, ,n(4)随机误差项与解释变量之间不相关。即 Cov(Xji, i)=0 j=1,2, ,k i=1,2, ,n,重要提示,几乎没有哪个实际问题能够同时满足所有基本假设;通过模型理论方法的发展,可以克服违背基本假设带来的问题;违背基本假设问题的处理构成了单方程线性模型的理论方法的主要内容: 异方差问题(违背同方差假设) 序列相关问题(违背序列不相关假设) 共线性问题(违背解释变量不相关假设) 随机解释变量(违背解释变量确定性假设),Back,2 线性回归模型的参数估计 -普通最小二乘法,假定变量yt与k 个变量xjt, j = 1, , k ,存在线性关系。多元线性回归
7、模型表示为:,其中yt是被解释变量(因变量),xjt 是解释变量(自变量),ut是随机误差项,i, i = 0, 1, , k 是回归参数(通常未知)。这说明xjt, j = 1, , k, 是yt的重要解释变量。 ut代表众多影响yt变化的微小因素。,模型描述,即形式,矩阵形式,2 线性回归模型的参数估计,1. 普通最小二乘法(OLS)最小二乘 法(OLS)的原理是通过求残差(误差项的估计值)平方和最小确定回归参数估计值。这是求极值问题。用Q表示残差平方和,求其最小值条件下的回归参数的估计值。,minQ,得到下列方程组,求参数估计值的实质是求一个k+1元方程组,正规方程,变成矩阵形式,最小二
8、乘法的矩阵表示,正规方程的结构,Y 被解释变量观测值 n x 1X 解释变量观测值(含虚拟变量n x (k+1) )XX 设计矩阵(实对称(k+1) x (k+1)矩阵 )XY 正规方程右端 (k+1) x 1 回归系数矩阵 (k+1) x 1 高斯乘数矩阵, 设计矩阵的逆 残差向量( n x 1 ) 被解释变量的拟合(预测)向量 n x 1,2.最小二乘估计量的性质,线性(估计量都是被解释变量观测值的线性组合)无偏性(估计量的数学期望=被估计的真值)有效性(估计量的方差是所有线性无偏估计中最小的),1)线性,因为X的元素是非随机的,(X X) -1X是一个常数矩阵,由上式知,是Y的线性组合,
9、为线性估计量。具有线性特性,2) 无偏特性,3) 有效性,具有最小方差特性。,随机误差项的方差 的估计量,M = M M2=MM = M 利用上述性质,残差平方和,e e = (M u) (M u) = u M M u= u M u= u I - X (X X )-1 X u,E(e e) = E tru (I - X (X X )-1 X ) u = tr( I - X (X X )-1 X ) E(u u )=(n-K-1),3. 样本容量问题,样本是一个重要的实际问题,模型依赖于实际样本。获取样本需要成本,企图通过样本容量的确定减轻收集数据的困难。最小样本容量:满足基本要求的样本容量,样
10、本容量问题,(XX)-1存在| XX |0 XX 为k+1阶的满秩阵R(AB) min(R(A),R(B)R(X) k+1因此,必须有nk+1,此为最小样本容量,满足基本要求的样本容量,一般经验认为:n 30或者n 3(k+1)才能满足模型估计的基本要求。n 3(k+1)时,t分布才稳定,检验才较为有效,3 线性回归模型的统计检验,1 拟合优度检验2 方程的整体显著性3 参数的显著性检验,回归分析是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归线代替总体回归。尽管从统计性质上已知,如果有足够多的重复 抽样,参数的估计值的期望(均值)就等于其总体的参数真值,但在一次抽样中,估计值
11、不一定就等于该真值。那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验。主要包括拟合优度检验、变量的显著性检验及模型整体的显著性检验。,1.拟合优度检验 拟合优度指用 样本回归线对样本观察值的拟合程度.,(1) 总离差平方和的分解,总离差平方和(TSS),回归平方和(ESS),残差平方和(RSS),(1)总离差平方和的分解,注意英文缩小的含义,TSS:Total Square Sum / 总离差平方和RSS:Residual Square Sum / 残差平方和ESSExplain Square Sum / 解释平方和(回归平方和),平方和分解的意义,TS
12、S=RSS+ESS被解释变量Y总的变动(差异)= 解释变量X引起的变动(差异) + 除X以外的因素引起的变动(差异)如果X引起的变动在Y的总变动中占很大比例,那么X很好地解释了Y;否则,X不能很好地解释Y。,(2)样本可决系数,样本可决系数是拟合优度评价的最重要指标,残差的标准差也能作为拟合优度评价的参考指标样本可决系数(The coefficient of Determination)R2随机项的方差2的最小二乘估计量,相关系数,计算方法与样本决定系数一样含义有所不同:样本可决系数是判断回归方程与样本观测值拟合优度的一个数量指标,隐含的前提条件是X和Y具有因果关系相关系数是判断两个随机变量线
13、性相关的密切程度,不考虑因果关系。,(3)调整的可决系数(adjusted coefficient of detemination),增加解释变量时,很可能增加R2,容易引起错觉,认为只要在回归模型中增加解释变量就可以了,因此考虑对R2进行修正,思考:调整的可决系数能否为负?如果为负,说明什么问题?,注意TSS、ESS、RSS的自由度,TSS(离差平方和): n-1RSS(残差平方和):n-k-1ESS(回归平方和):k,= n-1,赤池信息准则和施瓦茨准则,为了比较所含解释变量个数不同的多元回归模型的拟合优度,常用的标准还有赤池信息准则和施瓦茨准则赤池信息准则的定义为:,AIC = ln(
14、ee/n) +2(k+1)/n,施瓦茨准则的定义为:,SC = ln( ee/n) +(k/n)ln n,上面的两个准则均要求仅当所增加的解释变量能够减少AIC和SC的值时,才允许在模型中增加该解释变量,2.方程整体线性的显著性检验(F检验),检验估计的回归方程作为一个整体的统计显著性,3.参数估计量的t检验,检验回归方程中每个解释变量的统计显著性,3.参数估计量的t检验,检验回归方程中每个解释变量的统计显著性,参数的置信区间,容易推出:在(1-)的置信水平下i的置信区间是,其中,t/2为显著性水平为 、自由度为n-k-1的t分布的临界值。,回归模型统计检验的步骤,(1) 查看拟合优度,进行F
15、检验,从整体上判断回归方程是否成立,如果F检验通不过,无须进行下一步;否则进行下一步查看各个变量的t值及其相应的概率,进行t检验,如果相应的概率小于给定的显著水平,该自变量的系数显著地不为0,该自变量对因变量作用显著;否则系数与0无显著差异(本质上=0),该自变量对因变量无显著的作用,应从方程中删去,重新估计方程。 但是,一次只能将最不显著(相应概率最大)的删除。每次删除一个,直至全部显著。,4 线性回归模型的预测,对于模型,给定样本以外的解释变量的观测值X0=(1,X01,X02,X0k),可以得到被解释变量的预测值:,它可以是总体均值E(Y0)或个值Y0的预测。但严格地说,这只是被解释变量
16、的预测值的估计值,而不是预测值。为了进行科学预测,还需求出预测值的置信区间,包括E(Y0)和Y0的置信区间。,1. E(Y0)的置信区间,易知,容易证明,于是,得到(1-)的置信水平下E(Y0)的置信区间:,其中,t/2为(1-)的置信水平下的临界值。,2. Y0的置信区间,如果已经知道实际的预测值Y0,那么预测误差为:,容易证明,e0服从正态分布,即,构造t统计量,可得给定(1-)的置信水平下Y0的置信区间:,5 极大似然估计(Maximum Likelihood),极大似然估计基本原理:当从模型总体随机抽取容量为n的一组样本观测值后,最合理的参数估计量应该使得从模型中抽取该组样本观测值的概
17、率最大。,在满足基本假设条件下,对一元线性回归模型:,随机抽取容量为n的一组样本观测值后(Xi, Yi)(i=1,2,n)。假如模型的参数估计量已经求得,为,那么Yi服从如下的正态分布:,于是,Y的概率函数为:,(i=1,2,n),因为Yi是相互独立的,所以的所有样本观测值的联合概率,也即似然函数(likelihood function)为:,将该似然函数极大化,即可求得到模型参数的极大似然估计量。,由于似然函数的极大化与似然函数的对数的极大化是等价的,所以,取对数或然函数如下:,解得模型的参数估计量为:,可见,在满足一系列基本假设的情况下,模型结构参数的极大似然估计量与普通最小二乘估计量是相
18、同的。,6受约束回归,一、模型参数的线性约束,一般地,估计线性模型时,可对模型参数施加若干个线性约束条件,例如对模型:,可施加约束:,于是上面的模型转化为:,采用普通最小二乘法得到参数的估计结果是:,再由约束条件:,可得:,能否对直接施加了约束条件的模型进行估计?这需进一步的检验,常用的检验方法有F检验,x2检验与t检验,记无约束条件模型的矩阵表示式为,记受约束条件模型的矩阵表示式:,于是,受约束样本回归模型的残差项可写为:,受约束样本回归模型的残差平方和RSSR为:,于是:,由于无论对于无约束的回归模型还是受约束的回归模型,Y的总的离差平方和TSS相同,因此,因此,通常情况下,受约束的回归模
19、型的解释能力较无约束回归模型来说要差,但如果约束条件为真,则无约束条件模型与受约束条件模型有相同的解释能力,即有,由于:,故:,因此,我们可以采用此统计量进行x2检验,当2未知时, 采用它的估计量代替.,F统计量无需估计随机扰动项的方差2差,根据该统计量,如果约束条件无效,则F值较大,当对给定的显著性水平,有,认为约束条件无效,当2未知时, 可以构造F统计量,认为约束条件有效,二、对回归模型增加或减少解释变量,对如下的两个回归模型:,对模型中要不要增加解释变量,哪些解释变量要去掉? t检验可以对单个变量的取舍进行判断; F检验除了能对单个变量进行取舍判断外,还可以对多 个变量的取舍进行判断.因
20、此对模型解释变量取舍的问题的检验,我们经常采用的是F检验.,其中(1)式可看成是对(2) 式施加的如下的约束条件的受约束回归:,相应的F统计量为:,如果约束条件为真,则说明F统计量较小,无须加进这q个解释变量;否则F统计量较大,约束条件为假,说明这q个解释变量对Y有较强的解释能力,另外:由,程的可决系数,表明通过增减前后回归方程的可决系数R2是否有足够大的变化来判断变量的增减与否,分别为无约束回归与受约束回归方,三,参数的稳定性检验,对该模型,结构上可能发生变化,怎么检验?,1. 邹氏参数的稳定性检验,检验的问题是:,三,参数的稳定性检验,对该模型,结构上可能发生变化,怎么检验?,1. 邹氏预
21、测检验,检验的问题是:,四,非线性约束,1. 最大似然比检验(LR),2. 沃尔德检验(WD),3. 拉格朗日乘数检验(LM),实例,一、回归分析报告(总结本章例子的过程,再写出回归分析报告) 例:家庭人均生活性消费支出Y与人均可支配收入X 的资料如下(单位:十元) :,回归分析报告(书写格式),总结: 回归分析的工作步骤,(二) 估计参数,(三) 检验模型 经济意义检验; 统计推断检验; 基本假设检验; 预测检验; (计算机仿真技术判 断模型参数估计值 的可信度及模型的 功效等)。,(一) 设定模型,(四) 应用模型 经济预测; 经济结构分析; 政策评价; (通过政策模拟提供制定 经济政策的依据),