元线性回归模型理论与方法.ppt

资源描述

《元线性回归模型理论与方法.ppt》由会员分享，可在线阅读，更多相关《元线性回归模型理论与方法.ppt（81页珍藏版）》请在三一办公上搜索。

1、第二章一元线性回归模型理论与方法,21 回归分析概述,一、变量间的关系及回归分析的基本概念二、总体回归函数（方程）PRF三、总体回归函数（方程）PRF的随机设定四、随机误差项的含义五、样本回归方程（函数）SRF,一、变量间的关系及回归分析的基本概念,经济变量间的关系确定性关系（函数关系）：研究的是确定现象而非随机变量间的关系。例如：圆的面积S=*r 其中，r为半径。统计依赖关系（相关关系）：研究的是非确定现象随机变量间的关系。例如：农作物的产量=F(气温，降雨量，阳光，施肥量)。,统计依赖（相关关系）,线性相关,非线性相关,正相关,不相关,负相关,正相关,不相关,负相关,相关系数（-11）

2、,有因果关系,无因果关系,回归分析,相关分析,注意：不线性相关并不意味着不相关。有相关关系并不意味着一定有因果关系。回归分析与相关分析研究一个变量对另一个（些）变量的统计依赖关系，但它们并不意味着一定有因果关系。回归分析对变量的处理方法存在不对称性，即区分被解释变量和解释变量：前者是随机变量，后者不是。相关分析则对称地对待被解释变量和解释变量，二者都被看作是随机的。,回归分析：,回归分析是研究一个变量关于另一个（些）变量的统计依赖关系的计算方法和理论。其用意在于通过后者的已知或设定值，去估计和（或）预测前者的（总体）均值。前一个变量称为被解释变量（Explained Variable)或应变量

3、(Dependent Variable)，后一个变量称为解释变量(Explanatory Variable)或自变量(Independent Variable)。,回归分析的主要内容：根据样本观察值对计量经济模型参数进行估计，求得回归方程。对回归方程、参数估计值进行显著性检验。利用回归方程进行分析、评价及预测。,二、总体回归函数（方程）PRF（population regression function),回归分析是研究一个变量关于另一个（些）变量的统计依赖关系的计算方法和理论。其用意在于通过后者的已知或设定值，去估计和（或）预测前者的（总体）均值。回归分析关心的是根据解释变量的已知或给定值，

4、考察被解释变量的总体均值。,例2.1：一个假想的社区人口总体有60户家庭组成，要研究该社区每月家庭消费支出Y与每月可支配家庭收入X的关系，即知道了家庭的每月收入，预测每月消费支出的（总体）水平。为达到此目的，将该60户家庭划分为组内收入差不多的10组，以分析每一收入组的家庭消费支出。,表2.1 某社区每月家庭收入与消费支出调查统计表,PRF,总体回归函数：在给定解释变量Xi条件下，被解释变量Yi的期望轨迹称为总体回归线（population regression line），更一般称为总体回归曲线（population regression curve）。其相应的函数（方程）E(Y/Xi)=f

5、(Xi)称为（双变量）总体回归函数（方程）。其中，f代表一种函数关系。,注意：回归函数（PRF）说明被解释变量Yi的平均状态（总体条件期望）随解释变量Xi变化的规律。总体回归函数的函数形式可以是线性的，也可以是非线性的。以线性函数为例，其形式为：,其中，0与1为固定的参数，称为回归系数。,三、PRF的随机设定,个别家庭的消费支出与给定收入水平间的关系：,其中，i称为观察值Yi围绕它的期望值E(Y/Xi)的离差(deviation)，是一个不可观测的随机变量，又称为随机干扰项或随机误差项。,将上述公式加以变幻，可得出个别家庭的消费支出如下：,公式表明，给定收入水平Xi，个别家庭的支出可表示为两部

6、分之和：该收入水平下所有家庭的平均消费支出E(Y/Xi)，称为系统性(systematic)部分，或确定性(deterministic)部分。随机或非确定性部分,该公式称为总体回归函数（PRF）的随机设定形式。它表明被解释变量Y除了受解释变量X的系统性影响外，还受其他未包括在模型中而又集体地影响着Y的全部变量的随机性影响，i即为这些集体变量的替代物。正是因为模型中引入了随机项，才称为计量经济学模型，又称为总体回归模型。,四、随机误差项的含义,随机误差项是在模型设定中省略下来而又集体地影响着被解释变量Y的全部变量的替代物。主要内容包括：在解释变量中被忽略的因素的影响。在研究一经济现象时，影响某一

7、经济变量的因素有许多，但是，在建立计量经济学模型时，我们不可能将所有因素都作为自变量包括在模型中，只能选择主要因素，其他被省略掉的因素对被解释变量的影响都归入了随机误差项。,变量观测值的观测误差的影响。对于变量的样本观测值，无论是实际测量得来的，或是调查统计得来得，都不可避免的会产生误差。这些误差归并到随机误差项中。模型关系的设定误差的影响。即为数学模型形式的误差。经济现象实际上是很复杂的，自变量与因变量之间的关系在许多情况下并非完全的线性关系，可是我们为了简单起见往往用线性模型来代替，这就造成了模型形式的误差，它对因变量的影响也包括在随机误差项中。,其他随机因素的影响。由于经济行为不象科学实

8、验那样完全在人为地控制下进行，有些因素是无法控制的，是一种随机现象。如一个消费者对某种商品的购买，可能由于广告的宣传本不想买而购买了；也可能由于某些人的劝告本想买反而不购买了等等。将这些不易预测和无法度量的因素，在模型中都有随机误差项表示。,产生并设计随机误差项的主要原因：理论的含糊性；数据的欠缺；节省原则。,五、样本回归方程（函数）SRF(sample regression function),例2.2：在例2.1的总体中有如下一个样本（见下表），问：能否用该样本预测总体中对应于选定X的平均每月消费支出？即能否用该样本估计总体回归函数PRF？表2.2,SRF,样本回归曲线(sample re

9、gression lines)和样本回归函数(sample regression function):上图中的样本散点图近似于一条直线，划一条直线以尽可能好地拟合该散点图，该直线称为样本回归曲线。将上述样本回归线以函数形式表示为：,称为样本回归函数(SRF)。,对比这两个公式，可以看出：公式（2）是公式（1）的近似替代物；是E(Y/Xi)的估计量；为0的估计量；,（1）,（2）,是1的估计量。,样本回归函数的随机形式及样本回归模型：,其中，样本残差项(residual)，代表了其他影响Yi的随机因素的集合体，可看成为i的估计量。该模型由于引入了随机项，成为计量经济模型，将该模型称为样本回归模型

10、。,样本残差项,回归分析的主要目的：根据样本回归函数（SRF），估计总体回归函数（PRF），即根据公式(2)估计公式(1)。,(1),(2),即：设计一“方法”构造SRF，使得SRF尽可能地“接近”PRF，或者说使尽可能地接近0和1。,样本与总体回归线,Y,Xi X,SRF,PRF,22 一元线性回归模型,一、线性回归模型的特征二、线性回归模型的普遍性三、线性回归模型的基本假定四、参数估计：OLS 1、OLS 2、离差形式 3、SRF的性质五、OLS估计量的性质,五、OLS估计量的性质 1、线性性 2、无偏性 3、有效性六、参数估计量的概率分布和随机误差项的方差估计七、统计检验 1、拟合优

11、度检验 2、参数的显著性检验（t检验）八、回归系数的置信区间检验九、回归分析的应用：预测问题,一、线性回归模型的特征,单方程线性回归模型的概念和一般形式：单方程计量经济学模型是以单一经济现象为研究对象而建立的模型，模型中只包括一个方程，是应用最为普遍的计量经济学模型，分为线性模型和非线性模型两大类。一般形式为：,i=1,2,n。其中，i为观测下标，n为样本容量。,一元线性回归模型：,形如,的计量经济学模型称为一元线性回归模型（双变量线性模型）。其中，Y为被解释变量，X为解释变量，0与1为待估参数，为随机误差项。,一元线性回归模型举例：凯恩斯的绝对收入假设消费理论认为，消费是由收入唯一决定的，是

12、收入的线性函数，事实上，消费与收入之间的关系并不是准确实现的，其计量经济学模型为：,每给定一个收入Y的值，消费C并不是单一确定的，而是由许多因素共同确定，其概率分布与随机误差项的概率分布相同。,线性回归模型的特征：,通过引入随机误差项，将变量之间的关系用一个线性随机方程来描述，并用随机数学的方法来估计方程中的参数。在线性回归模型中，被解释变量的特征由解释变量与随机误差项共同决定。,二、线性回归方程的普遍性,将非线性关系转化为线性关系的常用的处理方法：直接置换法双曲线：如商品的需求曲线是一种双曲线形式，商品需求量q与商品价格p之间的关系表现为双曲线关系。,现令：y=1/q；x=1/p则原方程转换

13、为：y=a+bx抛物线：如拉弗曲线描述的税收s和税率r的关系是一种抛物线的形式：s=a+br+cr c0现令：x1=r，x2=r原方程置换为：s=a+bx1+cx2 c0,对数变换法,幂函数：如著名的Cobb-Dauglas生产函数将产出量Q与投入要素(K，L)之间的关系描述为幂函数的形式：,现将方程两边取对数，则变换为线性形式如下：,指数函数：如生产中成本C与产出量q的关系：,将方程两边取对数后，即成为线性形式如下：,结论：,实际经济生活中的许多问题，都可以最终转化为线性问题，因此，线性回归模型具有普遍意义。即使对于无法采取任何变换方法使之变成线性的非线性模型，目前使用的较多的参数估计方法非

14、线性最小二乘法，其原理仍然是一线性估计方法为基础。,三、线性回归模型的基本假定,回归分析的主要目的：通过样本回归函数（模型）SRF尽可能准确地估计总体回归函数（模型）PRF。即通过估计,技术线路：使估计量与Yi的“总体”误差尽可能地小最小二乘法。使回归系数的估计量尽可能地与其本身接近。要满足上述要求，必须对解释变量和随机误差项做出合理假定。线性回归模型的基本假设：解释变量X1，X2，Xk是确定性变量，不是随机变量，并且解释变量之间互不相关。,随机误差项具有0均值和同方差。即：,解释：对X的每个观测值来说可以取不同的值，有些大于零，有些小于零，但其总体的平均值，即均值等于零。随机误差项具有同方

15、差，是指各次观测所受的随机影响的程度相同，即等方差性。,样本与总体回归线,Y,Xi X,SRF,PRF,随机误差项在不同样本点之间是独立的，不存在序列相关。即：,该假设表明，在任意两次观测时，i，j是不相关的，即在某次观测中取的值与任何其他次观测中取的值互不影响。,随机误差项与解释变量之间不相关。即：,该假设是指，随机误差项与解释变量不相关。由于在建立回归模型时，随机误差项代表了所有未包括在模型中的自变量及其它因素对因变量的影响，因此，应把X和各自对Y的影响区分开，即二者之间不相关。,随机误差项服从0均值、同方差的正态分布。即：,该假设符合经济实际，因为从实际经验和理论分析可知，随机影响可看作

16、或近似看作服从正态分布。,注意：在实际建立模型的过程中，除了基本假设之外，对模型是否满足假设都要进行检验。由于解释变量Xi是确定性变量，随机误差项 i 是随机性变量，因此被解释变量Yi是随机变量，且其分布（特征）与 i相同。,四、一元线性回归模型的参数估计：普通最小二乘法（OLS）,1、普通最小二乘法OLS2、参数估计的离差形式3、样本回归线SRF的性质,1、普通最小二乘法（OLS）,已知一组样本观测值（Yi，Xi）(i=1,2,n)，要求样本回归函数尽可能好地拟合这组值，即样本回归线上的点与真实观测点Yi的“总体”误差尽可能地小。在技术处理上我们一般采用“最小二乘法”。最小二乘原则：由于估

17、计值和实测值之差可正可负，简单求和可能将很大的误差抵消掉，因此，只有平方和才能反映二者在总体上的接近程度。,最小二乘法给出的判断标准是：二者之差的平方和最小。即：,最小。也就是说在给定样本观测值之下，选择出、能使得Yi与之差的平方和最小。,用最小二乘法估计和：,是、的二次非负函数，故该函数存在极小值。根据微积分方法，当Q对、的一阶偏导数为0时，Q达到最小。,即：,求偏导后得：,或,该方程组称为正则方程组（normal equations）,解上述二元一次方程组得：,2、参数估计的离差形式(deviation form),记,则xi、yi分别表示对各自均值的离差。,将离差带入正则方程组，则参

18、数估计量的离差形式为：,由于、的估计结果是从最小二乘原理得到的，故称之为最小二乘估计量。,3、样本回归线SRF的性质,样本回归线通过Y和X的样本均值。证明：因为,即：,故，样本回归线通过Y和X的样本均值。,估计的Y的均值等于实测的Y的均值,证明：,由于,则有，,即估计的Y的均值与实测的Y的均值相等。,（3）残差的均值为零。,由正则方程组：,可知：,即：,所以，,即残差的均值为零。,（4）残差和预测的Yi不相关。,（5）残差与Xi不相关。,五、OLS估计量的性质,1、线性性2、无偏性3、有效性,1、线性性,指的是估计量、是Yi的线性组合。,令,则,令,则,2、无偏性,估计量、的均值

19、（期望值）等于总体回归参数真值0与1。,即,证：,易知：,同样地，容易得出：,3、有效性（最小方差性）,在所有线性无偏估计量中，最小二乘估计量、具有最小方差。,高斯马尔可夫定理：在给定经典线性回归的假定下，最小二乘估计量是具有最小方差的线性无偏估计量。,最佳线性无偏估计量BLUE估计量（the Best Linear Unbiased Estimator),普通最小二乘估计量OLS具有线性性、无偏性、最小方差性等优良性质。具有这些优良性质的估计量称为最佳线性无偏估计量，即BLUE估计量。,全部估计量,线性无偏估计量,BLUE估计量,六、参数估计量的概率分布和随机误差项的方差估计,1、和的概率

20、分布,、分别是Yi的线性组合，因此，和的概率分布取决于Y。我们知道，在是正态分布的假设下，Y是正态分布，因此，、也服从正态分布，其分布特征由其均值和方差共同决定。,记、的标准差分别为：,1,S(),2、随机误差项的方差的估计,在估计的参数和的方差和标准差的表达式中，都含有随机误差项方差=var(i)。又称为总体方差。由于随机误差项i不可观测，实际上是未知的，只能从i的估计量残差ei出发，对总体方差进行估计。总体方差的无偏估计量为：,在总体方差的无偏估计量求出后，和的方差和标准差的估计量分别为：,的样本方差：,的样本标准差为：,的样本方差：,的样本标准差为：,思考：,例2.3：在例2.1的总体中有如下一个样本（见下表），求估计的参数和及其样本标准差。表2.2,居民家庭收入与消费支出的回归方程为：,作业：,

展开阅读全文