中职数学基础模块下册《一元线性回归》ppt课件.ppt

资源描述

《中职数学基础模块下册《一元线性回归》ppt课件.ppt》由会员分享，可在线阅读，更多相关《中职数学基础模块下册《一元线性回归》ppt课件.ppt（104页珍藏版）》请在三一办公上搜索。

1、1,线性回归分析双变量模型,2,回归分析的含义,回归分析是研究一个叫做因变量的变量对另一个或多个叫做解释变量的变量的统计依赖关系。其用意在于，通过解释变量的已知值或给定值去估计或预测因变量的总体均值。,双变量回归分析：只考虑一个解释变量。（一元回归分析，简单回归分析）复回归分析：考虑两个以上解释变量。（多元回归分析）,3,术语与符号,自变量(independent variable)解释变量(explanatory variable)控制变量(control variable)预测变量(predictor variable)回归元(regressor),因变量(dependent varia

2、ble)被解释变量(explained variable)响应变量(response variable)被预测变量(predicted variable)回归子(regressand),4,统计关系与确定性关系,统计（依赖）关系：非确定性的关系。在统计依赖关系中，主要处理的是随机变量，也就是有着概率分布的变量。特别地，因变量的内在随机性是注定存在的。例如：农作物收成对气温、降雨、阳光以及施肥的依赖关系便是统计性质的。这些解释变量固然重要，但是并不能使我们准确地预测农作物的收成。确定性关系：函数关系。例如物理学中的各种定律。,5,回归与因果关系,回归分析研究因变量对于解释变量的统计依赖关系

3、，但并不一定意味着因果关系。一个统计关系式，不管多强和多么具有启发性，都永远不能确立因果联系。因果关系的确立必须来自于统计关系以外，最终来自于这种或那种理论（先验的或是理论上的）。,6,回归分析与相关分析（一）,相关分析：用相关系数测度变量之间的线性关联程度。例如：测度统计学成绩和高等数学成绩的的相关系数。假设测得0.90，说明两者存在较强的线性相关。回归分析：感兴趣的是，如何从给定的解释变量去预测因变量的平均取值。例如：给定一个学生的高数成绩为80分，他的统计学成绩平均来说应该是多少分。,7,回归分析与相关分析（二）,在相关分析中，对称地对待任何两个变量，没有因变量和解释变量的区分。而且，两

4、个变量都被当作随机变量来处理。在回归分析中，因变量和解释变量的处理方法是不对称的。因变量被当作是统计的，随机的。而解释变量被当作是（在重复抽样中）取固定的数值，是非随机的。（把解释变量假定为非随机，主要是为了研究的便利，在高级计量经济学中，一般不需要这个假定。）,8,双变量回归模型（一元线性回归模型）,9,双变量回归模型（最简单的回归模型）,模型特点因变量（Y）仅依赖于唯一的一个解释变量(X)。回归分析的内容与目的1、通过样本数据去估计出因变量与解释变量的统计依赖关系式（总体回归函数）；2、给定解释变量的取值，去估计因变量的均值；3、假设检验；4、根据样本外解释变量的取值，预测因变量的均

5、值。,10,总体回归函数(Population regression function,PRF),以函数形式（方程、模型）揭示出来的因变量与解释变量的统计依赖关系式。,回归分析的最终目的,估计出总体回归函数,11,估计总体回归函数的首要任务,设定总体回归函数的合理形式,12,假想例子,对每周博彩支出和每周个人可支配收入作回归分析。因变量：每周博彩支出解释变量：每周个人可支配收入,13,在一个假想的经济社会中，共有100个人参与博彩。个人可支配收入分为10档，每档收入对应的博彩支出有10种情况。,例子说明,14,15,*,*,*,*,*,*,*,*,*,*,150 175 200 225 2

6、50 275 300 325 350 375 每周个人可支配收入（ X）,总体回归曲线,每周个人博彩支出Y,条件均值,16,“线性”一词的含义,线性的含义对变量为线性对参数为线性,从现在起，线性回归总是指对参数为线性的一种回归，也即参数总是以它的一次方出现。对于解释变量以什么方式进入模型则没有特别限制。,17,*,*,（线性）总体回归函数（曲线）,X,Y,相同的X对应着不同的Y。Y的所有条件期望落在一条曲线上。该形式的总体回归函数体现了因变量的条件均值与解释变量的固定取值之间的确定关系。,*,*,*,*,*,*,*,*,18,总体回归函数,斜率度量了解释变量X每变动一个单位，因变量Y的条件均值

7、变化多少个单位。截距项度量了解释变量为零时因变量的条件均值。一般来说，不解释其经济意义。,该形式的总体回归函数称为确定（非随机）总体回归函数,19,*,*,X,Y,虽然Y的所有条件期望都落在一条直线上，但是相同的X却对应着不同的Y。总体回归函数的确定形式不能完全体现因变量的个别值与解释变量的固定值之间的统计依赖关系。,*,*,*,*,*,*,*,*,20,每周个人可支配收入（ X）,总体回归函数(PRF)的随机设定,每周个人博彩支出收入Y,随机干扰项(随机误差项),21,总体回归模型的随机形式,随机总体回归函数,22,引入随机干扰项的意义,1、理论的不完全性与因变量相关的因素很多，随机干扰项

8、替代了未纳入模型的全部变量。2、人类行为的内在随机性随机因素永远存在3、节省原则模型是现实的简化，若无充分理由，宁简勿繁。4、度量误差,23,总体回归函数,24,总体回归函数的参数通常是永远不得而知的。一则，实践中不能获得整个总体数据；二则，收集所有总体数据会浪费大量人力、财力，不经济。通常，我们仅有来自总体的一个或少数几个样本。因此，总体回归函数必须从已掌握的样本数据去估计。,25,样本回归函数（曲线）,假设仅从总体中得到两组样本，样本容量均为10，对应每个X值均仅随机抽取一个Y值。,SRF1,SRF2,样本1,样本2,Y,X,26,样本回归函数的特点,由于抽样的随机性，样本回归函

9、数与总体回归函数总是不可避免存在差异。因此，样本回归函数过高或者过低估计总体回归函数自然是不可避免的。可以说，任何SRF都仅仅是PRF的近似或者是估计。,27,样本和总体回归曲线（函数）,Y,X,28,既然样本回归函数只是总体回归函数的一个近似，那么能不能设计一种规则或方法去构造SRF，以使得这种近似是一种尽可能“接近”的近似呢？,29,设定样本回归函数的形式,样本回归函数的形式应该与总体回归函数一致。原因很简单，构造样本回归函数是为了估计总体回归函数，所以形式上应该一致。对应于总体回归函数的两种形式，样本回归函数也应该有两种形式。 1、确定样本回归函数样本回归函数的非随机形式 2、随机样本

10、回归函数样本回归函数的随机形式,30,样本回归函数的非随机形式,31,样本回归函数的随机形式,32,样本和总体回归曲线（函数）,Y,X,33,样本回归函数形式,也就是说，如何构造SRF以使得尽可能接近真实的，尽可能接近真实的？,如何确定样本回归函数的参数？,34,普通最小二乘法Method of ordinary least squares(OLS),35,样本,Y,X,36,样本,Y,X,最小二乘原理：构造合适的估计量，使得残差平方和（residual sum of squares,RSS）最小。,37,样本,Y,X,38,最小二乘估计量的推导,一阶条件,39,解方程,正规方程组,

11、惯例：小写字母表示对均值的离差,40,最小二乘估计量的特点,OLS估计量是可观测样本值的函数，因而容易计算。OLS估计量是点估计量。对于给定的样本，只能获得总体参数的一个估计值。一旦计算出OLS估计值，便容易画出样本回归线。,41,最小二乘估计量的数值性质,1、样本回归曲线经过Y和X的样本均值所决定的点。,2、估计的Y的均值等于实测的Y的均值。,3、残差均值等于零。,4、残差和样本X不相关。,5、残差和预测的Y值不相关。,42,单纯的最小二乘估计量只能提供总体参数的一个点估计值，却不能对总体参数做出任何统计推断。要对总体参数从而对因变量做统计推断，还需要对回归模型进行一系列详细的假定。,43,

12、44,45,经典线性回归模型,基本假定,46,经典线性回归模型的基本假定(又称“古典、高斯或标准线性回归模型” )Classical linear regression model,CLRM,47,此假定意味着，我们所进行的回归分析是条件回归分析！,48,49,50,51,52,53,54,55,56,假定的总结,假定的真实性假定的意义假定的检验,57,经典线性回归模型基本假定之下最小二乘估计量的统计性质,58,最小二乘估计量的精度（标准差）,59,影响回归系数估计精度的因素（一）,60,影响回归系数估计精度的因素（二）,61,最小二乘估计量的优良性质,高斯马尔可夫定理在经典线性回归模型的假

13、定条件下，最小二乘估计量，在所有无偏线性估计量中，具有最小方差，也就是说，它们是BLUE。,最优线性无偏估计量Best linear unbiased estimator(BLUE) 同时满足“线性”、“无偏”、“方差最小”三个优良性质的估计量,62,一、线性,63,64,二、无偏性,65,66,三、最小方差性,67,四、一致性,一致性的一个充分条件：估计量无偏，而且随着样本容量趋于无穷，其方差趋于零。,68,至此，虽然已经在经典线性回归模型的基本假定之下推导出了最小二乘估计量的若干统计性质，但疑问仍然存在！,69,70,经典正态线性回归模型,在经典线性回归模型基本假定的基础上增补正态假定,

14、随机干扰项正态性假定的依据？,中心极限定理独立随机变量，随着变量个数的无限增加，其和的分布一般来说近似服从正态分布。,71,正态性假定下OLS估计量的概率分布,72,73,74,自由度(df)degrees of freedom,自由度取值的一般规律,75,76,77,知道了统计量的概率分布，从而可以很方便地进行区间估计和假设检验。,78,回归系数显著性检验（t检验）,一、设计检验方案,79,80,二、构造检验统计量（随机变量）,81,三、计算检验统计值,82,四、选择一定的显著性水平，根据检验方案确定拒绝域和非拒绝域。五、察看检验统计值落入哪个区域。如果落入拒绝域，那么表明在该显著性水平下

15、，检验是统计上显著的，说明总体参数显著异于假设值。六、也可以根据检验方案直接计算出获得该统计值的单侧或双侧P值。如果该P值小于给定的显著性水平，那么拒绝原假设。陈述同上。,83,例题,做钟表年代对钟表价格的回归分析，检验钟表年代对钟表价格是否存在显著影响。回归结果如下：,84,检验方案原假设：钟表价格的总体回归系数等于零（表明钟表年代不影响钟表价格）备选假设：钟表价格的总体回归系数不等于零（表明钟表年代影响钟表价格）,85,86,87,0,P值检验,88,89,90,统计显著,统计不显著,91,检验结果陈述,在0.01的显著性水平下，钟表价格的总体回归系数统计上显著异于零。也可以说，给定

16、显著性水平为0.01，钟表年代对钟表价格有显著影响。,92,回归系数显著性检验的意义,含义：检验模型中解释变量与因变量的关系是否显著。如果某个解释变量的回归系数经检验统计不显著，那么就有理由怀疑这个解释变量进入模型的价值。回归系数显著性检验可以帮助筛选模型的解释变量。,93,回归模型的拟合优度检验,Y,X,94,Y,X,95,96,97,Total sum of squares,TSS,Explained sum of squares,ESS,Residual sum of squares,RSS,98,总平方和分解的意义,TSS因变量的总变异ESS解释变量引起的因变量的变异RSS解释变量以外的因素引起的因变量的变异,99,称为“判定系数”,100,“判定系数”的含义和性质,判定系数度量了因变量的总变异在多大比例上可以由回归模型来解释。也即度量了回归模型的拟合优度。判定系数在0到1之间。计算公式,101,判定系数与样本相关系数的关系,102,103,如何报告回归结果,报告内容样本回归函数回归系数的标准误t统计值（原假设为总体回归系数等于零）t统计值的P值判定系数自由度,104,

展开阅读全文