拟合优度的度量课件.ppt_三一办公31ppt.com

资源描述

《拟合优度的度量课件.ppt》由会员分享，可在线阅读，更多相关《拟合优度的度量课件.ppt（54页珍藏版）》请在三一办公上搜索。

1、概念：样本回归线是对样本数据的一种拟合。不同的模型（不同函数形式)可拟合出不同的样本回归线相同的模型用不同方法去估计参数，也可以拟合出不同的回归线拟合的回归线与样本观测值总是有偏离。样本回归线对样本观测数据拟合的优劣程度，可称为拟合优度。如何度量拟合优度呢？拟合优度的度量建立在对 Y 的总变差分解的基础上,1,拟合优度的度量,分析Y的观测值、估计值与平均值有以下关系将上式两边平方加总，可证得（提示：交叉项）（TSS）（ESS）（RSS）或者表示为总变差（TSS）：被解释变量Y的观测值与其平均值的离差平方和（总平方和）(说明 Y 的总变动程度）解释了的变差（ESS）：被解释变量Y的估计

2、值与其平均值的离差平方和（回归平方和）剩余平方和（RSS）：被解释变量观测值与估计值之差的平方和（未解释的平方和）,2,一、总变差的分解,Y X,3,变差分解的图示(以某一个观测值为例),以TSS同除总变差等式两边：或定义：回归平方和（解释了的变差ESS）在总变差（TSS）中所占的比重称为可决系数，用或表示:,4,或,二、可决系数,可决系数越大，说明在总变差中由模型作出了解释的部分占的比重越大，模型拟合优度越好。反之可决系数越小，说明模型对样本观测值的拟合程度越差。可决系数的特点：可决系数取值范围：随抽样波动，样本可决系数是随抽样而变动的随机变量可决系数是非负的统计量,5,

3、可决系数的作用,联系：数值上可决系数是相关系数的平方,6,可决系数与相关系数的关系,区别：可决系数相关系数是就模型而言是就两个变量而言说明解释变量对被解释说明两变量线性依存程度变量的解释程度度量不对称的因果关系度量对称的相关关系取值 0 1 取值-1r1 有非负性可正可负,7,8,第四节回归系数的区间估计和假设检验,为什么要作区间估计？运用OLS法可以估计出参数的一个估计值，但OLS估计只是通过样本得到的点估计，它不一定等于真实参数，还需要寻求真实参数的可能范围，并说明其可靠性。为什么要作假设检验？OLS 估计只是用样本估计的结果，是否可靠？是否抽样的偶然结果呢？还有待统

4、计检验。区间估计和假设检验都是建立在确定参数估计值概率分布性质的基础上。,9,一、OLS估计的分布性质基本思想是随机变量，必须确定其分布性质才可能进行区间估计和假设检验怎样确定的分布性质呢?是服从正态分布的随机变量，决定了也是服从正态分布的随机变量；是的线性函数，决定了也服从正态分布正态正态正态只要确定的期望和方差，即可确定的分布性质,线性特征,（线性估计的重要性),10,的期望：(已证明是无偏估计）的方差和标准误差(证明见P38)(标准误差是方差的平方根)注意：以上各式中均未知，但是个常数，其余均是已知的样本观测值，这时和都不是随机变量。,的期望和方差,1

5、1,基本思想：是的方差，而不能直接观测，只能从由样本得到的去获得有关的某些信息，去对作出估计。可以证明（见附录2.2)其无偏估计为(这里的n-2为自由度,即可自由变化的样本观测值个数)注意区别：是未知的确定的常数；是由样本信息估计的，是个随机变量,对随机扰动项方差的估计,12,对作标准化变换,为什么要对作标准化变换?在正态性假定下，由前面的分析已知但在对一般正态变量作实际分析时，要具体确定的取值及对应的概率，要通过正态分布密度函数或分布函数去计算是很麻烦的，为了便于直接利用“标准化正态分布的临界值”，需要对作标准化变换。标准化的方式：,标准正态分布函数,13,在已知时

6、对作标准化变换，所得Z统计量为标准正态变量。,1.已知时，对作标准化变换,注意:这时和都不是随机变量(X、都是非随机的）,14,条件：当未知时，可用（随机变量）代替去估计参数的标准误差。这时参数估计的标准误差是个随机变量。样本为大样本时,作标准化变换所得的统计量Zk，也可以视为标准正态变量（根据中心极限定理）。样本为小样本时，,用估计的参数标准误差对作标准化变换，所得的统计量用t表示，这时t将不再服从正态分布，而是服从 t 分布（注意这时分母是随机变量）：,2.未知时，对作标准化变换,基本思想：对参数作出的点估计是随机变量，虽然是无偏估计，但还不能说明这种估计的可靠性和精确

7、性。如果能找到包含真实参数的一个范围，并确定这样的范围包含参数真实值的可靠程度，将是对真实参数更深刻的认识。方法：如果在确定参数估计式概率分布性质的基础上，可找到两个正数和，能使得这样的区间包含真实的概率为，即这样的区间称为所估计参数的置信区间。讨论：“如果已经得出了的特定估计值,并确定了某个置信区间，这说明真实参数落入这个区间的概率为1-”。这种说法对吗?,15,二、回归系数的区间估计,16,样本容量充分大,样本容量较小,总体方差已知,总体方差未知,Z将接近标准正态分布,服从 t 分布,三种情况,基本思想:利用标准化后统计量的分布性质去寻求:,置信区间：,标准正态分布,（1）当总

8、体方差已知时(Z 服从正态分布)取定（例如=0.05），查标准正态分布表得与对应的临界值z(例如z为1.96)，则标准化变量Z*（统计量）因为或即,17,回归系数的区间估计(分三种情况寻找合适的),方法：可用无偏估计去代替未知的，由于样本容量充分大，标准化变量Z*（统计量）将接近标准正态分布注意:这里的“”，表示“估计的”,这时区间估计的方式也可利用标准正态分布只是这时,18,2.当总体方差未知，且样本容量充分大时,方法：用无偏估计去代替未知的，由于样本容量较小，“标准化变量”t（统计量）不再服从正态分布，而服从 t 分布。这时可用 t 分布去建立参数估计的置信区间。选定，查 t

9、分布表得显著性水平为，自由度为n-2的临界值(n-2)，则有即,19,3、当总体方差未知，且样本容量较小时,20,20,统计量 t,计算的统计量为:,相对于显著性水平的临界值为:（单侧）或（双侧）,基本概念回顾:临界值与概率、大概率事件与小概率事件,0,（大概率事件）,（小概率事件）,目的：简单线性回归中，检验X对Y是否真有显著影响,三、回归系数的假设检验,21,回归系数的检验方法,确立假设：原假设为备择假设为(本质：检验是否为0，即检验是否对Y有显著影响)(1)当已知或样本容量足够大时可利用正态分布作Z检验给定,查正态分布表得临界值 Z 如果则不拒绝原假设如果或则拒

10、绝原假设,22,(2)当未知，且样本容量较小时,只能用去代替，可利用 t分布作 t 检验：,给定,查 t 分布表得如果或者则拒绝原假设而不拒绝备择假设如果则不拒绝原假设,用 P 值判断参数的显著性,假设检验的 p 值：p 值是基于既定的样本数据所计算的统计量，拒绝原假设的最低显著性水平。统计分析软件中通常都给出了检验的 p 值,P,统计量 t,计算的统计量:,相对于显著性水平的临界值:或,注意：t检验是比较和P值检验是比较和 p,与相对应,与 P 相对应,24,用 P 值判断参数显著性的方法,方法：将给定的显著性水平与 p 值比较：若值，必有，则在显著性水平下拒绝原假

11、设，即认为对 Y 有显著影响若值，必有，则在显著性水平下不拒绝原假设，即认为对 Y 没有显著影响规则：当时，P值越小，越能拒绝原假设,第五节回归模型预测,一、回归分析结果的报告经过模型的估计、检验，得到一系列重要的数据，为了简明、清晰、规范地表述这些数据，计量经济学通常采用以下规范化的方式：例如：回归结果为=244545+05091（64138）（00357）标准误差SE t=(38128)(142605)t 统计量=09621 df=8 可决系数和自由度 F=20287 DW=2.3 F 统计量 DW统计量,1.基本思想经估计的计量经济模型可用于:经济结构分析经济预测政策评

12、价验证理论运用计量经济模型作预测：指利用所估计的样本回归函数作预测工具，用解释变量的已知值或预测值，对预测期或样本以外的被解释变量的数值作出定量的估计。计量经济预测是一种条件预测：条件：模型设定的关系式不变所估计的参数不变解释变量在预测期的取值已作出预测,26,二、被解释变量平均值预测,预测值、平均值、个别值的相互关系,Y 是对真实平均值的点估计,也是对个别值的点估计,点预测值,真实平均值,个别值,2、Y 平均值的点预测,点预测:用样本估计的总体参数值所计算的Y的估计值直接作为Y的预测值方法：将解释变量预测值直接代入估计的方程这样计算的是一个点估计值,3、Y平均值的区间预测,基本思想

13、：预测的目标值是真实平均值，由于存在抽样波动，预测的平均值不一定等于真实平均值，还需要对作区间估计为对Y作区间预测，必须确定平均值点预测值的抽样分布必须找出点预测值与预测目标值的关系，即找出与二者都有关的统计量,具体作法（从的分布分析）,已知可以证明服从正态分布(为什么?)，将其标准化,当未知时，只得用代替，这时有,注意:,（较复杂不具体证明）,31,显然这样的 t 统计量与和都有关。给定显著性水平，查 t 分布表，得自由度n2的临界值，则有即Y平均值的置信度为的预测区间为,构建平均值的预测区间,三、被解释变量个别值预测,基本思想：既是对Y平均值的点预测，也是对Y

14、个别值的点预测。由于存在随机扰动的影响，Y的平均值并不等于Y的个别值为了对Y的个别值作区间预测，需要寻找与点预测值和预测目标个别值有关的统计量，并要明确其概率分布,已知剩余项是与预测值及个别值都有关的变量，并且已知服从正态分布，且可证明当用代替时，对标准化的变量 t 为,33,（较复杂不具体证明）,具体作法：,构建个别值的预测区间,给定显著性水平，查 t 分布表得自由度为N2的临界值，则有因此，一元回归时Y的个别值的置信度为的预测区间上下限为,35,被解释变量Y区间预测的特点,（1）Y平均值的预测值与真实平均值有误差，主要是受抽样波动影响预测区间 Y个别值的预

15、测值与真实个别值的差异,不仅受抽样波动影响，而且还受随机扰动项的影响预测区间,36,（2）平均值和个别值预测区间都不是常数，是随的变化而变化的，当时，预测区间最小。（3）预测区间上下限与样本容量有关，当样本容量n时,个别值的预测区间只决定于随机扰动的方差。,预测区间,37,SRF,各种预测值的关系,Y的个别值的预测区间,Y平均值的预测区间,38,第八节案例分析,案例:分析各地区城镇居民计算机拥有量与城镇居民收入水平的关系提出问题：随着信息化程度和居民收入水平的提高，作为居民耐用消费品重要代表的计算机已为众多城镇居民家庭所拥有。研究中国各地区城镇居民计算机拥有量与居民收入水平的数量关

16、系，对于探寻居民消费增长的规律性，分析各地区居民消费的差异，预测地区全体居民消费水平和结构的发展趋势，合理规划信息产业的发展，都有重要的意义。,理论分析：影响居民计算机拥有量的因素有多种，但从理论和经验分析，最主要的影响因素应是居民收入水平。从理论上说居民收入水平越高，居民计算机拥有量越多。,39,变量选择：被解释变量选择能代表城乡所有居民消费的“城镇居民家庭平均每百户计算机拥有量”(单位:台)；解释变量选择表现城镇居民收入水平的“城镇居民平均每人全年家庭总收入”（单位:元）研究范围：全国各省市2011年底的城镇居民家庭平均每百户计算机拥有量和城镇居民平均每人全年家庭总收入数据。,2011年中

17、国各地区城镇居民每百户计算机拥有量和人均总收入,为了初步分析城镇居民家庭平均每百户计算机拥有量(Y)与城镇居民平均每人全年家庭总收入(X)的关系，作以X为横坐标，以Y为纵坐标的散点图。,42,从散点图可以看出城镇居民家庭平均每百户计算机拥有量(Y)与城镇居民平均每人全年家庭总收入(X)大体呈现线性关系。可以建立如下简单线性回归模型：,模型设定:,43,估计参数,假定模型中随机扰动满足基本假定，可用OLS法。,具体操作：使用EViews 软件，估计结果是：,44,44,用规范的形式将参数估计和检验的结果写为：,（5.6228）(0.00024)t=(2.1267)(11.9826),F=143.

18、5836 n=31,45,1.可决系数：模型整体上拟合较好。2.系数显著性检验：取，查t分布表得自由度为的临界值为。因为应拒绝3.用P值检验 p=0.0000表明，城镇居民人均总收入对城镇居民每百户计算机拥有量确有显著影响。,模型检验,应拒绝,46,4.经济意义检验：所估计的参数说明城镇居民家庭人均总收入每增加1元，平均说来城镇居民每百户计算机拥有量将增加0.002873台，这与预期的经济意义相符。,47,点预测：如果西部地区某省城镇居民家庭人均总收入能达到25000元/人，利用所估计的模型可预测城镇居民每百户计算机拥有量，点预测值为,经济预测,(台),区间预测:,平均值区间预测上下限：

19、,已知:,48,由X和Y的描述统计结果,平均值区间预测区间预测,即是说：当地区城镇居民人均总收入达到25000元时，城镇居民每百户计算机拥有量平均值置信度95%的预测区间为（80.6219，86.9473）台。,49,49,个别值区间预测:,即是说：当地区城镇居民人均总收入达到25000元时，城镇居民每百户计算机拥有量个别值置信度95%的预测区间为（67.0656，100.5036）台。,1、变量间的关系分为函数关系与相关关系。相关系数是对变量间线性相关程度的度量。2、现代意义的回归是一个被解释变量对若干个解释变量依存关系的研究，回归的实质是由解释变量去估计被解释变量的平均值。3、总体回归

20、函数（PRF）是将总体被解释变量Y的条件均值表现为解释变量X的某种函数。样本回归函数（SRF）是将被解释变量Y的样本条件均值表示为解释变量X的某种函数。总体回归函数与样本回归函数的区别与联系。,50,4、随机扰动项是被解释变量实际值与条件均值的偏差，代表排除在模型以外的所有因素对Y的影响。5、简单线性回归的基本假定：对模型和变量的假定、对随机扰动项u的假定（零均值假定、同方差假定、无自相关假定、随机扰动与解释变量不相关假定、正态性假定）6、普通最小二乘法（OLS）估计参数的基本思想及估计量；OLS 估计量的分布性质及期望、方差和标准误差；OLS估计式是最佳线性无偏估计量。,51,7、简单线性回归模型极大似然估计的思想和方法。8、对回归系数区间估计的思想和方法。9、拟合优度是样本回归线对样本观测数据拟合的优劣程度，可决系数是在总变差分解基础上确定的。可决系数的计算方法、特点与作用。10、对回归系数假设检验的基本思想。对回归系数t检验的思想与方法；用P值判断参数的显著性。,52,11、被解释变量平均值预测与个别值预测的关系，被解释变量平均值的点预测和区间预测的方法，被解释变量个别值区间预测的方法。12、运用EViews软件实现对简单线性回归模型的估计和检验。,53,54,54,THANKS,

展开阅读全文