《统计学课件第八章相关和回归分析.ppt》由会员分享,可在线阅读,更多相关《统计学课件第八章相关和回归分析.ppt(77页珍藏版)》请在三一办公上搜索。
1、2023/10/17,1,第八章 相关和回归分析,第一节 相关的意义和种类第二节 相关图表和相关系数第三节 一元线性回归分析第四节 多元线性回归分析第五节 非线性回归分析,2023/10/17,2,相关和回归分析是研究事物的相互关系,测定它们联系的紧密程度,揭示其变化的具体形式和规律性的统计方法,是构造各种经济模型、进行结构分析、政策评价、预测和控制的重要工具。,2023/10/17,3,本章学习目的,1.理解相关的意义、主要形式、以及相关分析的基本内容。2.掌握相关系数的设计原理,以及相关关系显著性检验。3.回归和相关的区别和联系4.普通最小二乘法的原理以及回归参数的意义。5.估计标准误差的
2、分析等。,2023/10/17,4,第一节 相关的意义和种类,一、问题的提出二、相关关系的概念三、相关关系的种类四、相关关系的主要内容,2023/10/17,5,一、问题的提出,相关,2023/10/17,6,一、相关关系的概念,客观现象之间的数量联系存在着两种不同的类型:函数关系和相关关系函数关系:即当一个(或一组)变量每取一个值时,相应的另一个变量必然有一个确定值与之对应。,2023/10/17,7,(函数关系),(1)是一一对应的确定关系(2)设有两个变量 x 和 y,变量 y 随变量 x 一起变化,并完全依赖于 x,当变量 x 取某个数值时,y 依确定的关系取相应的值,则称 y 是 x
3、 的函数,记为 y=f(x),其中 x 称为自变量,y 称为因变量(3)各观测点落在一条线上,2023/10/17,8,自变量与因变量,如果变量之间有因果关系,那么原因变量就叫作自变量,而受自变量影响的变量就称因变量。自变量通常发生在因变量之前。(不是所有先发生的变量都是自变量)一般自变量记为X,因变量 记为Y。,2023/10/17,9,【例】,(1)某种商品的销售额(y)与销售量(x)之间的关系可表示为 y=p x(p 为单价)(2)圆的面积(S)与半径之间的关系可表示为 S=R2(3)企业的原材料消耗额(y)与产量(x1)、单位产量消耗(x2)、原材料价格(x3)之间的关系可表示为y=x
4、1 x2 x3,2023/10/17,10,相关关系(correlation analysis):,相关关系:变量之间存在有依存关系,但这种关系是不完全确定的随机关系,即当一个(或一组)变量每取一个值时,相应的另一个变量可能有多个不同值与之对应。,2023/10/17,11,因果关系,相关关系,互为因果关系,共变关系,随机性依存关系,确定性依存关系,函数关系,变量之间关系,2023/10/17,12,相关关系,(1)变量间关系不能用函数关系精确表达;(2)一个变量的取值不能由另一个变量唯一确定;(3)当变量 x 取某个值时,变量 y 的取值可能有几个;(4)各观测点分布在直线周围。,2023/
5、10/17,13,【例】,商品的消费量(y)与居民收入(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系收入水平(y)与受教育程度(x)之间的关系父母亲身高(y)与子女身高(x)之间的关系身高与体重的关系,2023/10/17,14,相关关系与函数关系的关系:在一定的条件下互相转化.具有函数关系的变量,当存在观测误差和随机因素影响时,其函数关系往往以相关的形式表现出来.而具有相关关系的变量之间的联系,如果我们对它们有了深刻的规律性认识,并且能够把影响因变量变动的因素全部纳入方程,这时相关关系也可转化为函数关系.另
6、外,相关关系也具有某种变动规律,所以,相关关系也经常可以用一定的函数形式去近似地描述.,2023/10/17,15,二、相关关系的种类,1.按相关的程度分:,例:完全相关:在价格P不变的情况下,销售收入Y与销售量X 的关系;不相关:股票价格的高低与气温的高低是不相关的;,2023/10/17,16,2.按相关的方向分:,正相关:两个变量之间的变化方向一致,都是增长趋 势或下降趋势。例:收入与消费的关系;工人的工资随劳动生产率的提高而提高。,负相关:两个变量变化趋势相反,一个下降而另一 个上升,或一个上升而另一个下降。例:物价与消费的关系;商品流转的规模愈大,流通费用水平则越低。,2023/10
7、/17,17,3.按相关的形式分:,线性相关(直线相关):当一个变量每变动一个单位时,另一个变量按一个大致固定的 增(减)量变动。例:人均消费水平与人均收入水平,非线性相关(曲线相关):当一个变量变动时,另一个变量也相应发生变动,但这种变动是不均等的。,例:产品的平均成本与总产量;农产量与施肥量.,2023/10/17,18,4.按相关的影响因素多少分:,偏相关,单相关(一元相关):只有一个自变量。,复相关(多元相关):有两个及两个以上的自变量。,如:居民的收入与储蓄额;成本与产量,如:某种商品的需求与其价格水平以及收入水平 之间的相关关系便是一种复相关。,2023/10/17,19,偏相关:
8、在某一现象与多种现象相关的场合,假定其他变量不变,专门考察其中两个变量的相关关系称为偏相关。如:在假定人们的收入水平不变的条件下,某种商品的需求与其价格水平的关系就是一种偏相关。,2023/10/17,20,图示,2023/10/17,21,三、相关分析的主要内容,根据研究目的,搜集有关资料编制相关图表计算相关系数建立回归方程进行统计检验,2023/10/17,22,第二节 相关图表和相关系数,一、相关表和相关图二、简单相关系数,2023/10/17,23,相关分析:就是用一个指标来表明现象间相互依存关系的密切程度。广义的相关分析包括相关关系的分析(狭义的相关分析)和回归分析。,2023/10
9、/17,24,定性分析,是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断。,定量分析,在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数等方法,来判断现象之间相关的方向、形态及密切程度。,相关关系的判断,2023/10/17,25,一、相关表和相关图,相关表和相关图是研究相关关系的直观工具,在进行详细的定量分析之前,可以先利用它们对现象之间存在的相关关系的方向、形式、和密切程度作大致的判断。,简单相关表:将自变量x的数值按照从小到大的顺序,并配合因变量y的数值一一对应而平行排列的表。,居民消费和收入的相关表,单位:百元,2023/10/17,27
10、,相关图:又称散点图。将x置于横轴上,y置于纵轴上,将(x,y)绘于坐标图上。用来反映两变量之间相关关系的图形。例:,2023/10/17,28,二、简单相关系数,(一)简单相关系数的概念 是度量两个变量之间线性相关密切程度和相关方向的统计指标。包括简单相关系数、复相关系数、偏相关系数、曲线相关系数(相关指数).简单相关系数又称皮尔逊(1890年,英国)相关系数,或积矩相关系数或动差相关系数。若相关系数是根据总体全部数据计算的,称为总体 相关系数,记为.若是根据样本数据计算的,则称为样本相关系数,记为 r.样本相关系数是总体相关系数的一致估计量.,2023/10/17,29,样本简单相关系数的
11、计算公式(积差法),(二)简单相关系数的计算公式,式中:,(1),1.用计算器计算,协方差Sxy,2023/10/17,30,(1)式可化简为如下公式:,或:,2023/10/17,31,用计算机计算选取“工具”-“数据分析”选“相关系数”选“确定”输入“输入区域”输入“输出区域”在“分组方式”中选“逐列”选“标志位于第一行”确定出现结果如下:,2023/10/17,32,1.r 的取值范围是-1,1|r|=1,为完全相关r=1,为完全正相关r=-1,为完全负相关 2.r=0,不存在线性相关关系 3.-1r0,为负相关 4.0r1,为正相关 5.|r|越趋于1表示关系越密切;|r|越趋于0表示
12、 关系越不密切,相关系数取值及其意义,2023/10/17,33,r的范围在是微弱相关r的范围在是低度相关;r的范围在是显著相关;r的范围在0.8以上是高度相关.,2023/10/17,34,r,2023/10/17,35,【例1】计算人均可支配收入和消费支出之间的简单相关系数。,解:由表中数据得:,y 473,x 662,y2 26507,x2 51656,xy 36933,n=10,计算得人均可支配收入和消费支出间的简单相关系数为:,2023/10/17,37,(三)相关系数的显著性检验,1.检验两个变量之间是否存在线性相关关系 总体相关系数是未知的,常用样本相关系数来估计,不同的样本其相
13、关系数不同,r对 代表程度与样本容量有关.计算出样本相关系数r以后,还要对其进行显著性检验,以判定现象总体间线性相关是否显著.在二元正态总体情况下,r的抽样分布具有确定的函数形式,当总体相关系数 时,r呈t分布(n=30).2.等价于对回归系数b 的检验 3.采用 t 检验,2023/10/17,38,检验的步骤,提出假设:H0:(无关);H1:0(相关),计算检验的统计量:,确定显著性水平,并作出决策 若 t t,拒绝H0 若t t,接受H0,对例2计算的相关系数进行显著性检(0.05)提出假设:H0:;H1:0计算检验的统计量,3.根据显著性水平0.05,查t分布表得t(n-2)=2.30
14、6由于t=17.94t(10-2)=2.306,拒绝H0,总体人均消费支出与人均可支配收入之间的线性相关关系显著.,例:,为了简化检验的过程,有人根据t统计量和r的关系,编成相关系数临界值表,相关系数的显著性检验可直接查表进行。检验方法:对于给定的显著性水平若IrI r(n-2),变量x与y之间有显著的线性相关关系。若IrI r(n-2),变量x与y之间不存在线性相关关系。,前例中:r=0.9878 r0.05(10-2)=0.632,所以总体人均消费支出与人均可支配收入之间的线性相关关系显著。,2023/10/17,41,第三节 一元线性回归分析,一、回归分析概念二、回归分析的种类三、一元线
15、性回归分析,2023/10/17,42,回归方程一词是怎么来的,2023/10/17,43,一、回归分析的概念,是指对具有相关关系的现象,根据其相关关系的具体形态,选择一个合适的数学模型(称为回归方程式),用来近似地表达变量间的平均变化关系的一种统计分析方法。,2023/10/17,44,二、回归分析的内容,从一组样本数据出发,确定变量之间的数学关系式。对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著。利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度。,2023/10/17,45
16、,回归分析和相关分析的区别:相关分析中,变量 x 变量 y 处于平等的地位;回归分析中,变量 y 称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化.相关分析中所涉及的变量 x 和 y 都是随机变量;回归分析中,因变量 y 是随机变量,自变量 x则作为研究时给定的非随机变量。相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行预测和控制,2023/10/17,46,相关分析与回归分析的联系,相关分析和回归分析有着密切的联系,它们不仅具有共同的研究对象,而且在具体应用时,常常必须互相补充。相关分析需要依靠回归
17、分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现象数量变化的相关程度。只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式才有意义。简单说:1、相关分析是回归分析的基础和前提;2、回归分析是相关分析的深入和继续。,2023/10/17,47,三、回归分析的种类,1.按自变量的个数分:,2.按回归方程的形式分:,本章主要介绍一元线性回归。,2023/10/17,48,四、一元线性回归分析,(一)一元线性回归方程,当只涉及一个自变量时称为一元回归,若因变量 y 与自变量 x 之间为线性关 系时称为一元线性回归。2、对于具有线性关系的两个变量,可以用 一条线性方程来
18、表示它们之间的关系。3、描述因变量 y 如何依赖于自变量 x 和 误差项 的方程称为回归模型。,2023/10/17,49,注意:在两个变量之间,必须确定哪个是自变量,哪个是因变量回归方程的主要作用是用自变量来推算因变量。,2023/10/17,50,回归模型的表达式如下:,Y=a+X+e,1、模型中,y 是 x 的线性函数(部分)加上随机误差项2、线性部分反映了由于 x 的变化而引起的 y 的变化,是Y的数学期望,即对应于X某一取值时Y的平均值:,2023/10/17,51,3、随机误差项(随机干扰项)是随机变量A、反映了除 x 和 y 之间的线性关系 之外的随机因素对 y 的影响B、是不能
19、由 x 和 y 之间的线性关系 所解释的变异性随机误差项是Y与E(Y)的离差:4、和 称为模型的参数,2023/10/17,52,总体回归线与随机误差项,X,Yi,Y,。,。,。,2023/10/17,53,(二)回归参数的普通最小二乘估计(OLS)基本原理:1、使因变量的观察值 Y与估计值 之间的 离差平方和达到最小来求得。即,用最小二乘法拟合的直线来代表x与y之间的 关系与实际数据的误差比其他任何直线都小。,2023/10/17,54,回归参数推导过程:,为使Q 达到极小值,则须有:,整理得如下标准方程组:,2023/10/17,55,解上述方程组得:,其中 可变形为:,【例】根据例1(幻
20、灯片35)中数据,拟合人均消费支出对人均可支配收入的回归方程,并指出回归系数的含义。,解:,y 473,x 662,y2 26507,x2 51656,xy 36933,n=10,由表中数据得:,所以:,所建立的回归方程为:,回归系数 的含义是:人均可支配收入每增加1元,人均消费支出平均增加0.72元。,2023/10/17,57,相关系数与回归系数的关系,2023/10/17,58,(三)回归方程的显著性检验,1.回归模型检验的种类 回归模型的检验包括理论意义检验、一级检验和二级检验。理论意义:检验主要涉及参数估计值的符号和取值区间.如食品支出的恩格尔函数中,b的取值区间应在0-1之间;,2
21、023/10/17,59,一级检验又称统计学检验,它是利用统计学中的抽样理论来检验样本回归方程的可靠性,具体又可分为拟合程度评价和显著性检验.一级检验对所有的现象进行回归分析时都必须通过的检验.二级检验又称经济计量学检验,它是对标准线性回归模型的假定条件能否得到满足进行检验,具体包括序列相关检验,异方差性检验等.,2023/10/17,60,2.显著性检验包括两方面的内容:(1)对整个回归方程的显著性检验-F检验 回归方程的显著性检验即对自变量和因变量之间线性关系整体上是否显著进行检验。,(2)对回归系数的显著性检验:-t检验,2023/10/17,61,(1)对整个回归方程的显著性检验-即拟
22、合程度的评价 所谓拟合程度,是指样本观测值聚集在样本回归线周围的紧密程度。判断回归模型拟合程度优劣最常用的数量尺度是样本可决系数(又称判定系数)。它是建立在对总离差平方和进行分解的基础之上的。,2023/10/17,62,分析:因变量 Y的取值是不同的,Y 取值的这种波动称为变差。变差来源于两个方面:由于自变量 x 的取值不同造成的除 x 以外的其他因素(如x对y的非线性影响、测量误差、随机因素等)的影响对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差 来表示,2023/10/17,63,估计标准误差Syx(可说明回归方程的代表程度)实际观察值与回归估计值离差平方和的均方根。
23、估计标准误差反映了实际观察值在回归直线周围的分散状况,是用来说明回归方程代表性大小的统计指标。也说明了回归直线的拟合程度.,2023/10/17,64,由一元回归方程样本资料计算:,估计标准误差的计算公式为:,k表示自变量个数,2023/10/17,65,例,2023/10/17,66,简化式:,2023/10/17,67,【例】,前例1中回归方程估计标准误差为:,2023/10/17,68,作为回归模型拟合优度的判断和评价指标,估计标准误差显然不如判定系数,判定系数是无量纲的系数,有确定的取值范围(0-1),便于对不同资料回归模型拟合优度 进行比较.而估计标准误差则是有计量单位的,又没有确定
24、的取值范围,不便于对不同资料回归模型拟合优度进行比较.,2023/10/17,69,利用回归方程进行预测和估计,根据自变量 x 的取值估计或预测因变量 y的取值.当给出的x属于样本内的数据时,计算的yc值称为内插检验或事后预测,当给出的x在样本之外时,计算的yc值称为外推预测或事前预测.估计或预测的类型点估计y 的平均值的点估计y 的个别值的点估计区间估计y 的平均值的置信区间估计y 的个别值的预测区间估计,2023/10/17,70,点估计:,2.点估计值 y 的平均值的点估计 y 的个别值的点估计3.在点估计条件下,平均值的点估计和个别值的的点估计是一样的,但在区间估计中则不同,对于自变量
25、 x 的一个给定值x0,根据回归方程得到因变量 y 的一个估计值,2023/10/17,71,第三节 多元线性相关与回归分析,一、多元线性回归模型 一个因变量与两个及两个以上自变量之间的回归.描述因变量 y 如何依赖于自变量 x1,x2,xp 和误差项 的方程称为多元线性回归模型 涉及 p 个自变量的多元线性回归模型可表示为,b0,b1,b2,bp是参数,常数项,,和Y构成的平面与Y轴的截距,偏回归系数,表示在其他 固定时 每变化一个单位引起的Y的平均变动;,2023/10/17,72,偏回归系数,表示在其他 固定时 每变化 一个单位引起的Y的平均变动;,是被称为误差项的随机变量 y 是x1,
26、,x2,xp 的线性函数加上误差项 说明了包含在y里面但不能被p个自变量的线性关系所解释的变异性,在多元回归模型中,还要求各自变量之间不存在显著相关,或高度相关也即不得存在多重共线性。,2023/10/17,73,第四节非线性相关与回归分析,一、非线性函数形式的确定 在对实际的客观现象进行定量分析时,选择回归方程的具体形式应遵循以下原则:首先,方程形式应与有关实质性科学的基本理论相一致。例如,采用幂函数的形式,能够较好地表现生产函数;采用多项式方程能够较好地反映总成本与总产量之间的关系等等。,2023/10/17,74,-其次,方程有较高的拟合程度。因为只有这样,才能说明回归方程可以较好地反映现实经济的运行情况。-最后,方程的数学形式要尽可能简单。如果几种形式都能基本符合上述两项要求,则应该选择其中数学形式较简单的一种。一般来说,数学形式越简单,其可操作性就越强。,2023/10/17,75,(一)抛物线函数(二)双曲线函数(三)幂函数(四)指数函数(五)对数函数(六)形曲线函数(七)多项式方程,2023/10/17,76,几种常见的非线性模型,指数函数,线性化方法两端取对数得:lny=ln+x令:y=lny,则有y=ln+x,基本形式:,图像,2023/10/17,77,