第8章相关分析和回归分析ppt课件.ppt

上传人:牧羊曲112 文档编号:1429250 上传时间:2022-11-23 格式:PPT 页数:86 大小:14.54MB
返回 下载 相关 举报
第8章相关分析和回归分析ppt课件.ppt_第1页
第1页 / 共86页
第8章相关分析和回归分析ppt课件.ppt_第2页
第2页 / 共86页
第8章相关分析和回归分析ppt课件.ppt_第3页
第3页 / 共86页
第8章相关分析和回归分析ppt课件.ppt_第4页
第4页 / 共86页
第8章相关分析和回归分析ppt课件.ppt_第5页
第5页 / 共86页
点击查看更多>>
资源描述

《第8章相关分析和回归分析ppt课件.ppt》由会员分享,可在线阅读,更多相关《第8章相关分析和回归分析ppt课件.ppt(86页珍藏版)》请在三一办公上搜索。

1、第八章 相关分析和回归分析,1,第一节 相关分析,一、相关关系与函数关系二、相关关系的种类三、相关分析与回归分析四、相关关系的测度,2,一、相关关系与函数关系函数关系,是一一对应的确定关系设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,并完全依赖于 x ,当变量 x 取某个数值时, y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y = f (x),其中 x 称为自变量,y 称为因变量各观测点落在一条线上,函数关系(几个例子), 函数关系的例子某种商品的销售额y与销售量x之间的关系可表示为 y = px (p 为单价)圆的面积S与半径之间的关系可表示为S=R2 企业的原

2、材料消耗额y与产量x1 、单位产量消耗x2 、原材料价格x3之间的关系可表示为y = x1 x2 x3,一、相关关系与函数关系相关关系(correlation),变量间关系不能用函数关系精确表达一个变量的取值不能由另一个变量唯一确定当变量 x 取某个值时,变量 y 的取值可能有几个各观测点分布在直线周围,相关关系(几个例子), 相关关系的例子父亲身高y与子女身高x之间的关系收入水平y与受教育程度x之间的关系粮食亩产量y与施肥量x1 、降雨量x2 、温度x3之间的关系商品的消费量y与居民收入x之间的关系商品销售额y与广告费支出x之间的关系,二、相关关系的种类,(一)按变量多少划分1.单相关两个现

3、象的相关,即一个变量对另一个变量的相关关系,称为单相关。2.复相关当所研究的是一个变量对两个或两个以上其他变量的相关关系时,该相关关系称为复相关。3.偏相关在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个特定变量之间的相关关系。,7,二、相关关系的种类,(二)按相关程度划分1.完全相关当一种现象的数量变化完全由另一个现象的数量变化所确定时,称这两种现象间的关系为完全相关。2.不相关当两个现象彼此互不影响,其数量变化各自独立时,称为不相关现象。3.不完全相关两个现象之间的关系介于完全相关和不相关之间,称为不完全相关,一般的相关现象都是指这种不完全相关。,8,二、相关关系的种类,(三

4、)按相关形式划分1.线性相关当两种相关现象之间的相关关系在直角坐标系中近似地表现为一条直线时,称之为线性相关。2.非线性相关如果两种相关现象之间, 在图上并不表现为直线形式而是表现为某种曲线形式时,则称这种相关关系为非线性相关。,9,二、相关关系的种类,(四)按相关方向划分1.正相关。当一个现象的数量由小变大,另一个现象的数量也相应由小变大,这种相关称为正相关。2.负相关当一个现象的数量由小变大,而另一个现象的数量相反地由大变小,这种相关称为负相关。,10,二、相关关系的种类,(五)按相关性质划分1.真实相关当两种现象之间的相关确实具有内在的联系时,称之为“真实相关”。2.虚假相关当两种现象之

5、间的相关只是表面存在,实质上并没有内在的联系时,称之为“虚假相关”。,11,三、相关分析与回归分析,1.相关分析是指研究一个变量与另一个变量或另一组变量之间相关方向和相关密切程度的统计分析方法。2.回归分析是指根据相关关系的具体形态,选择一个合适的数学模型来近似地表达变量间平均变化关系的统计分析方法。,12,三、相关分析与回归分析,3.相关分析与回归分析的联系(1)相关分析回归分析是研究现象之间相关关系的两种基本方法,两者有着密切的系,它们不仅具有共同的研究对象,而且在具体应用时,常常必须互相补充。(2)相关分析需要依靠回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现

6、象数量变化的相关程 度。(3)只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式才有意义。,13,三、相关分析与回归分析,4.相关分析与回归分析的区别(1)相关分析中,变量x与变量y处于平等地 位,不需要区分自变量和因变量;回归分析中,变量y称为因变量,处在被解释的特殊地位。变量x称为自变量,可以通过x的变化来解释y的变化,故亦称为解释变量。 (2)相关分析中所涉及的变量y与x全是随机变量。而回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量。(3)相关分析的研究主要是刻画两类变量间线性相关的密切程度。而回归分析不仅可以揭示变量x对变量y的影响大小,

7、还可以由回归方程进行预测和控制。,14,四、相关关系的测度,15,(一) 相关表和相关图,相关表是一种反映变量之间相关关系的统计表。将某一变量按其取值的大小排列,然后再将与其相关的另一变量的对应值平行排列,便可得到简单的相关表。散点图是以直角坐标系的横轴代表变量x,纵轴代表变量y,将两个变量间相对应的变量值用坐标点的形式描绘出来,用来反映两变量之间的相关关系的图形,又称为相关图。,16,散点图(scatter diagram),散点图(例题分析),【例】一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,

8、但不良贷款额也有较大比例的增长,这给银行业务的发展带来较大压力。为弄清楚不良贷款形成的原因,希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的办法。下面是该银行所属的25家分行2002年的有关业务数据,散点图(例题分析),散点图(例题分析),(二) 相关系数,1.相关系数概念是反映变量之间线性相关密切程度的统计分析指标。相关系数可依总体数据或样本数据计算,分别定义为总体相关系数 和样本相关系数 。2.相关系数的分类根据线性相关变量的多少、分析问题的角度不同,相关系数可分为简单相关系数、偏相关系数和复相关系数。本章只介绍简单相关系数。,21,(二) 相关系数,3.简单相关系数的计算

9、设 是 的 组样 本观察值,两个变量之间的简单线性相关系数 计算公式如下:,22,相关系数(取值及其意义),r 的取值范围是 -1,1 |r|=1,为完全相关r =1,为完全正相关r =-1,为完全负正相关 r = 0,不存在线性相关关系 -1r0,为负相关 0r1,为正相关 |r|越趋于1表示关系越密切;|r|越趋于0表示关系越不密切,相关系数(取值及其意义),r,相关系数(例题分析),用Excel计算相关系数,相关系数的显著性检验,相关系数的显著性检验( r 的抽样分布),1.r 的抽样分布随总体相关系数和样本容量的大小而变化当样本数据来自正态总体时,随着n的增大,r 的抽样分布趋于正态分

10、布,尤其是在总体相关系数很小或接近0时,趋于正态分布的趋势非常明显。而当远离0时,除非n非常大,否则r的抽样分布呈现一定的偏态。当为较大的正值时,r 呈现左偏分布;当为较小的负值时,r 呈现右偏分布。只有当接近于0,而样本容量n很大时,才能认为r是接近于正态分布的随机变量,相关系数的显著性检验(检验的步骤),检验两个变量之间是否存在线性相关关系等价于对回归系数 b1的检验采用R.A.Fisher提出的 t 检验检验的步骤为提出假设:H0: ;H1: 0,计算检验的统计量:,确定显著性水平,并作出决策 若tt,拒绝H0 若tt,不能拒绝H0,相关系数的显著性检验(例题分析), 对不良贷款与贷款余

11、额之间的相关系数进行显著性检(0.05)提出假设:H0: ;H1: 0计算检验的统计量,根据显著性水平0.05,查t分布表得t(n-2)=2.069由于t=7.5344t(25-2)=2.069,拒绝H0,不良贷款与贷款余额之间存在着显著的正线性相关关系,相关系数的显著性检验(例题分析),各相关系数检验的统计量,第二节 一元线性回归分析,一、一元线性回归模型二、一元线性回归模型的估计三、回归方程的显著性检验四、回归模型的应用五、统计软件SPSS应用,31,什么是回归分析?(Regression),从一组样本数据出发,确定变量之间的数学关系式对这些关系式的可信程度进行各种统计检验,并从影响某一特

12、定变量的诸多变量中找出哪些变量的影响显著,哪些不显著利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度,一元线性回归模型,一元线性回归,涉及一个自变量的回归因变量y与自变量x之间为线性关系被预测或被解释的变量称为因变量(dependent variable),用y表示用来预测或用来解释因变量的一个或多个变量称为自变量(independent variable),用x表示 因变量与自变量之间的关系用一个线性方程来表示,一、一元线性回归模型,(一)回归模型的基本形式1.总体回归模型式中: 为因变量(被解释变量), 为自变量(解释变量), 和

13、是未知参数,称为回归参数,称 为回归系数, 表示其他随机因素的影响,并假定 是不可观测的随机误差,它是一个随机变量一般称之为变量y对x的一元线性理论回归模型,或称为总体回归模型 。,35,(一) 回归模型的基本形式,对于总体中的个体而言,有:,线性组合部分:确定部分,随机干扰部分:不确定部分,36,(一) 回归模型的基本形式,2.总体回归函数(方程) 对于总体回归模型中的 ,通常假设: 对总体回归模型两边取期望,得: 上式称为总体回归函数。,37,为什么作如此假设?有何意义?,此函数说明了什么含义?如何获得?,什么意思?,(一) 回归模型的基本形式,3.样本回归模型一般情况下,在研究某个实际问

14、题时,对于获得的n 组样本观测值来说,如果它们符合总体回归模型,则上式为样本回归模型,并假定 组数据是独立观测的,故 都是独立的随机变量, 为残差,是对 的估计, 是对 的估计。,38,(一) 回归模型的基本形式,4.样本回归函数(方程) 对于样本回归模型中的 ,通常假设: 对总体回归模型两边取期望,得:,样本回归函数(方程),估计的回归方程,(二) 回归模型的基本假设,假设1:误差项的期望值为0,即对所有的i有假设2:误差项的方差为常数,即对所有的i有假设3:误差项之间不存在自相关关系,其协方差为0,即当 时,有 ;假设4:自变量是给定的变量,与随机误差项线性无关;假设5:随机误差项服从正态

15、分布。 以上这些基本假设是德国数学家高斯最早提出的,故也称为高斯假定或标准假定。,40,二、一元线性回归模型的估计最小二乘估计(OLS),使因变量的观察值与估计值之间的离差平方和达到最小来求得 和 的方法。即,用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小,最小二乘估计(图示),(一) 参数的最小二乘估计,基本思想:使误差平方和最小,数学表达:,解决办法:通过对Q求偏导数,确定使 其最小的,(一) 参数的最小二乘估计,对Q求关于 偏导数:,(一) 参数的最小二乘估计,(三) 最小二乘估计量的性质-期望,最小二乘法是多种估计方法中的一种。按最小二乘法求得的总体回归

16、系数的估计值被称为最小二乘估计量。最小二乘估计量的形式是不变的,但根据所选取的样本不同, 的具体数值会随之变化,因此它是一种随机变量。可以证明,在基本假设能够得到满足的条件下,回归系数的最小二乘估计量的期望值等于真值,即有,46,(三) 最小二乘估计量的性质-方差,47,(三) 最小二乘估计量的性质-方差,不难证明: 还可以证明 和 分别是 和 的最佳线性无偏估计,也称为最小方差线性无谝估计,也就是说,在 和 的一切线性无偏估计中,它们的方差最小.,48,(四) 回归系数的区间估计,回归分析中,有时需要知道回归系数的取值区间,此时就需要对回归系数进行区间估计。对回归系数进行区间估计,就是在回归

17、系数分布的基础上,以回归系数的估计值为中心,构造一个置信区间,使该区间以较大的概率包含总体回归系数的真值。,49,(四 ) 回归系数的区间估计,50,(四) 回归系数的区间估计,51,(五) 总体方差的估计,52,(五) 总体方差的估计,53,(五) 总体方差的估计,如果利用上述定义公式手工计算估计标准误差时需要求出每一项残差,计算工作较大。因此可以采用下列简捷公式计算: 上述简捷公式中所需的数据与计算相关系数和估计回归系数时所用数据相同,这样可以大减计算工作量,当然,如果是利用统计软件计算估计校准差,则无所谓简捷计算公式。,54,估计方程的求法(例题分析),【例】求不良贷款对贷款余额的回归方

18、程,回归方程为:y = -0.8295 + 0.037895 x回归系数 =0.037895 表示,贷款余额每增加1亿元,不良贷款平均增加0.037895亿元,估计方程的求法(例题分析),不良贷款对贷款余额回归方程的图示,用Excel进行回归分析,第1步:选择“工具”下拉菜单第2步:选择“数据分析”选项第3步:在分析工具中选择“回归”,然后选择“确定”第4步:当对话框出现时 在“Y值输入区域”设置框内键入Y的数据区域 在“X值输入区域”设置框内键入X的数据区域 在“置信度”选项中给出所需的数值 在“输出选项”中选择输出区域 在“残差”分析选项中选择所需的选项 用Excel进行回归分析,回归方程

19、的检验,回归直线的拟合优度,变差,因变量 y 的取值是不同的,y 取值的这种波动称为变差。变差来源于两个方面由于自变量 x 的取值不同造成的除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差 来表示,变差的分解(图示),离差平方和的分解 (三个平方和的关系),离差平方和的分解 (三个平方和的意义),总平方和(SST)反映因变量的 n 个观察值与其均值的总离差回归平方和(SSR)反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和残

20、差平方和(SSE)反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和,判定系数r2 (coefficient of determination),回归平方和占总离差平方和的比例,反映回归直线的拟合程度取值范围在 0 , 1 之间 R2 1,说明回归方程拟合的越好;R20,说明回归方程拟合的越差判定系数等于相关系数的平方,即R2r2,判定系数r2 (例题分析),【例】计算不良贷款对贷款余额回归的判定系数,并解释其意义 判定系数的实际意义是:在不良贷款取值的变差中,有71.16%可以由不良贷款与贷款余额之间的线性关系来解释,或者说,在不良贷款取值的变动中,有71.16

21、%是由贷款余额所决定的。也就是说,不良贷款取值的差异有2/3以上是由贷款余额决定的。可见不良贷款与贷款余额之间有较强的线性关系,估计标准误差(standard error of estimate),实际观察值与回归估计值离差平方和的均方根反映实际观察值在回归直线周围的分散状况对误差项的标准差的估计,是在排除了x对y的线性影响后,y随机波动大小的一个估计量反映用估计的回归方程预测y时预测误差的大小 计算公式为,注:例题的计算结果为1.9799,显著性检验,线性关系的检验,检验自变量与因变量之间的线性关系是否显著将回归均方(MSR)同残差均方(MSE)加以比较,应用F检验来分析二者之间的差别是否显

22、著回归均方:回归平方和SSR除以相应的自由度(自变量的个数p) 残差均方:残差平方和SSE除以相应的自由度(n-p-1),线性关系的检验F检验 (检验的步骤),1. 提出假设H0:1=0 线性关系不显著,2. 计算检验统计量F,确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F 作出决策:若FF ,拒绝H0;若FF ,不拒绝H0,线性关系的检验 (例题分析),1. 提出假设H0: 1=0 不良贷款与贷款余额之间的线性关系不显著2. 计算检验统计量F,确定显著性水平=0.05,并根据分子自由度1和分母自由度25-2找出临界值F =4.28作出决策:若FF ,拒绝H0,线性关系显著,

23、线性关系的检验 (方差分析表),Excel 输出的方差分析表,回归系数的检验,在一元线性回归中,等价于线性关系的显著性检验,检验 x 与 y 之间是否具有线性关系,或者说,检验自变量 x 对因变量 y 的影响是否显著,理论基础是回归系数 的抽样分布,回归系数的检验(样本统计量 的分布),是根据最小二乘法求出的样本统计量,它有自己的分布 的分布具有如下性质分布形式:正态分布数学期望:标准差:由于 未知,需用其估计量sy来代替得到 的估计的标准差,回归系数的检验 (检验步骤),1. 提出假设H0: b1 = 0 (没有线性关系) H1: b1 0 (有线性关系) 2. 计算检验的统计量,确定显著性

24、水平,并进行决策 tt,拒绝H0; tt,不拒绝H0,回归系数的检验 (例题分析),对例题的回归系数进行显著性检验(0.05)1. 提出假设H0:b1 = 0 H1:b1 0 2. 计算检验的统计量,t=7.533515t=2.201,拒绝H0,表明不良贷款与贷款余额之间有线性关系,回归系数的检验 (例题分析),P 值的应用,P=0.000000=0.05,拒绝原假设,不良贷款与贷款余额之间有线性关系,Excel输出的部分回归结果,R2),回归模型的应用,(一)单值预测单值预测就是用单个值作为因变量新值的预测值。比如我们研究1978-2007年我国国内生产总值与固定资产投资额之间关系时,建立了

25、一元线性回归方程:,78,(一)单值预测,如果固定资产投资倾向保持相对稳定,我们可以根据2008年的固定资产资额来预测2008年我国国内生产总值。若假设2008年固定资产资额 元,那么全国预期的国内生产总值为:这就是变量新值: 的单值预测.,79,(二) 区间预测,1.因变量单个值区间估计,80,1.因变量单个值区间估计,81,1.因变量单个值区间估计,是先前独立观测到的随机变量 的线性组合, 新值 与先前的观测值是独立的,所以 与 是独立的,因而,82,1.因变量单个值区间估计,83,1.因变量单个值区间估计,由此我们可以求得 的置信概率 为的置信区间为当样本容量 较大, 较小时, 的置信度为95%的置信区间近似为,84,2.因变量均值区间估计,(8.15)式给出的是因变量单个值的置信区间,我们关心的另外一种情况是因变量均值的置信区间.对于前面提出的人均消费性支出问题,如果有好几个地区的人均可支配收入同为 ,那么这些地区对应的人均消费性支出的平均数为多少? 这个问题就是要估计平均值 . 的区间估计与因变量单个值 的置信区间有所不同,由于 为常数,由(8.14)可知,85,进而得因变量均值 置信水平为 的置信区间为,2.因变量均值区间估计,86,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号