第七章相关与回归分析课件.ppt

上传人:牧羊曲112 文档编号:3834635 上传时间:2023-03-24 格式:PPT 页数:68 大小:1.22MB
返回 下载 相关 举报
第七章相关与回归分析课件.ppt_第1页
第1页 / 共68页
第七章相关与回归分析课件.ppt_第2页
第2页 / 共68页
第七章相关与回归分析课件.ppt_第3页
第3页 / 共68页
第七章相关与回归分析课件.ppt_第4页
第4页 / 共68页
第七章相关与回归分析课件.ppt_第5页
第5页 / 共68页
点击查看更多>>
资源描述

《第七章相关与回归分析课件.ppt》由会员分享,可在线阅读,更多相关《第七章相关与回归分析课件.ppt(68页珍藏版)》请在三一办公上搜索。

1、第七章 相关与回归分析,实例1:中国妇女生育水平的决定因素是什么?,妇女生育水平除了受计划生育政策影响以外,还可能与社会、经济、文化等多种因素有关。1、影响中国妇女生育率变动的因素有哪些?2、各种因素对生育率的作用方向和作用程度如何?3、哪些因素是影响妇女生育率主要的决定性因素?4、如何评价计划生育政策在生育水平变动中的作用?5、计划生育政策与经济因素比较,什么是影响生育率的 决定因素?6、如果某些地区的计划生育政策及社会、经济、文化 等因素发生重大变化,预期对这些地区的妇女生育 水平会产生怎样的影响?,据世界卫生组织统计,全球肥胖症患者达3亿人,其中儿童占2200万人,11亿人体重过重。肥胖

2、症和体重超常早已不是发达国家的“专利”,已遍及五大洲。目前,全球因”吃”致病乃至死亡的人数已高于因饥饿死亡的人数。(引自光明日报刘军/文)问题:肥胖症和体重超常与死亡人数真有显著 的数量关系吗?,实例2:全球吃死的人比饿死的人多?,发生车祸的次数与司机的年龄有关吗?一年的葡萄酒消耗量(平均每人喝葡萄酒摄取酒精的升数)以及一年中因心脏病死亡的人数(每十万人死亡人数)之间有关系吗?身高与足迹长度有关吗?这些类型的问题可以运用相关分析与回归分析的方法去解决。,第七章 相关与回归分析第一节 相关分析第二节 一元线性回归分析第三节 线性回归的显著性检验及回归预测第四节 多元线性回归分析,学习目标,1、变

3、量间的相关关系与相关系数的计算2、总体回归函数与样本回归函数3、线性回归的基本假定4、一元线性回归参数的估计与检验5、多元线性回归参数的估计与检验6、回归预测的方法,一、相关关系的概念,确定性的函数关系 Y=f(X)不确定性的统计关系相关关系 Y=f(X)+(为随机变量)没有关系 变量间关系的图形描述:坐标图(散点图),变量间的相互关系,(一)相关关系的概念 1、相关关系:客观现象之间确实存在的、但在数量表现上不严格对应的依存关系。确实存在关系是真实的、具有内在联系,而不是主观臆造的,也不是形式上的偶然巧合。通过定性分析确定,即根据经济理论或经济常识以及相关学科的知识分析判断是否存在这样的关系

4、。,数量表现上不严格对应,1)变量间的关系不能用函数关系精确表达2)一个变量的取值不能由另一个变量唯一确定3)当变量 x 取某个值时,变量 y 有若干取值与之对应这些数值虽然有波动,但总是以一定的分布规律围绕其均值上下波动,4)各观测点分布在直线(或曲线)周围,居民收入(x)与社会商品零售额(y)之间的关系父亲身高(x)与子女身高(y)之间的关系受教育程度(x)与收入水平(y)之间的关系广告费支出(x1)、价格(x2)与商品销售额(y)之间的关系施肥量(x1)、降雨量(x2)、温度(x3)与粮食亩 产量(y)之间的关系,相关关系的例子,2.函数关系 客观现象之间确实存在的、而且数量表现上是严格

5、的确定性的依存关系。,1)对于变量x和y,当自变量x取某个数值时,因变量y依确定的关系取相应的值,则称y是x的函数,记为y=f(x)。2)各观测点落在一条线上(直线或曲线),函数关系的例子圆面积(S)与半径之间的关系:S=R2 里程(D)与速度(V)、时间(t)之间的关系:D=V t某种商品的销售额(y)与销售量(x)、单价(p)之间的关系:y=p x企业的原材料消耗额(y)与产量(x1)、单位产量消耗(x2)、原材料价格(x3)之间的关系:y=x1 x2 x3,3、相关关系与函数关系的联系函数关系往往通过相关关系表现出来;由于存在测量误差和其他随机因素的干扰,可以说现实中没有纯粹的函数关系。

6、相关关系要通过函数关系进行研究。相关变量之间的数量变动虽然表现出一定的波动性,但是这种波动总是按照一定的分布规律围绕其理论均值而波动的,因此可以通过寻找这种数量变化规律,使相关关系转化为函数关系进行研究。,4、因果关系原因与结果、影响因素与被影响因素之间的关系。因果关系相关关系;是因果关系同时是相关关系,但是相关关系不一定是因果关系。,施肥量(x)与粮食亩产量(y)之间的关系父亲身高(x)与子女身高(y)之间的关系受教育程度(x)与收入水平(y)之间的关系居民收入(x)与商品的消费量(y)之间的关系广告费支出(x)与商品销售额(y)之间的关系,互为因果的情况如:收入水平和股票持有额是正相关,但

7、,是收入增加使股票持有增加?还是持有股票的盈利使收入增加?收入水平和物价水平之间的关系。,统计只能说明现象间有无数量上的关系,不能说明谁因谁果。因与果的确定定性分析,5、注意假相关(伪相关)现象之间没有本质联系,只是表面数字的偶然巧合或受到其他潜在变量的影响而表现出不真实的相关性。如上证股票价格综合指数与气温的关系;有人测算出教师工资增长与酒价上升是正相关;有人测算出小孩脚的大小与识字多少是正相关;有数据表明英国股票指数升降与一年半前的汽车销售量有相同的变化规律,相关系数达0.88 还有人做过测算,发现在美国经济学学位越高的人,收入越低,相关系数为负(要注意不正确的计算方法也会模糊对事物本质的

8、认识)。,即时思考:有数据显示世界各国平均每人拥有电视机数x及居民预期寿命y之间有很强的正相关,可否认为电视机很多的国家,居民预期寿命比较长?有人测试出火灾现场的消防员人数和该场火灾造成的损害之间有很强的正相关,可否认为派出的消防员越多造成的损害越大?,(二)相关关系的种类,单相关(一元相关):两个现象之间的相关 复相关(多元相关):两个以上现象之间的相关 正相关:现象之间的变化方向一致,即一个现象的数量增加或减少,另一个现象的数量随之增加或减少。负相关:现象之间的变化方向不一致,即一个现象的数量增加或减少,另一个现象的数量随之减少或增加。,直线(线性)相关:一个现象的数量每变动一个单位,另一

9、个现象随之每次都发生大致均等的变动,散点分布近似一条直线。曲线(非线性)相关:一个现象的数量每变动一个单位,另一个现象随之发生不均等的变动,散点分布近似某种曲线。,相关关系的种类,一元相关,多元相关,负相关,正 相 关,线性相关,曲线相关,x,y,正线性相关,x,y,负线性相关,x,y,曲线相关,x,y,不 相 关,进行相关分析的一般程序:,定性分析,定量分析,相关表和相关图,计算相关系数和判定系数,二、相关关系的测定,相关表是表现具有相关关系的现象(变量)之间数量取值的表格。一般将成对数据依其中一个变量按大小顺序排列,另一个变量对应排列而成。但仅能对现象作大体初步观测,当涉及多个影响因素时制

10、表较困难。相关图(散点图)将两现象(或多个现象)对应的样本观测值标绘到坐标轴上所作的图形称为散点图。,(一)相关表和相关图,能源消耗量与工业总产值的相关表,能源消耗量与工业总产值相关图,19个发达国家一年的葡萄酒消耗量以及一年中因心脏病死亡的人数资料(选自统计学的世界):,19个发达国家一年的葡萄酒消耗量以及一年中因心脏病死亡的人数的相关图,身高与足迹长度的相关图,(二)相关系数,(1)相关系数是对变量之间关系密切程度的度量;(2)总体相关系数:反映总体的相关程度,根据总体全部数据计算,通常用“”表示;样本相关系数:反映样本的相关程度,根据样本数据计算。(3)单相关系数:反映两个变量之间的相关

11、程度;复相关系数:反映两个以上变量之间的相关程度。(4)直线相关系数(通常简称为相关系数):反映变量之间直线相关关系的密切程度;曲线相关系数(也称为非线性相关系数或相关指数)反映变量之间曲线相关关系的密切程度。,(5)直线相关系数的取值范围是-1,1|r|=1,完全线性相关;r=0,没有线性相关-1r 0,负线性相关;0r 1,正线性相关|r|越趋于1表示两变量线性关系越密切;|r|越趋于0表示线性关系越不密切,0 0.4 0.7 1.0,相关程度的三级划分法(大样本):,不相关 低度相关 显著相关 高度相关 完全相关,根据样本数据计算样本相关系数的公式:,直线相关系数的计算,直线相关系数一般

12、用积差法公式测算,从公式可以看出,r的符号决定于分子。,直线相关的特点(1)两个变量是对等的,不必区分自变量和因变量;(2)只能计算出一个相关系数;(3)r只反映两个变量的直线关系密切程度,当r的绝对值很小,甚至为0,只表示它们之间没有直线相关关系,但有可能存在其它类型的相关关系。,相关系数的平方称为判定系数(可决系数),用 r2 表示;可用于判断回归方程的拟合优度。,案例研究:发生车祸次数与司机年龄有关吗?,作为交通安全研究的一部分,美国交通部采集了每1000个驾驶执照发生死亡事故的车祸次数和有驾驶执照的司机中21岁以下者所占比例的数据,样本由42个城市组成,在一年间采集的数据及散点图如下:

13、,每千个驾驶执照中发生车祸次数,每千个驾驶执照中发生车祸次数,每千个驾驶执照中发生车祸次数,每千个驾驶执照中发生车祸次数,EXCEL,(三)相关系数的显著性检验,1)检验总体X与Y之间的线性相关关系是否显著,即检验自变量X对因变量Y的线性影响是否显著;2)在一元线性回归中,等价于回归方程的显著性检验及回归系数的显著性检验;3)一般采用t 检验法(大样本也可用z 检验法),相关系数的检验,为什么要检验?样本相关系数是随抽样而变动的随机变量,相关系数的统计显著性还有待检验。检验的依据:如果x与都服从正态分布,在总体相关系数 的假设下,与样本相关系数 r 有关的 t 统计量服从自由度为n-2的 t

14、分布:,确定显著性水平,并作出决策 若t t,拒绝H0;若t t,不能拒绝H0,计算检验的统计量,提出假设:H0:;H1:0,检验步骤:,当n50:,拒绝原假设,认为总体的这两个变量(每千个驾驶执照中发生车祸的次数和有驾驶执照的司机中21岁以下者所占比例)之间线性相关显著。,对于前例:,第二节 一元线性回归分析,一、回归分析的意义(一)回归分析的含义回归分析法是借助数学方程,揭示具有相关关系的变量之间数量变化规律的统计分析方法;回归分析中的数学方程称为回归方程。变量之间的数量变化规律,是指当自变量发生一定量变化时,平均说来因变量会发生多大量的变化。,之所以强调“平均”,是因为如果给定自变量一个

15、值,因变量有若干值与之对应,这些值虽然表现出一定的随机性、波动性,但是又总是按一定的分布规律围绕因变量的均值(数学期望)上下波动,即对于自变量的某个确定值,因变量有一个平均值与之对应。这样现象之间数量不确定的相关关系,从平均意义上说已转变为确定的函数关系,从而为研究不确定关系提供了可能。,(二)回归分析和相关分析的联系和区别,联系,(1)都用于分析变量间的关系;(2)相关分析是回归分析的前提,相关程度越高,回归分析效果越好;(3)同一例中相关系数和回归系数方向一致,可以互相推算;r是回归分析的一个基本统计量。,区别,(1)单纯的相关分析不必区分自变量和因变量;而回归分析必须区分,且因变量处在被

16、解释的地位,自变量用于解释和预测因变量变化。(2)相关分析中x、y均为随机变量,回归分析中只有y为随机变量;(3)相关分析主要是描述变量之间有无相关关系、关系的方向、形态及密切程度;回归分析要通过回归方程揭示变量之间的数量变化规律。,(一)总体一元线性回归理论方程,该式确切地反映了Y与X之间密切的相关关系,但又没有到Y由X唯一确定的地步。,式中,是由于X的变化引起Y线性变化的部分;是除X的线性影响外的一切随机因素引起Y变化的部分(包括未列入模型但又共同影响Y的种种因素、X对Y的非线性影响以及Y变量的观测误差、随机误差等)。,二、一元线性回归方程的确定,总体回归理论方程是设想把所研究总体的每一个

17、个体(X,Y)的值都测量到,利用其全部结果而建立回归方程,这事实上办不到。只能通过n组样本观测值得到样本一元线性回归经验方程。,对 式两边求数学期望,,该式称为总体一元线性回归理论方程,从平均意义上表达了Y与X的统计规律性。,有:,(二)样本一元线性回归经验方程,因变量的估计值(回归理论值、预测值)。,a截距,回归直线的起始值,即自变量为0时因变量的回归估计值;从经济意义上理解,是在没有自变量的影响时,其它各种因素对因变量的平均影响。,b 回归系数(斜率),表示自变量x每变动一个单位引起因变量y的平均变动量。,估计参数的最小平方法(最小二乘法)(Least Square Method),按最小

18、平方法估计方程参数,要求满足两个条件:,若能满足第一个条件,第二个条件自然满足。,理想的回归线应该尽可能接近各个实际观察点。,只要对上式中a、b求偏导,并令其为0,,可以得到两个正规(标准)方程:,(1)样本回归直线必然通过数据散点中心(2)回归系数与相关系数的符号取决于x、y的协方差,且具有一定关系:,“发生交通事故与年龄有关吗”例,b表示有驾驶执照的司机中21岁以下者所占比例每增加1%,每千个驾驶执照中发生车祸的次数平均增加0.2867次。,EXCEL,三、回归估计的标准差,(一)回归估计标准差的概念和作用,大样本条件下,分母可用n代替。该指标反映因变量实际值与回归估计值之间的平均差异程度

19、,表明回归估计值对实际值的代表性强弱。其值越小,实际值与估计值的平均差异程度越小,估计值(或回归方程)的代表性越强,进行估计或预测的结果越准确。,都是反映平均差异程度和表明代表性的指标一般标准差反映实际值和平均值的差异程度,表明平均值的代表性;回归估计标准差反映实际值和估计值的差异程度,表明估计值的代表性。,(二)回归估计标准差与一般标准差的异同,1、总离差的分解,(三)回归估计标准差与相关系数的关系,离差分解图,y实际取值与其平均数 之间的离差称为总离差。,总离差来源于两个方面:一是由于自变量 x对y的线性影响;一是除x以外的其他因素(包括x对y的非线性影响及测量误差等)对y的影响。,对一个

20、具体的观测值来说,总离差的大小可以通过该实际观测值与其均值之差来表示:,总离差=剩余离差+回归离差,对上式两端平方求和整理以后有:,总离差平方和=剩余平方和+回归平方和,总离差平方和(SST):反映因变量n 个观察值与其均值的总离差 回归平方和(SSR)可解释的平方和:反映自变量 x 的变化对因变量 y 取值变化的线性影响,即x与y之间的线性关系引起的y取值的变化。残差(剩余)平方和(SSE)不可解释的平方和:反映x 的线性影响以外及x 以外的其他因素对 y 取值的影响,2、判定系数及其意义,说明观察值的总离差平方和中有多大的比例可以用回归直线来解释。即因变量的变动中由自变量做出解释的部分,或

21、者说由自变量变化所引起因变量的变化在因变量的全部变化中所占的比例。,定义,为判定系数,(1)取值范围:0,1(2)作用:反映回归直线的拟合程度,其值越1,回归直线拟合效果越好;反之越差;(3)和相关系数的关系:r2(r)2,因此判定系数可间接衡量变量之间的线性相关程度。,3、相关系数与回归估计标准差的关系,或:,相关系数直接说明变量间的线性关系密切程度,间接说明回归估计的精确程度;回归估计标准差直接说明回归估计的精确程度,间接说明变量间的线性关系密切程度。,第三节 线性回归的显著性检验及回归预测,一、回归系数的显著性检验(t检验),检验总体 x 与 y 之间是否具有线性关系,即检验总体自变量

22、x 对因变量 y 的影响是否显著。在一元线性回归分析中,等价于回归方程的显著性检验;但在多元回归分析中,回归方程显著,不等于每个回归系数都显著。检验的理论基础是回归系数的估计量的抽样分布。通常采用 t 检验法。,检验步骤,H0:b=0;其意为总体回归系数显著为0,即总体自变量对于因变量的线性影响不显著,x 与 y 之间没有线性关系,据以进行回归分析没有意义,样本回归方程无效;H1:b 0;总体回归系数显著不为0,总体自变量对于因变量的线性影响显著,x 与 y 之间存在线性关系,据以进行回归分析有意义,样本回归方程有效。,1、提出假设:,2、计算检验的统计量,式中,为回归估计标准差,为b的抽样平

23、均误差(估计量的标准差);,3、确定显著性水平 和临界值,或计算P-值4、进行决策:t t(n-2)或P-值,拒绝H0;反之,不能拒绝H0。,前例,在=0.05的显著性水平下,可计算得:,拒绝H0,总体回归系数显著不为0,说明总体两变量(每千个驾驶执照中发生死亡事故的车祸次数和有驾驶执照的司机中21岁以下者所占比例)之间的线性影响关系是显著的,样本回归方程是有效的。,1、提出假设:,二、回归方程的显著性检验(f检验),2、确定检验统计量:,3、确定显著性水平,找出临界值F(1,n-2)或计算P-值;,4、作出决策:若FF 或P-值,拒绝H0;反之不能拒绝H0。,检验统计量中,分子的方差(回归平

24、方和除以其自由度1)是x对y的线性影响所产生的;分母的方差(剩余平方和除以其自由度n-2)是除去x的线性影响外的其他因素及随机因素所产生的。分子越大,二者的比值F值就越大,说明x对y的线性影响就越大,变量间线性相关性越显著;若x对y无影响,则 F=0,故F分布是以0为原点的右偏斜分布;检验是右侧检验。,检验与 t 检验的一致性,在一元线性回归分析中,回归方程的检验等价于回归系数的检验。对于同一样本资料,检验与 t 检验的结果完全一致,有:但多元回归中,二者有所不同(略)。,EXCEL,对于前例,,在=0.05的显著性水平下,可计算得:,拒绝H0,总体回归系数显著不为0,说明总体两变量(发生死亡

25、事故的车祸次数和司机中21岁以下者所占比重)之间的线性关系是显著的,所拟合的线性回归方程具有95的置信概率。,三、回归预测,1、就是根据自变量 x 的一定值来估计或预测因变量 y 的可能值;经检验认为有意义的回归方程,可进行内插预测。2、估计或预测的类型点预测:给定x=xo,因变量 y 对应的点预测为:,区间预测:在1-置信水平下,因变量 y 对应的预测区间为,大样本的置信区间,小样本的置信区间,*影响估计区间宽度的因素,1、置信水平1-:区间宽度随置信水平1-的增大而增大;2、回归估计标准差(Se):区间宽度随变量间离散程度的增大而增大;3、样本容量 n:区间宽度随样本容量的增大而减小;4.

26、用于预测的 xo与x 的差异程度:区间宽度随xo与x 的差异程度的增大而增大。,3、如果两个变量是互为因果关系的,要反映y对于x的线性影响关系,根据y的确定值估计x,应另外建立y倚x的回归方程:,而不能根据,倒推。,应用回归估计(预测)时注意:1、内插效果优于外推效果,不宜外推太远;2、用于拟合回归方程的数据不能太少;,因变量 y 与 x 之间不是线性关系;可通过变量代换转换成线性关系;用最小二乘法求出参数的估计值并非所有的非线性模型都可以化为线性模型,第四节可线性化的回归方程,一、可线性化的常用曲线类型,两端取对数得:lny=ln+x令:y=lny,则有y=ln+x,指数函数(Exponent),幂函数(Power),基本形式:,线性化方法两端取对数得:log y=log+log x令:y=logy,x=log x,则y=log+x,双曲线函数(Inverse),令:y=1/y,x=1/x,则有y=+x,对数函数(Logarithm),x=logx,则有y=+x,说明变量间的非线性相关程度,当两变量为完全线性相关时,该相关指数公式等同于积差法相关系数公式。相关指(系)数的取值范围:,二、非线性相关系数(相关指数)和判定系数,非线性相关系数不能判明现象的相关方向,用于测定直线相关时,符号由回归系数或定性分析确定,非线性判定系数,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号