统计学原理第八章相关与回归分析ppt课件.pptx

上传人:牧羊曲112 文档编号:1467666 上传时间:2022-11-28 格式:PPTX 页数:53 大小:340.11KB
返回 下载 相关 举报
统计学原理第八章相关与回归分析ppt课件.pptx_第1页
第1页 / 共53页
统计学原理第八章相关与回归分析ppt课件.pptx_第2页
第2页 / 共53页
统计学原理第八章相关与回归分析ppt课件.pptx_第3页
第3页 / 共53页
统计学原理第八章相关与回归分析ppt课件.pptx_第4页
第4页 / 共53页
统计学原理第八章相关与回归分析ppt课件.pptx_第5页
第5页 / 共53页
点击查看更多>>
资源描述

《统计学原理第八章相关与回归分析ppt课件.pptx》由会员分享,可在线阅读,更多相关《统计学原理第八章相关与回归分析ppt课件.pptx(53页珍藏版)》请在三一办公上搜索。

1、,2022/11/28,2022/11/28,2,第八章 相关与回归分析,相关关系的概念及特点,(一)函数关系 函数关系是指现象之间存在着严格的数量依存关系。 (二)相关关系 相关关系是指现象间存在着不完全确定的数量依存关系。 1相关关系的特点 (1)相关关系表现为数量上的相互依存关系。 (2)相关关系在数量上表现为非确定性的相互依存关系,2022/11/28,3,2022/11/28,4,现象之间的关系一般可以区分为两种不同的类型:,函数关系:当一个或几个变量取一定值时,另一个变量有确定值与之相对应,这种关系称为确定性的函数关系。 在函数关系中,一般把作为影响因素的变量称为自变量(x);把发

2、生对应变化(结果)的变量称为因变量(y)。相关关系:当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但仍按某种规律在一定的范围内变化。变量间的这种相互关系,称为具有不确定性的相关关系。,2022/11/28,5,函数关系与相关关系是两种不同类型的关系,但两者之间并不存在严格的界限。,由于在观察或实验中出现的误差,函数关系也就通过相关关系反映出来;而当对现象之间的内在联系和规律性了解得更加清楚的时候,相关关系就可能转化为函数关系。在相关关系中,通常存在一定的因果关系。但也应该知道,在相关关系中,有时两个变量之间只存在相互联系而并不存在明显的因果关系。,相关关系的种类,

3、(一)按照相关的变量(因素)的多少,可分为单相关、复相关 1单相关 单相关,也称一元相关,是指两个变量之间的相关关系。如广告费用与产品销售量之间的相关关系。 2复相关 复相关,也称多元相关,是指三个或三个以上变量之间的相关关系,如商品销售额与居民收入、商品价格之间的相关关系。,2022/11/28,相关关系的种类,(二)按照相关的形式,可分为线性相关和非线性相关 1线性相关 线性相关,也称直线相关,是指当一个变量变动时,另一变量随之发生大致均等的变动。从图形上看,其观察点的分布近似地表现为一条直线,例如,人均消费水平与人均收入水平通常呈线性相关。 2非线性相关 非线性相关,也称为曲线相关。即一

4、个变量变动时,另一变量也随之发生变动,但这种变动不是均等的,从图形上看,其观察点的分布近似地表现为一条曲线,如抛物线、指数曲线等。,2022/11/28,相关关系的种类,(三)按照相关关系变化的方向不同,可分为正相关和负相关 1正相关 正相关是当一个变量值增加或减少时,另一个变量的值也会随之而增加或减少。如家庭人均收入的提高,会使家庭支出也随之提高;如果家庭收入降低,家庭支出通常也会相应降低。 2负相关 即当一个变量的值增加或减少时,另一变量的值随之减少或增加。如随着产量的增加,单位成本会随之下降;而随着产量的下降,单位成本也会相应提高。,2022/11/28,相关关系的种类,(四)按相关程度

5、,可分为完全相关、不完全相关和完全不相关 1完全相关 即当一个变量的数量完全由另一个变量的数量变化所确定时,两者之间即为完全相关。例如,在价格不变的条件下,销售额与销售量之间的关系即为函数关系。 2不相关 即当变量之间彼此互不影响,其数量变化各自独立,则变量之间为不相关。例如,学生的学习成绩与企业的单位成本之间的关系。 3不完全相关 即两个现象介于完全相关和不相关之间,大多数相关关系属于不完全相关。,2022/11/28,相关分析的主要内容,(一)确定现象之间有无相关关系(二)确定相关关系的表现形式(三)判定相关关系的密切程度和方向其主要方法是绘制相关图表和计算相关系数。,2022/11/28

6、,2022/11/28,11,四、相关表和相关图,相关表是能够反映两个或两个以上变量之间的相互关系的统计表式。 P176当观察的单位数目较少时,通过整理以后就可以用普通的表式将资料一一对照起来,而当观察的单位数目较多且标志的变异又较为复杂时,则需要将资料进行分组,编制特殊的相关表。由于相关分析是研究两个或两个以上标志的关系,因此,需要细心地确定组距和组数以使二者的关系能在表式中明显地反映出来。,相关表是一种反映变量之间相关关系的统计表。它包括简单相关表、单变量分组表和双变量分组表。 (一)简单相关表简单相关表是将相关的两个变量的变量值一一对应地填列在同一张表格上,这样的表格叫简单相关表。 (二

7、)单变量分组相关表单变量分组相关表是对自变量进行分组,因变量不分组,只是计算出次数和平均数这种表格称为单变量分组相关表。 (三)双变量分组相关表双变量分组相关表是将自变量和因变量都进行分组编制成的统计表称双变量分组相关表。,2022/11/28,相关图(Scattor Diagram)又叫散布图,指把两个变量之间的相关关系,用直角坐标系表示的图表。对于既相关又不完全确定的关系,就称为相关关系。人们应用画相关图,求出相关系数的方法来确定两个量之间的相关关系,就称为相关分析。 而当确定了相关关系之后,再用 统计检验与估计的方法对相关系数进行判断并求出回归方程的作法,称为回归分析 。,2022/11

8、/28,2022/11/28,14,可支配收入,消费支出,(二)、消费与收入的相关图,居民消费和收入的相关表 单位:百元,相关图的形式,2022/11/28,(6) 无相关,(5) 曲线相关,(4) 负弱相关,(3)负强相关,(2)正弱相关,1)正相关,相关系数 P179,相关系数是最早由统计学家卡尔皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,一般用字母 r 表示。由于研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔逊相关系数。相关表和相关图可反映两个变量之间的相互关系及其相关方向,但无法确切地表明两个变量之间相关的程度。相关系数是用以反映变量之间相关关系密切程度的统计指标。

9、相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。,2022/11/28,(二)相关系数的种类 1简单相关系数简单相关系数,是描述呈线性相关的两个变量之间密切程度及相关方向的指标。 2复相关系数复相关系数,是测量一个因变量y与其他多个自变量x1、x2、x3xp之间线性相关程度的指标。 3曲线相关系数曲线相关系数,也称相关指数,是衡量非线性关系密切程度的指标。4偏相关系数在多元相关分析中,在消除其他变量影响的条件下,所计算的某两变量之间的相关系数。,2022/11/28,2022/11/28,18,2 相关分析,相

10、关系数:用于判断线性相关关系。用积差法进行计算。相关指数:用于判断所有相关关系,包括线性和非线性的相关关系。但要用回归系数b判别其相关方向。,19,一、相关系数,(二)相关系数的计算 1相关系数的计算公式(1)积差法(2)简捷法,20,第二节 相关关系的测定,一、相关系数,(二)相关系数的计算 2简单相关系数的取值范围 第一,当r0时,表示两个变量呈正相关,当r0时,表示两变量负相关。 第二,当r=1或r=-1时,表明两变量之间为完全的相关,即为函数关系。 第三,当r=0时,表明两变量之间没有相关关系。如果r =0,则表明两个现象之间完全没有直线相关关系。(但并不表明两个现象之间没有非线性相关

11、) 第四,当时0r1,表明两变量存在一定程度的直线相关关系。且越接近于1,两变量间相关关系越密切;越接近于0,表明两变量之间相关关系越弱。 第五,相关的密切程度一般可以划分为三个级别:无相关;低度相关;中度相关;高度相关。相关系数的绝对值 r 在0.3以下是无直线相关,在0.30.5是低度直线相关,在0.50.8是显著相关,0.8以上是高度相关。,21,第二节 相关关系的测定,一、相关系数,(三)应用相关系数时要注意的问题 首先,相关系数只适合于测定两个变量的线性相关的密切程度,如果计算结果数值很小,并非就说明二者之间没有相关关系或相关程度很低,也许现象之间还存在着其它形式的相关关系。 其次,

12、相关系数有一个明显的缺点,即它的数值与实际观测的数据组数有关,当n较小时,相关系数的波动较大,当n较大时,相关系数的绝对值容易偏小;特别是当n=2时,相关系数的绝对值总为1。因此在样本容量n较小时,我们仅凭相关系数较大就判定变量之间的关系密切程度也是不妥当的。,2022/11/28,22,3 一元线性回归分析,在相关分析中,已知两个变量之间有直线相关关系。就需要确定一个数学表达式反映因变量与自变量之间的关系。有了这种数学表达式就便于进行解析,当有了自变量的一定数值,就可以估计因变量的数值平均来说将会有怎样的变动。这样的数学表达式称为回归方程式。由于变量之间关系的复杂性,回归方程式也有多种类型和

13、形式。一元线性回归方程式是指一个自变量且相关形式为直线。,23,第三节 回归分析的基本问题,一、回归分析的含义,回归分析就是对具有相关关系的两个或两个以上变量之间的数量变化关系进行测定,建立因变量和自变量之间数量变动关系的数学表达式(回归方程),以便利用自变量的数值去估计或预测因变量数值的统计分析方法。回归分析的基本思想是:根据现象间相关关系的形态,配合一条最合适的直线或曲线,用这条直线或曲线,反映它们之间数量变化的一般关系,即当自变量给定一个数值时,因变量一般为多少。,24,第三节 回归分析的基本问题,二、回归分析与相关分析的关系,(一)回归分析与相关分析的区别 1.在相关分析中涉及的变量不

14、存在自变量和因变量的划分问题,变量之间的关系是对等的;而在回归分析中,变量之间的关系是不对等的。 2.在相关分析中所有的变量都必须是随机变量;而在回归分析中,自变量是给定的,因变量才是随机的。 3.相关分析主要是通过一个指标即相关系数来反映变量之间相关密切程度的大小,由于变量之间是对等的,因此相关系数是惟一确定的;而在回归分析中,对于互为因果关系的两个变量,则有可能存在两个回归方程。当x为自变量、y为因变量时,称y倚x的回归方程,当y为自变量、x为因变量时,称x倚y的回归方程。,25,第三节 回归分析的基本问题,二、回归分析与相关分析的关系,(二)回归分析与相关分析的联系 相关分析是回归分析的

15、基础和前提,回归分析则是相关分析的深入和继续。,26,第三节 回归分析的基本问题,三、回归分析的主要内容,(一)根据研究的目的和现象之间的内在联系,确定自变量和因变量(二)确定回归分析模型的类型及数学表达式(三)对回归分析模型进行评价和诊断(四)根据给定的自变量数值推断因变量的数值,27,第三节 回归分析的基本问题,四、回归分析的种类,(一)按相关关系的变量多少来分,可分为一元回归分析和多元回归分析 1一元回归分析 一元回归分析是指只有一个自变量和一个因变量的回归分析。例如,对学习时间与学习成绩两个变量进行回归分析,这两个变量中,学习时间为自变量,也是解释变量,是现象变化的原因;学习成绩为因变

16、量,是被解释变量,是自变量发生变化所带来的结果。这是两个变量之间的回归分析,只有学习时间一个自变量。 2多元回归分析 多元回归模型是指对多个自变量和一个因变量的回归分析。例如,分析研究农作物亩产量与施肥量、浇水量、温度等因素的关系。,28,第三节 回归分析的基本问题,四、回归分析的种类,(二)按相关的形式不同,可分为线性回归分析和非线性回归分析 1线性回归分析 当相关变量之间的表现形式为线性相关时,为其拟合的直线回归方程所进行回归分析称为线性回归分析。 2非线性回归分析 当变量之间的表现形态为曲线相关时,为其拟合的曲线方程所进行回归分析称为非线性回归分析。,29,第四节 一元线性回归方程,一、

17、一元线性回归方程的建立,一元线性回归方程又称简单线性回归方程,它是根据成对的两个变量的样本数据,配合直线方程,并根据自变量的变动,来推算因变量发展趋势和水平的一种数学关系式。,2022/11/28,30,对研究线性关系来说,回归方程式应当满足这样的要求:,根据方程所确定的估计值 应能代表所有观察值y的全体,而按照 求出的估计直线与各观察点之间应达到最大限度的接近,也就是说,用这条直线来代表y与x的关系,它和实际数据的误差比任何其他直线都小,这样一来,根据回归方程所求的直线就是反映y与x之间的关系的较为合理的一条直线。,最小二乘估计(method of least squares ),德国科学家

18、Karl Gauss(17771855)提出用最小化图中垂直方向的误差平方和来估计参数 使因变量的观察值与估计值之间的误差平方和达到最小来求得 和 的方法。即,用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小,Karl Gauss的最小化图,x,y,(xn , yn),(x1 , y1),(x2 , y2),(xi , yi),最小二乘法 ( 和 的计算公式), 根据最小二乘法,可得求解 和 的公式如下,2022/11/28,34,利用最小二乘法估计待定系数a和b:,a:是截距,表示当x等于0时, ; b:是斜率,表示x每增加一个单位时, 所平均增加的数值。 也是

19、回归系数,它与相关系数 r 的取值方向一致: b为正值时,r为正,表示正相关; b为负值时,r为负,表示负相关。,35,第四节 一元线性回归方程,二、一元线性回归方程的拟合优度,1判定系数 拟合优度通常用判定系数来衡量。判定系数是对估计的回归方程拟合优度进行判定的一个指标,也称可决系数、决定系数。 判定系数是回归模型对样本观测值拟合程度的综合度量,判定系数越大,回归方程对样本观测值的拟合程度越高;判定系数越小,则回归方程对样本观测值的拟合程度越差。,变差,因变量 y 的取值是不同的,y 取值的这种波动称为变差。变差来源于两个方面由于自变量 x 的取值不同造成的除 x 以外的其他因素(如x对y的

20、非线性影响、测量误差等)的影响对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差 来表示,误差的分解(图示),x,y,误差平方和的分解 (三个平方和的关系),SST = SSR + SSE,误差平方和的分解 (三个平方和的意义),总平方和(SSTtotal sum of squares)反映因变量的 n 个观察值与其均值的总误差回归平方和(SSRsum of squares of regression)反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和残差平方和(SSEsum of squa

21、res of error)反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和,判定系数R2 (coefficient of determination),回归平方和占总误差平方和的比例,反映回归直线的拟合程度取值范围在 0 , 1 之间 R2 1,说明回归方程拟合的越好;R20,说明回归方程拟合的越差判定系数等于相关系数的平方,即R2r2,回归方程的检验,1、理论意义检验2、一级检验统计学检验:拟合优度和显著性 P1843、二级检验计量经济学检验:自相关、异方差,2022/11/28,2022/11/28,42,4 估计标准误差与相关指数,回归方程反映了因变量与自

22、变量之间的变动关系。但它本身并不能反映拟合程度的好坏,在建立方程之后,需要进一步分析估计直线的代表性,所有观察点与估计值之间的离差程度等,这就需要建立一些指标来加以测定。,2022/11/28,43,二、估计标准误差:,2022/11/28,44,从定义上看,它是观察值y与估计值y的平均离差。,在回归分析中,Sq则反映了所有观察值y对估计值y的平均差异程度。从回归方程的意义中知道,对给定的自变量x值,观察值y并非总在回归直线上,而是分布在它的周围,这样就必然形成一定的离差。从直观上看,它反映的是观察值y与估计值y之间的离差,而在它的背后则是反映由自变量x来估计因变量y时所产生的误差。若是这个离

23、差的值愈小,即按照给定的x值来估计y的误差愈小,因而y的准确程度愈高;相反,若是这个离差的值愈大,从直观上看就是各观察点离开直线愈远,这时按给定的x值来估计y值,其误差就愈大,因而y的准确程度降低。从这个意义上说,这个标准离差通称为回归估计标准误差。作用: 第一,说明以回归直线为中心的所有相关点的离散程度。 第二,说明回归方程的代表性大小。 第三,可以对因变量的值进行区间估计。,45,第四节 一元线性回归方程,三、回归分析的预测方法,(一)点估计 点估计就是将给定的自变量x代入回归方程求出y的估计值。(二)区间估计 回归分析的区间估计是在一定的概率下,给出一个自变量x,然后利用回归方程,推断出

24、因变量y的估计值的区间范围的预测方法。 估计值的区间为:,46,第四节 一元线性回归方程,四、相关与回归分析中应注意的问题,(一)进行相关分析要以现象客观存在的相关关系为基础(二)回归方程、相关系数和回归误差应结合起来应用(三)应用相关分析进行预测要注意其他有关现象所产生的作用(四)注意社会经济现象的复杂性(五)注意相关系数的应用条件,47,第五节 多元线性回归方程,一、多元线性回归方程的建立,多元回归分析可以分为多元线性回归分析和多元非线性回归分析,我们在这里,只讨论多元线性回归的问题。,48,第五节 多元线性回归方程,二、常见的非线性回归方程的建立,(一)指数曲线回归方程的建立 当现象之间

25、呈指数曲线的相关形式时,我们可以为之配合指数曲线回归方程。 指数曲线回归方程为: 其中,a和b是两个待定参数。,49,第五节 多元线性回归方程,二、常见的非线性回归方程的建立,(二)抛物线回归方程的建立 当现象呈抛物线相关形式时,我们可以为其配合抛物线回归方程。 抛物线的回归方程为: 其中,a、b和c是两个待定参数。P186,2022/11/28,50,三、相关分析与回归分析:这是两种研究现象相关关系的基本方法。,(一)、相关分析 所谓相关分析,就是用一个指标来表明现象间相互依存关系的密切程度。(二)、回归分析 所谓回归分析,就是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量

26、间的平均变化关系。,2022/11/28,51,(三)、相关分析与回归分析的联系,相关分析与回归分析不仅具有共同的研究对象,而且在具体应用时,常常必须相互补充。相关分析需要依靠回归分析来表明现象数量相关的具体形式。回归分析需要依靠相关分析来表明现象数量变化的相关程度。只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式才有意义。因此,相关分析与回归分析被合称为广义的相关分析。,2022/11/28,52,(四)、相关分析与回归分析的区别:,研究目的不同: 相关分析是研究变量之间相关的 方向、相关程度和相关形式。 回归分析是研究变量之间相互关系的具体形式,即:当一个变量发生数量上的变化时,另一个变量平均会发生什么样的变化。研究方法不同: 相关分析是通过计算相关系数或相关指数来判断变量之间的相关关系。 回归分析是通过数学模型来确定变量之间的具体的数量关系。变量的性质不同:在相关分析中,不用确定谁是自变量,谁是因变量,且所有变量都是随机变量。 在回归分析中,必须事先确定在具有相关关系的变量中,谁是自变量和谁是因变量。一般来说,自变量是给定的非随机变量(一般变量),因变量是随机变量。,2022/11/28,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号