《第8章-相关分析与回归分析课件.ppt》由会员分享,可在线阅读,更多相关《第8章-相关分析与回归分析课件.ppt(54页珍藏版)》请在三一办公上搜索。
1、第八章 相关与回归分析,“回归分析”的起源“回归”是由英国著名生物学家兼统计学家高尔顿(Galton)在研究人类遗传问题时提出来的。为了研究父代与子代身高的关系,高尔顿搜集了1078对父亲及其儿子的身高数据。他发现这些数据的散点图大致呈直线状态,也就是说,当父母越高或越矮时,子女的身高会比一般儿童高或矮,他将子女与父母身高的这种现象拟合出一种线形关系,分析出子女的身高y与父母的身高x大致可归结为以下关系:y=33.73+0.516*x(单位:英寸),有趣的是,通过观察,高尔顿还注意到,尽管这是一种拟合较好的线形关系,但仍然存在例外现象:矮个父母所生的子女比其父母要高,身材较高的父母所生子女的身
2、高却回降到其家族的平均身高。换句话说,当父母身高走向极端,子女的身高不会象父母身高那样极端化,其身高要比父母们的身高更接近平均水平,即有“回归”到平均数的趋势,这就是统计学上最初出现“回归”时的涵义,高尔顿把这一现象叫做“向平均数方向的回归”。,本章内容,第一节 相关分析第二节 一元线性回归,第一节相关分析,1.函数关系 即:客观现象之间存在的相互依存的确定性的数量关系。(一一对应的确定关系)特征:在这个关系中,当中一个或多个表述现象的数量(自变量)发生变化时,另一个表述现象的数量(因变量)按照一定的规律有确定的数值与之对应,可以用数学表达式描述这种关系。例:圆的面积与半径的关系、价格一定时,
3、商品销售额与销售量的关系,一、函数关系与相关关系,2.相关关系(1)概念:相关关系是指经济现象之间客观存在的在数量上不是确定性的对应关系。特征:某一现象或多个现象与另一有联系的现象之间在数量上存在着一定的依存关系,但不是确定和严格的数量关系。例:居民的月可支配收入和消费支出的关系、子女身高与父母身高之间的关系、人的收入水平与受教育程度之间的关系,二、相关关系的种类,三、相关关系的描述与度量1.散点图 使用相关分析解决实际问题时,通常通过绘制两个变量之间的散点图,初步直观地判断变量之间相关关系的类型、方向和强弱程度。,各类相关关系的散点图,(e)非线性相关,(d)完全负线性相关,(c)完全正线性
4、相关,例1:某地区某企业近8年产品产量与生产费用的相关情况如下表所示:,用EXCEL绘制相关图如下,2.相关系数,相关系数是测度线性相关关系方向与强弱程度的常用方法,因此也叫线性相关系数。相关系数分为两种:一种是总体相关系数,用于测度两个总体变量之间真实的线性相关程度,一般以下相关系数计算公式为:,总体相关系数:,另一种是样本相关系数。由于总体相关系数通常是未知的。所以我们一般用样本相关系数作为总体相关系数的近似估计值。样本相关系数r的计算公式为:,3.相关系数的特点(1)当r的取值范围是:若,表明x与y之间存在正线性相关关系;若,表明x与y之间存在负线性相关关系;若r=+1,表明x与y之间为
5、完全正线性相关关系;若r=-1,表明x与y之间为完全负线性相关关系;即 时,x与y 之间为函数关系。当r=0时,x与y之间不存在线性相关关系。,对于一个具体的r的取值,根据经验可将相关程度分为以下几种情况:当 时,可视为高度相关;当 时,可视为中度(显著)相关;当 时,视为低度相关;当 时,可视为微弱相关(不相关)。,(2)r具有对称性,。(3)r仅仅是与x和y 之间线性关系的一个度量,它不能用于描述非线性关系。(4)r 虽然是两个变量之间线性关系的一个度量,却不一定意味着x与y一定有因果关系。,4.相关系数检验,由于r 是根据样本数据计算出来的,所以它会受到抽样波动的影响。由于抽取样本的不同
6、,r 的取值也就不同,因此r 是一个随机变量,我们能否根据样本相关系数说明总体的相关程度呢?这就需要考察样本相关系数的可靠性,也就是进行显著性检验。,第二节 一元线性回归,一、回归分析的概念,(一)回归分析的概念 回归分析实际上是相关现象间不确定、不规则的数量关系的一般化、规律化。回归分析采用的方法是配合直线或曲线来反映现象之间的一般数量关系。这条直线或曲线叫回归直线或回归曲线,它们的方程称为回归直线方程或回归曲线方程。,回归分析是对具有相关关系的现象根据其相关形式,选择合适的数学模型(回归方程),近似地描述变量间的平均变化关系的一种统计分析方法。,(二)回归分析与相关分析的关系,1.区别(1
7、)相关分析所研究的两个变量是对等关系。回归分析所研究的两个变量不是对等关系,必须根据研究目的,确定自变量和因变量。(2)相关分析只能计算一个相关系数,改变自变量和因变量的地位不影响相关系数的数值。回归分析可以根据研究目的分别建立不同的回归方程。(3)相关分析中两个变量都必须是随机变量。回归分析中自变量是给定的变量,因变量是随机变量。,2.回归分析与相关分析的联系(1)相关分析是回归分析的基础和前提。如果缺少相关分析,没有从定性上说明现象间是否存在相关关系及相关关系的密切程度,就无法进行回归分析。(2)回归分析是相关分析的深入和继续。仅仅说明现象间具有密切的相关关系是不够的,只有进行回归分析,拟
8、合回归方程,才可能进行深入分析和回归预测,相关分析才有实际应用价值。,二、回归分析的种类,三、一元线性回归分析,(一)一元线性回归分析的含义与特点1.含义 2.特点(1)模型中包含两个变量,自变量和因变量。(2)变量之间的变化规律近似于线性关系。,包含两个变量且变量之间关系为线性的回归分析称为一元线性回归分析。,(二)一元线性回归模型,1一元线性回归模型的确定一元线性回归模型可表示为:其中:,(1)因变量y与自变量x之间具有线性关系;(2)在重复抽样中,自变量x的取值是固定的,即假定x是非随机的;(3)误差项 是一个期望值为0的随机变量,即;(4)对于所有的x值,的方差 都相同;(5)误差项
9、是一个服从正态分布的随机变量,且独立,即,上述模型称为理论回归模型,对该模型有以下几个主要假定:,2、总体回归方程(总体回归函数)描述因变量y的期望值如何依赖于自变量x的方程称为回归方程。一元线性回归方程的形式为:该方程也叫直线回归方程。,由于总体回归参数 是未知的,所以需要用样本数据去估计它们。那么用样本统计量 代替回归方程中的未知参数,这时就得到了样本回归方程。对于一元线性回归,样本的回归方程形式为:,3、样本回归方程(样本回归函数),(三)一元线性回归模型参数的估计,最小二乘估计 最小二乘法也称最小平方法,它是由德国科学家卡尔高斯提出的。该方法主要是通过使因变量的观察值 与估计值 之间的
10、离差平方和达到最小,从而来估计 的。即:使得 最小。,令,根据最小二乘法,使Q最小根据微积分的极值定理,需要对Q求相应于 的偏导数,并使其等于0,便可求出,即:,解上述方程,得参数 的最小二乘估计为:,例2:某地区某企业近8年产品产量与生产费用的相关情况如下表所示:,解:设回归方程为:x为产量,为生产费用,计算如下:故有制造费用对产量的回归方程,问题:以产量为自变量,以生产费用为因变量,求出估计的回归方程。,EXCEL输出的回归分析结果:,(四)一元线性回归模型的检验,1、拟合优度检验拟合优度:回归直线与各观测点的接近程度称之为。为说明直线的拟合优度,需要计算判定系数:判定系数定义:回归平方和
11、占总平方和的比例,记为。判定系数测度了回归直线对观测数据的拟合程度。,公式性质:;越接近于1,表明用x的变化解释y值变动的部分就越多,回归直线的拟合度就越好;反之,越接近于0,回归直线的拟合程度就越差。,2、回归系数的检验 即检验自变量x对因变量y的影响是否显著的检验。从形式上即检验回归系数 是否等于0。如果 不显著等于0,就说明x对y有显著性影响,在一元线性回归模型中,也就表示x和y之间存在线性关系。因此在一元线性回归模型中,对回归系数的显著性检验,等价于模型线性关系的显著性检验。,检验的具体步骤如下:(1)提出原假设和备择假设。(2)计算检验统计量:(3)明确拒绝域,(4)进行决策 若,则
12、拒绝原假设,表明模型通过检验,认为x对y有显著性影响;若,则不拒绝原假设,表明模型没有通过检验,认为x对y没有显著性影响。,例3:对例2中的一元线性回归模型进行回归系数的显著性检验。解:(1)提出原假设和备择假设。(2)计算检验统计量:,(3)确定显著性水平,查表得(4)进行决策,所以拒绝原假设,表明该模型通过检验,认为x对y有显著性影响。,(五)一元线性回归模型的应用,1、对现实的经济意义 回归方程 表明:当自变量x 每增加1个单位时,因变量 则平均增加 个单位。试简述例2回归方程的经济意义。,2、利用回归方程进行估计和预测,即根据自变量 x 的取值估计或预测因变量 y的取值。估计或预测的类
13、型点估计y 的平均值的点估计y 的个别值的点估计区间估计y 的平均值的置信区间估计y 的个别值的预测区间估计,2.点估计值有y 的平均值的点估计y 的个别值的点估计3.在点估计条件下,平均值的点估计和个别值的的点估计方法是一样的,但在区间估计中则不同,对于自变量 x 的一个给定值x0,根据回归方程得到因变量 y 的一个估计值,点估计,区间估计,点估计值与实际值之间是有误差的,但是点估计不能给出估计的精度,因此需要进行区间估计。对于自变量 x 的一个给定值 x0,根据回归方程得到因变量 y 的一个估计区间区间估计有两种类型置信区间估计预测区间估计,(1)置信区间估计,y 的平均值的置信区间估计 利用估计的回归方程,对于自变量 x 的一个给定值 x0,求出因变量 y 的平均值E(y0)的估计区间,这一估计区间称为置信区间。E(y0)在1-置信水平下的置信区间为:,(式中:Sy为估计标准误差),(2)预测区间估计,y 的个别值的预测区间估计 利用估计的回归方程,对于自变量 x 的一个给定值 x0,求出因变量 y 的一个个别值的估计区间,这一区间称为预测区间。y0在1-置信水平下的预测区间为:,EXCEL输出的回归分析结果:,