《回归分析和相关分析.ppt》由会员分享,可在线阅读,更多相关《回归分析和相关分析.ppt(40页珍藏版)》请在三一办公上搜索。
1、第八章 相关与回归分析,第一节 相关与回归分析的基本概念第二节 相关分析第三节 一元线性回归分析第四节 可化为线性回归的非线性回归模型第五节 多元线性回归分析简介,2023/9/7,1,第一节 相关与回归分析的基本概念,一.函数关系和相关关系变量之间的关系可有两大类:确定性关系(函数关系)和不确定性关系(相关关系):确定性关系:变量之间存在确定性依存关系,即当一个或几个变量取一定的值时,另一个变量有确定值与之相对应。不确定性关系:变量之间确实存在数量上依存关系但关系数值并不确定,即当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化。,
2、2023/9/7,2,第一节 相关与回归分析的基本概念,产生相关关系的原因很多,主要有:1.存在计量或观测误差。2.影响变量y取值的因素不止一个变量。3.变量间的关系是通过其他因素反映出来的。,2023/9/7,3,第一节 相关与回归分析的基本概念,二.相关关系的种类1.按相关的程度可分为完全相关、不完全相关和不相关2.按相关的方向可分为正相关和负相关3.按相关的形式可分为线性相关和非线性相关4.按所研究的变量多少可分为单相关、复相关和偏相关,2023/9/7,4,第一节 相关与回归分析的基本概念,三.相关分析与回归分析相关分析和回归分析是研究现象之间相关关系的两种基本方法。相关分析:研究两个
3、或两个以上随机变量之间相关关系密切程度和相关方向的统计分析方法。回归分析:研究某一随机变量(因变量)与其他一个或几个变量(自变量)之间数量变动关系形式的统计分析方法。,2023/9/7,5,第二节 相关分析,一.单相关系数单相关分析是对两个变量之间的相关程度进行分析。单相关系数是在线性相关的条件下用来说明两个变量之间相关关系和相关密切程度的统计分析指标。样本相关系数的定义公式是:,2023/9/7,6,第二节 相关分析,2023/9/7,7,第二节 相关分析,相关系数的特点:1.r值在-1和+1之间变动;当|r|=1时称x与y完全线性相关;当|r|=0时称x与y无线性相关;当0|r|1时称x与
4、y有一定程度的线性相关;r0时正相关;r0时负相关;2.r是一个无名数,可以比较不同现象相关程度的高低。3.r是对变量之间线性相关关系的度量。r=0只是表明两个变量之间不存在线性关系,但并不意味着不存在其他类型的关系。,2023/9/7,8,第二节 相关分析,一般情况下,通过相关系数判断相关关系密切程度的标准如下:,2023/9/7,9,第二节 相关分析,r2称为可决系数,是衡量样本回归直线拟合程度的指标,反映由于相关关系,y的变化可以由x来解释的百分比。相关系数与可决系数虽然有密切的联系,但它们在概念上是有区别的:可决系数是就回归模型而言的,而相关系数是就两个变量而言的;可决系数具有非负性,
5、而相关系数可正可负。,2023/9/7,10,第二节 相关分析,例1(P119)分析销售额y与推销费x的关系,2023/9/7,11,第二节 相关分析,2023/9/7,12,第二节 相关分析,例1解:计算结果表明,销售额和推销费之间高度相关,销售额中的70%可以由推销费来解释。,2023/9/7,13,第二节 相关分析,例 我国19902003年GDP和税收收入的资料如下:单位:亿元r=0.955248,2023/9/7,14,第二节 相关分析,2023/9/7,15,第二节 相关分析,二.有序数据的相关系数(等级相关系数)对于许多难以用数字准确计量的现象之间的关系难以用单相关系数去衡量,可
6、以用等级相关系数。有序数据是由数据在一个有序名单中的位置值组成。定义Sperman 秩相关系数为:其中:di=xi-yi,xi和yi分别是两个变量按大小(或优劣)排位的等级;n是样本容量。等级相关系数的取值区间在-1和1之间。,2023/9/7,16,第二节 相关分析,例3(P121)10个产品销售情况的排序,2023/9/7,17,第三节 一元线性回归分析,回归分析是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系。进行回归分析通常要设定一定的数学模型,在回归分析中,最简单的模型是只有一个因变量和一个自变量的线性回归模型。,2023/9/7,18,第三节 一元
7、线性回归分析,一.一元线性回归模型的建立设因变量y(通常是随机变量)和一个自变量(非随机变量)X之间有某种相关关系。在x的不全相同的取值点x1,x2,xn作为独立观察得到y的个观察值y1,y2,yn记为(x1,y1)(x2,y2),(xn,yn)。根据这组数据寻求X与Y之间关系。设一元线性回归模型为:yi=a+bxi+ei,2023/9/7,19,第三节 一元线性回归分析,ei(为误差,统计上称为随机误差)的标准假定:假定1:零均值假定。E(ei)=0,即误差项的期望值 为0 假定2:同方差假定。Var(ei)=E(ei2)=2;即误差项的方差为常数 假定3:非自相关性假定。COV(ei,ej
8、)=0;即误差项之 间不存在序列相关关系,其协方差为零 假定4:自变量是给定的变量,与随机误差项线性无关 假定5:随机误差项服从正态分布,2023/9/7,20,第三节 一元线性回归分析,二.一元线性回归模型的估计(一)回归系数的估计在根据样本资料确定样本回归方程时,一般总是希望Y的估计值从整体来看尽可能地接近其实际观测值,即残差ei的总量越小越好。最小二乘法(oLS估计)就是通过使残差平方和为最小来估计回归系数的一种方法。,2023/9/7,21,第三节 一元线性回归分析,例4(P122)观察家庭月收入与月支出之间的关系,随机抽取10个家庭作调查得如下结果,求回归直线。,2023/9/7,2
9、2,第三节 一元线性回归分析,2023/9/7,23,第三节 一元线性回归分析,2023/9/7,24,第三节 一元线性回归分析,解例4:,2023/9/7,25,第三节 一元线性回归分析,(二)总体方差的估计除了回归系数外,一元线性回归模型还包括另一个未知参数,即总体随机误差项的方差2。2 可以反映理论模型误差的大小,它是检验模型时必须利用的一个重要参数。由于随机误差项本身是不能直接观测的,因此需要用最小二乘残差代替随机误差项来估计2。可以证明:,2023/9/7,26,第三节 一元线性回归分析,三.一元线性回归模型的检验回归模型中的参数估计出来后,还必须对其进行检验,如果通过检验发现模型有
10、缺陷,则必须回到模型的设定阶段或参数估计阶段,重新选择因变量和自变量及其函数形式,或者对数据进行加工整理之后再次估计参数。回归模型的检验包括理论意义检验、一级检验和二级检验。理论意义的检验主要涉及参数估计值的符号和取值区间。一级检验(统计学检验)是利用统计学中的抽样理论来检验样本回归方程的可靠性,具体分为拟合程度评价和显著性检验。二级检验(经济计量学检验)是对标准线性回归模型的假定条件能否得到满足进行的检验,具体包括序列相关检验、异方差性检验等。,2023/9/7,27,第三节 一元线性回归分析,(一)拟合程度的评价所谓拟合程度是指样本观测值聚集在样本回归线周围的紧密程度。判断回归模型拟合程度
11、优劣最常用的指标是可决系数(决定系数),该指标建立在对总离差平方和进行分解的基础上。,2023/9/7,28,第三节 一元线性回归分析,可决系数是对回归模型拟合程度的综合度量,可决系数越大,模型拟合程度越高,反之则越小。由r2的计算公式可以看出:当所有的观测值都位于回归直线上时,r2=1,说明总离差可以完全由所估计的样本回归直线来解释;当观测值并不是全部位于回归直线上时,r2 1;当回归直线没有解释任何离差,即模型中X与Y完全无关时,Y的总离差全部归于残差平方和,这时r2=0。RSS=(1-r2)Syy,2023/9/7,29,第三节 一元线性回归分析,(二)显著性检验回归分析中的显著性检验包
12、括两方面的内容:一是对各回归系数的显著性检验,通常采用t检验;二是对整个回归方程的显著性检验,通常是在方差分析的基础上采用F检验。在应用上最有意义的是检验回归系数b是否为零的问题。H0:b=0,H1:b0如果b=0,则回归直线变为y=a,即y的取值与X的值无关,即x、y之间没有线性关系;如果b0,则表明x与y之间有一定的线性关系。,2023/9/7,30,第三节 一元线性回归分析,四.一元线性回归模型预测建立回归模型的重要目的之一是进行预测。如果拟合的样本回归方程经过检验,被认为具有经济意义,同时被证明有较高的拟合程度,就可以利用其来进行预测。(一)回归函数a+bx的区间估计 例:资料见例4。
13、估计月收入为750元的家庭的平均月支出(=0.05),2023/9/7,31,第三节 一元线性回归分析,2023/9/7,32,第三节 一元线性回归分析,(二)因变量y的估计(预测)例:资料见例4。如果随机抽取一个家庭,该家庭的月收入为750元,预测该家庭当月的月支出(=0.05)。,2023/9/7,33,第四节 可化为线性回归的非线性回归模型,在前面,我们一直假定因变量和自变量之间的相关关系可以用线性方程来近似的反映,但是在现实生活中变量x与y的关系仅有一部分能用线性关系来描述,大量的是非线性的相关关系,非线性的回归函数比线性回归函数更能正确地反映客观现象之间的相互联系。但在非线性关系中,
14、有一部分可以通过变量的替换化为线性回归函数来做。,2023/9/7,34,第四节 可化为线性回归的非线性回归模型,非线性回归分析必须着重解决以下两个问题:第一.如何确定非线性函数的具体形式。与线性回归分析的场合不同,非线性回归函数有多种多样的具体形式,需要根据所要研究的问题的性质并结合实际的样本观测值做出恰当的选择。第二.如何估计函数中的参数。非线性回归分析最常用的方法仍然是最小二乘法,但需要根据函数的不同类型,作适当的处理。,2023/9/7,35,第四节 可化为线性回归的非线性回归模型,常见的几种非线性函数:1.抛物线函数:y=a+bx+cx22.双曲线函数:y=a+b(1/x)3.幂函数
15、:y=axb4.指数函数:y=abx5.对数函数:y=a+blnx6.S形曲线函数:,2023/9/7,36,第四节 可化为线性回归的非线性回归模型,许多具有实用价值的非线性回归函数,可以通过适当的变换,转化为线性回归函数,然后再利用线性回归分析的方法进行估计和检验。常用的非线性函数的线性变换方法有:倒数变换、半对数变换、双对数变换和多项式变换等。提请注意的是,并不是所有的非线性函数都可以通过变换得到与原方程完全等价的线性方程。这时需要利用其他一些方法去进行估计。,2023/9/7,37,第五节 多元线性回归分析简介,多元线性回归分析是研究在线性相关条件下,两个和两个以上自变量对一个因变量的数量变化关系。表现这一数量关系的数学公式,称为多元线性回归模型。多元线性回归模型是一元线性回归模型的扩展,其基本原理与一元线性回归模型相类似,只是在计算上比较麻烦一些而已。多元线性回归模型的一般形式如下:y=a+b1x1+b2x2+.+bkxk+ei实际求解回归系数的估计值,用矩阵形式来表达较为简便,也可以依靠统计软件。,2023/9/7,38,第五节 多元线性回归分析简介,具体步骤:1.进行因素分析,确定因变量和自变量2.绘制散点图,构造回归方程的一般形式3.估计参数建立模型4.回归方程的检验5.回归方程的预测,2023/9/7,39,案例资料 消费者调查有限公司,2023/9/7,40,