《回归分析和回归方程变量相互关系分析课件.ppt》由会员分享,可在线阅读,更多相关《回归分析和回归方程变量相互关系分析课件.ppt(96页珍藏版)》请在三一办公上搜索。
1、相关与回归分析,第一节 变量间关系的度量第二节 一元线性回归分析第三节 利用回归方程进行估计和预测,第一节 变量间关系的度量,一、变量间的函数关系与相关关系二、相关关系的描述与测度三、相关系数的显著性检验,一、变量间的函数关系与相关关系,客观现象之间是普遍联系相互依存的。客观现象之间的数量联系可分为两类: 确定性关系(函数关系) 非确定性关系(相关关系),函数关系,一个或几个变量取一定值时另一个变量有确定值与之对应,这种变量间一一对应的确定性关系称为函数关系。例如,设有两个变量 x 和 y ,变量 y 随变量 x 变化,并完全依赖于 x ,当变量 x 取某个数值时, y 依确定的关系取相应的值
2、,则称 y 是 x 的函数,记为 y = f (x),其中 x 称为自变量,y 称为因变量。,两变量函数关系在图形上表现为各观测点落在一条线上, 函数关系举例,某种商品的销售额(y)与销售量(x)之间的关系可表示为 y = p x (p 为单价)圆的面积(S)与半径(R)之间的关系可表示为S = R2 企业原材料消耗额(y)与产品产量(x1) 、单位产量原材料消耗量(x2) 、原材料价格(x3)之间的关系可表示为y = x1 x2 x3,相关关系,一个或几个相互联系的变量取一定值时,与之对应的另一个变量的值虽然不确定,但它按某种规律在一定范围内变化,这种变量间的不确定性对应关系称为相关关系。例
3、如,设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,但不完全依赖于 x ,当变量 x 取某个值时,变量 y 的取值可能有几个,但取值范围变化有一定规律,则称 y 与 x 之间有相关关系。,两变量相关关系在图形上表现为各观测点分布在线的周围, 相关关系举例,商品的消费量(y)与居民收入(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系粮食亩产量(y)与施肥量(x1) 、降雨量(x2) 、温度(x3)之间的关系收入水平(y)与受教育程度(x)之间的关系父亲身高(y)与子女身高(x)之间的关系,相关关系,相关关系比因果关系包括的范围更广泛。具有相关关系的某些现象的数量可表现为因
4、果关系,即自变量与因变量的关系,但有时不存在明显的因果关系或互为因果关系,如人的身高和体重、商品的供求与价格等。变量间的函数关系与相关关系在一定条件下可以相互转化。当存在测量误差或随机因素的干扰时,函数关系可表现为相关关系;当我们对变量内在联系有规律性认识时,相关关系可能转化为函数关系或用函数关系来描述。,相关分析,现象的函数关系可以用数学分析方法研究和测度,现象的相关关系需用统计学的相关与回归分析方法研究和测度。相关分析是描述和测度变量间相关关系类型和相关程度的分析方法。在相关分析中,所有变量都假定是随机变量,它们之间不存在解释变量和被解释变量的关系,即不考虑因果关系。,相关关系的种类,1按
5、相关因素的多少分 单相关 复相关2按相关关系的形式分 线性相关(直线相关) 非线性相关(曲线相关)3按相关关系的方向分 正相关 负相关4按相关关系的程度分 完全相关 不完全相关 不相关,相关关系的种类,简单相关和多元相关(多重相关、复相关) 简单相关指两个变量之间的相关关系;多元相关指三个或三个以上变量之间的相关关系。 线性相关和非线性相关 如果散点图上的所有的点几乎接近一条直线,可以认为变量之间是线性相关的;如果散点图上的所有点几乎接近一条曲线,可以认为变量之间是非线性相关的。,相关关系的种类,正相关和负相关 如果相关变量之间同增或同减,称这种相关关系是正相关。如果相关变量间一个变量值增加时
6、另一个变量值减少,称这种相关关系是负相关。完全相关、不完全相关和不相关 如果一个变量的变化完全由另一个变量的变化所确定,则称两变量的关系为完全相关,即为函数关系;如果两个变量间的关系很弱或看不出任何关系,则称之为不相关(或零相关)。两变量的关系介于完全相关和不相关之间称为不完全相关。,二、相关关系的描述与测度,判断现象之间有无相关关系,应先进行定性分析,即依据理论知识、实践经验对现象之间是否存在相关关系及相关关系的类型作出判断。然后在此基础上进行定量分析,即运用相关图、相关表和相关系数等方法对现象之间的相关关系进行描述与测度。相关表相关关系的图示相关系数,相关表,简单相关表例:居民消费支出和收
7、入的相关表 (单位:百元) 根据以上资料绘制坐标图便得到相关图,单变量分组表,例:30家企业按产品产量分组的平均单位产品成本,双变量分组表例:30家企业按产品产量和单位产品成本分组,相关关系的图示(散点图scatter diagram),如何制作散点图?Minitab教您怎么制作散点图(scatter diagram)http:/www.pinzhi.org/thread-4292-1-1.html Minitab制作3D散点图(3D Scatterplot)的方法,如何制作3D散点图教程http:/www.pinzhi.org/thread-4639-1-1.html,散点图(例题分析),【
8、例9.1】一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年该银行贷款额平稳增长,但不良贷款额也有较大提高,给银行业务发展带来较大压力。为弄清不良贷款形成的原因,以便找出控制不良贷款的办法,现利用银行有关业务数据进行相关分析。下面是该银行所属25家分行2002年的有关业务数据。,散点图(例题分析),散点图(例题分析),相关系数,相关系数是对变量之间关系密切程度的度量对两个变量之间线性相关程度的度量称为简单相关系数(简称相关系数)若相关系数是根据总体全部数据计算的,称为总体相关系数,记为若相关系数是根据样本数据计算的,则称为样本相关
9、系数,记为 r在此仅讨论两变量间相关关系问题。对于随机变量x和y,总体相关系数一般是未知的,只能根据样本观测值给出一个估计量即样本相关系数r。,样本相关系数r的计算公式,或化简为,相关系数取值及其意义,r 的取值范围是 -1,1|r|=1,表明x与y完全线性相关r =1,为完全正线性相关r =-1,为完全负线性相关 r = 0,表明x与y不存在线性相关关系-1r0,为负线性相关0r1,为正线性相关|r|越趋于1表示x与y线性关系越密切;|r|越趋于0表示x与y线性关系越不密切,相关系数(取值及其意义),r,样本容量适中时相关关系程度一般判断标准,无相关或微弱相关 低度相关 中度相关(显著相关)
10、 高度相关这种判断必须建立在对相关系数进行显著性检验的基础上。,相关系数计算例,【例9.2】在我国居民消费水平研究中,将人均消费额记为y,人均国民收入记为x。收集到19811993年的样本数据(xi ,yi,i =1,2,,13)见下表,计算相关系数。,相关系数计算例表,例计算结果,相关系数相关系数为 0.9987,显示人均国民收入与人均消费金额之间高度正相关。,相关系数计算例 【例】用例9.1数据计算出该商业银行不良贷款、贷款余额、应收贷款、贷款项目、固定资产投资额之间的相关系数如下:,可以看出,不良贷款与贷款余额的相关系数最大,与固定资产投资额的相关系数最小。,三、相关系数的显著性检验,根
11、据样本计算的相关系数r能否代表总体相关系数,只有对其检验以后才能下结论。因其具有一定的随机性,样本容量越小其可信程度越差。相关系数的显著性检验问题可分为两类:一是对总体相关系数是否等于0进行检验;二是对总体相关系数是否等于某一给定的不为0的数值进行检验。这里只介绍第一类检验。,相关系数的显著性检验(方法与步骤),数学上可以证明,在X与Y都服从正态分布且 的条件下,可以采用t 检验来确定r 的显著性。检验统计量t 服从自由度为n-2的t 分布,即检验的步骤为:提出假设:假设样本是从一个不相关的总体中抽出的,即 H0: ;H1: 0计算检验统计量:根据给定的显著性水平和自由度df=n-2查t分布表
12、得t(n-2)的临界值,并作出决策: 若tt(n-2),拒绝H0,表明r在统计上是显著的,两变量之间存在显著线性关系;若tt(n-2),接受H0,表明r在统计上是不显著的。,相关系数的显著性检验(例题分析),【例】 对前述用例9.2数据计算的人均消费额与人均国民收入相关系数进行显著性检(0.05)提出假设:H0: ;H1: 0计算检验统计量,根据显著性水平0.05,查t分布表得临界值 t(n-2)=t0.025(13-2)=2.201 由于t=64.9809t0.025(13-2)=2.201,所以拒绝H0,接受H1,即说明人均消费金额与人均国民收入之间的相关关系显著。,相关系数的显著性检验(
13、例题分析),【例】对前述用例9.1数据计算的某大型商业银行例不良贷款与贷款余额之间的相关系数进行显著性检(0.05)提出假设:H0: ;H1: 0计算检验的统计量,3.根据显著性水平=0.05和自由度df=n-2=25-2=23查t分布表得t0.025(23)=2.0687由于t=7.5344t0.05(23)=2.0687,所以拒绝H0,说明不良贷款与贷款余额之间存在显著正线性相关关系,相关系数的显著性检验(例题分析),对前述9.1例某大型商业银行各相关系数计算检验统计量数据如下,同学们可以自行检验和分析,第二节 一元线性回归分析,一、回归分析的含义二、一元线性回归模型及其参数的估计三、回归
14、直线拟合程度的评价四、一元线性回归模型的检验,一个用Minitab做的回归方程Regression equation案例: 判断标准P0.05http:/www.pinzhi.org/thread-7745-1-1.html 什么是回归方程(Regression equation)? 如何用Minitab制作回归方程http:/www.pinzhi.org/thread-4643-1-1.html Minitab做回归方程分析时:线性一次Liner, 二次Quadratic, 三次立方Cubic的选择http:/www.pinzhi.org/thread-8238-1-1.html,一、回归分
15、析的含义,什么是回归回归是由英国著名统计学家Francis Galton在19世纪末期研究孩子及其父母的身高时提出来的。Galton发现身材高的父母,他们的孩子也高。但这些孩子平均起来并不像他们父母那样高。比较矮的父母情形也类似:他们的孩子比较矮,但这些孩子的平均身高要比他们父母的平均身高高。 Galton把这种孩子的身高向中间值靠近的趋势称之为一种回归效应,而他发展的研究两个数值变量之间数量关系的方法称为回归分析。什么是回归分析回归分析是对具有相关关系的变量拟合数学方程,通过一个或一些变量的变化解释另一变量变化的方法。,回归分析的内容和步骤,根据理论和对问题的分析判断,区分自变量(即解释变量
16、)和因变量(即被解释变量);从一组样本数据出发,设法确定合适的数学方程式(即回归模型regression model)描述变量间的关系;对数学方程式(回归模型)的可信程度进行统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著;利用数学方程式(回归模型),根据一个或几个自变量的取值来估计或预测因变量的取值,并给出这种估计或预测的精确程度。,回归分析与相关分析的区别,相关分析中,变量 x 与 y 处于平等地位;回归分析中具有相关关系的变量之间地位是非对等的,变量 y 称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化相关分析中所涉及的变量 x 和 y 都是
17、随机变量;回归分析中,因变量 y 是随机变量,自变量 x 可以是随机变量,也可以是非随机的确定变量相关分析主要描述变量之间相关关系的密切程度;回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行估计和预测,回归模型的类型,按涉及变量多少分为:一元回归和多元回归按变量相关的形式分:线性回归和非线性回归(本节仅讨论一元回归分析问题),二、一元线性回归模型及其参数的估计 一元线性回归模型的设定,对于只涉及一个自变量的回归分析,若因变量y与自变量x之间为线性关系,可以用一个线性方程来表示二者之间的关系,此方程为一元线性回归模型。通常先要收集若干(n)组样本数据(xi ,yi,i=
18、1,2,n),然后将数据绘制散点图,若图中显示x和y之间大致呈线性关系,就可以用一元线性回归方程来描述这种关系。,一元线性回归模型(理论模型),一元线性回归模型可表示为 y = b0 + b1 x + e此模型将变量y与x间的关系用两部分描述。一部分是由x的变化引起y线性变化的部分,即: 另一部分是由其他随机因素引起y线性变化的部分,记为。该回归模型表达了变量x与y之间密切相关、但还没有到y由x唯一确定的密切程度的关系。模型中,一般称y为被解释变量(因变量),x为解释变量(自变量)。0和1为模型的参数,又称回归系数。为随机误差项,又称随机干扰项,表示除能用 x 和 y 之间线性关系解释的因素外
19、的其他随机因素对 y 的影响。,一元线性回归模型(理论模型的基本假定),误差项是一个不可观测的且期望值为0的随机变量,即E()=0。对于一个给定的x值,y的期望值为 E ( y ) = 0+ 1 x对于所有的 x 值,的方差2都相同。误差项是一个服从正态分布的随机变量,且相互独立,即N( 0 ,2 )独立性意味着对于一个特定的 x 值,它所对应的与其他 x 值所对应的不相关对于一个特定的 x 值,它所对应的 y 值与其他 x 所对应的 y 值也不相关,一元线性回归模型(应用模型) (估计的回归方程estimated regression equation ),由于为随机因素不可观测,其期望值为
20、0,所以通常用y的数学期望E ( y ) 作为y的估计,即 E( y ) = 0+ 1 x由于总体回归参数0和1是未知的,必须利用样本数据估计,所以用样本统计量 和 代替回归方程中的未知参数0和1,就得到了应用的估计一元线性回归方程 式中: 是y的估计值,表示对于一个给定的x值,估计的y的期望值, 是估计的回归直线在y轴上的截距,是当 x=0 时 y的期望值, 是直线的斜率,表示x每变动一个单位时,y的平均变动值,一元线性回归模型参数的估计,用来估计一元线性回归模型参数0和1的方法是最小二乘法,其要点为:它是使因变量的观察值与估计值之间的离差平方和达到最小来求得 和 的方法。即用此法拟合的直线
21、来代表x与y之间的关系与实际数据的误差比其他任何直线都小,最小二乘法(图示),最小二乘法( 和 的计算公式), 根据最小二乘法的要求,可得求解 和 的标准方程如下,从 的计算公式可以看出其分母大于0。 的正负取决于分子,且分子与相关系数r的分子相同。 0时,表示x每增加一个单位y值平均增加的数量,即x与y正相关; 0时,表示x每增加一个单位y值平均减少的数量,即x与y负相关。,一元线性回归模型估计(举例),【例】用例9.2中的数据配合人均消费金额对人均国民收入的回归方程 根据 和 的求解公式得 的含义是人均国民收入每增加1元,人均消费额平均增加约0.53元。,一元线性回归模型估计(举例),人均
22、消费金额对人均国民收入的回归方程为,y = 54.22286 + 0.52638 x,一元线性回归模型估计(举例),【例】对例9.1数据求某大型商业银行不良贷款对贷款余额的回归方程,回归方程为:y = -0.8295 + 0.037895 x回归系数 =0.037895 表示,贷款余额每增加1亿元,不良贷款平均增加0.037895亿元。,一元线性回归模型估计(举例),不良贷款对贷款余额回归方程的图示,用Excel进行回归分析,第1步:选择“工具”下拉菜单第2步:选择“数据分析”选项第3步:在分析工具中选择“回归”,然后选择“确定”第4步:当对话框出现时 在“Y值输入区域”方框内键入Y的数据区域
23、 在“X值输入区域”方框内键入X的数据区域 在“置信度”选项中给出所需的数值 在“输出选项”中选择输出区域 在“残差”分析选项中选择所需的选项,三、回归直线拟合程度的评价,根据估计的回归方程由自变量的值估计因变量的值,估计精度取决于回归方程对观察数据的拟合程度。回归直线与各观测点的接近程度称为回归直线对数据的拟合优度。它可以通过判定系数和估计标准误差来反映。离差平方和的分解和判定系数 估计标准误差,离差平方和的分解和判定系数 1.离差平方和的分解,为说明直线的拟合程度,需要研究因变量y取值的变化规律。因变量y取值的波动(或差异)称为变差。变差来源于两个方面:由于自变量 x 的取值不同造成的由于
24、受自变量x以外的其他因素(如x对y的非线性影响、测量误差等)的影响某一项具体观测值的变差可以用该观测值与其均值之差 来表示。全部n项观测值的总变差(记为SST)可由各观测值与均值离差的平方和来表示,即:,离差平方和的分解(图示),离差平方和的分解(三个平方和的关系),两端平方并对所有点求离差平方和,有,从图上看有,SST = SSR + SSE,离差平方和的分解(三个平方和的意义),总变差平方和(SST)反映因变量的 n 个观察值与其均值的总离差回归离差平方和(SSR)反映自变量x的变化对因变量y取值变化的影响,或者说是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的变差平方和残差平
25、方和(SSE)反映除x以外的其他因素对y取值的影响,也称为不可解释的变差平方和或剩余变差平方和从上图可以看出,在总变差平方和(SST)中回归离差平方和(SSR)的比例越大,回归直线拟合越好。,2.判定系数 r2 (coefficient of determination),将回归离差平方和(SSR)在总变差平方和(SST)中的比例定义为判定系数,或称样本决定系数、可决系数,记为r2。它有以下要点:是回归离差平方和占总变差平方和的比例,基本公式:反映回归直线的拟合程度取值范围在 0,1 之间判定系数r2越接近于1,说明回归方程拟合越好;判定系数r2越接近于0,说明回归方程拟合越差判定系数等于相关
26、系数的平方,即r2(r)2,判定系数r2 (举例),【例】对例9.2数据计算人均消费额与人均国民收入相关关系判定系数为 r2(0.9987)20.9974 说明在人均消费额的总变差中有99.74可以由人均国民收入与人均消费额之间的线性关系来解释,或者说在人均消费额取值的变动中,有99.74%是由人均国民收入所决定的。说明二者之间有较强的线性关系。,判定系数r2 (举例),【例】对例9.1数据计算某大型商业银行不良贷款额对贷款余额回归的判定系数意义:在不良贷款额的变差中有71.16%可以由不良贷款与贷款余额之间的线性关系来解释,或者说在不良贷款额的变动中,有71.16%是由贷款余额所决定的。可见
27、不良贷款与贷款余额之间有较强的线性关系 。,估计标准误差 Sy (standard error of estimate),估计标准误差是对回归模型随机误差项的标准差的估计,即观察值与回归估计值离差平方和的均方根,是在排除了x对y的线性影响后对因变量y随机波动大小的一个估计量。反映观察值在回归直线周围的分散程度和回归方程对因变量代表性的大小,其数值越大说明代表性越小。也反映用估计的回归方程预测y时预测误差的大小,其数值越大说明预测误差越大。 可从另一个角度说明回归直线的拟合程度。计算公式为,估计标准误差 Sy (举例),【例】对例9.2数据计算人均消费额对人均国民收入回归模型的估计标准误差Sy
28、计算结果:Sy14.9497 说明利用回归模型根据人均国民收入预测人均消费额时,平均预测误差为14.95元。【例】对例9.1数据计算某大型商业银行不良贷款对贷款余额回归模型的估计标准误差Sy 计算结果:Sy1.9799 说明利用回归模型根据贷款余额预测不良贷款额时,平均预测误差为1.9799亿元。,估计标准误差与相关系数的关系,可以看出估计标准误差Sy与相关系数r有相反的数量关系,|r|越大,Sy越小。如果Sy0,则|r|1。此时x与y完全相关。因此估计标准误差可以从另一个角度说明x与y相关关系的密切程度。但估计标准误差所表现的关系密切程度不很明显,且不能反映相关关系的正负方向。,四、一元线性
29、回归模型的检验,在根据样本数据拟合回归方程时,首先假设变量x和y之间存在线性关系,这种假设是否成立必须经过检验才能证实。回归分析中的显著性检验包括两方面内容:回归方程线性关系的显著性检验回归系数的显著性检验,回归方程线性关系的显著性检验,是检验自变量与因变量之间线性关系是否显著。方法是将回归均方(MSR)同残差均方(MSE)加以比较,应用F检验分析二者之间的差别是否显著回归均方(MSR):回归离差平方和(SSR)除以相应的自由度(自变量的个数p) 残差均方(MSE):残差平方和(SSE)除以相应的自由度(n-p-1)如果差别显著,两个变量之间存在线性关系如果差别不显著,两个变量之间不存在线性关
30、系,回归方程线性关系的显著性检验(检验的步骤),1.提出假设:H0:两变量之间的线性关系不显著 H1:两变量之间的线性关系显著2.计算检验统计量F,其中,F(1,n-2)表示第一自由度为1,第二自由度为n-2的F分布。3. 确定显著性水平,并根据分子自由度1和分母自由度n-2查F分布表找出临界值F 4. 作出决策:若FF ,拒绝H0;若FF ,接受H0,回归方程线性关系的显著性检验(举例),【例】对例9.1数据建立的不良贷款对贷款余额的回归方程,进行回归方程线性关系的显著性检验。给定显著性水平0.05。提出假设 H0:1=0 即不良贷款与贷款余额之间的线性关系不显著计算检验统计量F查F分布表得
31、临界值: F(1,n-2)=F0.05(1,25-2)=4.28F=56.75F0.05(1,25-2)=4.84 拒绝H0,说明贷款余额x与不良贷款y之间存在显著的线性关系,即回归方程线性关系显著。,线性关系的显著性检验 (方差分析表),Excel 输出的方差分析表,平方和,均方,回归系数的显著性检验,是检验自变量x对因变量y的影响是否显著。方法是检验回归系数1是否为0,如果1为0,回归直线为一条水平线,表明两变量之间没有线性关系,反之,如果1不为0,表明x对y的影响是显著的,两变量之间存在线性关系。检验的理论基础是回归系数 的抽样分布,即假定其抽样分布服从正态分布。在一元线性回归中,自变量
32、只有一个,回归系数的显著性检验(t检验)等价于回归方程线性关系的显著性检验(F检验),如果t检验显著,F检验结果也一定显著。但在多元回归分析中两种检验的意义不同。,回归系数的显著性检验(样本统计量 的分布),是根据最小二乘法求出的样本统计量,有自己的分布,其分布具有如下性质分布形式:正态分布数学期望:标准差:由于总体未知,需用其估计量Sy来代替得到 的估计的标准差,回归系数的显著性检验(步骤),提出假设H0: b1 = 0 (没有线性关系) H1: b1 0 (有线性关系) 计算检验的统计量,确定显著性水平,并进行决策 tt (n-2) ,拒绝H0; tt (n-2) ,接受H0,回归系数的显
33、著性检验(例题分析),【例】对例9.1数据建立的回归方程的回归系数进行显著性检验(0.05)提出假设H0:b1 = 0 H1:b1 0 计算检验的统计量,t=7.533797t (n-2)=t0.025(25-2)=2.0687,拒绝H0,表明不良贷款与贷款余额之间有线性关系,回归系数的显著性检验(例题分析),P 值的应用,P=0.000000=0.05,拒绝原假设,不良贷款与贷款余额之间有线性关系,第三节 利用回归模型进行估计预测,一、点估计二、区间估计,利用回归方程进行估计和预测,回归方程通过检验就可以根据自变量 x 的取值估计或预测因变量 y的取值。估计或预测的类型:点估计y 的平均值的
34、点估计y 的个别值的点估计区间估计y 的平均值的置信区间估计y 的个别值的预测区间估计,一、点估计,点估计是对于自变量 x 的一个给定值x0 ,根据回归方程得到因变量 y 的一个估计值2. 点估计值有y 的平均值的点估计y 的个别值的点估计3. 在点估计条件下,平均值的点估计和个别值的的点估计是一样的,但在区间估计中则不同,y 的平均值的点估计,利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值的一个估计值E(y0) ,就是平均值的点估计在前面某大型商业银行的例子中,假如要估计贷款余额为100亿元时所有分行不良贷款的平均值,就是平均值的点估计。根据估计的回归方程
35、得,y 的个别值的点估计,利用估计的回归方程,对于自变量x的一个给定值 x0 ,求出因变量 y 的一个个别值的估计值 ,就是个别值的点估计比如,在前面某大型商业银行的例子中,如果只是想知道贷款余额为72.8亿元的那个分行(这里是编号为10的那个分行)的不良贷款是多少,则属于个别值的点估计。根据估计的回归方程得,二、区间估计,点估计不能给出估计的精度,点估计值与实际值之间是有误差的,因此需要进行区间估计。区间估计是对于自变量x 的一个给定值 x0,根据回归方程得到因变量 y 的一个估计区间。区间估计有两种类型置信区间估计(confidence interval estimate)预测区间估计(p
36、rediction interval estimate),置信区间估计,利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值E(y0)的估计区间 ,这一估计区间称为置信区间(confidence interval) E(y0) 在1-置信水平下的置信区间为,式中:sy为估计标准误差,置信区间估计(例题分析),【例】在前面某大型商业银行的例子中,求出贷款余额为100亿元时,不良贷款95%的置信区间 解:根据前面的计算结果,已知n=25,sy=1.9799,t(25-2)=2.0687,贷款余额为100亿元时不良贷款平均值的点估计值为2.96,置信区间为,即当贷款余额
37、为100亿元时,所有分行不良贷款的平均值在2.1141亿元到3.8059亿元之间。,预测区间估计,利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计区间,这一区间称为预测区间(prediction interval) y0在1-置信水平下的预测区间为,预测区间估计(例题分析),【例】在前面某大型商业银行的例子中,求出贷款余额为72.8亿元的那个分行不良贷款 95%的预测区间 解:根据前面的计算结果,已知n=25,sy=1.9799, t(25-2)=2.0687,贷款余额为72.8亿元时不良贷款点估计值为1.93,预测区间为,即贷款余额为72.8亿元的
38、那个分行不良贷款的预测区间在-2.2766亿元到6.1366亿元之间。,影响区间宽度的因素,1.置信水平 (1 - )区间宽度随置信水平的增大而增大2.数据的离散程度 (s)区间宽度随离散程度的增大而增大3.样本容量区间宽度随样本容量的增大而减小4.用于预测的 x0 与x 的差异程度区间宽度随 x0 与x 的差异程度的增大而增大因此用于预测的x0与x 的差异程度越大预测精度越差,置信区间、预测区间、回归方程,相关、回归分析举例,例:已知某地居民人均收入与商品销售额的资料如下,相关、回归分析举例,要求根据上述资料 计算简单相关系数,并进行显著性检验(=0.05) 求出估计的一元线性回归方程,并解
39、释回归系数的意义 计算判定系数,并解释其意义 计算估计标准误差 检验回归系数的显著性(=0.05) 估计人均收入为4000元时商品销售额95%的置信区间和预测区间,计算相关系数,相关系数的显著性检验,提出假设:H0: ; H1: 0计算检验统计量,根据显著性水平0.05,查t分布表得临界值 t(n-2)=t0.025(5-2)=3.1824 由于t=5.3099t0.025(5-2)=3.1824,所以拒绝H0,接受H1,即说明居民人均收入与商品销售额之间的相关关系显著。,求一元线性回归方程,解释回归系数的意义,的含义是人均收入每增加1元,商品销售额平均增加约0.6万元。,计算判定系数,并解释
40、其意义,r2(0.9507)20.9038 说明在商品销售额的总变差中有90.38可以由人均收入与商品销售额之间的线性关系来解释,或者说,在商品销售额取值的变动中,有90.38%是由人均收入所决定的。说明二者之间有较强的线性关系。计算估计标准误差 说明根据人均收入预测商品销售额时,平均的预测误差为1.387百万元。,检验回归系数的显著性(=0.05),提出假设H0:b1 = 0 人均收入与商品销售额之间无线性关系H1:b1 0 人均收入与商品销售额之间有线性关系计算检验的统计量,t=4.4789t0.025(5-2)=3.1824 ,拒绝H0,接受H1,表明人均收入与商品销售额之间有线性关系,
41、估计人均收入为40百元时商品销售额95%的置信区间和预测区间,t(5-2) t0.025(3) =3.1824置信区间:人均收入为4000元时商品销售额平均值95%的置信区间为区间为17112337万元。,预测区间:人均收入为4000元的年份商品销售额95的预测区间为14222626万元。,练习题:以下为10家商店销售额和利润率的资料,要求根据上述资料 计算两变量的相关系数,并进行显著性检验(=0.05) 求出估计的一元线性回归方程,并解释回归系数的意义 计算判定系数,并解释其意义 计算估计标准误差 检验回归系数的显著性(=0.05) 估计月平均每人销售额为5000元时利润率95%的置信区间和预测区间,本章学习要求,理解变量之间相关关系的概念、种类;掌握相关系数及其显著性检验;掌握一元线性回归方程的确定,判定系数、估计标准差、回归系数的显著性检验;掌握利用回归模型进行估计预测的方法。,