应用统计学(第四版)第8章 相关分析与回归分析ppt课件.ppt

上传人:小飞机 文档编号:1826772 上传时间:2022-12-20 格式:PPT 页数:83 大小:1.99MB
返回 下载 相关 举报
应用统计学(第四版)第8章 相关分析与回归分析ppt课件.ppt_第1页
第1页 / 共83页
应用统计学(第四版)第8章 相关分析与回归分析ppt课件.ppt_第2页
第2页 / 共83页
应用统计学(第四版)第8章 相关分析与回归分析ppt课件.ppt_第3页
第3页 / 共83页
应用统计学(第四版)第8章 相关分析与回归分析ppt课件.ppt_第4页
第4页 / 共83页
应用统计学(第四版)第8章 相关分析与回归分析ppt课件.ppt_第5页
第5页 / 共83页
点击查看更多>>
资源描述

《应用统计学(第四版)第8章 相关分析与回归分析ppt课件.ppt》由会员分享,可在线阅读,更多相关《应用统计学(第四版)第8章 相关分析与回归分析ppt课件.ppt(83页珍藏版)》请在三一办公上搜索。

1、1,第8章 相关分析和回归分析,相关分析与回归分析是研究现象的相互关系、测定它们联系的密切程度,揭示其变化的具体形式和规律性的统计方法,是构造各种经济模型、进行经济分析、政策评价、预测和控制的重要工具。,3,相关分析(掌握)线性回归分析(掌握)回归模型的统计检验和预测(掌握)非线性回归模型(了解),主要内容和学习目标,函数关系:变量间的确定性数量依存关系相关关系:变量间的非确定性数量依存关系,变量之间的关系,银行存款中,本利和(S)与本金(A)之间的关系可表示为S=A(1+r)n某种商品的销售额(y)与销售量(x)之间的 关系可表示为 y = px (p 为单价)企业的原材料消耗额(y)与产量

2、(x1) 、单位产量消耗(x2) 、原材料价格(x3)之间的关系可表示为 y = x1 x2 x3, 函数关系的例子,函数关系的特点,当变量x取某个数值时,变量y 依确定的对应关系取相应的值表现形式:y=f(x) 各观测点落在一条线上, 相关关系的例子,父亲身高(y)与子女身高(x)之间的关系收入水平(y)与受教育程度(x)之间的关系商品的消费量(y)与居民收入(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系粮食亩产量(y)与施肥量(x1) 、降雨量(x2) 、 温度(x3)之间的关系,相关关系的特点,当变量x取某个值时, 变量y 的取值可能有几个表现形式:y=f(x)+各观测点在

3、一条线的周围,9,8.1.1 相关关系的概念和种类 1.相关关系的概念在社会经济发展变化中,客观现象总是普遍联系和相互依存的,客观现象(变量)之间的数量依存关系可分为两种类型:确定性关系和相关关系。相关关系是指现象之间客观存在的非确定性的数量依存关系。,8.1相关分析,10,如:商品的消费量(y)与居民收入(x)之间的关系,变量间关系是不能用函数关系精确表达的,一个变量的取值不能由另一个变量唯一确定。,各观测点分布在直线周围。,11,2. 相关关系的种类,(1)按相关的方向可以分为正相关和负相关。(2)按相关的程度可分为完全相关、不完全相关和不相关。(3)按涉及的变量或因素的个数可以分为单相关

4、与复相关。(4)按相关的表现形式可分为线性相关与非线性相关。,相关关系的分类,线性相关:按其变化方向可分为正相关与负相关,函数关系,13,相关关系的种类的关系图,相关分析的主要内容与方法,判断变量之间是否存在相关关系(定性分析法)分析变量间相关关系的形态特征(制作散点图)分析变量间相关关系的密切程度(计算相关系数)对总体相关关系进行显著性检验(假设检验法),相关分析的概念研究两个或两个以上的变量之间相关关系的形态和程度的一种统计方法。,简单线性相关关系,定性分析,相关图分析,相关系数分析,简单线性相关分析的基本程序,定性分析,是指对事物的质的规定性的认识和分析 要借助相关的社会经济理论、专业知

5、识、 实践经验和判断能力 如果定性分析判断现象之间没有相关关系, 就不需要进行定量的描述和测度了,美国印第安纳州的地区教会想要筹款兴建新教堂,提出教堂能洁净人们的心灵,减少犯罪,降低监狱服刑人数的口号。为了增进民众参与的热诚和信心,教会的神父收集了近15年的教堂数与在监狱服刑的人数进行统计分析。结果却令教会大吃一惊。最近15年教堂数与监狱服刑人数呈显著的正相关。那么是否可以由此得出,教堂建得越多,就可能带来更多的犯罪呢?经过统计学家和教会神父深入讨论,发现监狱服刑人数的增加和教堂数的增加都与人口的增加有关。教堂数的增加并非监狱服刑人数增加的原因。至此,教会人士总算松了一口气。,案例:教堂数与监

6、狱服刑人数同步增长,20,8.1.2 相关分析的图表和意义1、相关图表,相关表和相关图可直观地表达变量之间的相关关系的程度。相关表是将具有相关关系的原始数据,按某一顺序平行排列在一张表上,以观察它们之间的相互关系。,21,表8-1高校人数和周边饭店季营业额,22,相关图也称为分布图或散点图,它是在平面直角坐标中把相关关系的原始数据用点描绘出来,通常以直角坐标的横轴代表自变量x,纵轴代表因变量y。相关图所反映的变量之间的相关关系的方向和程序比相关表更为清晰,也更为直观。,23,图8-1学生人数和季营业额相关图,24,25,8.1.3 简单线性相关,1. 相关系数相关系数是描述相关的两个变量之间相

7、关关系密切程度的数量指标。早在1890年,英国著名统计学家Karl Pearson便提出了一个测定两个变量线性相关的计算方法,通常称为积差相关系数或简单相关系数。,26,2. 相关分析的意义,(1)相关分析可以确定变量之间相关关系的方向和程度(2)相关分析可以衡量回归估计的精确程度,相关系数是对变量之间相关关系密切程度的度量对两个变量之间线性相关程度的度量 称为简单相关系数若相关系数是根据总体全部数据计算的, 则称为总体相关系数,记为若相关系数是根据样本数据计算的, 则称为样本相关系数,记为 r,相关系数分析,28,总体相关系数:,式中:,是变量X和Y的协方差,是变量X的标准差,是变量Y的标准

8、差,样本相关系数:, 样本相关系数的计算公式,30,Excel在相关系数计算中的应用,方法一:利用统计函数中的“CORREL”函数计算;方法二:利用统计函数中的“PEARSON”函数计算;方法三:利用分析工具库中的“相关系数”工具计算。,相关系数的性质,33,相关程度的划分,35,根据给定的显著性水平和自由度n-2,查找t分布中的相应临界值 。如果 ,就否定原假设,认为 r 在统计上是显著的,即总体相关系数不为零,总体变量间存在线性相关关系。,3.相关系数的显著性检验,提出假设:,计算 t 检验统计量:,36,计算学生人数和季营业额的相关系数,【例8.2】利用表8-1的数据,计算学生人数x(万

9、人)和季营业额y(万元)的相关系数。,37,检验高校学生人数与周边饭店季营业额之间的相关系数是否显著,显著性水平=0.05。第一步:提出假设第二步:构造并计算检验统计量,38,第三步:确定临界值。根据给定的显著性水平=0.05和自由度10-2=8,查找t分布表或利用Excel计算,得到临界值。第四步:决策。由于 所以拒绝原假设,说明高校学生人数与周边饭店季营业额之间存在着显著的正线性相关关系。,39,8.2.1 回归分析 回归分析是根据已知变量估计未知变量的一种统计方法,它是以对未知变量(因变量)同其他变量(自变量)相互关系的观察为基础,在某种精确度下,预测未知变量的数值。,8.2 线性回归分

10、析,40,回归分析的内容和步骤:,选择适当的回归模型。进行参数估计。进行模型的检验。进行预测。即根据回归方程进行适当的经济预测,这是回归分析的最终目的。,41,1. 总体回归方程与样本回归方程,例:研究家庭消费支出与家庭收入之间的关系,一个总体由50户家庭组成,并按人均月收入水平划分成组内收入水平大致相同的10个组。,42,图8-4 不同收入水平的家庭消费支出散点分布图,总体回归线PRL,随机试验所有可能结果的集合称为总体或样本空间,第一节 古典回归模型,由图中看出总体回归直线是线性的,用函数的形式来表示: (1) 这是直线的数学表达式,在式(1)中, E(YXi)表示给定X值相应的(或条件的

11、) Y的均值,称为Y的条件期望或条件均值下标i代表第i个子总体。如,x=2时,y的条件均值为 即收入水平为2000元的4个家庭的平均消费支出为1500元。,第一节 古典回归模型,注意:,E(YXi)是Xi的函数(在此例中是线性函数)。这意味着Y依赖于Xi,一般称之为Y对X的回归。回归可简单地定义为在给定X值的条件下Y值分布的均值。换句话说,总体回归直线经过Y的条件期望值。式(1)是总体回归函数(Population Regression Function, PRF)的数学形式。在本例中,总体回归函数是线性函数。,第一节 古典回归模型,为参数(parameters),也称回归系数(regress

12、ion coefficients)。 又称为截距(intercept),是当X为0时Y的均值 又称为斜率(slope),斜率度量了X 每变动一单位,Y 的均值的变化率。 例,如果斜率 为0.5,那么,当收入x每增加1单位(千元),Y 的(期望)均值将增加0.5个单位(千元);即,平均而言,消费支出将增加0.5千元。,第一节 古典回归模型,模型的随机设定,从图中可看出单个家庭的消费支出与平均消费支出之间存在着一定的离差,即 (2) 其中, 表示随机误差项(stochastic, random error term)或简称为误差项。,47,表8-4 从表8-3的总体中抽取一个随机样本,48,图8-

13、5 总体回归线与样本回归线,第一节 古典回归模型,得到一条很好地“拟合”了样本数据的直线,称之为样本回归线(sample regression lines, SRL)。可能从K个不同的样本中得到K条不同的样本回归直线,所有的这些样本回归线不可能都相同。每一条直线也最多是对真实总体回归线的近似。,第一节 古典回归模型,用样本回归函数(sample regression function,S R F)来表示样本回归线。 (3) 表示总体条件均值, E(Y|Xi)的估计量; 表示 的估计量; 表示 的估计量;,第一节 古典回归模型,建立随机的样本回归函数: (4)其中ei为残差项(residual

14、term),或简称为残差(residual)。,第一节 古典回归模型,回归分析的主要目的是根据样本回归函数来估计总体回归函数,,53,2. 相关分析与回归分析的联系与区别,(1)相关分析与回归分析的联系相关分析和回归分析具有共同的研究对象相关分析和回归分析需要相互补充相关分析是回归分析的前提回归分析是相关分析的拓展,54,(2)相关分析与回归分析的区别,变量的地位不同变量的性质不同研究的目的不同研究的方法不同所起的作用不同,55,8.2.2 一元线性回归模型,1. 回归模型的基本假定回归模型是描述因变量如何依赖自变量和随机误差项的方程。一元线性回归模型只涉及一个自变量,可表述为:,第一节 古典

15、回归模型,随机误差项是服从正态分布的实随机变量。零均值假定。即,同方差假定,即对于自变量 所有观察值,随机误差项的方差 都相同。非自相关假定,即与自变量不同观察值对应的随机误差项之间是互不相关、互不影响的自变量变量与随机误差项不相关假定。无多重共线性假定。,回归模型的基本假定,2. 最小二乘估计(OLS),残差是Yi的真实值与估计值之差,即普通最小二乘法(ordinary least squares, OLS ),即选择参数 和 ,使得全部观察值的残差平方和最小。用数学形式表示为:最小二乘原理就是所选样本回归函数使得所有Y的估计值与真实值差的平方和最小。,求解联立方程解得,59,参数估计误差和

16、置信区间,(1)估计误差:估计值和真值的偏差。 的估计误差为: 的估计误差为:,60,(2)置信区间,对于给定的置信度1-, 参数的置信区间为:即以100(1-)%的概率回归系数属于该区间内。同理, 参数的置信区间为,61,8.2.3 多元线性回归模型,1. 多元线性回归模型的参数估计利用最小二乘法估计模型的参数,62,参数估计值应该是下列方程组的解:,63,定义矩阵:方程组可以用矩阵表示成:参数的最小二乘估计为,64,2. 参数的估计误差和置信区间,参数估计值的标准差为 为矩阵 对角线上的第i个元素对于给定的置信度1-,参数的100(1-)%置信区间为:,65,3. 多元回归模型中的相关分析

17、,多元回归分析中,由于变量总数不止两个,因变量与多个自变量的组合产生一定的依存关系;同时任何两个变量之间的相关关系都可能受到其余变量的影响。为此需要对已建立的多元回归模型进行相关分析,包括复相关和偏相关。,66,(1)复相关,在多变量情况下,复相关系数是用来测定因变量 与一组自变量 之间相关程度的指标。其计算公式为:,复相关系数的值域在0到1之间,它的值为1,表明 与 之间存在严密的线性关系;它的值为0,则表明 与 之间不存在任何线性相关关系;它的取值在0和1之间时,表明变量之间存在一定的线性相关关系。,67,(2)偏相关,在多变量情况下,偏相关系数是用来测定当其他变量保持不变的情况下,任意两

18、个变量之间相关程度的指标。它主要考察两个变量之间的净相关关系,从而反映现象之间的真实联系。以两个自变量的情形为例:,x1和y偏相关系数:,x2和y偏相关系数:,68,回归分析是要通过样本所估计的参数来代替总体的真实参数。在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验。主要包括拟合优度检验、模型的显著性检验和变量的显著性检验,以及预测。,8.3 回归模型的统计检验和预测,69,8.3.1 模型的拟合优度检验,拟合优度检验:对样本回归直线与样本观测值之间拟合程度的检验。度量拟合优度的指标:判定系数(可决系数)R2,问题:采用普通最小二乘估计方法,已经保证了模型最

19、好地拟合了样本观测值,为什么还要检验拟合程度?,70,如果Yi=i 即实际观测值落在样本回归“线”上,则拟合最好。可认为,“离差”全部来自回归线,而与“残差”无关。,71,对于所有样本点,则需考虑这些点与样本均值离差的平方和,可以证明:,记,总体平方和,回归平方和,残差平方和,72,TSS=RSS+ESS,Y的观测值围绕其均值的总离差(total variation)可分解为两部分:一部分来自回归线(RSS),另一部分则来自随机势力(ESS)。,在给定样本中,TSS不变,如果实际观测点离样本回归线越近,则RSS在TSS中占的比重越大,因此 拟合优度:回归平方和RSS/Y的总离差TSS,73,可

20、决系数R2统计量,称 R2 为(样本)可决系数或判定系数,可决系数的取值范围:0,1 R2越接近1,说明实际观测点离样本线越近,拟合优度越高。,74,8.3.2 模型的显著性检验,模型的显著性检验,就是检验模型对总体的近似程度,即检验因变量y和模型中所以自变量的线性关系是否显著。通常构造F统计量进行检验,称为F检验。对多元线性回归模型,75,基本步骤如下:,1、提出假设,2、计算检验统计量:,3、对给定的显著水平确定临界值,4、得出检验结论:,如果 ,则否定原假设,表明回归模型是显著的;反之,就不能否定原假设。,76,8.3.3 解释变量的显著性检验,变量的显著性检验是判断解释变量X是否对被解

21、释变量Y具有显著的线性性影响,主要是针对变量的参数真值是否为零来进行显著性检验的。多元线性回归模型, 检验某个自变量 x 对y是否有显著影响,进行解释变量的显著性检验。,77,检验步骤:,1、对总体参数提出假设,4、 比较,判断 若|t|t/2(n-k-1),则拒绝H0 ,接受H1 ; 若|t| t/2(n-k-1),则拒绝H1 ,接受H0 ;,2、构造检验统计量,3、对给定的显著水平确定临界值t /2(n-k-1),78,注意:,在一元线性回归分析中,回归系数的显著性检验与回归模型的显著性检验是等价的,因此 t 检验和F 检验的结论是一致的。但在多元回归分析中,它们是不等价的,t 检验只检验

22、方程中各个系数的显著性,而 F 检验则检验的是整个方程的显著性。,79,1、点预测对于一元线性回归模型,给定样本以外的解释变量的观测值Xf,可以得到被解释变量的预测值f ,可以此作为其条件均值E(Y|X=Xf)或个别值Yf的一个近似估计。,注意:严格地说,这只是被解释变量的预测值的估计值,而不是预测值。 原因:(1)参数估计量不确定; (2)随机项的影响,8.3.4 预测,80,2、区间预测(1)y的期望值的置信区间估计 在1-的置信水平下的置信区间可表示为 (一元模型) (多元模型),81,(2)y的个别值的预测区间估计真实值 的置信水平为1-的预测区间为:,82,1. 适配曲线问题选配曲线通常可以分为下列两个步骤:确定变量间的依存关系,根据实际资料做散点图,按照图形的分布形状选择合适的模型。确定回归模型中的未知参数。2.常见的函数双曲线、幂函数、二次曲线和对数函数等,8.4 非线性回归,83,End of Chapter 8,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号