相关分析与回归模型.ppt

上传人:小飞机 文档编号:5803838 上传时间:2023-08-21 格式:PPT 页数:45 大小:286.50KB
返回 下载 相关 举报
相关分析与回归模型.ppt_第1页
第1页 / 共45页
相关分析与回归模型.ppt_第2页
第2页 / 共45页
相关分析与回归模型.ppt_第3页
第3页 / 共45页
相关分析与回归模型.ppt_第4页
第4页 / 共45页
相关分析与回归模型.ppt_第5页
第5页 / 共45页
点击查看更多>>
资源描述

《相关分析与回归模型.ppt》由会员分享,可在线阅读,更多相关《相关分析与回归模型.ppt(45页珍藏版)》请在三一办公上搜索。

1、相关分析和回归模型,第一节 相关分析 第二节 一元回归分析 第三节多元线性回归分析 第四节 可线性化的曲线回归 附录:用Excel计算相关系数和进行回归分析,第一节 相关分析,相关分析的主要目的是对现象之间的相关关系的密切程度给出一个数的度量,相关系数和等级相关系数就是测定变量间相关关系的指标。,一、变量相关的概念 一切客观事物都是相互联系的,而且任一事物的变化都与其周围的其他事物相互联系和相互影响。客观现象之间的相互联系,可以通过一定的数量关系反映出来。现象之间的关系形态有两种类型:函数关系和统计相关关系。函数关系是变量之间的一种完全确定的关系,即一个变量的数值完全由另一个(或一组)变量的数

2、值所确定。例如,银行的1年期存款利率为2.25%,设存入本金为 x,到期的本息为 y,则 这里 x 与 y表现为一种线性函数关系。微积分学是研究函数关系的数学学科。,图1 线性函数 的图形,统计相关关系是变量之间存在的不完全确定性的关系。在实际问题中,许多变量之间的关系并不是完全确定性的,例如居民家庭消费与居民家庭收入这两个变量的关系就不是完全确定的。收入水平相同的家庭,它们的消费额往往不同;消费额相同的家庭,它们的收入也可能不同。对现象之间相关关系密切程度的研究,称为相关分析。图2居民家庭收入与消费支出的数据作出的散点图,二、相关关系的种类 根据相关所涉及变量的多少,相关关系分为单相关与复相

3、关。两个变量之间的相关关系称为单相关;多个变量之间的相关关系称为复相关。根据相关的形式不同,相关关系分为线性相关与非线性相关。如果变量之间的关系近似地表现为一条直线,则称为线性相关;如果变量之间的关系近似地表现为一条曲线,则称为非线性相关或曲线相关。图2中的散点大致分布在一条直线两侧,表明两个变量之间是线性相关;图3中散点的分布大致呈抛物线形状,表明两个变量之间是非线性相关。,图3 非线性相关,根据变量相关方向的不同,相关关系分为正相关与负相关。正相关是指两个变量之间的变化方向一致,都是增长或下降趋势,如居民收入增加,居民消费额随之增加,故它们是正相关;负相关是指两个变量变化趋势方向相反,如产

4、品单位成本降低,利润随之增加,故它们是负相关。例如,在例2中给出了10个家庭的月收入和月消费支出的统计数据,它们之间呈正相关趋势;在例3中给出了某企业上半年产品产量和单位成本的统计数据,它们之间呈负相关趋势。根据相关程度的不同,相关关系分为不相关、完全相关和不完全相关。如果两个变量彼此的数量变化相互独立,这种关系称为不相关;如果一个变量的数量变化完全由另一个变量的数量变化所唯一确定,这种关系称为完全相关;介于不相关与完全相关之间的关系,称为不完全相关。,图4 不相关 图4中的散点杂乱无章地分布在一个区域中,表明两个变量之间不相关。,三、相关关系的测度(一)简单相关系数 相关系数是对变量之间相关

5、关系密切程度的度量,对两个变量之间线性相关程度的度量称为简单相关系数。设 是 的 n 组观测值,简单相关系数的计算公式为(1),(1)式可简化为(1),(二)相关系数的意义 相关系数的取值范围是在-1和+1之间,即-1 r 1。r0为正相关,r0 为负相关。如果|r|=1,则表明两个变量是完全线性相关;r=0,则表明两个变量完全不线性相关,但两个变量之间有可能存在非线性相关。当变量之间非线性相关程度较大时,就可能导致r=0,因此,当r=0时或很小时,应结合散点图作出合理的解释。根据经验将相关程度划分为以下几种情况:当|r|0.8时,视为高度相关;0.5|r|0.8时,视为中度相关;0.3|r|

6、0.5时,视为低度相关;|r|0.3时,说明两个变量之间相关程度极弱,可视为不相关。,例1 根据某种护发产品2019年在8个地区的销售情况,得到月平均销售收入 y(万元)与月平均广告支出 x(万元)的如下统计资料:表1 某种护发产品2019年在8个地区销售的统计资料,解 首先做出的散点图,从图上我们看到。这些点大致分别落在一条直线附近,说明月平均广告支出 x 与月平均销售收入 y 之间具有明显的线性关系。月平均广告支出 x 与月平均销售收入 y 的相关系数为=计算结果表明月平均广告支出与月平均销售收入之间存在高度正相关关系。,例2 根据下表的资料,计算家庭月消费支出与家庭月收入之间的相关系数。

7、表2 10个家庭月收入与月消费支出统计资料(百元)家庭编号 1 2 3 4 5 6 7 8 9 10月收入 9 13 15 17 18 20 22 23 26 30月消费支出 6 8 9 10 11 13 14 13 15 20解 根据上述资料,家庭月消费支出与家庭月收入之间的相关系数为 计算结果表明家庭月消费支出与家庭月收入之间存在高度正相关关系。,例3 某企业上半年产品产量与单位成本资料如下:表3 某企业上半年产品产量与单位成本统计资料月 份 1 2 3 4 5 6产量(万件)2 3 4 3 4 5单位成本(元/件)73 72 71 73 69 68 解 根据上述资料,单位成本与产量之间的

8、相关系数为 计算结果表明单位成本与产量之间存在高度负相关关系。,例4 股票价格指数是反映各个时期股价水平变动情况的指数,上证指数和上证30指数都是判断我国上海证券交易所股市行情的主要指标。下表是2019年前10个交易周的上证指数和上证30指数的资料:表4 上海证券交易所2019年前10个交易周的统计资料,解 根据上述资料,得到上证指数和上证30指数之间的相关系数为0.931,计算结果说明上证指数和上证30指数存在高度的正相关。上证指数是根据上海证券交易所上市的所有股票计算的,上证30指数是从上海证券交易所上市的所有A股股票中选取的具有代表性的30家股票为样本计算的,这30家上市公司在其行业中一

9、般具有相对稳定的业绩。由于历史原因,以及我国股市中投机意识大于投资,一般用上证指数来代表上海证券交易所股市行情,但二者之间具有很强的相关关系。,例5 下表是2019年7月1日我国31个主要城市的日最高气温与最低气温(单位:摄氏度):表5 2019年7月1日我国31个城市气温的统计资料.单位:,解 根据上述资料,得到这些城市日最高气温与最低气温之间的相关系数为0.82,二者之间具有较强的正相关关系。,四、等级相关系数 相关系数是测定变量之间相关程度的最常用指标,但它主要是测定数值之间的相关程度。但在实际中,有些现象是难以用数字确切计量的,如才智高低、艺术水平等,要测定这些变量的相关程度,就需要计

10、算等级相关系数。常用的等级相关系数称为斯皮尔曼等级相关系数。设 是 的 n 组观测值,将全部观测值 按递增顺序排成一列,在排列中的顺序号为,称做 的等级。当若干个观测值相等时,则以各观测值顺序号的平均值作为这些观测值的等级。若以 和 分别表示 和 的等级,则有如下的对应关系:,斯皮尔曼等级相关系数的计算公式为(3)式中,分别为 和 等级的算数平均数。若没有重复观测值时,斯皮尔曼等级相关系数的公式可变为(4)式中 表示两组数据的等级之差,即,n为数据的个数。若有重复观测值时,斯皮尔曼等级相关系数就是两组数据等级的相关系数。,例6 在某次模特比赛中,甲乙两名专家分别对参赛的8名模特的表演进行评定,

11、评定等级如下:表6 解 根据上述资料,斯皮尔曼等级相关系数为 计算结果表明甲乙两名专家对参赛的8名模特的表演评定等级基本一致。,例7 根据例8.5中2019年7月1日我国31个主要城市的日最高气温与最低气温(见表8.5),计算日最高气温与最低气温的等级相关系数。解 我国31个主要城市的日最高气温与最低气温的排秩(即等级)如下表8.7所示:表7 2019年7月1日我国31个城市最低、最高气温排秩表,因有重复观测值时,故斯皮尔曼等级相关系数就是两组数据等级的相关系数,根据相关系数的计算公式,其等级相关系数为0.793。,第二节 一元回归分析,一元回归分析是根据统计资料,寻求一个变量对另一个变量的恰

12、当数学表达式经验方程,来近似地表示变量间的平均变化关系的一种统计分析方法。本节系统介绍一元线性回归模型。一元线性回归是描述两个变量之间相关关系的最简单的回归模型。掌握了一元线性回归模型的建模思路与方法,就容易掌握和理解其他较复杂的回归模型。一、一元线性回归模型一元线性回归模型为(5),一般我们称 y 为被解释变量(因变量),称 x 为解释变量(自变量)。式中 和 是未知参数,称为回归系数。u是不可观测的随机变量,表示 x 和 y 关系中的不确定因素的影响,也称为随机误差。通常假定 对 n 组样本观测值 则(6)其中,随机误差 满足:且 相互独立。回归分析的主要任务就是通过 n 组样本观测值,对

13、 和 进行估计。设 和 分别为 和 的估计值,(7)则称为经验回归方程或样本回归方程;为 的回归值或拟合值,为经验回归方程的斜率,在实际应用中表示 x 每增加一个单位时,y 平均变动的单位;为经验回归方程的截距。为 残差。二、回归参数的估计 我们用最小二乘法求参数 和 的估计值 和,为此应使残差平方和取最小值。利用微积分中求极值的方法,得到正规方程组:,正规方程组正规方程组的解为,例8.9 根据例8.2给出的10个家庭月收入与月消费支出的统计资料(见表8.2),试建立家庭月消费支出对家庭月收入的线性回归方程。解 由于,因此家庭月消费支出 y对家庭月收入 x的线性回归方程为回归系数,说明家庭月收

14、入每增加100元,消费支出平均增加62.85元。,三、回归效果的评价(一)离差平方和的分解数据的变动情况,可以用离差平方和表示。数据总的变动称为总离差平方和,记为SST,它由两部分构成:被回归方程解释的部分,称为回归平方和,记为SSR;未被回归方程解释的部分,称为残差平方和,记为SSE。它们的计算公式为它们的相互关系为(11),(二)样本决定系数 由回归平方和与残差平方和的意义知道,在总的离差平方和中回归平方和所占比重越大,则线性回归效果就越好;如果残差平方和所占比重越大,则线性回归效果越差。我们把回归平方和与总的离差平方和之比定义为样本决定系数,即(12)样本决定系数 可以做回归值与实际观测

15、值拟合程度的度量。越接近1,说明二者的拟合程度越好。特别地,当y 与 x为线性相关关系时,样本决定系数等于样本相关系数的平方,即,(三)回归效果的显著性检验 如果假设,则可以用F 检验来评价回归效果。检验使用的统计量为(13)统计量,对于给定的显著性平,若,则认为回归效果显著;若,则认为回归效果不显著。其中 是自由度为 的F分布的 水平上侧分位数。,例10 检验例8中某种护发产品月平均销售收入y 对月平均广告支出x 的回归效果;检验例9中家庭月消费支出y 对家庭月收入x 的回归效果。解 根据例8.8数据,有SST=338.875 SSR=314.532 SSE=24.343所以样本决定系数为由

16、于 说明该种护发产品月平均销售收入 对月平均广告支出 的回归效果非常显著。,计算 统计量的值,查F 分布表,得,由于统计量 F=77.5250远远大于13.75,故 检验同样说明 y对 x的回归效果非常显著。根据例8.9数据,有SST=144.9 SSR=139.0903 SSE=5.8097所以样本决定系数为由于,说明家庭月消费支出y 对家庭月收入 x的回归效果非常显著。,计算 F统计量的值:查 F分布表,得,由于统计量 F远远大于11.26,故 F检验同样说明 y对x 的回归效果非常显著。,四、回归方程的应用建立回归模型的目的是为了应用,预测是回归模型最重要应用。回归预测包括点预测和区间预

17、测。(一)回归点预测回归点预测是指,对于给定的变量 的 值,用回归值 做为变量y 的预测值。(二)回归区间预测对于给定的变量 的值,变量 y的置信度为 的预测区间为(14),其中(15)是自由度为 n-2的 t分布 水平的双侧分位数。称(14)式表示的区间为回归预测区间。,例11 在例8.8条件下,对于不同的月平均广告支出预测月平均销售收入;在例8.9条件下,对于不同的家庭月收入预测家庭月消费支出。解 由例8计算结果可知,回归方程为所以,因此,对于不同的月平均广告支出,其月平均销售收入的预测结果如下:单位:万元 由例9及例10计算结果可知,回归方程为,所以因此,对于不同的家庭月收入,其家庭月消费支出的预测结果如下:单位:百元,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号