赵瑞红统计学ch05相关与回归分析.ppt

上传人:牧羊曲112 文档编号:6038712 上传时间:2023-09-17 格式:PPT 页数:79 大小:1.16MB
返回 下载 相关 举报
赵瑞红统计学ch05相关与回归分析.ppt_第1页
第1页 / 共79页
赵瑞红统计学ch05相关与回归分析.ppt_第2页
第2页 / 共79页
赵瑞红统计学ch05相关与回归分析.ppt_第3页
第3页 / 共79页
赵瑞红统计学ch05相关与回归分析.ppt_第4页
第4页 / 共79页
赵瑞红统计学ch05相关与回归分析.ppt_第5页
第5页 / 共79页
点击查看更多>>
资源描述

《赵瑞红统计学ch05相关与回归分析.ppt》由会员分享,可在线阅读,更多相关《赵瑞红统计学ch05相关与回归分析.ppt(79页珍藏版)》请在三一办公上搜索。

1、1,第七章 相关与回归分析,从社会经济角度追溯相关法的历史,1832年,比利时 凯特勒 Quetelet,2,一、函数关系与相关关系,1.函数关系,是指现象间存在着严格的依存关系,即:当一个或几个变量的确定值时,另一个变量有确定值与之相对应,并且这种关系可以用一个数学表达式反映出来。,第一节 相关的意义和种类,3,数学中对函数关系的解释:,(1)是一一对应的确定关系。(2)设有两个变量 x 和 y,变量 y 随变量 x 一起变化,并完全依赖于 x,当变量 x 取某个数值时,y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y=f(x),其中 x 称为自变量,y 称为因变量。(3)各观

2、测点落在一条线上。,4,函数关系的实例*某种商品的销售额(y)与销售量(x)之间的关系可表示为 y=px(p 为单价)*圆的面积(S)与半径之间的关系可表示为S=r2*企业的原材料消耗额(y)与产量(x1)、单位产量消耗(x2)、原材料价格(x3)之间的关系可表示为y=x1x2x3,5,是现象之间存在着非严格的、不确定的(或随机的)数量依存关系,即某一现象在数量上发生变化会影响另一变量,且变化在数量上有一定的随机性,换句话说,给定某一现象的一个数值时,另一现象可能有若干数值与之对应,并且遵循一定规律。,2.相关关系,6,(1)变量间关系不能用函数关系精确表达;(2)一个变量的取值不能由另一个变

3、量唯一确定;(3)当变量 x 取某个值时,变量 y 的取值可能有几个;(4)各观测点分布在直线周围。,数学中对相关关系的解释:,7,相关关系的实例*商品的消费量(y)居民收入(x)*商品的消费量(y)物价(x)*商品销售额(y)广告费支出(x)*粮食亩产量(y)施肥量(x1)、降雨量(x2)、温度(x3)*收入水平(y)受教育程度(x)*父(母)亲身高(y)子女身高(x),8,(1)相关关系的分析可以借用函数关系的表达式来近似反映变量间的依存关系;(2)由于观测或实验中出现的误差,有些函数关系中的自变量、因变量的值可能没有绝对确定、对应,即通过相关关系来反映。*函数关系是相关关系的特殊形式。,

4、3.函数关系与相关关系的联系,9,二、相关关系的种类,(一)按相关关系的程度分,1.完全相关:即函数关系,是变量间一 一对应的依存关系;2.(完全)不相关:简称不相关,也叫零相 关,变量间各自独立变化、互不影响的关系;3.不完全相关:是指变量间介于前两者 之间的关系。,10,(二)按相关关系的表现形态分,图中(1)、(2)为线性相关,(3)、(4)为非线性相关。,1.线性相关:将两个变量的实际调查值汇成散点图,各点大致散布在一条直线附近。2.非线性相关:又称曲线相关,将两个变量的实际 调查值汇成散点图,各点大致散布在 一条曲线附近。,11,2.负相关:当一个变量的数值增加(或减少)时,而 另一

5、个变量的数值相反地呈减少(或增加)趋势变化,即反方向变化。例如:物价与消费的关系。,1.正相关:两个相关现象间,当一个变量的数值增 加(或减少)时,另一个变量的数值也随 之增加(或减少),即同方向变化。例如:收入与消费的关系,(三)按相关的方向分,12,1.单相关:两个变量之间的相关,称为单相关。2.复相关:当所研究的是一个变量对两个或两个以上 其他变量的相关关系时,称为复相关。例如,商品的需求量、价格 收入3.偏相关:在某一现象与多种现象相关的场合,假定 其他变量不变,专门考察其中两个变量的 相关关系称为偏相关。例如:假定收入水平不变的条件下:需求量 价格,(四)按相关关系涉及的变量多少分,

6、13,三、相关分析与回归分析,1.相关分析,是研究现象间相互依存关系的密切程度、方向、形态、因素个数的方法。广义的相关分析包括相关关系的分析(狭义的相关分析)和回归分析。,2.回归分析,是指对具有相关关系的现象,根据其相关关系的具体形态,选择一个合适的数学模型(称为回归方程式),用来近似地表达变量间的平均变化关系的一种统计分析方法,即侧重趋势、形式。,(一)相关分析与回归分析的概念,*两者都是研究和测度变量间相互关系的方法。,14,(二)相关分析与回归分析的区别,1.相关分析中不必确定自变量和因变量;回归分析必须事先确定自变量、因变量,且只能从自变量去推测因变量。2.相关分析所涉及的变量一般都

7、是随机变量;回归分析中因变量是随机的,自变量则作为研究时给定的非随机变量。3.相关分析不能指出变量间相互关系的具体形式;回归分析能确切指出变量之间相互关系的具体形式,并可根据回归模型从已知量估计和预测未知量。,15,(三)相关分析与回归分析的联系,相关分析和回归分析有着密切的联系:两者具有共同的研究对象,且是研究现象间依存关系的两个不可分的方面。在具体应用时,常常首先依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系作出定性判断;然后计算相关的方向、形态、程度等;再进行回归分析寻求其相关的适当的数学表达式;最后用数学表达式进行预测、推算。相关分析需要依靠回归分析来表明现象数量相关的

8、具体形式,而回归分析则需要依靠相关分析来表明现象数量变化的相关程度。,结论:1.相关分析是回归分析的基础和前提;2.回归分析是相关分析的深入和继续。,16,2.确定相关关系的密切程度;,1.确定现象之间是否存在相关关系,以及表现形态如何;,3.拟定相关关系的数学表达式;,4.测定误差程度。,四、相关分析的主要内容,广义的相关分析,狭义的相关分析,狭义的回归分析,17,一、相关表:将自变量 x 的数值按照从小到大的顺序,并配合因变量 y 的数值一一对应而平行排列的表。,第二节 相关关系的判断与测定,例:为了研究某种劳务产品完成量与其单位产品成本之间的关系,调查30个同类服务公司,原始数据如表:,

9、18,按完成量排序,整理,19,二、相关图:又称散点图 将 x 置于横轴上,y 置于纵轴上,将(x,y)绘于坐标图上。用来反映两变量之间相关关系的图形。,20,三、相关系数,(一)相关系数的概念和定义公式 简单相关系数:简称“相关系数”,在线性条件下说明两个变量之间相关关系密切程度的统计分析指标。,若相关系数是根据总体全部数据计算的,称为总体相关系数,记为 若相关系数是根据样本数据计算的,则称为样本相关系数,记为 r,21,总体相关系数的定义公式:,22,样本相关系数的定义公式:,23,1.表明相关方向;,2.表明相关程度。,24,25,(四)相关系数 r 的计算公式,26,27,28,计算相

10、关系数的“积差法”,29,1.的取值介于-与 之间,r 的取值范围是-1,1 2.在大多数情况下,|,即与的样本观测值之间存在着一定的线性关系,当时,x与 y 为正相关,当时,x 与 y 为负相关。|的数值愈接近于 1,表示 x 与 y 直线相关程度愈高;反之,|的数值愈接近于 0,表示 x 与 y 直线相关程度愈低。通常判断的标准是:0|0.3 称为微弱相关;0.3|0.5 称为低度相关;0.|0.8 称为中度相关或显著相关;0.8|1 称为高度相关或强相关。,(五)相关系数 r 的性质,30,3.如果|=1,则表明与完全线性相关,当=1时,称为完全正相关,而=-1 时,称为完全负相关。4.

11、是对变量之间线性相关关系的度量。=0只是表明两个变量之间不存在线性关系,它并不意味着与之间不存在其他类型的关系。,31,例:15个地区某食物需求和人口增加量的资料如下:,32,33,34,解:由已知,产量和生产费用呈高度正相关关系,35,附录:计算器的统计功能:,36,如前所讲,回归分析是指对具有相关关系的现象,根据其相关关系的具体形态,选择一个合适的数学模型(称为回归模型),用来近似地表达变量间的平均变化关系的一种统计分析方法,即侧重趋势、形式。,第三节 简单线性回归分析,回归模型 的类型,37,(一)标准的一元线性回归模型,1.总体回归函数 t01tut 上式是只涉及一个自变量的简单线性回

12、归模型。模型中,是的线性函数(部分)加上误差项线性部分,反映了由于的变化而引起的的变化。0 和 1 称为模型的参数;ut 是随机误差项,又称随机干扰项,它是一个特殊的随机变量,反映了除和之间的线性关系之外的随机因素对的影响,是不能由和之间的线性关系所解释的变异性,或者说是未列入方程式的其他各种因素对的影响。,附录:相关数学知识的回顾,38,t 称为残差,在概念上,t 与总体误差项 ut相互对应;是样本的容量。,2.样本回归函数:,(,.n),附录:相关数学知识的回顾,39,3.样本回归函数与总体回归函数区别,(1)总体回归线是未知的,只有一条。样本回归线是根据样本数据拟合的,每抽取一组样本,便

13、可以拟合一条样本回归线。(2)总体回归函数中的1和2是未知的参数,表现为常数。而样本回归函数中的1和2是随机变量,其具体数值随所抽取的样本观测值不同而变动。(3)总体回归函数中的 ut 是 t 与未知的总体回归线之间的纵向距离,它是不可直接观测的。而样本回归函数中的 t 是 t 与样本回归线之间的纵向距离,当根据样本观测值拟合出样本回归线之后,可以计算出 t 的具体数值。,附录:相关数学知识的回顾,40,4.误差项的基本标准假定,误差项 ut 是一个期望值为 0 的随机变量,即E(ut)=0 对于一个给定的 x 值,y 的期望值为:E(yt)=0+1 xt 误差项 ut 是一个服从正态分布的随

14、机变量,且相互独立。即 u N(0,2)。独立性意味着对于一个特定的 x 值,它所对应的 u 与其他 x 值所对应的 u 不相关。对于一个特定的 x 值,它所对应的 yt 值与其他 xt 所对应的 y 值也不相关。,附录:相关数学知识的回顾,41,总体回归线与随机误差项,(t)12t,X,Yt,Y,。,。,。,ut,附录:相关数学知识的回顾,42,(二)回归方程,1.回归方程的概念:,方程的图示是一条直线,因此也称为直线回归方程。0 是回归直线在 y 轴上的截距,是当 x=0 时 y 的期望值。1 是直线的斜率,称为回归系数,表示当 x 每变动一个单位时,y 的平均变动值。,描述 y 的平均值

15、或期望值如何依赖于 x 的方程称为回归方程。简单线性回归方程的形式如下 E(y)=0+1 x,附录:相关数学知识的回顾,43,2.估计(经验)的回归方程,简单线性回归中估计的回归方程为,总体回归参数 0和 1 是未知的,必需利用样本数据去估计。,用样本统计量 代替回归方程中的未知参数 0 和 1,就得到了估计的回归方程。,其中:是估计的回归直线在 y 轴上的截距,是直线的斜率,它表示对于一个给定的 x 的值,是 y 的估计值,也表示 x 每变动一个单位时,y 的平均变动值。,附录:相关数学知识的回顾,44,最小二乘法,用最小二乘法拟合的直线来代表 x 与 y 之间的关系与实际数据的误差比其他任

16、何直线都小。,使因变量的观察值与估计值之间的离差平方和达到最小来求得 和 的方法。即,3.参数 0 和 1 的最小二乘估计,附录:相关数学知识的回顾,45,最小二乘法(图示),附录:相关数学知识的回顾,46,回归系数的估计的最小二乘法公式 设 将对求偏导数,并令其等于零,可得:,附录:相关数学知识的回顾,47,最小二乘法(和 的计算公式),解方程组可得求解 和 的标准方程如下:,48,一、简单线性回归(一元线性回归)的统计分析方法,当只涉及一个自变量时称为一元回归,若因变量 y 与自变量 x 之间为线性关系时称为一元线性回归。,指在定性分析的基础上绘制散点图,判断出变量呈线性关系且相关程度较高

17、,则最接近这些散点的直线是最理想的直线,即用最合适的数学模型(称为回归方程式)来近似地表达变量间的平均变化关系的一种统计分析方法。,(一)简单线性回归方程:,(二)用最小平方法拟定简单线性回归方程:,7.1 a+b 5,描散点图 直线,7.2 a+b 57.5 a+b 6.,7.1 5 a 5+b 52,7.2 5 a 5+b 527.5 6 a 62+b62.,50,51,52,53,附录:计算器的统计功能:,54,例:现以前例的资料配合回归直线,计算如下:,55,56,57,上式中 b 表示人口增加量每增加(或减少)1千人,该种食品的年需求量平均来说增加(或减少)0.5301 十吨,即 5

18、.301 吨。,58,附录:估计方程的求法(利用Excel输出的结果),59,(三)估计标准误差 Sy,实际观察值与回归估计值离差平方和的均方根。反映实际观察值在回归直线周围的分散状况。从另一个角度说明了回归直线的拟合程度。计算公式为:,由样本资料计算,由总体资料计算或在大样本情况下,60,计算例子,61,可得简化式:,上式的推导证明,62,1.回归模型检验的种类 回归模型的检验包括理论意义检验、一级检验和二级检验。2.拟合程度的评价 所谓拟合程度,是指样本观测值聚集在样本回归线周围的紧密程度。判断回归模型拟合程度优劣最常用的数量尺度是样本决定系数(又称决定系数)。它是建立在对总离差平方和进行

19、分解的基础之上的。,(四)一元线性回归模型的检验,63,总离差平方和的分解,因变量 y 的取值是不同的,y 取值的这种波动称为变差。变差来源于两个方面:1.由于自变量 x 的取值不同造成的;2.除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响。对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差 来表示。,64,离差平方和的分解(图示),65,离差平方和的分解(三个平方和的关系),两端平方后求和有,从图上看有,SST=SSR+SSE,66,离差平方和的分解(三个平方和的意义),总平方和(SST)反映因变量的 n 个观察值与其均值的总离差回归平方和(SSR)反映自变

20、量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和。残差平方和(SSE)反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和。,67,样本决定系数(判定系数 r2),回归平方和占总离差平方和的比例:,反映回归直线的拟合程度取值范围在 0,1 之间 r2 1,说明回归方程拟合的越好;r20,说明回归方程拟合的越差判定系数等于相关系数的平方,即r2(r)2,68,根据回归方程,可以给出自变量的某一数值来估计或预测因变量平均可能值。例如,前例中当人口增长量为400千人时,该食品的年需求量为,6

21、9,置信区间、预测区间、回归方程,70,第四节 非线性相关与回归分析,在对实际的客观现象进行定量分析时,选择回归方程的具体形式应遵循以下原则:首先,方程形式应与有关实质性科学的基本理论相一致。例如,采用幂函数的形式,能够较好地表现生产函数;采用多项式方程能够较好地反映总成本与总产量之间的关系等等。其次,方程有较高的拟合程度。因为只有这样,才能说明回归方程可以较好地反映现实经济的运行情况。最后,方程的数学形式要尽可能简单。如果几种形式都能基本符合上述两项要求,则应该选择其中数学形式较简单的一种,以使其可操作性增强。,一、非线性函数形式的确定,71,(一)抛物线函数(二)双曲线函数(三)幂函数(四

22、)指数函数(五)对数函数(六)形曲线函数(七)多项式方程,二、常见的非线性函数形式,72,几种常见的非线性模型的线性化,指数函数,线性化方法两端取对数得:lny=ln+x令:y=lny,则有y=ln+x,基本形式:,图像,73,几种常见的非线性模型,幂函数,线性化方法两端取对数得:lg y=lg+lg x令:y=lgy,x=lg x,则y=lg+x,基本形式:,图像,74,几种常见的非线性模型,双曲线函数,线性化方法令:y=1/y,x=1/x,则有y=+x,基本形式:,图像,75,几种常见的非线性模型,对数函数,线性化方法x=lgx,则有y=+x,基本形式:,图像,76,几种常见的非线性模型,S 型曲线,线性化方法令:y=1/y,x=e-x,则有y=+x,基本形式:,图像,77,非线性回归(实例),【例】为研究生产率与废品率之间的关系,记录数据如下表。试拟合适当的模型。,78,非线性回归(实例),生产率与废品率的散点图,79,非线性回归(实例),用线性模型:y=0 1x+,有y=2.671+0.0018 x用指数模型:y=x,有y=4.05(1.0002)x比较:直线的残差平方和 指数模型的残差平方和 5.3371 6.11 直线模型略好于指数模型,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号