相关分析与回归分析-教案.ppt

上传人:牧羊曲112 文档编号:5803835 上传时间:2023-08-21 格式:PPT 页数:52 大小:918.50KB
返回 下载 相关 举报
相关分析与回归分析-教案.ppt_第1页
第1页 / 共52页
相关分析与回归分析-教案.ppt_第2页
第2页 / 共52页
相关分析与回归分析-教案.ppt_第3页
第3页 / 共52页
相关分析与回归分析-教案.ppt_第4页
第4页 / 共52页
相关分析与回归分析-教案.ppt_第5页
第5页 / 共52页
点击查看更多>>
资源描述

《相关分析与回归分析-教案.ppt》由会员分享,可在线阅读,更多相关《相关分析与回归分析-教案.ppt(52页珍藏版)》请在三一办公上搜索。

1、相关分析与回归分析,经济与管理学院,2016-2017 学年 雷海东,第10讲,correlation and regression,章节提纲:,1.相关分析概论2.相关关系的测定3.一元线性回归分析4.多元线性回归分析,学习目标 1、了解相关关系的概念及种类、相关分析的概念和内容 2、重点掌握简单相关系数的计算方法 3、掌握回归分析的概念及建立线性回归方程的方法 4、掌握相关参数的统计检验,能对统计软件回归计算的结,第一、二节 相关分析概述相关关系测定,变量间关系,血压 年龄动物死亡率 毒物剂量体重身高肺活量体重相关:血压和年龄关联的程度如何?动物死亡率与毒物剂量关联的程度如何?回归:人群中

2、,平均而言,血压 如何随年龄变化?毒性实验中,动物死亡率如何随剂量变化?,两个随机变量之间的关系,回归:如何-即定量的联系,从一个变量来预测另外一个变量。给定剂量,动物的死亡率,能不能做出预测。,都是描述两个随机变量之间的关系。,回归回答如何,散点图,Fig.7.1 收缩压和舒张压(mmHg)(665 名 6 至 10 岁女孩),收缩压,舒张压,他两的关系都是此长彼长。所以总体趋势看得出是向前的。但是给定了一个舒张压,但是收缩压可以是高也可以是低。,指数函数,对数函数,正弦函数,Y 和 X之间的函数关系,对应于给定的 X值,相应的Y 值是确定的.,但现在给定一个X值,Y可能是不确定的。(是上页

3、),分散,集中,x不论怎么变,Y都是在一个范围走动,那么X和Y没有什么相关性。,烧饼,给定一个X,就是一个水平上,X变,y也是一个水平上,也没有关系,香蕉,x变大,y从小到到,去曲线关系,不是线性关系。线性相关也几乎是零,虽然是曲线关系,下前三没有相关性,上面都是线性相关,一三是正线性相关,3图相关性好。2,4是负先关性,4负的绝对值比2好一些。,相关性好就是绝对值好些,一下研究的都是线性相关,简称相关,三、相关关系 相关系数是度量两个变量之间线性相关的方向和强度的测度,常用的度量指标是皮尔逊(Pearson)相关系数【专栏】在相关分析中,定性分析或经济理论分析重要吗?,correlation

4、 coefficient,相关系数(Correlation Coefficient)1.总体相关系数(Population correlation coefficient),Pearsons 乘积-矩线性相关系数:“两个标准化变量之乘积”的总体平均-简单相关系数(simple correlation coefficient),-X 和 Y 的总体协方差,相关系数也有总体和样本,但一般我们只掌握样本,X舒张压Y收缩压,x标准化,X标准化*Y标准化相乘,然后取总得平均,在总体里面去平均。总体里面全部人去求平均是总体相关系数。如果去简化,sigama x、y是常数,拿出来外面。,X-x是离均差,上面

5、就是两个离均差相乘,E是期望。期望就是求平均的意思,在总体里面的平均的意思,总体里面的协方差算在一块、舒张压离开平均值多远,收缩压离开平均值都远,相乘一块有多远,也叫监督相关系数,一定介于-1和1之间,总体均数,Ro,去掉n,公式如下:,2.样本相关系数(Sample correlation coefficient),需要用样本来估计相关系数,怎么定义,类似刚才的,X(Y)-样本的观察值减去样本的均数,然后相乘。乘积统统加起来。,下面不求平均,不然就约掉了-离均差的平方求和乘以离均差的平方求和。,样本的离均差乘积求和,离均差平方之和,介于-1和1之间。有可能发生-1和1,但生活中很少发生,度量

6、线性关系的强度和方向:1)r=0-无线性关系,或很弱 2)若绝对值较大-线性关系较强 3)符号正负-线性关系的方向 4)+1 or-1-完全相关,实践中少见,P181,研究父子之间身高的关联性,为什么这么来定义?,样本-判断关联性,求r,样本的离均差乘积之和,X本身的离均差平方之和,Xbar计算出来,例子8-1,第三节 一元线性回归分析,第三节 一元线性回归分析,回归分析实质就是通过建立数学方程,研究因变量与自变量之间的变动关系,如果分析一个自变量与一个因变量的线性关系,称为一元线性回归分析,如果分析两个或两个以上的自变量与一个因变量的线性关系,则称为多元线性回归。,一、一元线性回归理论模型一

7、元线性回归模型是用于分析一个自变量x与一个因变量y之间线性关系的数学方程,在变量x与y的直角坐标平面上,可以绘制散点图,可以看出所有的散点大致呈线性关系,or,在一元线性回归之中,因变量由两个部分组成,一个是,其解释了自变量x变动引发的线性变化。另一部分为剩余变动,反映了不能为自变量x和因变量y之间的线性关系所解释的其他剩余变动。,根据刚才的那组表。是不是最后会呈这样的图形,板书,那么我们回到线性方程的知识里面去。,用公式来代表,其实就是一个求极值的问题。左边就是 Min(Y-Yheand)2。y-yhead的纵向距离的和最小。y-yhead就是残差,是一个剩余的部分,是一个估计值。实际的是y

8、,希望你估计值yhead尽量接近你实际得到的指标y,这是最好的。所以残差(剩余的部分)最小。而yhead=(a+bx)带进去,求偏导-最小二乘法拓展但两个自变量呢?是不是一个平面。不,是一个三维空间。三个自变量?四维。多变量和一个y,多维。其实只要知道残差最小就行。同样的原理。,二、普通最小二乘估计(ols),最小平方法是测定长期趋势最常用的的方法。它是通过建立数学方程,对元时间序列配合一条较为理想的趋势线,使得原序列中的各实际值和趋势值的离差平方最小。一般最小平方法的统计表达式是:,式中:,采用这种趋势要配合直线,也可以配合曲线,这需要跟原序列所反映的现象变动的特点来确定。趋势形态判断方法比

9、较多,最为简单的就是画散点图。若散点大致在某一条直线周围波动,就配合趋势直线;若散点大致在某一条曲线周围波动,就配合趋势曲线。首先介绍直线趋势的配合。,(一)直线方程,适用条件:现象发展的各期逐期增长量大体相等。,即,趋势值,【(2X+1)】=2(2x+1)*2=8x+4,画图,这边,x对应的是时间序号,而Y帽子代表的是发展水平。,直线方程公式表示为:,上述直线方程式中,a、b为两个未定参数,根据最小平方法的要求,求方程组:,例-某省19911998年人口资料如表所示,要求拟合时点的趋势方程,并以此趋势预测1999年末的人口数。,8763,n=8,b求出来都代入到a公式里面,y,x就是第几年,

10、横轴表示时间,纵轴表示元数列的指标数值,坐标原点定在1990年,其序号0用来表示,拟合直线趋势方程。,根据上述公式:,将1999年时间序列号9带入配合的趋势方程,可得到1999年末某省人口数的趋势值(预测值),既,1999年末该省人口数将达到9402.94万人。,1990是原点,画图,上述方程中的x为时间。为了计算方便,可对其进行假设:当时间项数为奇数时,可假设x的中间项为0,这时时间项依次排列为:,-3,-2,-1,0,1,2,3,;当时间项数为偶数时,可假设原点0在数列正中相另两个时间的中点,这时时间项依次排列为:,-5,-3,-1,1,3,5,这种设x的方法是要使时间项的正负相抵消,使x

11、=0,则上述联立方程组可简化为:,为了方便手工计算,可以把原数列的重点移至坐标原点,使得”x=0“,此时,标准方程可以化为:,-3,-2,-1,0,1,2,3相加等于零,画图,例如;用简便的方法来计算上面例子。,1999年的时间序号应该为9.,本例中各期的逐期增长量大体相同,可以配合直线趋势方程。,Practic-某地区各年的粮食产量为:,Tip:,首先判断一下,趋势是怎么样的。,案例:某地区粮食产量直线趋势方程计算,(i)已知:n对观察值(X1,Y1),(X2,Y2),(Xn,Yn);(ii)作散点图(scatter diagram)(iii)若散点图呈直线趋势,则配一条直线:求出直线的方程

12、式,刚才是X对父子,哪怕是有些分散的,下面看怎么计算,线性回归三步骤,什麽是回归?,找出反映平均水平的那条直线的方程,Y的平均值是如何依赖X,给定 X的数值,Y 的数值取在在一个平均值(y|x)附近 对应与不同的X值,Y 的平均值座落在一条直线上-回归直线.y|x 和 X的关系可用一个线性方程描写.,这样的回归线用方程来表示,三、一元回归的统计检验,统计检验包括线性关系检验和回归系数检验,具体包括拟合优度检验、参数显著性检验以及回归总体线性的显著性检验,1、经济意义检验:就是根据模型中各个参数的经济含义,分析各参数的值是否与分析对象的经济含义相符。2、回归标准差检验3、拟合优度检验4、回归系数

13、的显著性检验,3.估计标准误差,用来反映回归直线代表性大小的统计分析指标。,回归的残差平方和除以它的自由度来表示,称为剩余方差。标准误差为剩余方差的开方:,P318 例9-7,接下来的内容只做拓展,相关系数计算检验的步骤根据公式计算相关系数r值 根据给定的显著性水平,查相关系数检验表,自由度为n-2,得到临界值 统计决策,4.相关性检验(r检验),判决系数R2是对变量x与y变量进行回归时做出的,用来衡量回归的拟合优度;相关系数r是对变量x与y变量进行相关分析时做出的,用以判定变量x与y的线性相关程度。,与r的区别:,P319例9-8,r 随样本变化而变化,是一个随机变量 总体的回归系数 r 问

14、题:=0 吗?假定:X 和Y 服从二元正态分布,3.相关系数的统计检验,相关系数是从样本里面选出来。用样本的相关系数去推出总体的,样本相关系数,总体,如果样本里r非零(0.几),退出 是零或 是零,但样本里面非零,所以,假设检验,平面上有x轴和y轴,xy服从二元正态分布的话,x本身服从一元真该分布,同理for Y,刚才看的是样本,那么我怎么知道这个样本可否推断出总体?,1、离差平方和的分解P316,=0,总离差平方和TSS,回归平方和ESS,残差平方和RSS,再回到第一个的拟合优度判断,离差平方和的分解 TSS=RSS+ESS 拟合优度检验(判决系数R2),也叫判决系数,数值范围为01之间。若

15、R2=1,说明全部样本观察值均在估计的回归直线上,观察值yi与回归值(估算值)完全拟合。若R2-0,完全不拟合,线性模型完全不能解释因变量yi的变动。R2越接近于1,拟合程度越好,反之越差。,P317 例子 9-6,t 检验:是对回归系数的显著性检验 t 检验的基本步骤 提出假设构造t检验统计量,并由样本数据计算t检验值 根据显著性水平,查t分布表,得到临界值 统计决策,5.参数的显著性检验(t检验)P320,t(n-2),显著性检验包括两个方面:回归系数(参数)整个回归方程,b 随样本变化而变化,是一个随机变量 总体的回归系数 b 问题:=0 吗?,2.关于回归的统计推断,20对父子,找出来

16、的规律,不完全等同于客观上父子身高的规律,再测20对父子,可能出来就边了,所以b随着样本变化而变化我们关心不是b是,有了b推测最关系的是,是不是零的。是零的话,线是水平的,代表那就没有办法推测出儿子身高。还有去推断是否为零,统计量,回归系数的标准差,残差的标准差,回归系数的 t 检验=0.05,样本里面的斜率减去理论上的斜率(H0),=0,so 涉及到Sb样本标准误,b怎么有标准差?换另外一批数值,有另外一个,随机(样本变动)变动,理论上可以推出b随机变动的标准差,t如果太大,不太可能太大,一般2.几,3.几就很大了。H0成立的话,t就跑到尾巴里面去了,所以不太可能,拒绝H0,因此要涉及计量范

17、围,X的范围要设计得大一些,那么b的变化(Sb)就小些,就不是要做很多分样本,一份就够了,那更能就近真是的(b变异性大师很不好的)。s是反映散点,没有办法改变。能改变的只有Sb的分母(X轴分散度)就像实验和温度,温度散开点,会更好参照。,设计回归的时候:,b的变异性,s反应散点,下一页解释,残差的标准差放在分子,散点分布情况,分母是X的离均差平方之和,反映了父亲身高的变异性,父亲如果有高高唉唉,那么(离均差的平方值)变异性就大。所以b的变异性是和两者有关。b在这里就是斜率,斜率怎么会变,翘起来,或者压下去,样本变了。斜率的变异性跟两个因素有关,散点的分散性,同时和估计身高的分散性(X轴上的分散

18、性)有关。若父亲的高矮千遍一律,斜率变异性怎么样,翘得就低,相反就高(上下两点拉大)敲高。如果是X轴分散,(左右拉大),换一份样本,变化小一些。,斜率的离异程度,s就是残差平方治和最小的那个残差平方之和(已经达到最小)。(分子)再去除以自由度。n-2?推导方程的时候已经用了a和b,用了两个参数。S平方就是方差-残差的变异性S就是残差的标准差,描述去大小,与散点有关,分散度。分散大,残差平方和就大。,理论上可以推出b随机变动的标准差,s反应散点,回归系数的标准差,残差的标准差,b的变异性,s反应散点,P320 例子9-9,F检验是对回归总体线性关系是否显著的一种假设检验F检验的基本步骤 提出假设

19、构造F检验统计量,并由样本数据计算F检验值 根据显著性水平,查F分布表,得到临界值 统计决策,6.回归总体线性的显著性检验(F检验),P321 例子 9-10,F检验是对整个模型而已的,看是不是自变量系数不全为0,而t检验则是分别针对某个自变量的,看每个自变量是否有显著预测效力。,在回归分析中,F检验和t检验各有什么作用?,在一元回归里面,F检验与t检验是等价的。其实一样多元则不一样了。P322,3.回归方程的应用估计平均值 的范围-平均值的置信区间(CI)(2)估计个体值 Y 的范围-个体值的预测区间(PI),预测,有两个东西需要预测:1假定给了父亲身高,这类孩子的将来的平均水平(不是针对这

20、个父亲他的孩子,而是针对170的这样的父亲,他们的孩子将来平均有多高。(样本量是20个)2.这个父亲,他的儿子将来在于什么范围内,这个比较难,特定他的儿子。先说第一件事情,样本平均值是有波动的,跟两者有关,一个是样本量,n越大,中间黑线稳定。方差问题。第二个就是自变量拉得开不开。第三个就是x0,例如1米7,你给的身高离开平均身高远不远。如文问我的父亲是两米,离开均值一米六八的大,根号里面大,差异性就大了。X0越靠近xbar,效果越好,S和原来散点的分散程度有关,confident intervel,平均值的置信区间,如果把置信区间画到图上,确定一个x0就可以确定一个y0,就可以出来一个置信区间

21、,再改动一个x0,又有一个y0,又有一个置信区间。图上,换一个x0,就在直线的上下,有一个区间再直线的上下。换一个x0,又可以在直线的上下有一个区间。这个区间,整个的连起来,就可以是里面的虚线,两条虚线像喇叭,中间窄,两头宽。why?X0离开xbar近就窄,远就宽。两条虚线就反映了CI,就是平局值的置信区间。你给我数值父亲180,带劲CI的公式,得到平均儿子有多高,然后不是就这么高了,要加减一个ta,v乘以s根号内的范围,所以就有了这么一个宽度,若是给我1米9,就会再外外,宽一些。,我1米7,帮我估算下我的儿子身高多少?怎么考虑?你170,你儿子可能很高,你儿子的身高是在平均值的上下,也可能比

22、较低,在下面的曲线。总言之,如果在上面,会围绕着平均值有一个波动。如果是下线,也是样道理,但范围是更宽。在外边大喇叭口。,特定,从公式上来说,要估计某个特定个体的y值呢,里边除了刚才(1)的两项,多了一个1.(围绕平均值有三点的分散性)既是根号里面比它还要宽,多了1.整个就宽一些。总共有两个区间,一个是估计平均值的范围,另一个是估计个体值得范围。平均值范围称为,均数的CI。个体值范围为了区别它,称为预测区间PI。对比一下发现,范围区别(宽度),第四节 多元回归分析,四、非线性趋势的测定当现象的发展呈曲线变动的时候,仍然可以使用最小平方法配合趋势曲线方程。曲线有多样,常见的有二次曲线(抛物线)和

23、指数曲线。,(一)二次曲线趋势测定当时间序列中的二级增长量大致相同时(也就是时间序列数据的逐期增长绝对量近似为一常量时,可选择二次曲线模型),皆可以配合二次曲线方程,二次曲线方程一般形式为,方程中a,b,c 三个三个待定参数,根据最小方法。,代入之后各自求导等于零,可以得到:,例如,某工业产品产量增长量指标,案例:某工业产品产量抛物线方程计算表,y就是发展水平,式中:a基期水平,b平均发展速度,x时间a、b均为未定参数。求解指数方程时,一般是将指数方程通过取对数转化为直线方程,然后按直线方程办法求出参数,再对所得结果查反对数还原。,应用条件:现象发展各期的环比增长速度大体相同。(下页)指数曲线的一般方程为:,(三)指数曲线方程,案例:某地区工业净产值指数曲线方程计算,7.2/5.3=1.369.6/7.2=1.33环比增长速度相似,判断是指数函数,Thanksssssssss!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号