《相关分析与一元线回归模型.ppt》由会员分享,可在线阅读,更多相关《相关分析与一元线回归模型.ppt(96页珍藏版)》请在三一办公上搜索。
1、第八章 相关分析与一元线性回归模型,相关系数(Correlation Coefficient)一元线性回归模型(Simple Linear Regression Model),8.1 随机关系,函数关系(Deterministic Relationship)Y=f(X)每一个 X 值都唯一地对应一个 Y值.随机关系(Stochastic Relationship)当 X 的值给定时,Y 的取值服从一个分布,函 数 关 系,例1:一台计算机售价为960美元。X 计算机的销售量 Y 总销售收入 Y=960X例2:租车固定费用为100美元。每行驶一公里收费0.2$X 行驶公里数 Y 租用车辆的费用
2、Y=100+0.20X,随 机 关 系,随机关系(Stochastic Relationship):例:钢材消费量与国民收入 Y 钢材消费量(万吨)X 国民收入(亿元)问题:如何测量X与Y的相关性大小?,钢材消费量与国民收入,随机关系(Stochastic Relationship):当 X 的值给定时,Y 的取值服从一个分布,发电量与工业增加值(19952007),1-1.北京市人口变化情况,图为19782009年北京常住人口变化情况。户籍人口增长比较缓慢,年平均增长率为1.24%,外来人口(指居住半年以上外来人口),随着北京经济的发展,增长迅猛,年平均增长率为15.74%。,1.北京市人口
3、预测,1-2.北京市的人口规划与实际情况,根据北京城市总体规划(2004-2020)的要求,到2020年,北京的常住人口为1800万左右,户籍人口为1350万。而实际情况是:截止2009年底,北京的常住人口已经达到了1755万人。,图4 指数预测模型的拟合图,从图中看出,近10年内,北京市的常住人口基本接近指数增长。,1-3.北京市人口预测,选取了2000-2009年的总常住人口数据来预测未来人口变化。选取该段数据原因是(1)2000-2009年北京人口的变化比较有规律;(2)北京市统计局从2001年开始正式对外来人口进行统计。,不同年份常住人口预测结果,表1 按指数函数预测的北京市未来10年
4、的常住人口数,2006年中国城市生活质量报告中,北京在全国仅排名第14 位,比上一年下降10 位。交通问题满意度则排在所有城市的最后一位,也是造成北京排名下滑的最主要的原因。(中国汽车资源网引用法制晚报报道),2.全市交通承载力分析,2-1.北京市交通现状:机动车保有量,从图中可以看出,北京市的机动车保有量增长迅速,特别是2000年以来,增长极为迅猛。,图10,2-2.北京市人口出行总量预测(六环以内),从图12可以看出,随着人口的增长,出行总量也随之增长。预计到2020年,六环内的出行总量将达到4300万人次/日以上,是2009年的1.6倍。,3-3.全市交通出行比例分析,右图显示:自行车出
5、行比重下降,公共交通出行比例不断增加,同时,小汽车出行比例也持续增加。目前,北京市公共交通出行比例仅为38.9%,而东京大于64%以上。北京的小汽车使用强度为45车公里/日,远高于东京(19)、香港(39)、伦敦(30)。北京市机动车的80%以上集中在六环范围内。北京机动车呈现高速度增长、高强度使用、高密度聚集的态势。,交通出行比例,到2020年,即使公交能够承担50%的出行数量,小汽车承担的出行比例降到24%(乐观估计)。小汽车所承担的出行量也高于2009年的出行量,这意味着,届时,在路上行驶的小汽车的数量将高于目前的数量至少10个百分点。,小汽车和公共交通承担的出行量分析,2009年,北京
6、公交出行比例接近39%,小汽车接近35%。如果2020年,公交承担的比例为50%,并认为增加的部分主要来自小汽车的承担量,则小汽车承担的比例降为24%。,Y 每周支出($)Xi 每周税后收入($)解:b1=0.9232 b0=-8.1622,8.2 相关系数(The Correlation Coefficient),Pearson 相关系数:r(x,y)记,r(x,y)的性质,(1)-1 r 1(2)0 r 1:正线性相关(3)-1 r 0:负线性相关(4)r=0:线性无关(5)r=1:完全正线性相关(6)r=-1:完全负线性相关,四个散点图,总体相关系数,1.总体方差2.总体协方差3.总体相
7、关系数,关于总体相关系数的假设检验,H0:=0 H1:0检验统计量:,(总体上有相关关系),例题:,X 钻井深度Y 钻井费用 n=6,r(x,y)=0.953H0:=0 H1:0(右尾检验),Spearman秩相关系数,注意:样本相关系数只能测量两个随机变量之间是否存在线性相关关系!问题:如何测量非线性相关关系?xi 1,2,3,4,5,6,7,8,9,10yi 12,22,32,42,52,62,72,82,92,102,计算得到:r=0.975,思路1.,X:2,4,6,8,10,12,14,16,18,20 rank 1,2,3,4,5,6,7,8,9,10 Y:22,42,62,82,
8、102,122,142,162,182,202 rank 1,2,3,4,5,6,7,8,9,10,思路2:,(1)求两组秩的差:Di=ui-vi(2)为防止正负号抵消:(3)(a)如果:ui=vi,i=1,2,n 取到最小值(等于零)。(b)如果:两组秩取值完全相反,取到最大值。ui n(n-1)(n-2)3 2 1 vi 1 2 3(n-2)(n-1)n,计算:显然,l 的取值范围为 0,1 两组秩完全一致 两组秩完全相反(4)定义Spearman秩相关系数当 l=0:R=1(正相关)当 l=1:R=1(负相关)一般认为:为相关程度比较高。,例:对某地区 12 个街道进行调查,并对经济发展
9、水平与卫生条件按规定的标准打分。评价与计算结果见下表:,编号 经济水平 卫生水平 u(经济)v(卫生)D=u-v D2 1 82 86 6 9-3 9 2 87 78 9 6 3 9 3 60 65 1 2-1 1 4 98 88 12 10 2 4 5 75 64 3 1 2 4 6 89 90 10 11-1 1 7 84 80 7 7 0 0 8 78 77 4 5-1 1 9 80 76 5 4 1 1 10 94 96 11 12-1 1 11 85 85 8 8 0 0 12 68 70 2 3-1 1合计 32,计算Spearman秩相关系数该地区的经济水平与卫生水平存在正相关关
10、系!,例7.1 有50个从初中升到高中的学生。为了比较初三的成绩是否和高中的成绩相关,得到了他们在初三和高一的各科平均成绩(数据在highschool.sav)。,Pearson相关,非参数相关,讨论1:从相关关系发现因果关系,案例:2006年北京市的福寿螺事件5月20日 蜀国演义酒楼将“凉拌螺肉”的原料海水螺改为福寿螺。5月23日 前后 广州管圆线虫病患者开始出现症状,但病因难查。6月24日 首例广州管圆线虫病在友谊医院确诊。(热带病研究所)6月25日 友谊医院临床医生先后2次到蜀国演义酒楼暗访、明查,检测出福寿螺携带广州管圆线虫幼虫。8月17日 北京市卫生局通报因食用凉拌螺肉染上“广州管圆
11、线虫病”情况。2008年05月12日 新华网报道,100多位曾在蜀国演义酒楼食用凉拌螺肉的顾客患上广州管圆线虫病。该病严重者出现头痛、发热、颈部强硬等症状,严重者可致痴呆,甚至死亡。经场历时一年半的 赔偿案审理,160多名患者共获赔偿近1000万元。酒楼总损失则为2320万元。,讨论2:相关关系 因果关系 西班牙医生Gasper Casal 与18世纪在欧洲首次发现糙皮病是非常贫困的居民中体弱多病、伤残、夭折的一个重要原因。十九世纪初这种疾病在欧洲蔓延,二十世纪头十年,在美国泛滥。患病者家庭贫困,环境条件恶劣,到处有苍蝇。而在欧洲,一种吸血蝇与糙皮病有同样的地理分布范围;而吸血蝇在春天最为活跃
12、,恰恰是糙皮病发生病历最多的季节。许多流行病专家认为这种疾病是传染性的由昆虫传染。1914年初,美国医生Joseph Goldberger通过实验研究证实,糙皮病是由于不良饮食引起的,可以通过食用含P-P因子(烟酸)的食物而预防和治疗。烟酸天然存在与肉、奶、蛋和一些蔬菜、谷物中。发病地区的穷人主要以玉米为食物,而玉米几乎不含烟酸。1940年以来,美国销售的大部分面粉中添加了P-P因子。苍蝇是贫穷的标志,而不是糙皮病的起因。相关关系不等于因果关系。,(4)航空运量的增长在1996年以前是经济增长的线性趋势。,还有一些例子:(1)闪电是打雷的原因吗(2)公鸡打鸣,天就亮(相关关系?反因果关系?)(
13、3)哲学家罗素(Bertrand Russell)讨论因果问题 在一只鸡看来:农妇到来,饲料会被放在钵子里,有相关关系,不一定有因果关系;没有相关关系,就一定没有因果关系。,8.3 一元线性回归模型(Simple Linear Regression Model),回归模型:研究因变量与自变量之间的因果关系Y因变量(dependent variable)Xj 自变量(independent variable)例:总体参数:0,1,p 随机误差:,Sir Francis Galton1889,Natural Inheritance,T 8,Y 4C 8,Y 64,应用实例:美国航空公司的零件预测,
14、美国航空公司发展了RAPS分配与计划系统,可以提供从咖啡机到起落架的超过5000种零件的需求预测。这些零件的保障供应都对一架飞机的运行至关重要。零件短缺会导致航班取消,代来很高的成本。最初使用时间序列模型,但发现不适用。之后,系统使用线性回归模型,建立月度零件更新Y与月度飞行小时X的函数关系,可以在不到1个小时的时间里得出所有零件的月度需求预测。美国航空公司的原材料管理小组估计“使用RAPS每年差不多节约100万美元。,例1:阿蒙德比萨饼屋的销售预测,阿蒙德比萨饼屋在美国5个州有连锁店。最成功的店址是在大学校园边上。经理们认为,这些饭店的季度销售额Y与学生人数成正相关,即位于学生人数较多校园旁
15、边的饭店将比位于学生人数较少的校园边上的饭店实现更达的销售额。为了研究学生人数与季度销售额之间的关系,阿蒙德公司采集了10家位于大学校园边的饭店的数据。,b1=5(为正),说明学生人数增加时,季度销售额便会增加学生人数每增加1000人,预计销售额会增加5000美元如果要预测一个位于拥有16 000个学生的校园边的饭店的季度销售额,可以预测季度销售额约为 140 000美元.,一元线性回归模型,基本假设(basic assumptions):,一元线性回归分析的问题,假设对于总体数据:希望估计总体参数:0,1从总体中抽取容量为 n 的样本:估计量:一元回归线:,8.4 最小二乘方法(Ordina
16、ry Least Squares),一元回归线:残差平方和:SSE(Sum of Squares for Error),解:,正规方程(The normal equations),Gauss-Markov 定理,如果基本假设成立:最小二乘估计量b0、b1是总体参数 0、1的线性最小方差无偏估计量。,例题:yi 股票价格($)xi 股息($),股票 股息($)股价($)ixi yi 113115 2 4 45 312100 4 5 50 5 6 55 6 8 85 7 3 40 8 4 50 9 5 45 10 7 70,yi 股价($)xi 股息($),解:,y 股价x 股息计算结果为:b1=
17、7.5072,b0=15.2017,8.5 评价回归模型,一.问题提出 样本回归模型总是可以求到的,但是它是否确实是总体回归模型的正确估计呢?1.该模型能否较好地解释 yi 的取值变化规律?回归方程的质量如何?误差多大?2.关于一元线性回归模型的几个基本假设条件是否得到满足?,问题:,1.估计标准误差:se(sy)2.拟合优度(判定系数):R23.在 X 和Y 之间是否存在线性关系?(F-test)4.X 在解释 Y时,是否有作用?(t-test)5.无序列相关检验(D-W test)6.残差分析,二.估计标准误差(Standard Error of the Estimate),回归标准误如果
18、基本假设成立:se 是总体标准差 的无偏估计量:E(se)=,自由度(Degree of Freedom)=n-2,计算 se 例:股价与股息之间的关系,回归标准误差,(5.653/65.5=8.63%),三.拟合优度 Goodness of Fit,可解释变异,不可解释变异,总变异,=,+,测定系数,SSR越大:用回归方程解释 yi 变异的部分越多 SSE越小:观测值yi绕回归线越紧密,拟合越好测定系数(Coefficient of Determination),R2 的性质:(1)0 R2 1(2)当 R2=1:SSR=SST,or SSE=0(3)当 R2=0:SSR=0,or SST=
19、SSE(4)r(X,Y)的()号与 b1相同;(5),例题:股价与股利之间的关系,回归方程:,1.R2=0.64,X 与 Y 的相关系数等于(a)0.64(c)0.32(b)0.80(d)0.402.指出下面哪一个方程一定是错误的,四.F-检验(检验回归模型的线性关系),一元线性回归模型:F-test 在 X 和 Y之间是否存在线性关系?,F-test:在 X 和 Y之间是否存在线性关系?,(1)(2)检验统计量(3)(4)若F F,不拒绝H0(非线性模型或换变量)若 F F,拒绝H0(不能否定线性模型),例题:股价与股利之间的关系,(通过F 检验),拒绝,五.t-检验(回归系数的检验)X 对
20、Y 是否有解释作用?,如果总体假设成立而如果 H0 为真,则有,t-检验,(1)(2)检验统计量:(3)(4)若 t t/2,拒绝 H0(X 有解释作用)若 t t/2,不拒绝 H0(X 没有解释作用),例题:Y 每周支出($)Xi 每周税后收入($),家庭 收入($)支出($)ixi yi 1400350 2300250 3350 325 4400370 5200180 6300270 7375330 8380350 9325 300 10400360,Y 每周支出($)Xi 每周税后收入($),Y 每周支出($)Xi 每周税后收入($)解:b1=0.9232 b0=-8.1622,(通过
21、t 检验),六.Durbin-Watson检验自相关现象(序列相关),总体模型中无序列相关假设:1.序列相关的测量2.序列相关现象产生的原因(1)重要的解释变量被遗漏、模型函数形式错误(3)时间序列自变量:(4)蛛网现象:,农产品供应量,农产品价格,随机误差,2.自相关现象的后果(1)估计量的误差范围扩大(不再是有效估计量);(2)t-检验和F-检验不再有效;(3)稳健性差:最小二乘估计量对抽样波动变得十分敏感。3.检查自相关现象:(1)图示法(残差图),t,et,0,et-1,(2)分析法(D.W检验)检验目的:中是否存在自相关现象,D.W检验表:检验水平样本点容量 n=15100变量个数
22、k=15查表得到d统计量的最低限dL和最高限du决策方法:(1)du d 4-du 时,接受Ho假设,线性回归模型通过D.W检验,随机误差项没有自相关现象。(2)0 d dL,随机误差项存在正自相关现象。(3)4-dL d 4,随机误差项存在负自相关现象。(4)dL d du 或者 4-du d 4-dL,不确定。,无自相关,4-du,dL,du,0,不确定,不确定,D-W检验表,2,负自相关,正自相关,4,4-dL,例:n=16 k=1=0.05,查表:dL=1.10,du=1.37(1)若 d=0.681.10 存在正自相关现象。(2)若 d=1.72du=1.37 1.72 4-du=4
23、-1.37=2.63 不存在正自相关现象。,七.残差分析,H0,H0:,标准化残差图:以xi 横坐标,以ei*为纵坐标,将数据(xi,ei*)标在平面图上。,(1)若数据点(xi,ei*),i=1,2,n,在(-2,2)区间内随机分布,则说明对总体模型的假设是正确的,因而推断回归方程的拟合是良好的。(2)若数据点(xi,ei*),i=1,2,n,排列有规律,或其中有许多点落在(-2,2)区间之外,则说明回归方程对数据的拟合不充分,这时随机误差项不再服从。原因例如:回归方程的形式选择不当(非线性);缺乏重要的解释变量。,(3)异方差现象,总体模型中有“同方差”假设:截面数据中较容易出现异方差现象
24、,例如:(i)储蓄行为的差异随着收入水平而变化;(ii)不断同熟练程度的打字员,打字错误的可能性和打字错误的类型不同。后果:的参数估计方差扩大;(无偏性,但不再有效)F-检验和 t-检验失效;(会低估估计量的方差,得到的t值很高,但并非如此,对 t-检验产生误导。),(4)回归模型残差的正态性检验,绘制残差的直方图(plot-Histogram)2检验,K-S检验 P-P Plot(累计概率分布图):X 假设残差服从,分布函数为:F(x)Y 残差的经验分布:S(x)如果两种分布基本相同,则P-P plot中的点应围绕在对角线附近。,8.6 总体参数的置信区间,如果总体假设为真,同样的,截距的置
25、信区间为,例题:,Y 每周支出X 每周税后收入对于斜率 1,构造置信水平为 90%的C.I.0.054,0.923+1.8600.054)=(0.823,1.023),8.7 应用回归模型进行预测,当 X=xp,预测 yp 的数值。Point Estimation:Interval Estimation:,1.线性回归模型不宜用于长期预测。2.事物发展与历史数据的趋势有过大的差异。例如:航空运量的增长在1996年以前是经济增长的线性趋势。,应用回归模型需要的注意问题,1996,8.8 EXCEL应用yi 股票价格($)xi 股息($),股票 股息($)股价($)ixi yi 113115 2
26、4 45 312100 4 5 50 5 6 55 6 8 85 7 3 40 8 4 50 9 5 45 10 7 70,EXCEL:工具 数据分析(D)相关系数,回归,相关系数,回归:,当P-value 0.05时,t检验通过,当 Significance F 0.05时,F检验通过,综合练习:某商业银行25家分行2002年的主要业务数据,Excel的主要计算内容:1、散点图2、相关系数矩阵3、“不良贷款”对“贷款余额”的一元回归,“不良贷款”对“贷款余额”的散点图,相关系数矩阵,“不良贷款”对“贷款余额”的一元回归,残差分析计算结果,作业,统计学各章练习题10.1(Excel)10.3(不用计算“预测区间”),