《社会统计学(卢淑华) 第十二章ppt课件.ppt》由会员分享,可在线阅读,更多相关《社会统计学(卢淑华) 第十二章ppt课件.ppt(26页珍藏版)》请在三一办公上搜索。
1、第十二讲 回归不相关,第一节 回归研究的对象,1、研究定距变量与定距变量之间的非确定关系相关关系:1)变量之间存在关系,2)这种关系是非确定性的,两个变量x和y,当x变化时会引起y相应变化,但他们之间的变化关系是不确定的。如果当x取任何,一可能值xi 时,y相应地服从一定的概率分布,则,称随机变量y和变量x之间存在着相关。,2、散点图,xy,x1y1,xy,22,x3y3,xnyn,y,x1,x,3、回归方程与线性回归方程1)回归方程E yi f xi 自变量不同取值时,因变量y平均值的变化。2)线性回归方程(一元)当因变量y的平均值与自变量x呈线性关系时Ey x,问题:用 y x 这个方程表
2、示的回归线性方程应该在坐标图上的哪一个位置,才使预测时所犯错误最小?,第二节 回归直线的建立不最小二乘法,1、直线回归方程的建立通过样本值作散布图,由散布图估计出总体回归直线的系数、,建立直线回归方程。但:抽样误差存在,样本均值并不等于总体均值,要获得一条最佳的估计直线,用最小二乘法。,它是总体线性回归方程 y x 的最佳估计方程,2、最小二乘法设总体中抽取一样本,围绕n个观测点画一条直线 y a bx,与各点都比较接近的直线为最佳。要求:各点到待估直线的铅直距离之和为最小。利用微分学中,LxyLxx,求极值的原理,求得:a y bx b 将a、b代入线性回归方程:y a bx,例,:妇女受教
3、育的年限不家务劳劢时间调查资料,第三节 回归方程的假定不检验,一、线性回归模型基本假定的界定1、自变量x可以是随机变量,也可以是非随机变量,x值可以认为是无误差的。2、由于x和y之间存在非确定性的相关关系,因此要求y的所有子总体的方差都相等:Dy1 Dy1 Dy2 Dyi Dyn 3、y的所有子总体,其均值都在一条直线上,称做线性假定。Eyi xi4、要求随机变量 yi 是统计独立的,E i 0 D i,5、处于检验的需要,要求y值的每一个子总体都满足正态分布。,D,以上假定用两组数据结构来表达:1)随机变量 yi 是独立的,且有:均值:E yi xi方差:yi 22)yi 与 xi 有如下关
4、系:yi xi i i 是随机变量,它们相互独立,且有2,二、回归方程的检验1、原假设:x与y不存在线性关系,HH,01,:0:0,yi y,TSS,2,1i yi,2、线性回归的平方和分解1)总偏差平方和:反映观察值 yi 围绕均值 y 的总分散程度。ni 1,y,1 nn,TSS E1,不知x与y有关系时估计y的总误差。,ESS,yi yi,2)剩余平方和:反映观测值 yi 偏离回归线 y i 的程度。,ni 1,2,y i 由回归直线 y a bx 确定ESS E2,知道x与y有关后,估计y所产生的误差,RSS,yi y,3)回归平方和:通过回归直线解释掉的误差。,ni 1,2,n 2,
5、x n 1,x 1,x n 2,3、统计量:,F 1,n 2,RSSESS,F,TSS2,2,RSS2,2,ESS2,2,如果 F F 拒绝 H 0。,例:统计某城市家具销售额y(万元)与新建住宅面积x(千平方米),得如下资料:,年次,91,92,93,94,95,96,97,98,xy,116 129 137 146 144 165 182 198104 115 124 131 132 145 158 172,建立回归方程,并进行F检验 0.05,x x y,y,Covx,y,第四节 相关,一、相关系数(线性相关)1、协方差:i in 1表示x与y两变量观测值相对其各自均值所造成的共同平均偏
6、差。协方差的数量可以作为变量线性相关程度的度量。,xi x yi y,2、相关系数,相关系数就是标准化了的协方差,取值范围:1,13、相关系数具有PRE的性质,xi x yi y 2 2,PRE,TSS ESS RSS,x x y y,x x y y,2,L xxL yy,TSS TSS2 2,i i,i i,E1(yi y)2 TSSE 2(yi y)ESS2,r为相关系数;PRE(r2)系数为判定系数。主意二者的区别?,1,4、相关系数的检验,H 1,H 0:P 0,:P 0,n 22,t,tn 2,用 进行直接检验:1)根据 公式计算样本的 值2)给出显著性水平 和k=n-2,按附表查出
7、相应的临界相关系数 3)比较 与 的大小如果,则x与y之间存在线性相关关系,在显著性水平 下显著,例:以下是子代和父代受教育年限的抽样调查:,求:回归直线、相关系数,是否有推论意义?0.05,父代子代,24,45,68,87,109,r n 2,1 r,5、相关系数 的检验与回归系数 的检验的关系:如果通过了 的检验也必然导致(F检验)检验的通过。实际上,F公式与 r公式有对应关系:,2,2,F,F 1,n 2,r,即:RSS r TSS,r TSS,(1 r)TSS,r,RSSTSS,2,2,2,2,2,(n 2),21 r,n 2,n 2,TSS ESSESS,F,6、相关与回归的比较1)
8、相同点:都是研究变量之间的非确定性关系,而且都是研究其中的线性关系。2)不同点:回归是研究变量之间的因果关系,但相关不一定具有因果关系。相关系数是双向对称的,回归直线是非对称的。,第五节 用回归方程迚行预测,求y的区间估计值,e2,y2 a x2,yn a xn en,e1,e2 en 相互独立。都服从相同的正态分布 N 0,2,则随机变量y的标准化:,y yS y,tn 2 服从自由度为n-2的t分布,y1 a x1 e1,x0 x,y y,xi x,当x x 0时,置信度为1 a的y区间估计为:y0 t 2 S y 0,y0 t 2 S y 0.其中:,Lxx,1n,1,2,S y 0 S,L,xx,2,2,n 2,S,