心理与教育统计学第12章线性回归剖析课件.ppt

上传人:小飞机 文档编号:1605646 上传时间:2022-12-10 格式:PPT 页数:67 大小:869KB
返回 下载 相关 举报
心理与教育统计学第12章线性回归剖析课件.ppt_第1页
第1页 / 共67页
心理与教育统计学第12章线性回归剖析课件.ppt_第2页
第2页 / 共67页
心理与教育统计学第12章线性回归剖析课件.ppt_第3页
第3页 / 共67页
心理与教育统计学第12章线性回归剖析课件.ppt_第4页
第4页 / 共67页
心理与教育统计学第12章线性回归剖析课件.ppt_第5页
第5页 / 共67页
点击查看更多>>
资源描述

《心理与教育统计学第12章线性回归剖析课件.ppt》由会员分享,可在线阅读,更多相关《心理与教育统计学第12章线性回归剖析课件.ppt(67页珍藏版)》请在三一办公上搜索。

1、第十二章 线性回归,第一节 线性回归模型的建立方法第二节 回归模型的检验与评估第三节 回归方程的应用,类别:1.自变量数目: 一元回归(一个自变量) 多元回归(多个自变量)2.变量间关系: 线性回归(直线关系) 非线性回归 注意:回归分析中只能有一个因变量,第一节 线性回归模型的建立方法,1、用一定模型来表述变量相关关系的方法称为回归分析。2、从广义上说,相关分析包括回归分析。但二者有区别:回归分析是以数学方式表示变量间的关系,而相关分析则是检验或度量这些关系的密切程度,两者相辅相成。,一、回归分析与相关分析的关系,相关与回归是从不同角度对变量间关系的分析:相关关系是两个变量之间的双向关系,没

2、有主从之分;回归关系是两个变量之间的单向关系,是自变量对因变量的影响关系。相关关系用相关系数来表示,而回归关系用数学模型来表示,这种数学模型称为回归方程。,二、回归分析的内容,1、建立回归方程2、检验方程的有效性3、利用方程进行预测,三、回归模型与回归系数,1.用来表达变量之间规律的数学模型称为回归模型。2.回归模型的分类(1)线性回归模型、非线性回归模型(2)简单回归模型、多重回归模型(3)一元线性回归是指只有一个自变量的线性回归(linear regression),对具有线性关系的两个变量,回归的目的首先是找出因变量(一般记为Y)关于自变量(一般记为X)的定量关系。,3、一元线性回归方程

3、,回归方程有两个:以X为自变量预测因变量时,方程为: 以Y为自变量预测因变量时,方程为 :,该直线在Y轴的截距,该直线的斜率,对应于X的Y变量的估计值,四、一元线性回归模型建立方法,例12-1:下表中10对数据是为确定某心理量与物理量之间的关系而做的实验结果(表中物理量是取对数后的值)。假设两者呈线性关系,试以这10对数据结果建立该心理量与物理量的回归方程。,解:将N对数据按奇偶顺序分为两组,然后分别代入设定的回归方程求和,计算b和a第一组(奇数组) 1=a+0b 3=a+1b 4=a+4b 6=a+6b 8=a+5b 22=5a+16b ,(一)平均数方法,第二组(偶数组) 1=a+2b 3

4、=a+5b 5=a+2b 7=a+2b 9=a+7b 25=5a+18b,与联立,成二元一次方程组:22=5a+16b 25=5a+18b解得a=-0.4,b=1.5,代入设定的方程答:该心理量与物理量的回归方程为,(二)最小二乘法,1、定义:所谓最小二乘法,就是如果散点图中每一点沿Y轴方向到直线的距离的平方和最小,就是使误差的平方和最小,则在所有直线中这条直线的代表性是最好的,它的表达式就是所要求的回归方程。,2.最小二乘法的原理 设方程 每一点到直线沿Y轴方向的距离平方和为: 求回归方程就是求当该公式达到最小时a和b的值,而要是公式为最小,只需分别对a和b求偏导数,并令其等于零。即,经整理

5、,并省略X与Y字母下面的下标,上面 两式分别写成: 两边同除以N,得,例12-2:根据例12-1中的数据,使用最小二乘法求回归方程。 代入公式 得b=0.81 再代入公式 得a=1.95 则,回归方程为:,五、回归系数与相关系数的关系,同理,1.线性关系假设2.正态性假设3.独立性假设 X1,Y1与X2,Y2独立,依次类推 误差项独立4.误差等分散性假设 误差项总和等于0,六、线性回归的基本假设,1、线性关系假设2、正态性假设3、独立性假设4、误差等分散性假设,第二节 回归模型的检验与估计,一、回归模型的有效性检验1、回归模型的有效性检验,就是对求得的回归方程进行显著性检验,看是否真实地反映了

6、变量间的线性关系。2、方法 线性回归模型的有效性检验通常使用方差分析的思想和方法进行。根据方差分析的原理,在回归的方差分析中总变异被分解为自变量的变异和误差的变异。其分析过程也是从总平方和的分解到自由度的分解,再到均方,最后是进行自变量对误差影响程度进行比较。,即:总平方和 = 误差平方和 + 回归平方和,回归平方和的公式推导如下:,所有Y值的总平方和;,由回归直线表示的线性关系解释的 那部分离差平方和;,回归直线无法解释的那个离差平方和。,回归方程效果的好坏取决于回归平方和在总平方和中所占的比例,即,以例12-1的回归方程为例,检验其方程效果。,1)建立假设,H0:方程效果不显著,即自变量X

7、与因变量Y之间没有显著的线性关系。,H1:方程效果显著,即自变量X与因变量Y之间存在着显著的线性关系。,2)方差分析 求平方和, 求均方 求F值 3)比较与决策 当分子自由度为1,分母自由度为8时, 。因为, F5.32,p0.05,效果显著。所以接受研究假设,拒绝虚无假设,说明自变量X与因变量Y之间存在显著的线性关系。,4)列方差分析表,*表示在0.05水平上差异具有统计学意义,二、回归系数的显著性检验,(一)回归系数检验的基本思想,对于样本的回归系数 来说,是否抽自一个回归系数 的总体。若 与 之间无显著差异,其差异主要是抽样误差,说明 是来自 总体,因此,X与Y之间不存在线性关系。反之,

8、则X与Y之间存在线性关系。,回归系数的检验采用t检验法,其公式为:,(二)回归系数的标准误,在方程 中,当回归线上与所有自变量(X)相对应的各个因变量的残值(即 )都呈正态分布,且残值的方差齐性时,可以直接用值( )的估计误差及自变量X的离差平方和表示回归系数的标准误,即有,又,对例11-1的方程采用回归系数进行显著性检验。1)建立假设 H0: H1:2)计算统计量 求样本回归系数的标准误,,,:, 计算t值4)比较与决策 时 , 时, t=2.57 2.31,p0.05,关系显著。拒绝虚无假设,接受研究假设,表明两个变量之间存在显著的线性关系。,三、决定系数,在回归方程的方差分析中曾指出,回

9、归平方和对总平方和的贡献越大,说明回归方程越显著,因而回归平方和在总平方和中所占的比例是评价回归效果的一个指标。这个比例越大回归效果越好,若这个比例达到1,则表明此时Y的变异完全由X的变异来解释,没有误差。若为0,则说明Y的变异与X无关,回归方程无效。,相关系数的平方等于回归平方和在总平方和中所占的比例。r2叫做决定系数。,第三节 回归方程的应用,一、用样本回归方程进行预测或估计 例12-5:下表是20名工作人员的智商和某一次技术考试成绩,根据这个结果求出考试成绩对智商的回归方程。如果另有一名工作人员智商为120,试估计一下若让他也参加技术考试,将会得多少分?,1)计算X、Y变量的平均数 2)

10、代入公式计算b,a回归方程为:当x =120时,代入回归方程计算,得:,二、真值的预测区间,预测是将已知变量值作为自变量代入相应的回归方程而推算出另一个变量的估计值及置信区间统计方法。预测的标准误:,预测区间:,例12-6:当X=97时Y的真值进行估计。 计算预测置信区间查t表,有 ,则置信区间为:,1)计算预测标准误,6.5,三、回归分析与相关分析的综合运用,1、具体步骤 第一步:将成对资料绘制散点图,从散点图中点子的分布形状判断X和Y是否有线性关系。 第二步:建立回归模型。 第三步:回归方程显著性检验。 第四步:计算回归估计标准误差。 第五步:根据建立的回归模型进行预测,估计真值预测区间。

11、,2、注意事项一种模型只要在当初抽取样本的同一范围内应用才有效。进行回归与相关分析时,不要认为某一变量发生的变化一定是由另一变量(或另几个变量)的变化所引起的,回归分析并不能准确地确定因果关系。若变量之间不存在相关关系,不要刻意去寻求两变量间的某种关系,并且用回归与相关来分析,这样做毫无意义。,多重线性回归,第一节 多重线性回归的概念,多重线性回归是研究一个应变量与多个自变量之间线性依存关系的统计方法,是一元直线回归分析的推广。,式中b0是常数项,bi(i1,2,m)称为偏回归系数。,(1)b0是常数项,是各自变量都等于0时,应变量的估计值。有时,人们称它为本底值。(2)b1,b2,bp是偏回

12、归系数,其统计学意义是在其它所有自变量不变的情况下,某一自变量每变化一个单位,应变量平均变化的单位数。,与直线回归一样,建立多重回归方程常用最小二乘法(least square method)原理求bi(i1,2,m),再求b0,即求出使估计值 与观测值y之间差异的平方和 达到最小的一组解作为bi的估计值。,多重线性回归模型的前提条件,1. 线性(linear)2. 独立(independent)3. 正态(normal)4. 等方差性(equal variance),例1 同样身高的20名健康男子的收缩压(kPa)、年龄(岁)和体重之间的多元线性回归方程。,编号 收缩压 年龄 体重 y x1

13、 x2 1 15.60 50 76.0 2 18.80 20 91.5 3 16.53 20 85.5 4 16.80 30 82.5 5 15.60 30 79.0 6 16.67 50 80.5 7 16.40 60 79.0 8 16.67 50 79.0 9 17.60 40 85.0 10 16.40 50 76.5,表1 20名健康男子的收缩压、年龄和体重测定值,n20,X1=44.05, X2=82.80,Y=17.82Y=356.35, X1=881, X2=1656.0, X12=41467, X22=137953.5, Y2=6408.2049,X1Y=15788.50,X

14、2Y=29653.27,X1X2=72669.5,由样本计算得到得偏回归系数bi是总体偏回归系数i的估计值,即使总体偏回归系数等于0,但由于抽样误差,仍可使样本偏回归系数bi不等于0,因此仍要作假设检验,以判断其是否有统计学意义。,假设检验,假设检验包括方程的假设检验和每个偏回归系数的假设检验。(一)多元回归方程的假设检验1. 建立假设和确定检验水准: H0:1=2=3=m0 H1:1、2、3、m不全为0 =0.05,总 = n-1 回归=m 剩余=n-m-1,SS误差 = SS总 - SS回归,总 = 20-119 回归=2 剩余=20-2-117,SS误差 = SS总 - SS回归25.2

15、829,n20,X1=44.05, X2=82.80,Y=17.82Y=356.35, X1=881, X2=1656.0, X12=41467, X22=137953.5, Y2=6408.2049,X1Y=15788.50,X2Y=29653.27,X1X2=72669.5,查F界值表得:F0.05(2,17)3.59,FF0.05(2,17),P0.05,因此在=0.05水平上,拒绝H0,可以认为收缩压与年龄和体重之间有回归关系,所建立的回归方程有意义。,(二)回归系数的假设检验1. 建立假设和确定检验水准: H0:i=0 H1:i0 =0.052. 计算统计量t,查t界值表得:t0.0

16、5(17)2.110,t1 t0.05(17),P0.05,因此在=0.05水平上,拒绝H0,可以认为收缩压与年龄之间有线性回归关系。,查t界值表得:t0.05(17)2.110,t2 t0.05(17),P0.05,因此在=0.05水平上,拒绝H0,可以认为收缩压与体重之间有线性回归关系。,因为m个自变量都具有各自的计量单位以及不同的变异度,所以不能直接用偏回归系数的数值大小来反映方程中各个自变量对应变量Y的贡献大小。为此,可计算标准化回归系数。,标准化回归系数,复相关系数,R2称为决定系数,可定量评价y的总变异能被自变量解释的比重。,偏相关系数,扣除其他变量的影响后,变量y与x的相关,称为

17、y与x的偏相关系数。如:r12.3,在一个有统计学意义的方程中,可能某些自变量对应变量影响较大,而另一些影响很弱甚至完全没有意义。为使回归方程中仅包含有意义的自变量,有必要对偏回归系数作检验和进行自变量筛选。,自变量筛选的常用方法1. 所有可能自变量子集选择;2. 向前选择法;3. 向后剔除法;4. 逐步选择法,自变量筛选的原则:残差均方缩小或调整决定系数(Ra2)增大。,多重线性回归的注意事项:1. 自变量必须是相互独立的;2. 自变量的联合作用;3. 样本含量;4. 正确看待选入和未选入的自变量。,多重共线性问题及对策:多重共线性指的是自变量间存在着近似的线性关系,即某个自变量可以近似地用其他自变量的线性函数来描述。对策:1. 增大样本量;2. 采用多种自变量筛选方法相结合的方式;3. 因子分析和主成分分析;4. 通径分析;5. 岭回归分析;6. 从专业和实际角度,去除次要的、缺失值较多、测量误差较大的共线性因子。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号