《多元回归与相关.ppt》由会员分享,可在线阅读,更多相关《多元回归与相关.ppt(22页珍藏版)》请在三一办公上搜索。
1、试验统计方法,第十章 多元回归与相关,第一节 多元回归,第二节 多元相关和偏相关,研究内容:计算在其它自变数固定不变时,某个自变数与依变数间的偏相关系数,分析该自变数在其它自变数固定不变时对依变数的影响力,确定各个自变数对依变数的单独效应和综合效应,建立由各个自变数描述和预测依变数反应量的多元回归方程;对上述综合效应和单独效应的显著性进行测验,并在大量自变数中选择仅对依变数有显著效应的自变数,建立最优多元回归方程;借助多元回归,计算各自变数的标准偏回归系数,评定各个自变数对依变数的相对重要性,以便研究者抓住关键,能动地调控依变数的响应量。,试验统计方法,第一节 多元回归,若依变数Y同时受到m个
2、自变数,X1,X2、Xm的影响,且这m个自变数皆与Y成线性关系,则这m+1个变数的关系就形成m元线性回归。因此,一个m元线性回归的样本观察值组成为:,一、多元回归方程,同理,一个m元线性回归方程可给定为:,其中,b0是x1、x2、xm都为0值y的点估计值;b1是的简写,它是在x1、x2、xm皆保持一定时,x1每增加一个单位对y的效应,称为x2、xm不变(取常量)时x1对y的偏回归系数;,多元回归的线性模型和多元回归方程式,试验统计方法,第一节 多元回归,多元回归统计数的计算,同直线回归一样,必须使散点图中的所有点整体上离回归直线最近,即误差达到最小:,最小,由最小二乘法可求得b:,b=(XX)
3、-1XY,试验统计方法,第一节 多元回归,这里有:,试验统计方法,第一节 多元回归,多元回归方程的估计标准误,由解得的b代入后得到多元回归方程,满足 最小。这里的Q叫做多元离回归平方和或多元回归剩余平方和,它反映了回归估计值和实测值y之间的差异。为与两个变数的离回归平方和Q有所区别,这里记作。由于在计算多元回归方程时用了b1、b2、bm和b0等m+1个统计数,故的v=n-(m+1)。因此,定义多元回归方程的估计标准误为:,试验统计方法,第一节 多元回归,在多元回归分析中,Y变数的总平方和(SSy)仍然可分解为回归平方和(记作)和离回归平方和()两部分,相应的计算公式为:,试验统计方法,第一节
4、多元回归,二、多元回归的假设测验,多元回归关系的假设测验,多元回归关系的假设测验,就是测验m个自变数的综合起来对Y的效应是否显著。若令回归方程中b1、b2、bm的总体回归系数为1、2、m,则这一测验所对应的假设为H0:1=2=m=0对HA:i不全为0。,试验统计方法,第一节 多元回归,由于多元回归中SSy可分解 为两部分,的不同所引起,具有v=m;的不同无关,具有v=n-(m+1),由之构成的F值:,即可测验多元回归关系的显著性。,试验统计方法,偏回归关系的假设测验,第一节 多元回归,上述多元回归关系的假设测验只是一个综合性的测验,它的显著表明自变数的集合和y有回归关系,但这并不排除个别乃至部
5、分自变数和y没有回归关系的可能性。因此,要准确地评定各个自变数对y是否有真实回归关系,还必须对偏回归系数的显著性作出假设测验。,偏回归系数的假设测验,就是测验各个偏回归系数bi(i=1,2,m)来自 i=0总体的无效假设,H0:i=0对HA:i0,测验方法有两种:,试验统计方法,第一节 多元回归,1、t测验,二元时,,服从v=n-(m+1)的t分布,因而可测验bi的显著性。,试验统计方法,第一节 多元回归,2、F测验,在包含m个自变数的多元回归中,由于最小平方法的作用,m愈大,回归平方和Uy/12m亦必然愈大。如果取消一个自变数Xi,则回归平方和将减少Upi,而,显然,这个Upi就是y依xi的
6、回归平方和,也就是在y的变异中由xi的变异所决定的那一部分平方和,它具有v=1。因此,由,可测验bi来自i=0的总体的概率,试验统计方法,第一节 多元回归,三、最优多元线性回归方程的统计选择,一个实际的多变数资料,往往既含有对Y有显著效应的自变数,又含有没有显著效应的自变数。因此,在偏回归关系的假设测验中,通常是一些bi显著,另一些bi并不显著;象例10.4那样所有自变数都对Y有显著作用的情况并不多见,在多元线性回归分析时,必须剔除没有显著效应的自变数,以使所得的多元回归方程比较简化而又能较准确地分析和预测Y的反应。剔除不显著自变数的过程称为自变数的统计选择,所得的仅包含显著自变数的多元回归方
7、程,叫做最优的(在被研究的自变数范围内)多元线性回归方程。,试验统计方法,第一节 多元回归,由于自变数间可能存在相关,当m元线性回归中不显著的自变数有几个时,并不能肯定这些自变数对Y的线性效应都不显著,而只能肯定偏回归平方和最小的那一个自变数不显著。当剔除了这个不显著且偏回归平方和最小的自变数后,其余原来不显著的自变数可能变为显著,而原来显著的自变数也可能变为不显著。因此,为了获得最优方程,回归计算就要一步一步做下去,直至所有不显著的自变数皆被剔除为止。这一统计选择自变数的过程也称为逐步回归。,自变数统计选择的具体步骤为:,试验统计方法,第一节 多元回归,第一步:m个自变数的回归分析,一直进行
8、到偏回归的假设测验。若各自变数的偏回归皆显著,则分析结束,所得方程就是最优多元回归方程;若有一个或一个以上自变数的偏回归不显著,则剔除那个偏回归平方最小的自变数(设为Xp),进入第二步分析。,第二步:m-1个自变数的回归分析,也是一直进行到偏回归的假设测验。这一步的计算程序是将矩阵X中Xp所占有的那一列(第p+1列)剔除,再由新X计算XX、(XX)-1和b等,从而获得新的Q和Upi.如果这一步仍有一个以上自变数的偏回归不显著,则再将偏回归平方和最小的那个变数(设为Xq)剔除,进入第三步分析。若第一步中有二个或更多个自变数的偏回归不显著,这一步可轮流试剔,直到找到最需剔除的一个,再进入第三步。,
9、第三步:m-2个自变数的回归分析,又一直进行到偏回归的假设测验。这一步的计算是在X中剔除Xq所占的一行,其余过程同第二步。,试验统计方法,第一节 多元回归,四、自变数的相对重要性,最优多元线性回归方程中包含的自变数Xi都对依变数Y有显著作用,偏回归系数bi表示了xi对Y的具体效应。但实践中还需评定这些显著自变数的相对重要性,以利于抓住关键因素,达到调整和控制依变数反应量的目的。,偏回归系数bi本身并不能反映自变数的相对重要性,其原因有二:bi是带有具体单位的,单位不同则无从比较;即使单位相同,若Xi的变异度不同,也不能比较。但如果我们对bi进行标准化,即分子和分母分别除以Y和Xi的标准差,就可
10、消除单位和变异度不同的影响,获得一个表示Xi对Y相对重要性的统计数通径系数(记作pi):,通径系数pi又称标准偏回归系数,其统计意义是:若Xi增加一个标准差单位,Y将增加或减少pi个标准差单位。,试验统计方法,第二节 多元相关和偏相关,在M=m+1个变数中,m个变数的综合一个变数的相关,叫做多元相关或复相关;而在其余M-2个变数皆固定时,指定的两个变数间的相关,则叫做偏相关。从相关关系的性质看,多元相关和偏相关的M个变数都是随机变数,并无自变数和依变数之分。但在实践上,多元相关和偏相关的统计数也常用于有自变数和依变数之分的资料,并作为回归显著性的一个指标。,试验统计方法,第二节 多元相关和偏相
11、关,一、多元相关,多元相关分析的重点是计算多元相关系数并测验其显著性,多元相关系数,在m个变数和1个变数的多元相关中,多元相关系数记作,读作变数y和m个变数的多元相关系数。由于m个自变数对y的回归平方和为,占y的总平方和SSy的比率愈大,则表明y和m个自变数的多元相关愈密切,因此可定义 为:,即多元相关系数为多元回归平方和与总变异平方和之比的平方根。,试验统计方法,第二节 多元相关和偏相关,由于 是SSy的一部分,故 的存在区间为0,1。在一定的自由度下,的值愈接近于1,多元相关愈密切;愈接近于0,多元相关愈不密切。因为多元回归的平方和一定大于任一个自变数对y的回归平方和,故多元相关系数一定比
12、任一自变数和y的简单相关系数算得的相关系数的绝对值都大。,多元相关系数的假设测验,总体的多元相关系数为,则对多元相关系数的假设测验为H0:=0,对HA:0,可由F测验给出:,式中的v1=m,v2=n-(m+1),R2为 的简写。,试验统计方法,第二节 多元相关和偏相关,由于在v1、v2一定时,给定显著水平a下的F值一定,因此可获得达到显著水平a时的临界R值。,因此,得到R后,只要查一下附表10,就能确定其显著性。,二、偏 相 关,偏相关分析的重点是计算偏相关系数并测验其显著性,偏相关系数,偏相关系数和偏回归系数的意义相似。偏回归系数是在其他m-1个自变数都保持一定时,指定的某一自变数对于依变数
13、y的效应;偏相关系数则表示在其它M-2个变数都保持一定时,指定的两个变数间相关的密切程度。,试验统计方法,第二节 多元相关和偏相关,偏相关系数的一般解法是,由简单相关系数rij(i,j=1,2,M)组成的相关矩阵:,求得其逆矩阵:,令xi和xj的偏相关系数为rij,解得cij后即有:,该矩阵以主对角线为轴而对称,即rij=rji。逆阵R-1中的元素也是以主对角线为轴对称的,即,试验统计方法,第二节 多元相关和偏相关,偏相关系数的假设测验,与相关系数的假设测验一样,偏相关系数rij的测验也需要通过转换进行。若令总体偏相关系数为ij,则由,可测验H0:ij=0对HA:ij0。该测验的t具有v=n-
14、M。,将v=n-M代入 公式,可得到对于给定自由度v和给定显著水平a时临界rij值,即,结果都列于附表10。所以,算得rij后,只要和附表10中变数个数为2那一栏的有关临界rij值对照一下,即可确定其显著性。,试验统计方法,第二节 多元相关和偏相关,三、偏相关和简单相关的关系,当应用偏相关和偏回归的方法分析时,由于消除了自变数相关的混淆,因而能够表现出自变数和依变数的单独关系。当然,如果各个自变数是彼此独立、并无相关的,则不会发生上述的矛盾情况。由此可以体会到,偏相关和偏回归与简单相关和简单回归含义不同,说明的问题也不同,后者是包涵有其他因素作用成分在内的相关与回归,因而研究工作者要根据研究目的正确选用适当的统计指标。当要排除其他变数干扰,研究两个变数间单独的关系时采用偏相关与偏回归;当考虑到变数间实际存在的关系而要研究某一个变数为代表的综合效应间的相关与回归时则可采用简单相关和简单回归。,