《六章节直线回归与相关.ppt》由会员分享,可在线阅读,更多相关《六章节直线回归与相关.ppt(74页珍藏版)》请在三一办公上搜索。
1、第六章 直线回归与相关,客观事物在发展过程中是相互联系、相互影响,常常要研究两个或两个以上变量间的关系。,下一张,主 页,退 出,上一张,下一张,主 页,退 出,上一张,1 回归与相关的概念,一类是完全确定性的关系,又称函数关系,可以用精确的数学表达式来表示,即当变量x的值取定后,变量y有唯一确定的值与之对应。,如长方形的面积(S)与 长(a)和宽(b)的关系:S=ab。它们之间的关系是确定性的,只要知道了其中两个变量的值就可以精确地计算出另一个变量的值,这类变量间的关系称为函数关系。,各种变量间的关系大致可分为两类:,确定性关系,非确定性关系,如人的身高与体重的关系,作物种植密度与产量的关系
2、,食品价格与需求量的关系等等,这些变量间都存在着十分密切的关系,但不能由一个或几个变量的值精确地求出另一个变量的值。统计学中把这些变量间的关系称为相关关系,把存在相关关系的变量称为相关变量。,下一张,主 页,退 出,上一张,另一类是 非确定性关系,不能用精确的数学公式来表示,当变量x的值取定后,y有若干种可能取值。,在一定范围内,对一个变量的任意数值(Xi),虽然没有另一个变量的确定数值yi与之对应,但是却有一个特定yi的条件概率分布与之对应,这种变量的不确定关系,称为相关关系。,一种是因果关系,即一个变量的变化受另一个或几个变量的影响。如小麦的生长速度受遗传特性、营养水平、管理条件等因素的影
3、响。另一种是平行关系,它们互为因果或共同受到另外因素的影响。如人的身高和胸围之间的关系属于平行关系。,下一张,主 页,退 出,上一张,相关变量间的关系一般分为两种:,研究“一因一果”,即一个自变量与一个依变量的回归分析称为一元回归分析;研究“多因一果”,即多个自变量与一个依变量的回归分析称为多元回归分析。一元回归分析又分为直线回归分析与曲线回归分析两种;多元回归分析又分为多元线性回归分析与多元非线性回归分析两种。,下一张,主 页,退 出,上一张,统计学上采用回归分析(regression analysis)方法研究呈因果关系的相关变量间的关系。表示原因的变量称为自变量,表示结果的变量称为依变量
4、。,回归分析的任务就是揭示出呈因果关系的相关变量间的联系形式,建立它们之间的回归方程,利用所建立的回归方程,由自变量(原因)来预测、控制依变量(结果)。,回归分析主要包括:找出回归方程;检验回归方程是否显著;通过回归方程来预测或控制另一变量。,对多个变量进行相关分析时,研究一个变量与多个变量间的线性相关称为复相关分析;研究其余变量保持不变的情况下两个变量间的线性相关称为偏相关分析。,下一张,主 页,退 出,上一张,统计学上采用相关分析(correlation analysis)来研究呈平行关系相关变量之间的关系。,对两个变量间的直线关系进行相关分析称为简单相关分析(也叫直线相关分析);,2 直
5、线回归,2.1 直线回归方程的建立,下一张,主 页,退 出,上一张,为了直观地看出x和y间的变化趋势,可将每一对观测值在平面直角坐标系中描点,作出散点图(见图6-1)。,2.1.1数学模型,对于两个相关变量,一个变量用x表示,另一个变量用y表示,如果通过试验或调查获得两个变量的n对观测值:(x1,y1),(x2,y2),(xn,yn),图6-1 x与y的关系散点图,下一张,主 页,退 出,上一张,散点图可直观地、定性地表示了两个变量之间的关系。为了探讨它们之间的规律性,还必须根据观测值将其内在关系定量地表达出来。,两个变量间有关或无关;若有关,两个变量间关系类型,是直线型还是曲线型;,由散点图
6、(图6-1)可以看出:,两个变量间直线关系的性质(是正相关还是负相关)和程度(是相关密切还是不密切);,由于依变量y的实际观测值总是带有随机误差,因而依变量y的实际观测值yi可用自变量x的实际观测值xi表示为:,(i=1,2,n)(6-1),若呈因果关系的两个相关变量y(依变量)与x(自变量)间的关系是直线关系,那么,根据n对观测值所描出的散点图,如图6-1(b)和图6-1(e)所示。,式中:,为未知参数,i为相互独立,且服从N(0,)的随机变量。这就是直线回归的数学模型。,总体线性回归模型的图示,Y,X,观察值,观察值,总体线性回归模型,因变量,自变量,参数,随机误差,y条件平均数,下一张,
7、主 页,退 出,上一张,2.1.2 参数,的估计,其中,是的估计值,b是的估计值。,最小二乘估计法,建立 样本线性回归方程的方法最小二乘法,实际观察值与样本回归线上的点的距离的平方和最小,x,y,e1,e2,e3,e4,最小,、b应使回归估计值 与实际观测值y的偏差平方和最小,即:总的离回归平方和,即剩余平方和,根据微积分学中的求极值的方法,令 Q对a、b的一阶偏导数等于0,即:,最小,(6-3),(6-4),经整理,得关于a、b的正规方程组:,下一张,主 页,退 出,上一张,解正规方程组,得:,(6-5),(6-7),在6-7式中,分子为自变量x的离均差与依变量y的离均差的乘积和,简称乘积和
8、,记作,分母是自变量x的离均差平方和,记作SSX。,所 以,a为回归截距(regression intercept),是回归直线与y轴交点的纵坐标,当x=0时,;b为回归系数(regression coefficient),表示x变化一个单位,y平均变化的数量;b的符号反映了x影响y的性质,b的绝对值大小反映了x 影响y的程度;为回归估计值,是当x在其研究范围内取某一个值时,y值平均数 的估计值。,如果将 式代入(6-2)式,可得到回归方程的中心化形式:,下一张,主 页,退 出,上一张,性质1,性质2,性质3 回归直线通过点,回归方程的基本性质:,【例6-1】食品感官评定时,测得食品甜度与蔗糖
9、浓度的关系如表6-2所示,试建立y与x的直线回归方程。,2.1.3 计算示例,表6-2 食品甜度与蔗糖浓度的关系,(1)作散点图 以蔗糖质量分数(x)为横坐标,甜度(y)为纵坐标作散点图,如图6-2所示。,图6-2,(2)计算回归截距a,回归系数b,建立直线回归方程,下一张,主 页,退 出,上一张,首先根据实际观测值计算出下列数据:,所以,甜度y对蔗糖质量分数x的直线回归方程为:,然后计算出b、a:,以上计算也可在回归计算表中进行。,回归方程计算表1(一级数据),回归方程计算表2(二级数据),注:x,y分别为X,Y的平均数,根据直线回归方程可作出回归直线,见图。从图看出,并不是所有的散点都恰好
10、落在回归直线上,这说明用 去估计y是有偏差的。,下一张,主 页,退 出,上一张,附:直线回归的偏离度估计 偏差平方和 的大小表示了实测点与回归直线偏离的程度,因而此偏差平方和又称为离回归平方和。统计学证明:在直线回归分析中离回归平方和的自由度为n-2。那么,离回归均方为:离回归均方是模型(6-1)中2的估计值。离回归均方的平方根叫离回归标准误,记为,,离回归标准误Syx的大小表示了回归直线与实测点偏差的程度,即回归估测值 与实 际观测值y偏离(差)的程度,所以,用离回归标准误Syx来表示回归方程的偏离度。,下一张,主 页,退 出,上一张,对于【例6.1】有,所以,离回归标准误为,离回归平方和:
11、,由上式计算出,然后求出离回归标准误Syx。,如果x和y变量间并不存在直线关系,但由n对观测值(xi,yi)也可以根据上面介绍的方法求得一个回归方程=a+bx。显然,这样的回归方程所反应的两个变量间的直线关系是不真实的。如何判断直线回归方程所反应的两个变量间的直线关系的真实性呢?这取决于变量x与y间是否存在直线关系。从y的变异着手来分析。,下一张,主 页,退 出,上一张,2.2 直线回归方程的显著性检验,图6-3 的分解图,2.2.1 直线回归的变异来源,y总变异的分解,下一张,主 页,退 出,上一张,由于,所以,于是,由图6-3可以看出:,上式两端平方,然后对所有的n点求和,则有,所以有(6
12、-9)反映了y的总变异程度,称为y的总偏差平方和,记为SSy;反映了由于y与x间存在直线关系所引起的y的变异程度,称为回归平方和,记为SSR;,反映了除y与x存在直线关系以外的一切因素(包括x对y的非线性影响及其他一切未加控制的随机因素)所引起的y的变异程度,称为离回归平方和或剩余平方和,记为SSr或SSe。所以,y的总变异平方和可分解为:,下一张,主 页,退 出,上一张,表明y的总平方和可剖分为 回归平方和 与离回归平方和两部分。与此相对应,y的总自由度dfy也可分解为回归自由度dfr与离回归自由度dfr两部分,即,在直线回归分析中,回归自由度等于自变量的个数,即;y的 总 自 由度;离回归
13、自由度。于是:离回归均方,回 归 均 方。,x与y两个变量间是否存在直线关系,可用F检验法进行检验。无效假设HO:=0,备择假设HA:0。在无效假设成立的条件下,回归均方与离回归均方的比值服从 和 的F分布,所以,可以用下式来检验回归方程的显著性。,下一张,主 页,退 出,上一张,2.2.2 回归关系(方程)显著性检验F检验,df1=1,df2=n-2,(6-10),回归平方和的计算:,下一张,主 页,退 出,上一张,根据(6-9)式,可得到离回归平方和计算公式为:,【例6.2】检验例6-1中求得的回归方程是否显著(a=005),方差分析,列出方差分析表进行回归关系显著性检验。,下一张,主 页
14、,退 出,上一张,表6-4 蔗糖浓度与甜度回归关系方差分析表,因为,表明甜度与蔗糖浓度间存在着极显著的直线关系。,采用回归系数的显著性检验t检验也可检验x与y之间是否存在直线关系。t检验时,无效假设HO:=0,备择假设HA:0。,2.2.3 回归系数的显著性检验t检验,其中,Sb为回归系数标准误,,t 检验的计算公式为:,(6-11),离回归标准误,Syx反映回归估测值 与实测值y的偏离程度,t与临界值t a(n-2)比较,以判断显著性。,对于【例8.1】资 料,已计算得 故有,下一张,主 页,退 出,上一张,当,查t值表,得 因,否定HO:0,接受HA:0,即直线回归系数b=1.2550是极
15、显著的,表明蔗糖浓度与甜度大小存在极显著的直线关系,可用所建立的直线回归方程来进行 预测和控制。,在直线回归假设检验中,F检验的结果与t检验的结果是一致的。,特别要指出的是:利用直线回归方程进行预测或控制时,一般只适用于原来研究的范围,不能随意把范围扩大,因为在研究的范围内两变量是直线关系,这并不能保证在这研究范围之外仍然是直线关系。若需要扩大预测和控制范围,则要有充分的理论依据或进一步的实验依据。利用直线回归方程进行预测或控制,一 般只能内插,不要轻易外延。,3 直线相关,进行直线相关分析的基本任务在于根据x、y的实际观测值,计算表示两个相关变量x、y间线性相关程度和性质的统计量相关系数r,
16、并进行显著性检验。,下一张,主 页,退 出,上一张,3.1 决定系数和相关系数 直线回归分析中:由这个等式不难看到,y与x直线回归效果的好坏取决于回归平方和 与离回归平方和 的大小,或者说取决于回归平方和在y的总平方和 中所占的比例的大小。这个比例越大,y与x的直线回归效果就越好,反之则差。我们把比值 叫 做 x 对 y 的决定系数(determination coefficient),记为 r2,即,下一张,主 页,退 出,上一张,决定系数的大小表示了回归方程估测可靠程度的高低,或者说表示了回归直线拟合度的高低,或者表示x对y的变异影响大小。显然有0r21。如r20.81,表明SSR占SSy
17、的81,也就是说,x决定了y变异的81,决定作用强。,SPxy/SSx是以x为自变量、y为依变量时的回归系数byx。若把y作为自变量、x作为依变量,则回归系数 bxy=SPxy/SSy,所以决定系数r2等于y对x的回归系数与 x对y的回归系数的乘积。这就是说,决定系数反应了x为自变量、y为依变量和y为自变量、x为依变量时两个相关变量x与y直线相关的信息,即决定系数表示了 两个互为因果关系的相关变量间直线相关的程度。但决定系数介于0和1之间,不能反应直线关系的性质是同向增减或是异向增减。,下一张,主 页,退 出,上一张,相关系数可表示y与x的直线相关的密切程度,也可表示直线相关的性质,记为r,即
18、,(6-20),离均差积和,下一张,主 页,退 出,上一张,3.2 相关系数的计算,对【例6-5】进行相关分析。,表6-5某品种大豆籽粒脂肪x和蛋白质y含量,下一张,主 页,退 出,上一张,根据表6-5所列数据先计算出:,大豆子粒内脂肪含量和蛋白质含量的相关系数为-0.8517。,那么,,根据实际观测值计算得来的相关系数r是样本相关系数,它是双变量正态总体中的总体相关系数的估计值。样本相关系数r是否来自0的总体,还须对样本相关系数r 进行显著性检验。此 时无 效 假 设、备择假设为HO:=0,HA:0。与直线回归关系显著性检验一样,可采用t检验法与F检验法对相关系数r的显著性进行检验。,3.3
19、 相关系数的显著性检验,其中,叫做相关系数标准误。,F检验:F=,df1=1,df2=n-2(6-22)t 检验:t=,df=n-2(6-23),下一张,主 页,退 出,上一张,统计学家已根据相关系数r显著性t检验法计算出了临界r值并列出了表格。所以可以直接采用查表法对相关系数r进行显著性检验。具体作法是:先根据 自由度 n-2 查临界 r 值(附 表 8),得,。若|r|,P0.05,则相关系数r不显著,在r的右上方标记“ns”;若|r|,0.01P0.05,则相关系数 r 显著,在r的右上方标记“*”;若|r|,P 0.01,则相 关 系 数 r 极显著,在 r 的右上方标记“*”。,而|
20、r|=|-0.8517|,P0.01,表明该品种大豆子粒内脂肪含量与蛋白质含量呈极显著负相关。,下一张,主 页,退 出,上一张,对于【例6-5】,因为df=n-2=42-2=40,查附表8得:,相关系数对样本相关关系的计量,表明直线相关分析与回归分析关系十分密切。它们的研究对象都是呈直线关系的相关变量。,两种分析所进行的显著性检验都是解决y与x间是否存在直线关系,二者的检验是等价的。,3.4 相关系数与回归系数的关系,*直线回归分析,有自变量和依变量区分,侧重于寻求它们之间的联系形式直线回归方程;*直线相关分析,无自变量和依变量区分,侧重于揭示它们之间的联系程度和性质计算相关系数。,在实际进行
21、直线回归分析时,可用相关系数显著性检验代替直线回归关系显著性检验。,例 题,根据散点图,确定回归方程形式:,计算得到:,线性相关性检验:,查表得:,显然,在显著性水平=0.001下,Y与x的线性相关关系高度显著。,直线回归分析与相关分析在生物科学研究领域中已得到了广泛的应用,但在实际工作中却很容易被误用或作出错误的解释。为了正确地应用直线回归分析和相关分析这一工具,必须注意以下几点:,4 应用直线回归与相关的注意事项,(1)变量间是否存在相关 直线回归分析和相关分析毕竟是处理变量间关系的数学方法,在将这些方法应用于生物科学研究时要考虑到生物本身的客观实际情况,譬如变量间是否存在直线相关以及在什
22、么条件下会发生直线相关,求出的直线回归方程是否有意义,某性状作为自变量或依变量的确定等等,都必须由生物科学相应的专业知识来决定,并且还要用到生物科学实践中去检验。如果不以一定的生物科学依据为前提,把风马牛不相及的资料随意凑到一块作直线回归分析或相关分析,那将是根本性的错误。,下一张,主 页,退 出,上一张,(2)其余变量尽量保持一致 由于自然界各种事物间的相互联系和相互制约,一个变量的变化通常会受到许多其它变量的影响,因此,在研究两个变量间关系时,要求其余变量应尽量保持在同一水平,否则,回归分析和相关分析可能会导致完全虚假的结果。例如研究人的身高和胸围之间的关系,如果体重固定,身高越高的人,胸
23、围越小,但当体重在变化时,其结果也就会变化。,下一张,主 页,退 出,上一张,(3)观测值要尽可能的多 在进行直线回归与相关分析时,两个变量成对观测值应尽可能多一些,这样可提高分析的精确性,一般至少有5对以上的观测值。同时变量x的取值范围要尽可能大一些,这样才容易发现两个变量间的变化关系。(4)结论外推要谨慎 直线回归与相关分析一般是在一定取值区间内对两个变量间的关系进行描述,超出这个区间,变量间关系类型可能会发生改变,所以回归预测必须限制在自变量x的取值区间以内,外推要谨慎,否则会得出错误的结果。,下一张,主 页,退 出,上一张,(5)正确理解回归或相关显著与否的含义 一个不显著的相关系数并
24、不意味着变量x和y之间没有关系,而只有能说明两变量间没有显著的直线关系;一个显著的相关系数或回归系数亦并不意味着x和y的关系必定为直线,因为并不排除有能够更好地描述它们关系的非线性方程的存在。,(6)一个显著的回归方程并不一定具有实践上的预测意义 如一 个资 料x、y 两个变量间的相关系数 r=0.5,在 df=24时,r0.01(24)=0.496,rr0.01(24),表明相关系数极显著。而r2=0.25,即x变量或y变量的总变异能够通过y变量或x变量以直线回归的关系来估计的比重只占25%,其余的 75%的变异无法借助直线回归来估计。r20.7(r0.836),r0.8,有意义。,下一张,
25、主 页,退 出,上一张,5 可直线化的曲线回归,曲线回归分析:是通过两个相关变量x与y的实际观测数据建立曲线回归方程,以揭示x与y间的曲线联系的形式。曲线回归分析最困难和首要的工作是确定变量Y与x间的曲线关系的类型。通常通过两个途径来确定:1、利用有关的专业知识,根据已知的理论规律和实践经验。2、在没有已知的理论规律和经验可资利用时,则可用描点法将实测点在直角坐标纸上描出,观察实测点的分布趋势与哪一类已知的函数曲线最接近,然后再选用该函数关系式来拟合实测点。,可线性化的曲线函数类型,(1)双曲线型,方法:变量替换,(2)指数曲线型,令v=lny,得到:,指数曲线型,令y=lny,x1/x,得到:,(3)幂函数型,v=lny,u=lnx,得到:,4.对数曲线型,令u=lgx,得到:,(5)S曲线型,令:,得到:,