直线回归与相关.ppt

上传人:牧羊曲112 文档编号:6006013 上传时间:2023-09-13 格式:PPT 页数:37 大小:507.50KB
返回 下载 相关 举报
直线回归与相关.ppt_第1页
第1页 / 共37页
直线回归与相关.ppt_第2页
第2页 / 共37页
直线回归与相关.ppt_第3页
第3页 / 共37页
直线回归与相关.ppt_第4页
第4页 / 共37页
直线回归与相关.ppt_第5页
第5页 / 共37页
点击查看更多>>
资源描述

《直线回归与相关.ppt》由会员分享,可在线阅读,更多相关《直线回归与相关.ppt(37页珍藏版)》请在三一办公上搜索。

1、第八章 直线回归与相关分析,统计关系是一种非确定关系,即一个变数的取值受到另一变数的影响,两者之间有关系,但又不存在完全确定的函数关系。如:施肥量与产量的关系 药物浓度与反应率的关系;,一、函数关系与统计关系 函数关系是一种确定的关系。例如圆面积与半径的关系为:,第一节 直线回归与相关的基本概念,二、自变数与依变数 对据有统计关系的两个变数,分别用变数符号Y 和X 表示。根据两个变数的作用特点,统计关系又可分为因果关系和相关关系两种。两个变数间的关系若有原因和反应(结果)的性质,则称这两个变数间存在因果关系,并定义原因变数为自变数,以X 表示;定义结果变数为依变数,以Y 表示。,如果两个变数并

2、不是原因和结果的关系,是一种平行关系,呈现一种共同变化的特点,则称这两个变数间存在相关关系。如在人的身高和体重关系中,它们不是互为因果,而是同步增长、互有影响的。相关关系中没有自变数和依变数之分。,相关关系:,(1)对具有因果关系的两个变数,统计分析的任务是由实验数据推算出一个表示Y 随X 的改变而改变的方程,称之为回归方程(regression equation of Y on X),这一过程称为回归分析。(2)对具有相关关系的两个变数,统计分析的目标是计算表示Y和X相关密切程度的统计数,并测验其显著性。这一过程称为相关分析。,三、回归分析和相关分析,相关分析只能研究两个变数y和x相关密切程

3、度,而不能用一个变量去预测和控制另一个变量的变化,这是回归分析和相关分析区别的关键所在。但二者不能截然分开,由回归分析可以获得相关的一些重要信息,由相关分析可以获得回归的一些重要信息。对于同一资料来说,回归系数和相关系数进行显著性检验,都是检验该总体有无直线关系。对于同一资料,回归显著,相关显著;反之也成立。,回归分析和相关分析:,四、两个变数资料的散点图将两个变数的n对观察值(x1,y1)、(x2,y2)、(xn,yn)分别以坐标点的形式标记于同一直角坐标平面上得到的图,称为散点图(scatter diagram)。,1,2,3,4,x,生物产量(g),0.0,0.5,1.0,1.5,2.0

4、,y,稻谷产量(g),水稻单株生物产量与稻谷产量的散点图,3.2,3.6,4,4.4,4.8,x,每平方米颖花数(万),0,55,60,65,70,75,y,结实率(%),水稻每平方米颖花数和结实率的散点图,x,最高叶面积指数,y,产量(kg/亩),水稻最高叶面积指数和亩产量的散点图,利用散点图判断相关性质及密切程度,r-1(d),r1(b),0r1(a),-1r0(c),正向直线相关,负向直线相关,完全正直线相关,完全负直线相关,第二节 直线回归分析,称为直线回归方程(linear regression equation)。其中a 是x=0时的 值,即回归直线在y 轴上的截距,叫回归截距(r

5、egression intercept);b 是回归直线的斜率,表示x 每增加一个单位数时,y 平均增加(b0时)或减少(b0时)的单位数,叫回归系数(regression coefficeint)。,一、直线回归方程式,从上图得知,要使 能够最好地代表y和x在数量上的互变关系,必须使,y,x,二、求a和b值,分别对a和b求偏导并令其为0,即:,式中 是x的离均差和y的离均差的乘积之和,简称乘积和(sum of products),记作SP。,例7.1一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进连续9年测定3月下旬至4 月中旬旬平均温度累积值(x,旬.度)和水稻一代三化螟盛发期(y,以

6、5月10日为0)的关系,得结果于下表。试计算其直线回归方程。,三、直线回归方程的计算,解:1.由观察值计算一级数据,2.由一级数据计算二级数据,3.求a和b值,4.求回归方程:,当3月下旬至4月中旬的积温(x)每提高1旬度时,一代三化螟的盛发期平均将提早1.1天;若积温为0,则一代三化螟的盛发期将在6月2728日(x=0时,y=48.5;因y是以5月10日为0,故48.5为6月2728日)。但在应用回归方程预测时,需限定x的区间为31.7,44.2;如要在x31.7或44.2的区间外延,则必须有新的依据。,回归系数和回归截距的意义:,x,3月下旬至4月中旬旬平均温度累积值 旬平均温度累积值和一

7、代三化螟盛发期的关系,四、直线回归方程的图示,五、直线回归的估计标准误满足 为最小的直线回归方程和实测的观察点并不重合,表明该回归方程仍然存在随机误差。Q 就是误差的一种度量,称之为离回归平方和或剩余平方和。,由于在建立回归方程时用了a 和b 两个统计数,故Q 的自由度=n-2。因而,可定义回归方程的估计标准误为:,Q值的计算:,(1)F 测验,第三节 直线回归的假设测验,一、直线回归的假设测验1、回归关系的假设测验(t 测验和F测验只选择,例试用F测验法检测7.1资料回归关系的显著性。,说明积温和一代三化螟盛发期是有极显著的直线回归关系。,(2)t 测验若总体不存在直线回归关系,则总体回归系

8、数=0;若总体存在直线回归关系,则总体回归系数0。所以对直线回归的假设测验为:H0:=0 对HA:0。回归系数b的标准误为:,例试测验7.1资料回归关系的显著性。,查附表3,,接受HA:0,即认为积温和一代三化螟盛发期是有真实的直线回归关系。,第四节 相关分析,8.3.1 相关系数和决定系数,一、相关系数,设有一X、Y 均为随机变量的双变数总体,具有N对(X,Y)。若在标有这N个(X,Y)坐标点的直角坐标上移动坐标轴,将X轴和Y轴分别平移到X和Y上,则各点位置不变,而所取坐标变为(X-X,Y-Y)。,后者是由X的不同而引起。显然,若坐标点愈靠近回归线,则U对SSy的比率愈大,直线相关就愈密切,

9、故样本的相关系数r 为:,从样本的角度分析,y 的平方和SSy是由离回归平方和 及回归平方和 构成的,,二、决定系数决定系数(determination coefficient):由x 不同引起的 y 的平方和 占总平方和 的比率。,可见,决定系数即为相关系数r 的平方值。,三、相关系数的性质,-1 r 1r的符号表示相关的性质r0为零相关或不相关r0为正相关r0为负相关,r的绝对值表示相关的密切程度r的绝对值越接近于1,相关越密切;r的绝对值越接近于0,相关越不密切;r的绝对值为0,零相关或不相关;r的绝对值为1,完全相关r=1,完全正相关r=-1,完全负相关,回归分析和相关分析的区别和联系

10、:区别:,1.资料要求不同。回归要求依变量y服从正态分布,X是可以控制的。相关则要求两个变量X 和y都服从正态分布,有两个回归方程。2.回归反映两个变量之间的单向关系,相关表示两个变量之间的双向关系。3.回归系数可以是如何实数,有单位;而相关系数在-1,1内取值,无单位。,联系:,1.方向一致。两者的符号是一致的。r为正时,说明两个变量的相关关系时同向变化的;b为正时,说明两个变量之间由回归方程所确定的函数关系是递增的。2.假设检验等价。可以互相替代。,3.相关和回归可以互相解释。当SS总不变的情况下,回归平方和的大小决定了相关系数的大小,r2则可以反映回归平方和在总平方和中所占的比重。回归平

11、方和接近总平方和时,r2接近1,回归效果好。同时也可以从回归的角度对相关程度做进一步的解释。如r=0.5,r2=0.25,说明一个变量y的总变异能够通过x变量以直线回归的关系来估计的比重只占25%,其余75%的变异无法借助直线回归来估计,从而说明两变量间的相关关系实际意义不大。,直线回归和相关的应用要点:,1.要由学科专业知识作指导。是否发生相关以及在什么条件下发生什么相关等问题,都必须由各具体学科本身来决定。否则毫无意义。如孩子的身高与植物的株高的关系,理论上也可以计算出显著水平的相关系数。2.要严格控制研究对象(x和y)以外的有关因素。否则会产生虚假的结论。如研究密度与产量的关系。肥水、病虫和管理也会影响。3.分析结果不显著,并不意味x和y没有关系。只能说明两者没有显著的直线关系,也可能存在曲线关系的可能性。,4.一个显著的r或b并不代表X和Y的关系一定是线性的,并不排斥有更好描述X和Y关系曲线的存在。可能就某一区段来讲有极显著的直线关系。5.在农学和生物研究过程中,发现X和Y关系真实曲线是很难的。只能就某一区段来研究。外推是危险的。6.一个显著的相关或回归并不一定有实践上的预测意义,有时候不可靠。需要预测时,r的绝对值必须在0.7以上。7.为了提高分析的准确性,两变数的样本容量n5.,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号