直线回归与相关分析.ppt

上传人:牧羊曲112 文档编号:5803167 上传时间:2023-08-21 格式:PPT 页数:46 大小:851KB
返回 下载 相关 举报
直线回归与相关分析.ppt_第1页
第1页 / 共46页
直线回归与相关分析.ppt_第2页
第2页 / 共46页
直线回归与相关分析.ppt_第3页
第3页 / 共46页
直线回归与相关分析.ppt_第4页
第4页 / 共46页
直线回归与相关分析.ppt_第5页
第5页 / 共46页
点击查看更多>>
资源描述

《直线回归与相关分析.ppt》由会员分享,可在线阅读,更多相关《直线回归与相关分析.ppt(46页珍藏版)》请在三一办公上搜索。

1、直线相关与回归分析,两变量或多变量之间的关系,总起来可分为两类,一类是函数关系,确定关系的例子,在生物界中是极少见的。生物中,大量存在的情况是:一种变量受另一种变量的影响,两者之间既有关系,但又不存在完全确定的函数关系。知道其中一种变量,并不能精确求出另一变量。下面请同学们举几个例子。单位面积的施肥量、播种量和产量三者之间的关系。树木胸径与树木高度的关系。人类血压与年龄的关系。玉米的穗长与穗重的关系。人的身高与体重的关系。,身高与胸围、体重,溶液的浓度与OD值,人类的年龄与血压,温度与幼虫孵化,相关关系:当一个或几个相互联系的变量取一定的数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种

2、规律在一定的范围内变化。变量间的这种相互关系,称为具有不确定性的相关关系,生物学中,研究两变量间的关系,主要是为了探求两变量的内在联系,或者是从一个变量X去推测另一个随机变量Y.例如,我们希望通过施肥量X去推测Y如果对于变量X的每一个可能的值xi,都有随机变量Y的一个yi与之对应,则称随机变量Y对变量X存在回归关系。为了确定相关变量之间的关系,首先应该收集一些数据,这些数据应该是成对的,然后在直角坐标系上描述这些点,这一组点集称为散点图。,为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。用水平轴X上的数代表父亲身高,垂直轴Y上的

3、数代表儿子的身高,1078个点所形成的图形是一个散点图。它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。,散点图(scatter diagram),两个变量间关系的性质(正向协同变化或负向协同变化)和程度(关系是否密切),两个变量间关系的类型(直线型或曲线型),是否有异常观测值的干扰,正向直线关系,负向直线关系,曲线关系,定性研究,相关变量,因果关系,互依关系,回归分析(regression analysis),相关分析(correlation analysis),一个变量的变化受另一个变量或几个变量的制约,两个以上变量之间共同受到另外因素的影响,x,y,施肥量(可

4、以严格地人为控制),产量,如果对x的每一个可能的值,都有随机变量y的一个分布相对应,则称随机变量y对变量x存在回归(regression)关系。,自变量(independent variable),因变量(dependent variable),因果关系,一个变量的变化受另一个变量或几个变量的制约,在大量测量各种身高人群的体重时会发现,虽然在同样身高下,体重并不完全一样。但在每一身高下,都有一个确定的体重分布与之相对应;,在大量测量各种体重人群的身高时会发现,虽然在同样体重下,身高并不完全一样。但在每一体重下,都有一个确定的身高分布与之相对应;,身高与体重之间存在相关关系。,X身高,Y体重,X

5、体重,Y身高,相关关系,例:土壤内NaCl含量对植物的生长有很大影响,NaCl含量过高,将增加组织内无机盐的累积,抑制植物生长。下表中的数据是每1000g土壤中所含NaCl的不同克数(X),对植物单位叶面积干物重的影响。,不同NaCl含量对单位叶面积干物重的影响,一、直线回归方程的建立,散点图如下,我们描绘散点的目的:(1)两变量之间的关系是否密切,能否用X来估计Y;(2)两变量之间的关系是呈线性或某种曲线;(3)是否存在某个点偏离过大;(4)是否存在其他规律。,变量1,变量2,收集数据,散点图,温度,天数,例:黏虫孵化历期平均温度与历期天数,黏虫孵化历期平均温度与历期天数关系图,若我们增加每

6、一NaCl浓度下的观测次数,其散点图如下:(可见其平均值更趋近于一条直线),平均数有一个特性,即在各种离差平方和中,以距平均数的离差平方和最小。我们把观测值与回归估计值之间的离差平方和最小时的回归线作为最好的回归线。其方法为最小二乘法,而回归直线是指所有直线中最接近散点图中全部散点的直线。设样本直线回归方程为:,回归直线在平面坐标系中的位置取决于a,b的取值。,y,最小,最小二乘法(method of least square),用x估计y,存在随机误差,必须根据回归的数学模型对随机误差进行估计,并对回归方程进行检验。,直线回归方程(linear regression equation),截距

7、(intercept)回归截距,斜率(slope)回归系数(regerssion coefficient),自变量,与x值相对应的依变量y的点估计值,a0,b0,a0,a0,b0,a=0,b=0,是否真正存在线性关系回归关系是否显著因此,求出回归方程后须作统计检验,称回归显著性检验。,不同NaCl含量对单位叶面积干物重的影响 方差分析表,直线回归的假设检验,y=11.161x+81.786,作回归分析时要有实际意义。,直线回归注意问题,不能把毫无关联的两种现象勉强作回归分析,即便有回归关系也不一定是因果关系,还必须对两种现象的内在联系有所认识,即能从专业理论上作出合理解释或有所依据。,进行直线

8、回归分析之前,绘制散点图。,直线回归注意问题,当观察点的分布有直线趋势时,才适宜作直线回归分析。,散点图还能提示资料有无异常值,即对应于残差绝对值特别大的观测数据。异常点的存在往往对回归方程中的a和b的估计产生较大的影响。因此,需要复查此异常点的值。,直线回归的适应范围一般以自变量的取值为限。,直线回归注意问题,在自变量范围内求出的估计值,一般称为内插;超过自变量取值范围所计算出的估计值,称为外延。,若无充分理由证明超过自变量取值范围还是直线,应该避免外延。,描述两变量间的依存关系。,直线回归的应用,y=11.161x+81.786,利用回归关系进行预测。,表 每期捕获量与累积捕获量,例:20

9、0条黄粉虫,0.5kg麦麸,每次取25ml,计数,取5次,一、相关系数,x,y,衡量线性回归好坏的标志相关系数,相关系数是指由于回归因素所引起的变差与总变差之比的平方根。比率越大,回归的成份就越大,这两个变量间的相关越密切。,相关类型,在研究水稻籽粒蛋白质含量(%)时,采用两种不同的测定方法。一种是凯氏定氮法(KP法),另一种是染料结合法(DBC法)。用两种方法测得的结果如下:,Excel中函数correl求得 r=0.952832 n=10查附表12独立变量k=1,剩余df=10-2=8,r0.01=0.765,|r|r0.01结论是用KP法与用DBC法测得的水稻籽粒蛋白质含量间有极显著的相

10、关。,两变量间依存变化的数量关系,两个变量在相关系数计算中的地位是平等的,没有自变量和依变量之分,回归,相关,相关与回归的区别,回归系数有单位,形式为(应变量单位/自变量单位),相关系数没有单位。,相关系数的范围在-1+1之间,而回归系数没有这种限制。,有些资料用相关表示较适宜,比如兄弟与姐妹间的身长关系、人的身长与前臂长之间的关系等资料。,有些资料用相关和回归都适宜,此时须视研究需要而定。,就一般计算程序来说,是先求出相关系数r并对其进行假设检验,如果r显著并有进行回归分析之必要,再建立回归方程。,注意问题,作相关与回归分析要有实际意义。,不要把毫无关联的两个事物或现象用来作相关或回归分析。

11、,如儿童身高的增长与小树的增长,作相关分析是没有实际意义的,如果计算由儿童身高推算小树高的回归方程则更无实际意义。也许算得的r、b是显著的,也是没有意义的。,对相关分析的作用要正确理解。,注意问题,相关并不一定就是因果关系,切不可单纯依靠相关系数或回归系数的显著性“证明”因果关系之存在。,要证明两事物间的因果关系,必须凭籍专业知识从理论上加以阐明。但是,当事物间的因果关系未被认识前,相关分析可为理论研究提供线索。,注意问题,在回归分析中,由X推算Y与由Y推算X的回归方程是不同的,不可混淆。,一般说,事物的原因作自变量X,当事物的因果关系不很明确时,选误差较小的即个体变异小的变量作自变量X,以推

12、算应变量Y。,注意问题,回归方程的适用范围有其限度,一般仅适用于自变量X的原数据范围内,而不能任意外推。因为我们并不知道在这些观察值的范围之外,两变量间是否也呈同样的直线关系。,可直线化的非线性回归分析,生物学中两变量间呈曲线关系的例子很多。例如生物生长中某时期的重量与时间的关系、细菌生长的数量与时间的关系等,都不是用简单的直线关系所能表达的。这时应选择适当类型的曲线,使之能更符合两变量的实际关系。在确定了两变量间所呈函数关系以后,需通过适当变换(transform),便可将曲线化为直线,再按直线回归处理。,常用的直线化方法,指数函数,各种曲线中,除S型曲线及抛物线外,首先可以尝试进行对数变换

13、。,专业知识、经验或文献确定曲线类型,单细胞生物生长初期符合指数函数增长,但若考虑到生长一定时间后,后期生长受到抑制,其生长曲线变成“S”形。,酶促反应动力学中的米氏方程是一种双曲线。,一、确定曲线类型的方法,1,散点图的方法,2,通过散点图,确定曲线类型,如果几种类型可供选择,可多做几次回归,进行比较,再确定曲线类型。,在辐射遗传和药理学实验中,经常遇到寻找半致死剂量问题。致死率与剂量间的关系曲线往往程S形。在半致死处,曲线的曲率最大,与死亡率的交点最清楚。在全致死处,曲线与死亡率已近于平行,交点不清,剂量也就不好确定了。因此在实际工作中,常常用半致死尽量这一标准。确定半致死剂量,最常用的方法是对数据进行概率对数变换。,例:用不同计量的r射线照射小麦品种库斑克,调查死苗率,得到以下结果:,Y=18.92779397,Y=101.2771=18.92,多元线性 回归分析,例:小麦单株产量不仅与单穗重有关,而且与有效分蘖有关。左表为一部分数据。,Y=0.541+0.949X1+0.841X2,0.949和0.841都称为偏回归系数。它表示当其它自变量都固定时,某一自变量每变化一个单位而使因变量平均改变的数值。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号