高等生物统计学课件.ppt

上传人:牧羊曲112 文档编号:6404401 上传时间:2023-10-27 格式:PPT 页数:125 大小:1.89MB
返回 下载 相关 举报
高等生物统计学课件.ppt_第1页
第1页 / 共125页
高等生物统计学课件.ppt_第2页
第2页 / 共125页
高等生物统计学课件.ppt_第3页
第3页 / 共125页
高等生物统计学课件.ppt_第4页
第4页 / 共125页
高等生物统计学课件.ppt_第5页
第5页 / 共125页
点击查看更多>>
资源描述

《高等生物统计学课件.ppt》由会员分享,可在线阅读,更多相关《高等生物统计学课件.ppt(125页珍藏版)》请在三一办公上搜索。

1、第2章 回归分析与相关分析(Regression analysis and correlation analysis),2.1 回归与相关,2.3 协方差分析,2.4 多元线性回归,2.2 简单回归复习与提高,2.5 通径分析与偏相关分析,2.6 逻辑(logistic)回归,2.1 回归与相关,在生物科学研究中,经常会遇到探讨共处于一个统一体中变量之间的关系问题,其目的就是想了解变量之间是否有因果关系或相关关系。,对于变量之间的因果关系,统计学的任务是查明因果关系是否存在,若存在,判定强弱,并找出揭示这种关系的模型,用于预测、控制、优化。对于相关关系(又叫相依关系),统计学的任务是找出刻画这

2、种关系强弱的指标,并用于判定这种关系存在性及强弱。前者就是回归分析,后者就是相关分析。,相关关系,如人的血压Y与年龄X之间的关系,一般来说,年龄越大血压越高,但年龄相同的两个人的血压不一定相等。又如某农作物的亩产量Y与施肥量X之间有一定的关系,但施肥量相同,亩产量却不一定相同。这样的例子在实际中举不甚举。相关关系是两个随机变量之间的平行关系,它们要么互为因果,要么具有共同的因。,相关关系概念,相关关系度量指标,线性相关关系检验,例题 设从某油松林地随机抽测10块样地,测得林地林木平均高X与木材蓄积量Y如下表所示,试检验X与Y的线性相关关系强弱。,例题 设从某油松林地随机抽测10块样地,测得林地

3、林木平均高X与木材蓄积量Y如下表所示,试检验X与Y的线性相关关系是否可认为是0.99,并给出其95%置信区间。,回归关系与回归分析回归关系在相关关系中,如果关心的是容易测定或控制变量X对变量Y的决定作用大小,将X看成一个普通变量,这时变量X与Y之间就成为回归关系。,回归模型如果普通变量x与随机变量Y具有回归关系,则Y除过受变量x的作用以外,还受到控制不严格和未知因素的作用。所以,x与Y应满足关系式,对于回归模型,显然有,回归模型分类,回归分析,研究一个随机变量与一个或几个可控变量之间回归关系,从而找出回归关系的模型,用于预测、优化和控制,这种统计方法称为回归分析。回归分析主要解决三个问题:提供

4、建立具有回归关系的变量之间的数学关系式(称为经验公式)的一般方法;判别所建立的经验公式是否有效,并从影响随机变量的诸变量中判别哪些变量的影响是显著的,哪些是不显著;利用所得到的经验公式进行预测和控制。,2.2 简单回归复习与提高,一元线性回归模型,一元线性经验回归方程及其建立,最小二乘法(The least square method),最小二乘法估计量的统计性质,所以,又正态分布的性质有:,进而有,一元线性回归有关检验,离差平和分解,回归显著性检验,F检验,T检验,相关系数检验,截距检验,例 为了研究大豆脂肪含量 和蛋白质含量 的关系,测定了10种大豆品种籽粒内的脂肪含量和蛋白质含量,得到如

5、下数据。分别两组观测数据建立蛋白质含量对脂肪含量的回归方程。,回归直线间与相关系数间比较,两条回归直线间比较,在生物科学研究中,人们经常要了解物种之间是否存在共同生物学基础。这种问题的探讨是以回归线的比较为基本工具。回归线比较包括平行检验、共截距检验、重合检验等。,平行检验,共截距检验,重合检验,所谓回归线重合检验就是在平行检验接受平行的情况下,两回归线合并估计斜率,在进行共截距检验。,例 对由两组观测数据建立蛋白质含量对脂肪含量的回归线进行比较。,多条回归直线间比较,重合分析,平行分析,共截距分析,注意:k条回归线的共截距分析方法略作改进就可以用于检验k条回归线是否过指定点。具体做法如下:,

6、三种施肥试验下y对x回归线分析,两条相关系数间比较,在生物科学研究中,人们经常要探讨某个试验指标受不同控制因素影响关系的强弱。这一问题在相当普遍情况下,可以通过相关系数的比较得以解决。,2.3 协方差分析(Analysis of covariance),生物科学研究试验,大部分情况下是自然试验,或观测试验。试验指标除受人们关心的、严格控制因素影响以外,很多情况下会受到无法控制的可测量因素指标的影响。如果在对试验指标受严格控制因素影响的探索试验中,忽视这种无法控制的可测量因素指标对试验结果的作用,无疑会由试验数据得到虚假结论。例如前面我们介绍的苹果树产能受施肥影响的实验中,如果忽视苹果树产能受基

7、础产能影响,直接由施肥后的产量数据进行方差分析,会得到下列结论:,不考虑基础产能影响的产能方差分析,协变量与协方差分析概念,设在研究试验指标Y受可控因素A影响的试验中,由于无法控制可测量指标因素指标x导致试验单元不一致,从影响试验结果,则称指标x为协变量;分析带有协变量试验数据的统计方法称为协方差分析。协方差分析是把回归分析与普通方差分析相结合,处理带有些变量数据问题有效方法。,协方差分析数据结构,协方差分析统计模型,协方差分析一般流程,苹果树生产能力受施肥影响例子续,回归校正后试验指标数据表,协方差分析出了可以按前面所讲的过程实现以外,也可以用与前面所讲过程等价的离回分析来实现,具体见下表。

8、,单因素单协变量协方差分析(离回分析)表,在生物科学研究中,经常会遇到探讨共处于一个统一体中一个变量(向应变量)与多个变量(自变量)之间的关系问题,其目的就是想了解变量之间是否有因果关系或相关关系,进而确定引起应变量发生变化的主要自变量,并建立应变量随这些主要自变量变化关系的经验模型。在统计学中,把分析两个或两个以上自变量对一个自变量是否有线性影响关系的统计分析称之为多元线性回归.,二元性线性回归模型,二元性回归模型及其几何解释,2.4 多元线性回归分析,二元性线性回归几何解释,多元性回归分析,多元性线性回归模型,多元性线性回归模型的数据结构,多元性线性经验回归方程建立,中心化经验回归方程为,

9、一医学工作者与了解糖尿病人的血糖(响应变量)与胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂(均为自变量)之间的多元回归方程,以便了解糖尿病人的血糖与其他几个血液理化指标之间的关系,进而探索糖尿病的有效治疗方案.其随机收集了27名糖尿病患者的血液化验样本数据如下表所示,试就这些数据建立糖尿病人的血糖(响应变量)与胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂(均为自变量)之间的多元线性经验回归方程.,多元线性回归分析举例,计算建立经验回归方程所需各量,最小二乘法的正规方程组,记号及其含义,一、回归方程的方差分析,多元线性回归方程的假设检验及其评价,二、偏回归系数检验,偏相关系数t检验,偏相关系数F

10、检验,三、复相关系数与多元线性回归显著性检验,决定系数表示回归离差平方和占总离差平方和的比例,它反映了进入回归方程所有自变量对响应变量回归贡献的大小,决定系数愈接近1,说明回归整体愈显著。,复相关系数所有自变量xi与响应变量y间的线性相关程度。如果只有一个自变量,此时,复相关系数等于样本相关系数。复相关系数与下列临界值比较可以检验回归显著性。,糖尿病人血糖与其他血液理化指标回归的方差分析表,Parameter Standard Variable DF Estimate Error t Value Pr|t|变量 自由度 偏回归系数 标准误 t值 P值Intercept 22 5.94327 2

11、.82859 2.10 0.0473 X1 22 0.14245 0.36565 0.39 0.7006X2 22 0.35147 0.20420 1.72 0.0993 X3 22-0.27059 0.12139-2.23 0.0363 X4 22 0.63820 0.24326 2.62 0.0155,糖尿病人血糖与其他血液理化指标回归的偏回归系数t检验,糖尿病人血糖与其他血液理化指标回归的偏回归系数F检验,标准化回归系数,1.残差标准差(Root MSE),反映了回归方程的精度,其值越小说明回归效果越好。,三、其他有关评价指标与评价,2.决定系数(determination coeffi

12、cient),说明所有自变量能解释Y变化的百分比。取值(0,1),越接近1模型拟合越好,3.复相关系数(multiple correlation coefficient),说明所有自变量与Y间的线性相关程度。即观察值Y与估计值之间的相关程度。如果只有一个自变量,此时,4.校正决定系数(Adjusted determination coefficient),回归方程的优化(自变量的选择),1.变量多增加了模型的复杂度2.计算量增大3.估计和预测的精度下降4.模型应用费用增加,一、全局择优法,根据一些准则(criterion)建立“最优”回归模型,校正决定系数(考虑了自变量的个数)Cp准则(C即c

13、riterion,p为所选模型中变量的个数;Cp接近(p+1)模型为最优)AIC(Akaikes Information Criterion)准则;AIC越小越好,1.Cp准则的计算公式,2.AIC准则的计算公式,二、选优法方法,双向筛选;引入有意义的变量(前进法),剔除无意义变量(后退法).,前进法,自变量从无到有、从少到多。,1.Y对每一个自变量作直线回归,对回归平方和最大的自变量作F检验,有意义(p小)则引入。2.在此基础上,计算其它自变量的偏回归平方和,选取偏回归平方和最大者作F检验,。局限性:即后续变量的引入可能会使先进入方程的自变量变得不重要。,后退法,先将全部自变量放入方程,然后

14、逐步剔除。,1.偏回归平方和最小的变量,作F检验及相应的p值,决定它是否剔除(p大);2.建立新的回归方程。重复上述过程。局限性:自变量高度相关时,可能得不出正确的结果.,逐步回归法,逐步回归法与前进法、后退法有所不同,它是一种对回归方程中自变量的双向筛选。该方法通过先引入有意义的自变量,后剔除无意义变量这种过程的反复重复,直至既没有有意义自变量可引入回归方程,也没有无意义变量从回归方程剔除为止。,注意:入选标准愈低,能进入模型的变量愈少。,糖尿病人血糖与其他血液理化指标的逐步回归过程演示,逐步回归第一步,从方程中无自变量开始,选取一元回归回归离差平方和最大的自变量,作F 检验以决定是否选入方

15、程。,X4入选,逐步回归第二步,在第一步基础上,分别引入一个尚未进入方程的自变量,选引入后回归离差平方和最大者;对已进入回归方程的自变量检验偏回归显著性,从而确定是否要剔除自变量。,剔出x1,x1入选,逐步回归第三步,在第二步基础上,重复第二步的过程。,剔出x3,x3入选,逐步回归第四步,在第三步基础上,重复第二步的过程。,剔出x1,x2入选,逐步回归第五步,在第四步基础上,检验是否还有自变量需要剔出。,没有可剔出的变量了,多元回归应用的条件,观察个体数n与变量个数m的比例一般至少应为:n/m510,残差分析(检验应用条件),用标准化残差发现异常点,一般,观测点的标准化残差绝对值大于2,就认为

16、该观测点为异常点(outlier也称离群值),多重复共线性及其应对方法,多元线性回归中,若自变量间存在较强的线性相关关系,使一个或几个自变量可以由另外的自变量线性表示时,则称自变量间存在有复共线性(Multi-Colinearity)。,复共线性的存在,可使得回归系数最小二乘估计方差加大,回归系数估计稳定性差,有时甚至会严重背离实际情况,结果分析困难。,复共线性危害的认识,现从该系统中,随机抽取10个个体,观测数据如下。试就这些数据建立经验回归方程,并比较经验回归系数与其理论值。,复共线性存在性的识别,显然,复共线性有下列危害统计上会使经验回归系数严重不稳定;应用上,会使回归系数的符号与专业知

17、识推断不符,自变量的重要性与专业认识不符。,1.符号检验法 若某自变量在多元回归模型中的偏回归系数的符号与相应简单回归系数(或简单相关系数)的符号相反,表明有多重共线性存在,并确定该变量为引起多重共线性的变量。2.简单相关系数矩阵法 根据简单相关系数确定多重共线性的严重程度。一般认为相关系数在 0.6 以上均可导致多重共线性。,3.决定系数法 整个方程决定系数R2高,但各自变量对应的回归系数均不显著,则一定有复共线性。4.方差膨胀因子(the variance inflation factor,VIF)法:方差膨胀因子表达式为VIFi=1/(1-Ri2)。其中Ri为自变量xi对其余自变量作回归

18、分析的复相关系数。当VIFi很大时,表明自变量间存在多重共线性。5.条件数与特征分析法 在自变量的观测值构成的设计矩阵X中,求出自变量相关系数矩阵R的特征值,如果某个特征值很小(如小于0.05),或所有特征值的倒数之和为自变量数目的5倍以上,表明自变量间存在多重共线性关系。,对多重共线性的两点认识:在实际中,多重共线性是一个程度问题而不是有无的问题,有意义的区分不在于有和无,而在于多重共线性的程度。多重共线性是针对固定的自变量而言,是一种样本的特征,而非总体的特征。,消除多重共线性的方法:1.增加样本容量;2.利用先验信息改变;3.筛选自变量,删除不必要的自变量或采用逐步回归;4.针对性估计法

19、:岭回归(Ridge regression)主成分分析(Principal components analysis)偏最小二乘回归法(Partial least squares regression)Lasso(The least absolute shrinkage and selectionoperator)回归以下对4种针对性方法简要介绍如下,复共线性处理方法,岭回归(Ridge regression),岭回归法是1970年Hoerl(霍尔)和Kennard(凯南德)提出来的方法。主要用以引入偏误为代价,换取估计量方差的减小,回归系数估计以下列方式实现,主成分分析(Principal c

20、omponents analysis),主成分回归法是另外一种常用的处理多重共线性的有偏估计方法,它通过提取主成分,将解释变量集合转化为相互正交的少数几个主成分变量,试图通过降维消除解释变量之间的多重共线性,然后再实施最小二乘回归。,偏最小二乘回归法(Partial least squares regression),偏最小二乘回归是1983年由H.Wold和C.Albano提出,其原理也是通过提取主成分方式来降维以消除多重共线性。在提取主成分过程中,偏最小二乘法不同于主成分回归法,它要求所提取的主成分满足两个原则:(1)尽可能大地代表设计阵X中的变异信息;(2)提取出的主成分对因变量Y的解释

21、能力达到最强。,Lasso 回归法,Lasso 回归是1996年Tibshiran提出来的方法。回归系数估计以下列方式实现,2.5 通径分析与偏相关分析,通径分析有关量的计算,1.通径系数计算,2.直接决定系数与间接决定系数计算,3.xj对y的决策系数计算,4.xj对y的直接决定系数检验,例题,例题,2.6 逻辑(logistic)回归,在生物科学研究中,我们经常会遇到一种现象的发生与多个因素有关的问题,这些因素有些可能是定量的、有些可能是定性的,并且他们之间还有可能有存在混杂作用。分析这些因素对我们所关心现象出现概率的影响作用,并建立反映这种影响作用的数量表到形式最有效统计工具就是Logis

22、tic回归。,Logistic回归概念,Logistic 回归是研究因变量为二分类或多分类观察结果与影响因素(自变量)之间关系的一种多变量分析方法,属概率型非线性回归。它适合于某类现象发生的成因分析。Logistic回归是目前常用的,一个较好的,控制混杂因素的多因素分析方法。它与多元回归分析差别在于响应变量是二值或多值离散变量,自变量既可以是分类,也可以是定量变量。,Logistic回归模型,在m个自变量的作用下所关心现象发生的概率记作:,则Logistic回归模型,取值范围,概率P:01,logitP:。,若令:,则Logistic回归模型转化为:,Logistic回归模型的图形,Logis

23、tic回归模型的生物学意义,常数项 表示自变量均为0时所关心现象出现与不出现概率比的自然对数。回归系数 表示自变量 改变一个单位时 logitP 的改变量。,优势率OR(Odds ratio),生物学衡量因素作用大小的比数比指标。计算公式为:,优势率OR 与回归系数的关系,Logistic回归的数据结构,Logistic回归模型的参数估计,回归系数的MLE,某一因素Xj两个不同水平c1,c0的优势比,优势比估计,Logistic回归实例,吸烟、饮酒与食道癌关系的病例对照调查资料,以下是一个研究吸烟、饮酒与食道癌关系的病例对照资料,试建立食道癌患病情况与吸烟、饮酒之间关系的Logistic回归方程。,经Logistic回归计算后得:,Logistic回归模型的假设检验,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号