第四相关与回归Chapter4RegressionandCorrelation.ppt

上传人:sccc 文档编号:5295482 上传时间:2023-06-23 格式:PPT 页数:41 大小:312.53KB
返回 下载 相关 举报
第四相关与回归Chapter4RegressionandCorrelation.ppt_第1页
第1页 / 共41页
第四相关与回归Chapter4RegressionandCorrelation.ppt_第2页
第2页 / 共41页
第四相关与回归Chapter4RegressionandCorrelation.ppt_第3页
第3页 / 共41页
第四相关与回归Chapter4RegressionandCorrelation.ppt_第4页
第4页 / 共41页
第四相关与回归Chapter4RegressionandCorrelation.ppt_第5页
第5页 / 共41页
点击查看更多>>
资源描述

《第四相关与回归Chapter4RegressionandCorrelation.ppt》由会员分享,可在线阅读,更多相关《第四相关与回归Chapter4RegressionandCorrelation.ppt(41页珍藏版)》请在三一办公上搜索。

1、第四章 相关与回归Chapter 4:Regressionand Correlation,在回归模型中,X是试验时预先确定的,没有误差或误差很小,而Y不仅随着X的变化而变化,并且有随机误差,X称为自变量,Y称为依变量。在回归模型中除有自变量和依变量的區别外,尚有预测的特征。回归模型资料的统计方法叫回归分析,确定由X来预测或控制Y的回归方程,并确定当给X某一个值时Y将会在什么范围内变化。,从统计学上讲,X和Y变数的关系有两种理论模型:第一种叫回归模型;第二种叫相关模型。,在相关模型中,X和Y变数是平行变化关系,均具有随机误差,所表示的只是两个变数的偕同变异,没有自变数和依变数之分,也不具有预测的

2、性质。相关模型资料的统计方法叫相关分析,其目的是要测定两个变数在数量关系上的密切程度和性质。,4.1 直线回归方程,回归系数,回归截距,确定直线回归方程的方法有最小二乘法、高斯牛顿法、麦夸特法、牛顿法、梯度法、正割法等等。这里重点给大家介绍最小二乘法。,分别对上式的a和b求偏导:,解方程组得:,a称为截距;b成为斜率;Q称为离回归平方和或称为剩余平方和;U称为回归平方和;Sy/x称为回归估计标准误。,因方程使用了a,b两个统计数,故自由度为n2。,例 测定水稻播种至齐穗的天数和播种至齐穗的总积温的数据如下。请确定X与Y的变化关系。表 播种至齐穗的天数X和播种至齐穗的总积温Y的关系,解:以X为横

3、坐标,Y为纵坐标绘制散点图。从散点图可以看出Y与X有回归关系,Y随着X变大而上升,可以选用一元线性回归方程拟合Y与X的回归关系。,因此,该例数据的回归直线方程为:,Old Y Fitted Y Residuals STD Residuals1421.801429.89-8.09-0.281423.301429.89-6.59-0.341440.701439.970.73 0.031471.301439.9731.33 1.331440.001470.23-30.23-1.281547.101520.6626.44 1.111533.001561.01-28.01-1.191610.901591

4、.2619.64 0.831616.301621.52-5.22-0.22,表 残差值,残差的方差及标准差为:,用Se对残差进行标准,得到标准化残差,结果见上表。计算Y总体平均数的95%置信区间,计算公式如下所示,其结果包括总体平均数在内。,UCL:upper confidence limitLCL:lower confidence limit,计算y值的95%置信区间的计算公式:,X Y LCL95 UCL9551.001421.801408.841450.9351.001423.301408.841450.9352.001440.701420.371459.5852.001471.3014

5、20.371459.5855.001440.001454.021486.4460.001547.101505.161536.1664.001533.001541.401580.6167.001610.901567.031615.4970.001616.301592.011651.03,表 95%置信区间,图 Y的95%置信区间,包括总体平均数在内95%可靠度的置信区间,一般来讲,y关于x的回归方程y=f(x)是未知的,由样本来拟合是一种探索的过程,或者说是一个选择合适的函数逼近的过程。,直线回归的显著测验:,b的显著性测验:,b的(1-)*100%的置信区间为:,a的显著性测验:,a的(1-)

6、*100%的置信区间为:,回归关系的作用:,1、预测在x=x0处,用y=a+bx进行预测。预测包括平均值的预测和个别值的预测。,平均值预测,个别值预测,2、控制 控制问题是预测的反问题。若要求y的个别值在y1,y2内的可靠性为(1-)100%时,应该把x值控制在什末范围内?,非线性模型参数的计算及其检验:,在生物学研究领域中,许多变量间的关系呈非线性关系(curvilinear relations)。非线性模型的形式是多种多样的,这里只讨论在农学和生物学研究中常遇到的非线性模型。如:昆虫种群的增长过程,病害的发展过程等等。,对这类模型参数据的求解有两种方法:一是将非线性模型线性化,然后按直线模

7、型参数的求解过程确定其参数,并进行检验;二是采用Gauss-Newton法、Marquart法、Newton法、Gradient法、DUD法等进行参数的求解。下面以实例详细说明计算过程。,4.2 非线性回归方程,请参见课本第170页。,非线性回归方程参数的求解过程:,(1)整理数据(2)画散点图(3)选方程(4)线性化(5)求解参数(6)参数带回原方程,例1 美国纽约1980年观察到马铃薯晚疫病(Phytophthora infestans)在四个马铃薯品种(Katahdin,Kennebec,Monona,Sebago)上的严重度,结果见下表,请用 Gompertz,Monomolecula

8、r和Logistic模型拟合数据。,接种天数 重复 严重度 Katahdin Kennebec Monona Sebago1110.00.00.00.020.00.00.00.030.00.00.00.040.00.00.00.01412.50.911.80.7211.80.87.81.732.31.72.81.043.91.08.01.4。37198.392.5100.075.5298.389.3100.079.5398.087.5100.083.0498.388.8100.078.0,表 四个马铃薯品种上晚疫病发生程度数据,马铃薯上晚疫病发生过程的三点图,天,病害严重度,根据散点图趋势,选

9、择较适合的曲线模型:,单分子模型:,Gompertz模型:,Logistic模型:,单分子模型:ln 1/(1-y)=-lnA+Bt,Gompertz模型:ln 1/ln(1/y)=-lnA+Bt,Logistic模型:ln y/(1-y)=A+Bt,非线性模型的线性化形式:,参数 参数估计 T 概率值INTERCEPT-6.7654-24.36 0.0001DAY 0.2879 27.07 0.0001,Logistic线性模型的参数估计:,参数 参数估计 T 概率值INTERCEPT-4.3666-20.40 0.0001Day 0.2139 26.10 0.0001,Gompertz线性

10、模型的参数估计:,参数 参数估计 T 概率值INTERCEPT-2.1898-8.64 0.0001DAY 0.1458 14.23 0.0001,Monomolecular线性模型的参数估计:,Monomolecular:M=-2.1898+0.1458 DAY Gompertz:G=-4.3667+0.2140 DAY Logistic:L=-6.7655+0.2880 DAY,三个模型的线性化形式:,三模型的非线性化形式:,Monomolecular:,Gompertz:,Logistic:,例2 酵母种群的增长资料如下表,试拟合生长模型。,表 酵母种群增长资料,时刻X 酵母数Y时刻X

11、酵母数Y09.610513.3118.311559.7229.012594.8347.213629.4471.114640.85119.115651.16174.616655.97257.317659.68350.718661.89441.0,制作散点图,选择适合的曲线方程,这里以Logistic方程为例,说明非线性方程参数的求解过程。,Dmlog;clear;output;clear;Options font=sasfont 8;DATA NEW;INPUT x y;Cards;0 9.6 1 18.3。PROC NLIN METHOD=DUD BEST=2;PARMS K=661 TO 6

12、65 BY 2 A=3 TO 5 B=-0.6 TO-0.4 BY 0.1;MODEL y=K/(1+EXP(A+B*x);RUN;,采用DUD法求解Logistic方程的参数:,表 Logistic参数估计表,参数参数估计标准误95%下限95%上限K663.01.7027659.4666.6A4.27080.04094.18414.3575B-0.54700.00558-0.5588-0.5352,Logistic方程为:,4.3 相关分析,相关系数:用r来表示,其取值范围为1到1,表示两个变数间相关的密切程度和性质。r的绝对值愈大表示两个变数愈密切;当r取负值时表示两个变量间呈负相关;当r

13、取正值时表示两个变量间呈正相关。,决定系数:是由x不同而引起的y变数平方和U占y变数总平方和SSy的比率,即决定系数是相关系数的平方值。,决定系数和相关系数的区别主要有:,1、除掉|r|=1 和|r|=0两种情况外,决定系数总小于相关系数;,2、r的取值范围为1到1,而决定系数的取值范围为0到1;,3、r可以用来表示相关的程度和性质,而决定系数只用来表示相关的程度,不表示相关的性质。,直线相关系数的假设测验:H0:0;HA:0。其中,样本是从总体0中抽样得到。直线相关系数的标准误为:,例 测定水稻播种至齐穗的天数和播种至齐穗积温的数据如下表。请确定X与Y的变化关系。表 播种至齐穗的天数X和播种

14、至齐穗的总积温Y的关系,Data new;Input x y;Cards;70 1616.3 67 1610.9 55 1440.052 1440.7 51 1423.3 52 1471.351 1421.8 61 1547.1 64 1533.0;Proc corr;/用于计算相关系数的过程Var x y;Run;,解:计算相关系数的SAS程序为:,例 一些害虫盛发期的迟早和春季温度高低有关。测定某地19561964年间3月下旬至4月中旬旬平均气温累积值和一代三化螟蛾盛发期得关系见下表,请计算相关系数。表 积温和一代三化螟蛾盛发期的关系,Data new;Input x y;Cards;70 1616.3 67 1610.9 55 1440.052 1440.7 51 1423.3 52 1471.351 1421.8 61 1547.1 64 1533.0;Proc corr;Var x y;Run;,解:计算相关系数得SAS程序为:,说明3月下旬至4月中旬积温和一代三化螟蛾盛发期间存在真实的直线相关关系。,直线相关系数的t检验:,查r表,当自由度为7时,显著水平分别为0.05和0.01时,对应的r值分别为0.666和0.798。|r|=0.83710.798 因此,两个变量在0.01 水平上显著,即认为两个变量之间存在显著的直线相关关系。,直线相关系数的直接检验:,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/施工/环境 > 农业报告


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号