《环境数学多元线性回归(part1理论).ppt》由会员分享,可在线阅读,更多相关《环境数学多元线性回归(part1理论).ppt(50页珍藏版)》请在三一办公上搜索。
1、多元线性回归分析 理论&应用,主要内容,多元线性回归模型的一般形式 多元线性回归方程的建立(OLS估计)回归模型的检验逐步回归分析多元线性回归的注意事项,多元线性回归模型,1,问题的提出解析形式矩阵形式,1.1 问题的提出,现实生活中引起被解释变量变化的因素并非仅只一个解释变量,可能有很多个解释变量。例如,大气中的TSP浓度往往受各种要素污染源排放量、当时的气温、湿度、风速等的影响。所以在一元线性模型的基础上,提出多元线性模型解释变量个数 2,1.2 多元线性回归模型表示方法,多元回归模型:含两个以上解释变量的回归模型。多元线性回归模型:表示一个应变量与多个解释变量之间线性关系的回归模型。多元
2、线性回归模型一般形式为:,1.3 多元线性回归模型的假设,解释变量 Xi 是确定性变量,不是随机变量;解释变量之间互不相关,即无多重共线性。随机误差项服从0均值、同方差的正态分布随机误差项不存在序列相关关系随机误差项与解释变量之间不相关,1.4 多元模型的解析表达式,1.5 多元模型的矩阵表达式,多元线性回归方程的建立,2,问题的提出,在环境中,某一污染物的形成因素是多种多样的。为了找到他们的定量关系,我们可以根据最小二乘法(OLS)找到他们的最佳线性关系式:,最小二乘法原则,实际检测数据点()与配合直线的估值()的偏差总和为最小的原则下,确定方程中回归数。即:,2.1 参数值估计(OLS),
3、2.1 参数值估计(OLS),得到下列方程组,求参数估计值的实质是求一个k+1元方程组,2.1 参数值估计(OLS),变成矩阵形式,2.1 参数值估计(OLS),2.1 参数值估计(OLS),最小二乘法的矩阵表示,2.2 OLS估计量的性质,(1)线性(估计量都是被解释变量观测值的线性组合),(2)无偏性(估计量的数学期望=被估计的真值),(3)有效性(估计量的方差是所有线性无偏估计中最小的),2.2 OLS估计量的性质,回归线的性质:,2.2 OLS估计量的性质,2.3 偏回归系数的意义,2.4 样本容量问题,样本是一个重要的实际问题,模型依赖于实际样本。获取样本需要成本,企图通过样本容量的
4、确定减轻收集数据的困难。最小样本容量:满足基本要求的样本容量,2.4 样本容量问题,最小样本容量 n k+1,(XX)-1存在|XX|0 XX 为k+1阶的满秩阵R(AB)min(R(A),R(B)R(X)k+1因此,必须有nk+1,2.4 样本容量问题,满足基本要求的样本容量,一般经验认为:n 30或者n 3(k+1)才能满足模型估计的基本要求。n 3(k+1)时,t分布才稳定,检验才较为有效。,多元线性回归模型的检验,3,3.1.1 拟合优度检验 总平方和、自由度的分解,目的:构造一个不含单位,可以相互比较,而且能直观判断拟合优劣的指标。类似于一元情形,先将多元线性回归作如下平方和分解:,
5、总离差平方和(TSS)回归平方和(RSS)+残差平方和(ESS),自由度:n-1 k+n-k-1,分解说明:,,受k+1个方程对n个Yi约束,,所以自由度为n-(k+1)=n-k-1,RSS=TSS-ESS,所以其自由度为k。,3.1.1 拟合优度检验 总平方和、自由度的分解,3.1.2 判定系数,判定系数的定义:意义:判定系数越大,自变量对因变量的解释程度越高,自变量引起的变动占总变动的百分比高。观察点在回归直线附近越密集。取值范围:0-1,复相关系数 R,它与一元线性回归方程的单相关系数类似,用来衡量一个变量与多个变量的复相关程度。,3.1.2 判定系数,3.2 回归方程的显著性检验,检验
6、的目的,检验Y与解释变量x1,x2,xk之间的线性关系是否显著。,3.2 回归方程的显著性检验,检验的步骤,第一步,提出假设:,原假设:H0:b1=b2=bk=0,备择假设:H1:bi不全为0(i=1,k),第二步,计算统计量:,或:,3.2 回归方程的显著性检验,第三步,查表,得:,第四步,做检验:,拒绝H0,回归方程显著,接受H0,回归方程不显著,检验法则,3.3 回归系数的显著性检验,回归方程显著,并不意味着每个解释变量对因变量Y的影响都重要,因此需要进行检验:,回归系数检验的必要性,回归方程显著,每个回归系数都显著,回归系数检验的步骤,第一步,提出假设:,原假设:H0:bi=0(i=1
7、,2,k),备择假设:H1:bi0(i=1,2,k),3.3 回归系数的显著性检验,第二步,构造并计算统计量:,bi为偏回归系数Cij为正规方程组矩阵XTX的逆矩阵(XTX)-1的第i行第j列元素ESS为残差平方和,第三步,查表得:,3.3 回归系数的显著性检验,第四步,做检验:,接受H0,回归系数影响显著,拒绝H0,回归系数影响不显著,检验法则,3.4 关于拟合优度检验与 方程显著性检验关系的讨论,逐步回归分析,4,4 逐步回归分析,多元线性回归建立的回归方程包含了所有的自变量,但在实际问题中,可能有这样的情况:参加回归方程的P个自变量中,有些自变量单独看对因变量Y有作用(相关程度密切),但
8、P个自变量又可能是相互影响的。在作回归时,它们对因变量所起的作用有可能被其他自变量代替,而使得这些自变量在回归方程中变得无足轻重。,4 逐步回归分析,这时把这些自变量留在回归方程中,不但增加计算上的麻烦,而且不能保证有好的回归效果。为了克服这些缺点,提出了多元逐步回归。,多元逐步回归要求回归方程中包含所有对因变量作用显著的自变量,而不包含作用不显著的自变量,从而建立最优回归方程。,向前引入法(Forward),自变量由少到多一个一个引入回归方程,将与因变量的相关系数最大的第一个自变量选入方程并进行检验,如果F值Fa,拒绝H0;将其余的变量中与因变量的相关系数最大的第二个自变量选入方程,当F值F
9、a,拒绝H0;如此下去,不断引入新的自变量,直到不能拒绝H0,再没有变量被引入为止。局限性:即后续变量的引入可能会使先进入方程的自变量变得不重要。,4.1 逐步回归的主要方法,向后剔除法(Backward),自变量由多到少一个一个从回归方程中剔除,首先,对预先选定自变量全部进行回归,然后把对因变量影响不显著的自变量从方程中剔除并进行检验,如果F值Fa,接受H0,一个一个剔除对因变量不显著的自变量,直到再不能剔除为止。局限性:自变量高度相关时,可能得不出正确的结果。,4.1 逐步回归的主要方法,逐步引入剔除法(Stepwise),-向前引入法与向后剔除法的结合。,取上述两种方法的优点,在向前引入
10、每一个新自变量之后都要重新对前已选入的自变量进行检查,以评价其有无继续保留在方程中的价值。为此引入和剔除交替进行,直到无具有统计学意义的新变量可以引入也无失去其统计学意义的自变量可以剔除时为止。,4.1 逐步回归的主要方法,4.2 逐步回归的主要用途,1、建立一个自变量个数较少的多元线性回归方程,可用于描述某些自变量与某现象间的数量关系,以及进行预测预报等。,2、进行因素筛选,有助于从大量因素中筛选出对某一现象作用显著的因素和因素组,因此在原因分析和改进分析中有着广泛的应用。,4.3 多元逐步回归的基本原理,每一步只引入或剔除一个自变量。自变量是否被引入或剔除则决于其偏回归平方和的F检验或校正
11、决定系数。如方程中已引入了(k-1)个自变量,在此基础上考虑再引入变量Xj。记引入Xj 后方程(即含k个自变量)的回归平方和为RSS,残差为ESS;之前含(k-1)个自变量(不包含Xj)方程的回归平方和为RSS(-j),则Xj 的偏回归平方和为 U=RSSRSS(-j),检验统计量为:,Fj 服从F(1,n-K-1)分布,如果FjF(1,n-K-1),则 Xj选入方程;否则,不入选。,从方程中剔除无统计学作用的自变量,过程则相反,但检验一样。,4.4 多元逐步回归的检验水平,在进行逐步回归前,首先应确定检验水平,以作为引入或剔除变量的标准。检验水平可以根据具体情况而定,一般可将 F 值定在 为
12、0.05、0.10或0.20水平上。对于回归方程的选入和剔除水平往往选择:选入剔除。选择不同的F 值(或水平),其回归方程的结果可能不一致,一般可选不同的F 值(或值)作调试。至于何种结果是正确的,必须结合实际意义来确定。,多元线性回归的注意事项,5,5 多元线性回归的注意事项,5 多元线性回归的注意事项,(1)线性依存关系 应变量与自变量间具有线性依存关系。(2)正态性 应变量原则上是连续型可测正态变量,其预测值与实际观测值的差值(即残差)服从正态分布,当样本量较大时可以忽略正态性的要求。(3)独立性 观察单位之间是独立的,即应变量的观测值相互独立。,1.应用条件,2.样本含量 一般应使样本量是自变量个数的 3 倍以上。3.筛选自变量的检验水平 要考虑入选变量的实际意义。,5 多元线性回归的注意事项,两工厂排放有机污染物量为x1和x2,在工厂排放口下游某断面监测得BOD5浓度y的数据如下表所示:(1)求y与x1、x2的线性回归方程;(2)对所求线性方程进行统计检验(F检验、复相关系数检验、标准回归系数比较。,作业,谢 谢!,