《偏最小二乘回归方法.ppt》由会员分享,可在线阅读,更多相关《偏最小二乘回归方法.ppt(36页珍藏版)》请在三一办公上搜索。
1、偏最小二乘回归方法,讲演人:,简言之,偏最小二乘回归是一种集多元线性回归分析、典型相关分析和主成分分析的基本功能为一体的新型多元统计分析方法。,此方法的优点:,(1)能在自变量存在严重多重相关性的条件下进行回归建模;,(2)允许在样本点个数少于自变量个数的条件下进行回归建模;,此方法的优点:,(3)偏最小二乘回归在最终模型中将包含原有的所有自变量,易于辨识系统信息与噪声,而且其自变量的回归系数也将更容易解释。,此方法的优点:,(4)偏最小二乘回归方法与其他的建模方法相比,具有计算简单、预测精度高,易于定性解释的优点。,多因变量偏最小二乘算法推导,首先将数据做标准化处理。,原自变量数据表,经标准
2、化后的数据矩阵记为,原因变量数据表,经标准化后的数据矩阵记,多因变量偏最小二乘算法推导,第一步:记 是 的第一个成分,是 的第一个轴,它是一个单位向量,即有。记 是 的第一个成分,是 的第一个轴,它是一个单位向量,即。,多因变量偏最小二乘算法推导,如果要使,能很好的代表 与 中的数据变异信息,根据主成分分析原理,应该有,。,多因变量偏最小二乘算法推导,另一方面,由于回归建模的需要,又要求 对 有最大的解释能力,由典型相关分析的思路,与 的相关度应达到最大值,即,多因变量偏最小二乘算法推导,因此,综合起来,在偏最小二乘回归中,我们要求 与 的协方差达到最大,即,多因变量偏最小二乘算法推导,正规的
3、数学表述应该是求解下列优化问题,即,多因变量偏最小二乘算法推导,采用拉格朗日算法,记,对 分别求关于,和 的偏导数,并令之为零,有,多因变量偏最小二乘算法推导,(1)式,(2)式,(3)式,(4)式,多因变量偏最小二乘算法推导,由上述四个式子可以推出,记,所以 正是优化问题的目标函数值。,多因变量偏最小二乘算法推导,把(1)和(2)式写成,将(6)代入(5),有,(5)式,(6)式,(7)式,多因变量偏最小二乘算法推导,同理,可得,易知,是矩阵 的特征向量,对应的特征值为。是目标函数,它要求取最大值。,所以,是对应于矩阵 的最大特征值的单位特征向量。,多因变量偏最小二乘算法推导,易知,是对应于
4、矩阵 的最大特征值 的单位特征向量。,求得轴 和 后,即可得到成分,。然后,分别求 和 对 与 的三个回归方程,多因变量偏最小二乘算法推导,其中,多因变量偏最小二乘算法推导,而,分别是三个回归方程的残差矩阵。,多因变量偏最小二乘算法推导,第二步:用残差矩阵 和 取代 和。然后,求第二个轴 和 以及第二个成分,有,多因变量偏最小二乘算法推导,是对应于矩阵 的最大特征值 的特征向量;是对应于矩阵 的最大特征值 的特征向量。,多因变量偏最小二乘算法推导,计算回归系数,因此,有回归方程,(8)式,多因变量偏最小二乘算法推导,如此计算下去,如果的 秩是,则会有,由于 均可以表示成 的线性组合。,多因变量
5、偏最小二乘算法推导,因此,(8)式还可以还原成 关于 的回归方程形式,即,是残差矩阵 的第 列。,偏最小二乘回归的简化算法,(1)求矩阵 最大特征值所对应的单位特征向量,求成分,得,其中,偏最小二乘回归的简化算法,(2)求矩阵 最大特征值所对应的单位特征向量,求成分,得,其中,偏最小二乘回归的简化算法,至第h步,求成分,是 矩阵最大特征值所对应的特征向量。,如果根据交叉有效性,确定共抽取h个主成分 可以得到一个满意的预测模型。,偏最小二乘回归的简化算法,则求 在 上的普通最小二乘回归方程为,其中,交叉有效性具体的步骤:,记 为原始数据,是在偏最小二乘回归过程中提取的成分,是使用全部样本点并取h 个成分回归建模后,第 个样本点的拟合值,是在建模时删除样本点,,交叉有效性具体的步骤:,取 h 个成分回归建模后,再用此模,型计算的 的拟合值,记,交叉有效性具体的步骤:,当 即 时,引进新的成分 会对模型的预测能力有明显的改善作用。,典型相关分析中的精度分析,在偏最小二乘回归计算过程中,所提取的自变量成分,尽可能多地代表 中的变异信息。,对某自变量 的解释能力为,典型相关分析中的精度分析,对某因变量 的解释能力为,对 的解释能力为,对 的解释能力为,对 的解释能力为,典型相关分析中的精度分析,对 的解释能力为,对 的解释能力为,谢谢!,讲演人:汤佳佳,