《模式识别-第4章统计分类器及其学习_第四讲课件.ppt》由会员分享,可在线阅读,更多相关《模式识别-第4章统计分类器及其学习_第四讲课件.ppt(33页珍藏版)》请在三一办公上搜索。
1、第四章统计分类器及其学习第四讲 Principal Component Analysis Fisher 线性判别准则,问题的提出,在建立识别系统时,抽取的原始特征往往比较多,特征的维数比较大,这会给识别器的训练带来很大的困难,因此希望能够采用某种方法降低特征的维数。这些方法可以称作成分分析的方法。主成分分析;寻找最小均方意义下,最能代表原始数据的投影方法多重判别分析;寻找最小均方意义下,最能分开各类数据的投影方法,人脸识别举例,1 主成分分析(PCA,Principal Component Analysis),PCA是一种最常用的线性成分分析方法;PCA的主要思想是寻找到数据的主轴方向,由主轴
2、构成一个新的坐标系(维数可以比原维数低),然后数据由原坐标系向新的坐标系投影。PCA的其它名称:离散K-L变换,Hotelling变换;,问题:有n个d维样本,x1,x2,.xn,如何仅用一个样本x0代表这些样本,使误差准则函数最小?,不依赖于x0,x0=m时取得最小值,样本均值是样本数据集的零维表达。将样本数据集的空间分布,压缩为一个均值点。,简单,但不能反映样本间的差异,零维表达改为“一维”表达,将数据集空间,压缩为一条过均值点的线。,每个样本在直线上存在不同的投影,可以反映样本间的差异,e为直线的单位向量,a为直线上的点到m的距离,0维平方误差,1维平方误差,只需把向量 向过 的直线垂直
3、投影就能得到最小方差,如何找到直线的最优方向?,协方差矩阵的n-1倍:散布矩阵,Lagrange乘子法,散布矩阵,散布矩阵的特征值,为了最大化 选取散布矩阵最大特征值选取 对应的特征向量作为投影直线 的方向,2,选取 对应的特征向量作为直线方向,PCA算法从0维,1维到d 维,有n个d维样本,x1,x2,.xn,零维表达:仅用一个样本x0代表这些样本,使误差最小?,一维表达:将这些样本,映射到过m的一条直线上使误差最小?,简单,但不能反映样本间的差异,1,选取散布矩阵 最大特征值,3,将样本向直线做垂直投影,d 维表达:将这些样本,映射到以m为原点的d维空间中,使误差准则函数最小?,PCA算法
4、d 维表达:,有样本集合,,其中,,以样本均值,为坐标原点建立新的坐标系,则有:,,其中,为标准正交向量基:,因此有:,将特征维数降低到,,则有对,的近似:,误差平方和准则函数:,。,PCA算法d 维表达:,散布矩阵,使用拉格朗日乘数法:,为,的特征值,,为,的特征矢量。,要使,最小,只需将,的特征值由大到小排序,选择最大的前,个特征值对应的特征向量构成一个新的,维坐标系,将样本,向新的坐标系的各个轴上投影,计算出新的特征矢量,其中,PCA算法,利用训练样本集合计算样本的均值m和散布矩阵S;计算S的特征值,并由大到小排序;选择前d个特征值对应的特征矢量作成一个变换矩阵E=e1,e2,ed;训练
5、和识别时,每一个输入的d维特征矢量x可以转换为d维的新特征矢量y:y=Et(x-m)。,PCA的讨论,由于S是实对称阵,因此特征矢量是正交的;将数据向新的坐标轴投影之后,特征之间是不相关的;特征值描述了变换后各维特征的重要性,特征值为0的各维特征为冗余特征,可以去掉。,例,有两类问题的训练样本:将特征由2维压缩为1维。,x1,x2,特征人脸,e1 e2 e3 e4 e5 e6 e7 e8,PCA重构,原图像 d=1 5 10 20 50 100 200,2 多重判别分析(MDA,Multiple Discriminant Analysis),x1,x2,MDA与PCA,PCA将所有的样本作为一
6、个整体对待,寻找一个均方误差最小意义下的最优线性映射,而没有考虑样本的类别属性,它所忽略的投影方向有可能恰恰包含了重要的可分性信息;MDA则是在可分性最大意义下的最优线性映射,充分保留了样本的类别可分性信息;MDA还被称为:FDA(Fisher Discriminant Analysis)或LDA(Linear Discriminant Analysis)。,Fisher 线性判别准则,如何选择直线方向W,使样本可分性最好?,样本点 在W方向上的投影,W,两类样本均值M1,M2投影之差:,第i类投影的内类散布:,总体内类散布:,可分性准则函数:(Fisher线性判别准则),二分类问题 可分性准
7、则函数的构造,Fisher线性判别准则:,样本x在w方向上的投影:,类间散布矩阵:,总类内散布矩阵:,广义瑞利商,准则函数的广义瑞利商形式,瑞利商与广义瑞利商,设A是n阶实对称矩阵,称R(x)为A的瑞利商,设A,B是n阶实对称矩阵,且B正定,称R(x)为A相对于B的广义瑞利商,R(x)具有以下特性,1,R(x)是x的连续函数。,3,时,R(x)为一常数,4,R(x)的最大,最小值存在,能在单位球面 上找到,2,R(x)是x的0次齐次函数:,瑞利商特性,R(x)的最大、最小值为:,X展开为pi的线性组合,广义瑞利商特性,广义特征向量,Fisher线性判别准则:,类间散布矩阵:,总类内散布矩阵:,
8、最大化 必须满足:,为:相对于 的特征值,为对应的特征向量,当 非奇异时,FDA算法,利用训练样本集合计算类内散布矩阵Sw和类间散度矩阵SB;计算Sw-1SB的特征值;选择非0的c-1个特征值对应的特征矢量作成一个变换矩阵W=w1,w2,wc-1;训练和识别时,每一个输入的d维特征矢量x可以转换为c-1维的新特征矢量y:y=Wtx。,3类问题FDA,FDA的讨论,经FDA变换后,新的坐标系不是一个正交坐标系;新的坐标维数最多为c-1,c为类别数;只有当样本数足够多时,才能够保证类内散度矩阵Sw为非奇异矩阵(存在逆阵),而样本数少时Sw可能是奇异矩阵。,成分分析的其它问题,独立成分分析(ICA,Independent Component Analysis):PCA去除掉的是特征之间的相关性,但不相关不等于相互独立,独立是更强的要求。ICA试图使特征之间相互独立。多维尺度变换(MDS,Multidimensional Scaling)典型相关分析(CCA,Canonical Correlation Analysis)偏最小二乘(PLS,Partial Least Square),现有下列训练样本,请用PCA算法将2维特征降为1维,并画出训练样本和投影主轴以及投影后的样本点。样本:,均值:,,协方差矩阵:,计算协方差矩阵的特征值和特征向量:,带入线性方程组:,,,归一化为:,,,