《特征提取与特征选择ppt课件.ppt》由会员分享,可在线阅读,更多相关《特征提取与特征选择ppt课件.ppt(29页珍藏版)》请在三一办公上搜索。
1、第8章 特征提取与特征选择Chapter 8:Feature extraction and feature selection,本章主要内容,8.1 特征提取的基本概念,8.3 特征选择的基本概念,8.2 常见特征提取方法,(重点),(熟悉),(熟悉),8.1 特征提取的基本概念,8.1.1 特征提取的必要性,1,2,3,4,5,转化成列向量,0,1,0,1,0,0,0,1,2,3,35,34,33,0,1,0,0,1,1,“1”,特征提取,35,模式“1”的图片,(原始特征),通过直接测量得到的特征称为原始特征;,例1:数字识别,8.1.1 特征提取的必要性(续),例2:表情识别,25625
2、6,3232=1024,抽样,1,1,1024,11,提取的特征个数,(原始特征),特征提取,原始特征过多,不利于识别;,8.1.1 特征提取的必要性(续),例3:指纹识别,指纹图象虽然很复杂,但真正能用于识别的特征并不多;,将这些特征找出来并进行合理表示就是特征提取的任务;,特征提取(Feature Extraction):,用映射(或变换)的方法把原始特征转换为数量较少的新特征的过程。,8.1.2 特征提取的定义与必要性,(1)过多的原始特征使得模式识别的计算复杂度过高;,(2)在原始特征中包含有对分类没有帮助甚至有害的冗余信息,需要去除;,定义:,必要性:,8.2 常见特征提取方法,8.
3、2.1 主成分分析,前提:,(1)求协方差矩阵:,(2)协方差矩阵的特征值分解:,(3)投影:,步骤:,为提取的第i个主方向,是测试样本 的第i个主成分(特征),(首先检查样本的均值是否为0,若不为0,则进行零均值化),例:已知三个样本的坐标如下图所示,试用主成分分析方法进行特征提取。,8.2.1 主成分分析(续),零均值化:,(1)求协方差矩阵:,(2)协方差矩阵的特征值分解:,(3)投影:,步骤:,8.2.1 主成分分析(续),物理意义(二维情形):,各样本点到 方向的距离的平方和最小;,PCA的实质是对原坐标系进行平移和旋转变换,使得新坐标系的原点与给定样本集的均值点重合。,方向与 方向
4、构成了新的坐标系;,8.2.1 主成分分析(续),物理意义(三维情形):,若样本呈椭球状分布,则三个主方向分别是椭球的三个轴。,8.2.1 主成分分析(续),源代码解析:,function v,latent,explained,xtest_project=lpca(x,xtest,numpc),%x-学习样本%xtest-测试样本%numpc-提取的特征数目,%v-提取的特征向量,n,m=size(x);ntest,mtest=size(xtest);avg=mean(x);,保证,8.2.1 主成分分析(续),centerx=(x-avg(ones(n,1),:);avgtest=mean(
5、xtest);centerxtest=(xtest-avg(ones(ntest,1),:);,U,latent,v=svd(centerx./sqrt(n-1),0);,latent=diag(latent).2;,xtest_project=centerxtest*v(:,1:1:numpc);,(3)投影:,(1)求协方差矩阵:,(2)特征值分解:,8.2.2 独立成分分析,预备知识:不相关与独立,不相关,独立,相关系数:,已知两个随机变量 和,有,不相关,两个随机变量不相关,它们不一定相互独立;,两个随机变量相互独立,它们一定不相关;,主成分分析 提取的特征间不相关;,独立成分分析 提
6、取的特征间相互独立;,完全相关,研究动机:鸡尾酒问题,Speaker(Sources),Recorder,矩阵形式:,8.2.2 独立成分分析(续),已知:,未知:,待求:,PCA,ICA,max,max,投影,求取原则,算法,max,or,非线性数值优化,特征值分解,8.2.2 独立成分分析(续),与主成分分析的区别,Negentropy准则:,Kurtosis 准则:,Sources,Mixture,8.2.2 独立成分分析(续),例:用独立成分分析分离混合信号,8.2.3 其它特征提取方法简介,概率主成分分析(PPCA):,PCA,PPCA,Principal plane,Latent
7、plane,先验:,给定:,后验:,8.2.3 其它特征提取方法简介(续),混合概率主成分分析(MPPCA):,PPCA,MPPCA,PPCA使得PCA具有概率背景;,MPPCA具备更精细的特征分析功能;,PCA,主曲线,HS(Hastie and Stuetzle,1988)PPC(K.Y.Chang,1998,)BR(Banfield and Raftery,1992)T(Tibshirani,1992)D(Delicado,2001)K(Kgl,1999)RPM(Smola,1999),HS(Hastie and Stuetzle,1988)PPS(K.Y.Chang,2001,prob
8、abilistic principal surfaces)APS(LeBlanc,1994,adaptive principal surfaces)SOM(Kohonen,1995,self-organizing maps)GTM(Bishop,1998,generative topographical mapping),8.2.3 其它特征提取方法简介(续),主曲面,主曲线(PC)与主曲面(PS)分析:,主曲线分析,主成分分析,8.2.3 其它特征提取方法简介(续),三种特征提取方法比较,混合概率主成分分析,在三种特征提取方法中,主曲线分析方法效果最好;,8.2.3 其它特征提取方法简介(续
9、),例:用主曲线提取手写数字特征,人工提取上述特征容易,用计算机提取上述特征困难些;,不同的主曲线提取方法对比,用主曲线提取的特征,8.2.3 其它特征提取方法简介(续),核主成分分析(KPCA):,v,v,KPCA:在核空间中进行主成分分析,8.2.3 其它特征提取方法简介(续),.,PCA,KPCA,原始样本,第一主方向,第二主方向,第一主方向,第二主方向,第三主方向,例:用核主成分分析方法进行特征提取,8.3 特征选择的基本概念,特征选择(Feature Selection):,从原始特征中挑选出一些最有代表性、可分性能最好的特征。,8.3.1 特征选择的必要性,例:二维特征选择,-1,
10、1,1,-1,1,若只选择第1个特征,若只选择第2个特征,-1,1,特征选择面临的两个问题:,(1)有一个选择的标准。即要选出使某一可分性达最大的一组特征;,(2)找一个较好的算法。即要在允许的时间内找出最优的一组特征;,特征选择的几种新方法:(教材P205),(1)模拟退火算法;,(2)Tabu搜索算法;,(3)遗传算法;,8.3.2 特征选择面临的问题及解决之道,常用特征选择方法,最优搜索算法;,次优搜索算法;,(教材P199),(教材P202),(1)最优化理论,(3)离散数学,(4)随机过程,(5)多元分析,(7)数学物理方程,(6)计算方法,(8)微分方程数值解,(9)模糊数学,(2)矩阵论,附:向大家推荐的10门数学课:,“学以致用”;,(10)泛函分析,数学是解决问题的利器;,