特征选择与稀疏学习ppt课件.pptx

资源描述

《特征选择与稀疏学习ppt课件.pptx》由会员分享，可在线阅读，更多相关《特征选择与稀疏学习ppt课件.pptx（33页珍藏版）》请在三一办公上搜索。

1、徐淼,第十一章：特征选择与稀疏学习,特征,特征描述物体的属性特征的分类相关特征:对当前学习任务有用的属性无关特征:与当前学习任务无关的属性,西瓜的特征,颜色纹理触感根蒂声音,相关特征,无关特征,好瓜,坏瓜,当前任务：西瓜是否是好瓜,特征选择,特征选择从给定的特征集合中选出任务相关特征子集必须确保不丢失重要特征原因减轻维度灾难：在少量属性上构建模型降低学习难度：留下关键信息,特征选择的一般方法,遍历所有可能的子集计算上遭遇组合爆炸，不可行可行方法,两个关键环节：子集搜索和子集评价,子集搜索,前向搜索：最优子集初始为空集，逐渐增加相关特征后向搜索：从完整的特征集合开始，逐渐减少特征双向搜索：每一

2、轮逐渐增加相关特征，同时减少无关特征,用贪心策略选择包含重要信息的特征子集,子集评价,特征子集A 确定了对数据集D的一个划分每个划分区域对应着特征子集A的某种取值样本标记Y对应着对数据集的真实划分通过估算这两个划分的差异，就能对特征子集进行评价；与样本标记对应的划分的差异越小，则说明当前特征子集越好信息熵是判断这种差异的一种方式,常见的特征选择方法,常见的特征选择方法大致分为如下三类：过滤式包裹式嵌入式,将特征子集搜索机制与子集评价机制相结合，即可得到特征选择方法,常见的特征选择方法,常见的特征选择方法大致分为如下三类：过滤式先对数据集进行特征选择，然后再训练学习器，特征选择过程与后续学习器无

3、关。先用特征选择过程过滤原始数据，再用过滤后的特征来训练模型。包裹式嵌入式,将特征子集搜索机制与子集评价机制相结合，即可得到特征选择方法,过滤式选择-Relief算法,Relief(Relevant Features)方法是一种著名的过滤式特征选择方法。Relief算法最早由Kira提出，最初局限于两类数据的分类问题。Relief算法是一种特征权重算法(Featureweightingalgorithms)，根据各个特征和类别的相关性赋予特征不同的权重（相关统计量），权重小于某个阈值的特征将被移除。Relief算法中特征和类别的相关性是基于特征对近距离样本的区分能力。Relief的关键是如何确

4、定权重（相关统计量）？,过滤式选择-Relief算法,过滤式选择-Relief算法的多类拓展,过滤式选择-医学数据分析实例,选用的数据：威斯康星州乳腺癌数据集，数据来源美国威斯康星大学医院的临床病例报告，每条数据具有9个属性。数据处理思路：先采用ReliefF特征提取算法计算各个属性的权重，剔除相关性最小的属性，然后采用K-means聚类算法对剩下的属性进行聚类分析。,过滤式选择-医学数据分析实例,乳腺癌数据集特征提取采用ReliefF算法来计算各个特征的权重，权重小于某个阈值的特征将被移除，针对乳腺癌的实际情况，将对权重最小的2-3种剔除。将ReliefF算法运行20次，得到了各个特征属性的

5、权重趋势图按照从小到大顺序排列，可知，各个属性的权重关系如下：属性9属性5属性7属性4属性2属性3属性8属性1属性6我们选定权重阀值为0.02，则属性9、属性4和属性5剔除。,过滤式选择-医学数据分析实例,乳腺癌数据特征分析从上面的特征权重可以看出，属性6裸核大小是最主要的影响因素，说明乳腺癌患者的症状最先表现了裸核大小上，将直接导致裸核大小的变化，其次是属性1和属性8等，后几个属性权重大小接近。几个重要的属性进行分析：块厚度属性的特征权重在0.19-25左右变动，也是权重极高的一个，说明该特征属性在乳腺癌患者检测指标中是相当重要的一个判断依据。进一步分析显示，在单独对属性6，和属性1进行聚类

6、分析，其成功率就可以达到91.8%。,包裹式选择,常见的特征选择方法大致分为如下三类：过滤式包裹式直接把最终将要使用的学习器的性能作为特征子集的评价准则嵌入式,将特征子集搜索机制与子集评价机制相结合，即可得到特征选择方法,包裹式选择,包裹式特征选择的目的就是为给定学习器选择最有利于其性能、“量身定做”的特征子集包裹式选择方法直接针对给定学习器进行优化，因此从最终学习器性能来看，包裹式特征选择比过滤式特征选择更好包裹式特征选择过程中需多次训练学习器，计算开销通常比过滤式特征选择大得多LVW（Las Vegas Wrapper）是一个典型的包裹式特征选择方法，LVW在拉斯维加斯方法框架下使用随机策

7、略来进行子集搜索，并以最终分类器的误差作为特征子集评价准则,包裹式选择-LVW,LVW基本步骤在循环的每一轮随机产生一个特征子集在随机产生的特征子集上通过交叉验证推断当前特征子集的误差进行多次循环，在多个随机产生的特征子集中选择误差最小的特征子集作为最终解采用随机策略搜索特征子集，而每次特征子集的评价都需要训练学习器，开销很大。,嵌入式选择,常见的特征选择方法大致分为如下三类：过滤式特征选择过程与学习器训练过程有明显的分别包裹式嵌入式将特征选择过程与学习器训练过程融为一体，两者在同一个优化过程中完成，在学习器训练过程中自动地进行特征选择,将特征子集搜索机制与子集评价机制相结合，即可得到特征选

8、择方法,嵌入式选择,岭回归(ridge regression)Tikhonov and Arsenin,1977,稀疏表示,将数据集D考虑成一个矩阵，每行对应一个样本，每列对应一个特征。特征选择说考虑的问题是特征具有稀疏性，即矩阵中的许多列与当前学习任务无关，通过特征选择去除这些列，则学习器训练过程仅需在较小的矩阵上进行，学习任务的难度可能有所降低，设计的计算和存储开销会减少，学得模型的可解释性也会提高。矩阵中有很多零元素，且非整行整列出现。稀疏表达的优势：数据具有稀疏性，使得大多数问题变得线性可分稀疏矩阵已有很多高效的存储方法,字典学习,在一般的学习任务中，数据集（如图像）往往是非稀疏的，能

9、否将稠密表示的数据集转化为“稀疏表示”，使其享受稀疏表达的优势？为普通稠密表达的样本找到合适的字典,字典学习,字典学习的解法,压缩感知,压缩感知是由美国学者E.Candes和T.Tao于2004年首先提出的。“压缩感知”顾名思义是直接感知压缩后的信息，其目的是从尽量少的数据中提取尽量多的信息。CS 理论证明了如果信号在正交空间具有稀疏性（即可压缩性），就能以远低于Nyquist采样频率的速率采样该信号，最后通过优化算法高概率重建出原信号。其基本思想是一种基于稀疏表示的信号压缩和重构技术，也可以称为压缩采样或稀疏采样。,压缩感知,压缩感知是由美国学者E.Candes和T.Tao于2004年首先

10、提出的。“压缩感知”顾名思义是直接感知压缩后的信息，其目的是从尽量少的数据中提取尽量多的信息。CS 理论证明了如果信号在正交空间具有稀疏性（即可压缩性），就能以远低于Nyquist采样频率的速率采样该信号，最后通过优化算法高概率重建出原信号。其基本思想是一种基于稀疏表示的信号压缩和重构技术，也可以称为压缩采样或稀疏采样。压缩感知引起了信号采样及相应重构方式的本质性变化，即：数据的采样和压缩是以低速率同步进行的，这对于降低信息获取系统的采样成本和资源都具有重要意义。由于压缩感知技术突破了传统香农采样定理的限制，其理论研究已经成为应用数学、数字信号处理、数字图像处理等领域的最热门的方向之一，同时其应用领域涉及到图像压缩、医学图像处理、生物信息处理、高光谱影像、地球物理数据分析、压缩雷达、遥感和计算机图像处理等诸多方面。,压缩感知,压缩感知,压缩感知的核心问题,压缩感知的核心问题,压缩感知的核心问题,压缩感知图像重构实例,本章小结,

展开阅读全文