机器学习降维算法ppt课件.ppt

资源描述

《机器学习降维算法ppt课件.ppt》由会员分享，可在线阅读，更多相关《机器学习降维算法ppt课件.ppt（29页珍藏版）》请在三一办公上搜索。

1、,讲授人：XXX 时间：2017.3.31,机器学习,降维算法讲解,延迟符号,什么是降维？,降维就是这样一个过程，在降低数据集维度的同时，保证其中包含的主要信息是相似的（就是保证有效信息不要丢失）。降维技术最典型的应用就是在机器学习问题中，进行有效的特征选择，以此获得更好的分类、回归效果。,延迟符号,为什么要降维？,延迟符号,降维？,在机器学习中，如果特征值(也可称之为维度，或feature)过多，会引发维度灾难。维度灾难最直接的后果就是过拟合现象，进而导致分类识别的错误，因此我们需要对所提的特征进行降维处理。,图基本模式识别过程,降维后数据应该包含更多的信息？,降维后会损失多少信息？,降维

2、后对分类识别效果有多大影响？,问题,降维的好处,（1）进行数据压缩，减少数据存储所需空间以及计算所需时间。（2）消除数据间的冗余，以简化数据，提高计算效率。（3）去除噪声，提高模型性能。（4）改善数据的可理解性，提高学习算法的精度。（5）将数据维度减少到2维或者3维，进行可视化。,延迟符号,延迟符号,Contents,降维方法,特征选择 Feature Selection,选择有效的特征子集，即去掉不相关或冗余的特征。特征选择后留下的特征值的数值在选择前后没有变化。也就是说，特征选择后的特征是原来特征的一个子集。,特征抽取是指改变原有的特征空间，并将其映射到一个新的特征空间。也就是说，特征抽取

3、后的新特征是原来特征的一个映射。,特征抽取 Feature Extraction*,降维算法可以根据所采用策略的不同而进行不同的分类,降维算法分类,延迟符号,延迟符号,主成分分析 (PCA),PCA是principal component analysis 的缩写，即主成分分析。此方法目标是找到数据中最主要的元素和结构，去除噪音和冗余，将原有的复杂数据降维，揭露出隐藏在复杂数据背后的简单结构。,主成分分析就是试图在力保数据信息丢失最少的原则下，对这种多变量的数据表进行最佳综合简化。这些综合指标就称为主成分,也就是说，对高维变量空间进行降维处理,从线性代数角度来看，PCA目标是找到一组新正交基去

4、重新描述得到的数据空间，这个维度就是主元。,向量的表示及基变换,A(3,2),延迟符号,去中心化,现在问题来了：如果我们必须使用一维来表示这些数据，又希望尽量保留原始的信息，你要如何选择？,例题：,延迟符号,下面是三维空间中的一组数据，很明显，数据的分布让我们很容易就能看出来主成分的轴（简称主轴）的大致方向。下面的问题就是如何通过数学计算找出主轴的方向。来看这张图：,延迟符号,1. 给定一组数据：,2. 将其中心化后表示为：,3. 中心化后的数据在第一主轴u1方向上分布散的最开，也就是说在u1方向上的投影的绝对值之和最大（也可以说方差最大），计算投影的方法就是将x与u1做内积，由于只需要求u1

5、的方向，所以设u1是单位向量。也就是最大化下式：,也即最大化：,两个向量做内积可以转化成矩阵乘法：,所以目标函数可以表示为：,推导过程：,延迟符号,所以目标函数最后化为：,目标函数和约束条件构成了一个最大化问题：,延迟符号,构造拉格朗日函数：,对u1求导:,显然，u1即为XXT特征值,对应的特征向量！ XXT的所有特征值和特征向量都满足上式，那么将上式代入,目标函数表达式即可得到,所以，如果取最大的那个特征值，那么得到的目标值就最大。,延迟符号,去均值,方差归一化(预处理的实质是将坐标原点移到样本点的中心点)求特征协方差矩阵求协方差矩阵的特征值和特征向量将特征值按照从大到小的顺序排序,选择其

6、中最大的 k 个,然后将其对应的 k个特征向量分别作为列向量组成特征向量矩阵将样本点投影到选取的特征向量上。假设样例数为 m,特征数为 n,减去均值后的样本矩阵为 DataAdjust(m*n),协方差矩阵是 n*n,选取的 k 个特征向量组成的矩阵为EigenVectors(n*k)。那么投影后的数据 FinalData 为,这样,就将原始样例的 n 维特征变成了 k 维,这 k 维就是原始特征在 k 维上的投影,代表了原始的n个特征。,步骤,延迟符号,PCA具体举例,我举个例子来说明一下PCA的算法以及它的流程：,第二步：求特征协方差矩阵,我们有以下数据：,延迟符号,第三步：求协方差的特征

7、值和特征向量，得到,第四步：将特征值按照从大到小的顺序排序，选择其中最大的k个，然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵：,第五步：将样本点投影到选取的特征向量上。那么投影后的数据FinalData为,延迟符号,PCA在实际中的应用：（自己写一个pca函数，与matlab库函数对比一下）在这块也可以介绍一下库函数用法,延迟符号,延迟符号,线性判别式分析(LDA),线性判别分析(LinearDiscriminantAnalysis,LDA)，也叫做Fisher线性判别(FisherLinearDiscriminant,FLD)，是模式识别的经典算法，1936年由Ronald Fi

8、sher首次提出，并在1996年由Belhumeur引入模式识别和人工智能领域。,R.A Fisher(1890-1962),LDA是一种监督学习的降维技术，也就是说它的数据集的每个样本是有类别输出的。这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。LDA的思想可以用一句话概括，就是“投影后类内方差最小，类间方差最大”。,延迟符号,两类的线性判别问题,从直观上看，右图的分类效果比较好，同类之间样本聚集，不同类之间相聚较远,训练样本集：X=x1.xN,每个样本是d维向量，其中w1类的样本是H1=x11.xN1， w2类的样本是H1=x12.xN2，寻找一个投影方向（d维向量），,

9、延迟符号,加上aTa=1的条件（类似于PCA）,拓展成多类：,延迟符号,投影以后样本：,原样本均值：,投影均值：,目标函数&约束条件：,构造拉格朗日函数：,延迟符号,步骤,1) 计算类内散度矩阵Sw,延迟符号,例题：,延迟符号,计算类间散度,LDA用于降维，和PCA有很多相同，也有很多不同的地方，因此值得好好的比较一下两者的降维异同点。首先我们看看相同点：1）两者均可以对数据进行降维。2）两者在降维时均使用了矩阵特征分解的思想。3）两者都假设数据符合高斯分布。,LDA vs PCA,延迟符号,我们接着看看不同点：1）LDA是有监督的降维方法，而PCA是无监督的降维方法2）LDA降维最多降到类别

10、数k-1的维数，而PCA没有这个限制。3）LDA除了可以用于降维，还可以用于分类。4）LDA选择分类性能最好的投影方向，而PCA选择样本点投影具有最大方差的方向。,延迟符号,降维工具箱drtool,工具箱下载：http:/,基础题,提高题,思考题,作业,假设经过降维处理后，数据的维度变得不同，如何在进一步的分类中将这些数据变得统一？,对降维后的数据，利用SVM，KNN等进行分类，观察到底降维到多少时，分类效果最好；在实际中如何确定最后的特征维度。,自己编写PCA、LDA程序在软木塞、ROCK数据集上实现特征的降维，并与库函数进行对比。,谢谢！,延迟符号,PPT模板下载：行业PPT模板：节日PPT模板： PPT素材下载： PPT图表下载：优秀PPT下载： PPT教程： Word教程： Excel教程：资料下载： PPT课件下载：范文下载：试卷下载：教案下载： PPT论坛：,o,

展开阅读全文