《机器学习专题ppt课件.ppt》由会员分享,可在线阅读,更多相关《机器学习专题ppt课件.ppt(115页珍藏版)》请在三一办公上搜索。
1、序,有一位计算机科学家曾经和很多其他学科的科学家们在一起合作,大家互相介绍各自的工作的时候,这位计算机科学家苦心构思了这么一个例子,他说:我的工作就是要让计算机认识这个,然后他画了下面这幅图, 严格的说是写了这组严格对齐的数字,000000000000000000000000000000000000000001100000000011000110000000001100011000000000110001100000000011000110000000001100011000000000110001100000000011111111100000001111111110000000000001
2、1000000000000001100000000000000110000000000000000000000000000000000000,桑克(sank):“一台计算机若不能进行学习,就不能说它具有智能” Simon(1983):学习就是系统中的变化,这种变化使系统比以前更有效地去做同样的工作。无统一的机器学习定义。机器学习是研究如何使用机器来模拟人类学习活动的一门学科。稍严格的提法是:ML是一门研究机器获得新知识和新技能,并识别现有知识的学问,1、机器学习的定义,人工智能主要是为了研究人的智能,模仿其机理将其应用于工程的科学。 在这个过程中必然会问道:“机器怎样做才能像人类一样具有学习能
3、力”。 机器学习广泛应用于机器人、图像处理、语音识别、数据挖掘等领域。机器学习的发展有利于推动其他领域的发展。,2、为什么要研究机器学习?,预测难:学习后知识库发生了什么变化,系统功能的变化的预测。归纳推理:是论证的前提支持结论但不确保结论的推理过程(演绎推理保真);而且,归纳的结论是无限多的,其中相当多是假的,给生成的知识带来不可靠性。判断难:机器目前很难观察什么重要、什么有意义。,3、实现的困难,5,4 系统学习性能评价,分类精度:是否能够对输入的数据进行正确、精确的分类。 解答的正确性和质量:无论是用于分类的,还是解决问题的系统都有解答正确性问题。同时,正确性不一定保证有好的质量,好的质
4、量包括:可读性、稳定性等多方面的因素。 学习的速度:学习速度是一个很重要的系统指标。它不仅仅影响系统的设计,同时,影响系统的实现。一个很费时的学习方法,某种意义上也是很难实现的。因为,通常花费大量时间所进行的操作表现在对学习样本量的要求、系统空间的要求、系统硬件性能的要求上。,6,环境,学习环节,知识库,执行环节,学习是建立理论、形成假设和进行归纳推理的过程。 整个过程包括:信息的存储、知识的处理两部分,三、机器学习模型,学习系统,学习系统所感知到的外界信息集合,也是学习系统的外界来源,对环境提供的信息进行整理、分析归纳或类比,形成知识,并将其放入知识库,存储经过加工后的信息(即知识),根据知
5、识库去执行一系列任务,并将执行结果或执行过程中获得的信息反馈给学习环节,学习模型,输入x,输出,约束条件,机器学习的分类,根据是否需要已知类别的样本进行学习,机器学习可以分为两大类: 有教师学习(监督学习)无教师学习(非监督学习和强化学习),监督学习supervised learning,利用已知类别的样本去训练算法从而调整分类器的参数,这样的学习过程叫做监督学习。监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个很好的预测。常见的监督学习算法有:决策树adbost算法朴素贝叶斯算法回归算法支持向量机,训练集,学习系统,测试系统,测试集,模型,测试结果,监督学习示
6、意图,上表是用于区分不同鸟类需要使用的四个不同的属性值,分别选取的是体重、翼展、脚蹼和后背颜色作为评测基准。这些测量的四种值成为特征,也叫属性。,数据X=x1,x2,x3,x4 表示一组数据标签label Y=y1,y2,y3,y4训练集 T=(x1,y1),(x2,y2),(x3,y3)测试集 (x4,y4)特征损失函数,训练误差,测试误差经验风险最小化与结构风险最小化交叉验证,选取特定的机器学习算法进行分类,首先需要做的是训练算法,既学习如何分类。通常我们为算法输入大量已分类数据作为算法的训练集。训练集就是用于训练机器学习算法的数据样本集合,表1是包含5个样本集合的训练集,每个训练样本有4
7、中特征和一个目标变量,目标变量是机器学习算法的预测结果既F(x),其中x为一组输入样本。,损失函数,在监督学习中,给定x,根据F(x)给出相应的输出,而这个输出是预测输出,和真实值y可能一致,也可能不一致。用一个损失函数或者代价函数来度量预测错误的程度。损失函数是F(x)和y的非负值函数,记做L(y,F(x)。,常用的损失函数,(1) 0-1损失函数(2) 平方损失函数 (3) 绝对损失函数 (4)对数损失函数,经验风险最小化与结构风险最小化,经验风险最小化的策略认为,经验风险最小的模型是最优模型结构风险最小化 是为了防止过拟合而提出的策略。结构风险在经验风险的上加上表示模型复杂度的正则化项或
8、者说是惩罚项 min R(f),奥卡姆剃刀原理:在所有可能的模型中,能够很好地解释已知数据并且十分简单的次啊是最好的模型,也是应该选择的模型。,如果给定的样本数据充足,进行模型选择的一种简单方法就是随机地将数据切分成三部分,分别为训练集,验证集和测试集。训练集用来训练模型,验证机用于模型选择,测试集用于最终对学习方法的评估。在学习到不同的复杂度的模型中,选择对验证集有最小预测误差的模型。 但是,许多实际应用中数据并不是充分的,为了选择好的模型,可以采用交叉验证的方法。交叉验证的基本思想是重复的使用数据;把给定的数据进行切分,将切分的数据集组合成训练集与测试集,在此基础上反复地进行训练,测试以及
9、模型的选择。,交叉验证,(1)简单交叉验证:首先随机地将已给数据分为两部分,一部分作为训练集,另一部分最为测试集;然后用训练集在各种条件下训练模型,从而得到不同的模型,在测试集上评价各个模型的测试误差,选出测试误差最小的模型(2)S折交叉验证:首先随机的把已给的数据切分成s个互不相交的大小相同的子集,然后利用s-1个子集的数据训练模型,利用余下的自己测试模型;重复的随机选择训练子集,最后选出评测中平均测试误差最小的模型(3)留一交叉验证:当S=N时,成为留一交叉验证,这往往在数据缺乏的时候使用。,交叉验证,朴素贝叶斯算法,贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝
10、叶斯分类假设一个样本集的数据分类两类。P1(x,y)表示数据点(x y)属于类别1的概率,p2(x,y)表示数据点 (x y)属于类别2的概率 如果p1(x,y)p2(x,y) 则数据(x y)属于类别1 如果p1(x,y)p2(x,y) 则数据(x y)属于类别2,贝叶斯分类的基础贝叶斯定理,基本流程,1、设 为一个待分类项,而每个a为x的一个特征属性。2 有类别集合3 计算4 求出最大的 则x划分为类别,某个医院早上收了六个门诊病人,如下表。症状职业 疾病打喷嚏护士感冒打喷嚏农夫过敏头痛建筑工人脑震荡头痛建筑工人感冒打喷嚏教师感冒头痛教师脑震荡现在又来了第七个病人,是一个打喷嚏的建筑工人。
11、请问他患上感冒的概率有多大?,P(感冒|打喷嚏x建筑工人)= P(打喷嚏x建筑工人|感冒) x P(感冒)/ P(打喷嚏x建筑工人)打喷嚏和建筑工人这两个特征是独立的,P(感冒|打喷嚏x建筑工人)= P(打喷嚏|感冒) x P(建筑工人|感冒) x P(感冒)/ P(打喷嚏) x P(建筑工人),P(感冒|打喷嚏x建筑工人)= 0.66 x 0.33 x 0.5 / 0.5 x 0.33= 0.66因此,这个打喷嚏的建筑工人,有66%的概率是得了感冒。同理,可以计算这个病人患上过敏或脑震荡的概率。比较这几个概率,就可以知道他最可能得什么病。这就是贝叶斯分类器的基本方法:在统计资料的基础上,依据
12、某些特征,计算各个类别的概率,从而实现分类。,基于朴素贝叶斯的文本分类,首先需要拆分文本以便从中获取特征(词条),一个词条是任意字符的组合。,将W 作为一个个独立的特征,上述公式可写成,假设所有词都相互独立(独立性加色),训练阶段,创建包含所有文档中出现的不重复的词列表cute love help garbage quit I problems is park stop flea dalmation licks food not him buying posting has worthless ate to maybe please dog how stupid so take mr stea
13、k my然后将每一个文本片段表示为一个词条向量,1表示词条出现在文档中,0表示未出现。0 0 1 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 1 1 0 0 0 0 0 0 1给出一个新的文档 ,计算,通过训练集,对算法进行训练 得出P1,P2。,测试阶段,给定一个测试词条,转换成词条向量计算 = =比较 大小。,优点: 在数据较少的情况下仍然有效,可以处理多类别问题缺点:对于输入数据的准备方式比较敏感。,决策树学习,决策树,在示例学习中,每一个概念实际上可以看成是例子中所属的一个类别,可以看做是一个对目标分类的划分和获取策略,由一个根结点,若干叶结点和非叶
14、结点构成。根结点对应于学习任务,分类的开始。每个叶结点都包含一个分类名(概念),表示一个实例的结束。每个非叶结点都包含表示相应实例中的某一属性。边代表某一属性可能的属性值。,决策树,从根节点到叶节点的每一条路径都代表一个具体的实例同一路径上的所有属性之间为合取关系,不同路径(即一个属性的不同属性值)之间为析取关系。决策树的分类过程就是从这棵树的根接点开始,按照给定的事例的属性值去测试对应的树枝,并依次下移,直至到达某个叶节点为止。,关于决策树:,可表示为如下规则集: IF 鸟类会飞 AND 是家养的 THEN 该鸟类可能是和平鸽 IF 鸟类会飞 AND 不是家养的 THEN 该鸟类可能是信天翁
15、 IF 鸟类不会飞 AND 会游泳 THEN 该鸟类可能是企鹅 IF 鸟类不会飞 AND 不会游泳 THEN 该鸟类可能是鸵鸟,决策树还可以表示成规则的形式,昆兰(J.R.Quinlan)于1979年提出的一种以信息熵(entropy)的下降速度作为属性选择标准的一种学习算法。输入是一个用来描述各种已知类别的例子集学习结果是一棵用于进行分类的决策树,ID3 算法 :,1.令根结点包含例子集中所有实例。2.如果每个叶结点包含的例子都属于同一分类,则停止划分。3.否则需对叶结点进行进一步划分: (1)需要进一步划分的叶结点所包含的例子组成子例子集S。 (2)找出对S来说E值最小的属性abest。
16、(3)根据属性abest的值对S进行划分,每个值将生成一个分枝。 (4) 执行步骤2。,通过E值可以找出一个最有利于当前划分的属性,ID3 算法 :,E是一个基于熵(平均信息量)的函数,该函数评 价用各属性进行分类所能获得的信息量,选择E 值最小即获得信息量最大的属性。,ID3 算法,S中属性ai的值为vij的正例数目,Nj-为属性ai的值为vij的反例数目,熵,熵是研究不确定人工智能的一个重要参数,熵的历史可以追溯到19世纪。1864年德国物理学家克劳修斯在研究热力学时首先提出熵的概念:,1877年,玻尔兹曼又给出了熵的统计学新定义玻尔兹曼公式,即S=klnW;k为玻尔兹曼常数;W是某一宏观
17、态所对应的微观态数目,即该微观态的热力学几率,1948年,香农将熵的定义引入信息领域:信息熵,设一个系统X由多个事件|Xi|(i=1,2,n)组成,事件Xi的概率为p(Xi),那么信息熵定义为:,信息熵的定义:,信息熵大,说明什么?,例:给出概率分布,其信息熵分别为:,信息熵越大,不确定性程度越大 信息熵表示事件集X中事件出现的平均不确定性 当X中事件出现的概率相等时,信息熵达到最大值,E是一个基于熵(平均信息量)的函数,该函数评 价用各属性进行分类所能获得的信息量,选择E 值最小即获得信息量最大的属性。,ID3 算法:,S中属性ai的值为vij的正例数目,Nj-为属性ai的值为vij的反例数
18、目,危险,狗的例子集,E颜色.棕色 E颜色.黑色, E颜色5.5105.51011.020,颜色=棕色的狗:4只是危险的,2只不是危险的。颜色=黑色的狗:2只是危险的,4只不是危险的。,E体形.大E体形.中E体形.小, E体形3.2453.2456.490,体形=大的4条狗全是危险的;体形=中/小的狗:1条是危险的;3条不是危险的。,ID3 算法,E毛型.光滑 E毛型.卷毛,E毛型6612,毛型=光滑的狗:3条是危险的;3条不是危险的。毛型=卷毛的狗:3条是危险的;3条不是危险的。,因此, E体形 E颜色 E毛型,现在必须对“中”“小”这两个分枝的实例重复上述计算过程。,E颜色4 和 E毛型6
19、.490,现在只有“体形”为“中”和“小”的“棕色”狗还没有明确类别,需用“毛型”来进一步划分。,需要的匹配次数:24,需要的匹配次数:36,决策树的优点,可以生成可以理解的规则;计算量相对来说不是很大;可以处理连续和离散字段;决策树可以清晰的显示哪些字段比较重要。,AdaBoost元算法,当需要做出重要决定的时候,大家往往会听取多个人的意见而不是一个人的意见,元算法就是采用这种思想。,机器学习种类繁多,各有优缺点。我们自然可以将不同的分类器组合起来,而这种组合结果称为集成算法,或者元算法。,集成方法有很多形式:可以是不同算法的集成,也可以是同一算法在不同设置下的集成,还可以是数据集不同部分分
20、配给不同分类器之后的集成。,基于数据随机重抽样的分类器构建方法,自举汇聚法,也称bagging方法,是在原始数据集选择s次后得到s个新数据集的方法。新数据集和原数据集相等,每个数据集都是通过在原始数据集中随机选取一个样本进行替换而得到的。这里的替换意味着可以多次选择同一个样本。,在s个数据建好之后,将某个学习算法分别作用于每个数据集就得到s个分类器。当要对新数据进行分类的时候,需要应用s个分类器进行分类,选择分类器投票结果中最多的类别作为最后的分类结果。,另一与bagging类似的技术是boosting技术。前者在训练中,不同的训练器是通过串行训练而获得的,每个分类器都根据已训练出的分类器的性
21、能来进行训练。而boosting是通过集中关注已有分类器错分的哪些数据获得新的分类器。,Boosting方法种类很多,其中最流行的就是AdaBoost算法。,分类器2,分类器1,分类器3,0.69,0.90,0.97,AdaBoost元算法,思想:使用弱分类器和过个实例来构建一个强分类器基本过程:训练数据中的每个样本,并赋予一个权重,这些权重构成了向量D,以及分类器的权值。一开始,这些权重初始化成相等的值。首先在训练数据上训练出一个弱分类器并计算该分类器的错误率,然后再同一数据集上再次训练弱分类器。在分类器的第二次训练当中,将会重新调整每个样本的权重,使分对的样本权重变低,分错的样本权重变高,
22、同时更新分类器的权值,以此类推。,其中是根据错误率进行计算的,错误率定义如下:而的计算公式如下:计算出的值后,可以对权值向量D进行调整,使那些正确分类的样本权值变低,错误分类的样本权值变高。如果一个样本被正确分类,则其权值被更改为:反之:,假设训练出m个分类器,最终的分类结果等于:,图中,“+”和“-”分别表示两种类别,在这个过程中,我们使用水平或者垂直的直线作为分类器,来进行分类。,第一步:根据分类的正确率,得到一个新的样本分布D2,一个子分类器h1其中: 其中划圈的样本表示被分错的。在右边的途中,比较大的“+”表示对该样本做了加权,,第二步:根据分类的正确率,得到一个新的样本分布D3,一个
23、子分类器h2,第三步:得到一个子分类器h3,整合所有的子分类器:,Adaboost优点,1)adaboost是一种有很高精度的分类器2)可以使用各种方法构建子分类器,adaboost算法提供的是框架 3)当使用简单分类器时,计算出的结果是可以理解的。而且弱分类器构造极其简单 4)简单,不用做特征筛选5)不用担心overfitting!,回归,回归的目的就是预测数值型的目标值。总成绩=0.6*期末成绩+0.2*期中成绩+0.2*平时成绩这就是回归方程,其中0.6 0.2 0.2就是回归系数,求这些回归系数的过程就是回归。假设我们有一组数据X,Y,X=x1,x2,xm,Y=y1,y2,ym,对er
24、ror求导,并令其等于零,解出,局部加权线性回归:给待测点附近每个点一个权重。,K=1,K=0.01,K=0.003,如果特征比样本数还多(nm),输入矩阵X不是满秩矩阵,而非满秩矩阵在求逆会出现问题。为了解决这个问题,引入了岭回归的概念。,岭回归就是在矩阵 上加上一 个 矩阵,使其非奇异。矩阵I 是一个m*m的单位矩阵,对角线上为1,其他元素为0. 是自定义的一个参数。,Logistic回归,假设现在有一些数据点,我们用一条直线对这些点拟合(最佳拟合直线),这个拟合的过程就叫回归。根据现有数据对分类边界线简历回归公式,以此进行分类,训练分类器时的做法就是寻找最佳拟合参数。,我们想要的函数应该
25、是能够接受所有的输入然后预测出类别。在两类的情况下,函数应该输出0或1.有很多单位跃阶函数(海维赛德跃阶函数)。然而,这种函数在跳跃点上从0瞬间跳到1上,这个瞬间跃阶很难处理好Sigmoid函数 当x为0时,函数值为0.5,随着x增大,函数值增大并逼近于1,x减小,函数值减小并逼近于0.,如果采用向量的方法写,X就是输入数据, 就是需要进行训练的参数。通过训练后找到最优化的参数,梯度上升法,基本思想:想找到某函数的最大值,最好的方法是沿着该函数的梯度方向探寻。,梯度上升算法的迭代公式:,每个回归系数初始化为1重复N次:计算整个数据集的梯度使用 更新回归系数返回回归系数,W=4.12071145
26、5781440, 0.479779632289162, -0.616416051893343,这个分类结果只错分了4个点,分类精度相当不错。但是这个方法需要大量的计算,不适用于大规模的数据。,神经网络,人工神经网络(Artificial Neural Networks,简写为ANNs)也简称为神经网络(NNs)或称作连接模型(Connection Model),它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。,86,连接权值,87,改变权值的过程就是学习的过程,88,规律?,89
27、,The Hebb Rule,D. Hebb, 1904-1985.Degree in English, 1925.Master degree in psychology at McGill University.Ph.D. from Harvard in 1936.Moved to Yerkes Lab in 1942.Published “The Organization of Behavior” in 1949.,90,Hebb Rule,synapse,Hebb 规则是最早的神经网络学习规则之一,其最关键的一条假设:若一条突触两侧的两个神经元同时被激活,那么突触的强度将增大。,91,权
28、值W 不仅仅在 a,p 全为正数增大,在 全为负数时也增大,92,Hebb 规则,如果两个神经元的突触同时激活,那么它们之间的连接强度会增加,93,自联想存储器 学习规则,Supervised Hebbian Learning,94,Matrix Form:,(Zero InitialWeights),学习规则,95,P1 P2 P3,P,?,96,P,P3,P2,P1,Inputs:,Outputs:,Input:,Output: ?,97,基于heb神经网络的PCA,传统PCA算法的缺点: 需要大量的计算 属于批量学习基于神经网络的PCA的优点: 不需要计算协方差矩阵 属于在线学习,99,
29、基于hebb规则的权值更新公式:,数据集,基于hebb规则的神经网络已被证明 当迭代次数无穷大时,方差趋向于,64 pages,102,Sanger proposed the Generalized Hebbian Algorithm (GHA),多维压缩,64 pages,103,GHA Learning Algorithm,64 pages,104,2维压缩,(Oja Algorithm based onHebb rules),第一个输出神经元权值向量,第二个输出神经元权值向量,64 pages,105,感知机,感知器是用于线性可分模式分类的最简单的神经网络.它由一个具有可调突触权值和偏置
30、的神经元组成。,X1X2xm,w1,w2,wm,偏置b,v,(),输出Y,感知器权值自适应公式,1.假如训练成员第N个成员x(n)根据算法中的第N次迭代的权值向量w(n)能正确分类,那么感知器的权值向量不做修改2.否则,感知器的权值向量根据以下规则进行修改: w(n+1)=w(n)-(n)x(n) 假如预测结果为1,实际属于类2 w(n+1)=w(n)+(n)x(n) 假如预测结果为2,实际属于类1这里(n)是学习参数,控制这第n次迭代中作用于权值向量的调节,BP神经网络,反向传播算法也称BP算法。由于这种算法在本质上是一种神经网络学习的数学模型,所以,有时也称为BP模型。BP算法是为了解决多
31、层前向神经网络的权系数优化而提出来的;所以,BP算法也通常暗示着神经网络的拓扑结构是一种无反馈的多层前向网络。故而有时也称无反馈多层前向网络为BP模型。,基本原理:利用输出后的误差来估计输出层的直接前导层的误差,再用这个误差估计更前一层的误差,如此一层一层的反传下去,就获得了所有其他各层的误差估计,BP神经网络,具有一层隐藏层的多层感知器,函数信号的前向传播和误差信号的反向传播,BP模型的学习过程,反向传播算法分二步进行,即正向传播和反向传播。这两个过程的工作简述如下。1正向传播输入的样本从输入层经过隐单元一层一层进行处理,通过所有的隐层之后,则传向输出层;在逐层处理的过程中,每一层神经元的状
32、态只对下一层神经元的状态产生影响。在输出层把现行输出和期望输出进行比较,如果现行输出不等于期望输出,则进入反向传播过程。2反向传播反向传播时,把误差信号按原来正向传播的通路反向传回,并对每个隐层的各个神经元的权系数进行修改,以望误差信号趋向最小。步骤1,2不断循环 直到网络输出误差减少到可接受程度或者进行到预先设定的次数为止。,自组织映射,当人脑接收外界的时空信息时,大脑皮层的特定区域会兴奋,而且类似的外界信息在对应的区域是连续的。因此Kohonen认为,一个神经网络在接受外界输入模式时,将会分为不同的对应区域,且各个区域对输入模式有不同的响应特征,而且这个特征是自动完成的。SOFM只有两层:
33、输入层和竞争层,竞争层神经元的排列有多种形式:一维线阵、二维平面、三维栅格等等。,权值调整方法是在胜者为王基础上改进的,即优胜领域内的神经元都可以调整权值。理论上应该是离胜者越近,学习率的越大,但是为简化计算,实际中优胜领域内一般取相同的学习率。优胜领域开始定的很大,随着训练次数的增加,最终应该收缩到0。 SOFM分为训练阶段和工作阶段,要训练阶段,权向量被训练为输入样本空间的聚类中心。在工作阶段,当输入向量与某个竞争层的内星权值相似时,自然会被分到对应的聚类上去。因此SOFM可用作模式分类器。注意当输入模式在训练集中从未出现过时,SOFM网只能将它归入最接近的模式分类中去。,自组织映射主要有
34、三个过程:1.竞争。对每个输入模式,网络中的神经元计算它们各自判别的函数值。具有最大函数值的特定神经元成为竞争的胜利者2.合作。获胜神经元决定兴奋神经元的拓扑邻域的空间位置,从而提供这样的相邻神经元合作的基础3.突触调节。使兴奋神经元通过对它们的突触权值进行适当的调节以增强它们关于该输入模式的判别函数值。所做的调节是获胜神经元对以后相似的输入模式响应增强了。,递归神经网络,神经网络的特点,1)可以充分逼近任意复杂的非线性关系;(2)所有定量或定性的信息都等势分布贮存于网络内的各神经元,故有很强的鲁棒性和容错性;(3)采用并行分布处理方法,使得快速进行大量运算成为可能;(4)可学习和自适应不知道或不确定的系统;(5)能够同时处理定量、定性知识。,