《机器学习概述ppt课件.pptx》由会员分享,可在线阅读,更多相关《机器学习概述ppt课件.pptx(58页珍藏版)》请在三一办公上搜索。
1、1.1 什么是机器学习?,一般来说现在提到的机器学习是指统计机器学习,也就是计算机系统通过运用数据及统计方法提高系统性能的学习过程。机器学习研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。,1.2 机器学习的发展历史,机器学习属于人工智能的一块。人工智能的研究往往涉及到对人的智能本身的研究。其他关于或其他人造系统的智能也普遍被认为是人工智能的相关的研究课题。下图是人工智能的发展路线: 在20世纪40年代和50年代,来自不同领域(数学,心理学,工程学,经济学和政治学)的一批科学家开始探讨制造人工大脑的可能性。1956年,人工智能被确立为
2、一门学科。,1.2 机器学习的发展历史,Walter Pitts和Warren McCulloch分析了理想化的人工神经元网络,并且指出了它们进行简单逻辑运算的机制。他们是最早描述所谓“神经网络”的学者。1951年马文闵斯基与Dean Edmonds一道建造了第一台神经网络机,称为SNARC。 Arthur Samuel在五十年代中期和六十年代初开发的西洋棋程序的棋力已经可以挑战具有相当水平的业余爱好者。 1956年达特矛斯会议提出的断言之一是“学习或者智能的任何其他特性的每一个方面都应能被精确地加以描述,使得机器可以对其进行模拟。”这一事件被广泛承认为AI诞生的标志。,1.2 机器学习的发展
3、历史,当今机器学习世界的很多方法都是从其中延伸出来的。但同时,它也自己独特的一面。机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。 机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。,1.3 机器学习的现状,机器学习的最新阶段始于1986年。机器学习进入新阶段的重要表现在下列诸方面:(1)
4、机器学习已成为新的边缘学科并在高校形成一门课程。它综合应用心理学、生物学和神经生理学以及数学、自动化和计算机科学形成机器学习理论基础。(2)结合各种学习方法,取长补短的多种形式的集成学习系统研究正在兴起。,1.3 机器学习的现状,(3)机器学习与人工智能各种基础问题的统一性观点正在形成。类比学习与问题求解结合的基于案例方法已成为经验学习的重要方向。 (4)各种学习方法的应用范围不断扩大,一部分已形成商品。 (5)与机器学习有关的学术活动空前活跃。国际上除每年一次的机器学习研讨会外,还有计算机学习理论会议以及遗传算法会议。,1.4 机器学习的主要研究领域,目前最主要的应用领域有:专家系统、认知模
5、拟、规划和问题求解、数据挖掘、网络信息服务、图象识别、故障诊断、自然语言理解、机器人和博弈等领域。目前大部分的应用研究领域基本上集中于以下两个范畴:分类和问题求解。(1)分类任务要求系统依据已知的分类知识对输入的未知模式作分析,以确定输入模式的类属。相应的学习目标就是学习用于分类的准则(如分类规则)。(2)问题求解任务要求对于给定的目标状态,寻找一个将当前状态转换为目标状态的动作序列;机器学习在这一领域的研究工作大部分集中于通过学习来获取能提高问题求解效率的知识(如搜索控制知识,启发式知识等)。,2.1 回归问题与分类问题,经过算法预测的结果是一个连续的值,我们称这样的问题为回归问题。算法能够
6、学会如何将数据分类到不同的类里,我们称这样的问题为分类问题。,回归问题,分类问题,2.2 假设模型,h代表学习算法的解决方案或函数,也称假设。 例如,我们要解决房价预测问题,我们实际上是要将训练集“喂”给我们的学习算法,进而学习得一个假设h,然后将我们要预测的房屋的尺寸作为输入变量输入给h,预测出该房屋的交易价格作为输出变量输出的结果是影响h的参数,2.3 代价函数,代价函数表达式:比如,在线性回归中代价函数如下形式:学习的目的便是选择出使代价函数最小的模型参数,2.4 模型选择,模型选择的方法为(训练集60%,交叉验证集20%,测试集20%):1.使用训练集训练出若干个模型2.用这些模型分别
7、对交叉验证集计算得出交叉验证误差(交叉验证集用来对刚训练出的模型进行预报,以得出最佳的模型)3.选取代价函数值最小的模型4.用步骤3中选出的模型对测试机计算得出推广误差,2.5 低拟合与过拟合,第一个模型是一个线性模型,低度拟合,不能很好地适应训练集;第三个模型是一个四次方的模型,过度拟合,虽然能非常好地适应我们的训练集,但在新输入变量进行预测时可能会效果不好;中间的模型似乎最合适,2.6 低拟合与过拟合的解决方法,随着特征个数的增多,训练集的误差逐渐减小。交叉验证集的误差是先减小后增大。根据上面图表,我们知道:训练集误差和交叉集误差近似时:低拟合交叉验证集误差远大于训练集误差时:过拟合因此,
8、我们在完善模型的过程中,若需要解决过拟合,可以尝试减少特征的数量。若需要解决低拟合,可以尝试增加特征的数量。,3.1 决策树的发展历史,决策树是一种基本的分类与回归算法,决策树学习的思想主要来源于Quinlan在1986年提出的ID3算法和和1994年提出的C4.5算法。决策树的学习通常包括三个步骤:特征选择,决策树的生成和决策树的剪枝。,3.2 决策树表示法,通过把实例从根节点排列到某个叶子节点来分类实例。叶子节点即为实例所属的分类树上每个节点说明了对实例的某个属性的测试节点的每个后继分支对应于该属性的一个可能值,3.3 特征值的选择,特征选择在于选取对训练数据具有分类能力的特征,这样可以提
9、高决策树学习的效率。特征选择的通常准则是能使得信息增益或信息增益比更大。,3.4 决策树学习的基本算法ID3,ID3的过程分类能力最好的属性被选作树的根节点根节点的每个可能值产生一个分支训练样例排列到适当的分支重复上面的过程,3.5 决策树的剪枝,决策树生成算法递归地产生决策树,这种方法会使得学习时过多的考虑如何提高对训练数据的分类,从而构造出过于复杂的决策树,解决这种问题的方法是对决策树进行剪枝,3.6 决策树实例,3.7 决策树实例,4.1 简介,一种监督学习模型;主要用于模式分类和回归分析,特别是非线性回归,提供更加简洁的解决方案;在解决小样本、非线性及高维模式识别中表现出许多特有的优势
10、;主要思想是建立一个超平面作为决策曲面,使得正例和反例之间的隔离边缘被最大化;,4.2 线性可分支持向量机,首先讨论线性可分的情况,以逻辑回归为例展开讨论: 逻辑回归中以y=0或1进行分类,但由于代价函数始终不为0,得到的分类效果往往是不够理想,如图:,4.2 线性可分支持向量机,而我们想要得到的效果如下图:因此需要对逻辑回归进行修改,我们的方法是构建一个可以取零值得代价函数,并,4.2 线性可分支持向量机,以y=1或-1来进行分类。为此,我们可以选取各类特征的边界点,形成两条平行的线,称为判定边界,然后找出中间线,继而使分类比较符合实际,如下图所示:,4.2 线性可分支持向量机,此中间线就是
11、最优超平面,是最佳的的分类方式,而两侧通过判定边界的是支持向量,这也是此类算法叫支持向量机的原因。然后根据数学方法得出其具体分类方法。,4.3 线性不可分支持向量机,对于线性不可分的情况,如图所示:我们往往是构造一个多项式的模型,然后通过数学转换,将其转化为线性问题,最后通过线性可分来进行处理。,4.3 线性不可分支持向量机,而在支持向量机的情况下,通过某种事先选择的非线性映射(核函数)将输入变量映射到一个高维特征空间,在这个空间中构造最优分类超平面。如图:,4.3 线性不可分支持向量机,用一个动画展示其过程:,神经网络+感知机,5.1 什么是人工神经网络?,人工神经网络是模拟人脑思维方式的数
12、学模型,从微观结构和功能上对人脑进行抽象和简化,模拟人类智能。人工神经网络(简称神经网络)也是由大量的、功能比较简单的形式神经元互相连接而构成的复杂网络系统,用它可以模拟大脑的许多基本功能和简单的思维方式。,5.2 发展状况,探索时期(开始于20世纪40年代) 1943年,神经生理学家麦克拉奇(W.McCulloch)和数学家匹茨 (Pitts)合作,应用反馈机制建立了世界上第一个神经网络模型, 即人工神经网络(ANN);1949年,赫布提出改变神经元连接强度的Hebb学习规则;第一次热潮时期(20世纪50年代末20世纪60年代初)1958年,罗森布.拉特(F.Rosenblatt)设计制作了
13、“感知机”,它是一种多层的神经网络,这项工作首次把ANN的理论探讨付诸于工程实践;1959年,威德罗(Widrow)等提出了自适应线性元件网络,通过训练后可用于抵消通信中的回波赫噪声,在此基础上发展了非线性自适应网络;,5.2 发展状况,第二次热潮时期(20世纪80年代至今)1982年,美国物理学家霍普菲尔德(J.Hopfield)陆续提出离散和连续的全联神经网络模型,并成功求解旅行商问题(TSP),引起巨大反响;1986年,Rumelhart和McCelland领导的科学家小组提出了(B-P)算法;1987年,首届国际ANN大会在圣地亚哥召开,国际ANN联合会成立,创办了多种ANN国际刊物;
14、1990年,北京召开首届学术会议。,5.3 神经元模型,生物神经元模型神经元neuron,neural cell也就是神经细胞。人脑就是由大量神经元组合而成的。神经元由 细胞体、树突和轴突组成。 中心 接受器 传导信息,人工神经元模型,如图所示,5.4 神经网络模型表达式,神经网络模型是许多逻辑单元按照不同层级组织起来的网络,每一层的输出变量都是下一层的输入变量。下图为一个3 层的神经网络,第一层成为输入层(Input Layer),最后一层称为输出层(Output Layer),中间一层成为隐藏层(Hidden Layers)。我们为每一层都增加一个偏倚单位(bias unit):,6.1
15、感知机,感知机是最早被设计并被实现的人工神网络。感知器是一种非常特殊的神经网络,它在人工神经网络的发展历史上有着非常重要的地位,尽管它的能力非常有限,主要用于线性分类。,或,6.1 感知机,某个神经元 j 的输入输出关系为其中, 为阀值, 为连接权,f()为变换函数,也称活化函数(activation function)。,6.2 激活函数的主要形式,一些典型的特性函数 阈值型 线性 S型,朴素贝叶斯,1、算法简介2、算法基础贝叶斯定理3、算法原理与流程,7.1 算法简介,朴素贝叶斯是贝叶斯分类算法中最简单并且应用最广泛的一类,其算法基础是贝叶斯定理与特征条件独立假设。朴素贝叶斯分类算法发源于
16、古典数学理论,有着坚实的数学基础,以及稳定的分类效率,理论上与其他分类方法相比具有最小的误差率。但是实际由于该模型假设属性之间相互独立,这个假设在实际应用中往往不成立。,7.2 算法基础贝叶斯定理,表示事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的条件概率。其基本求解公式为:贝叶斯定理就为我们打通从 获得 的道路,定理如下:,7.3 算法原理与流程,朴素贝叶斯算法分类的正式定义如下: 1、设 为一个待分类项,而每个a为x的特征属性。 2、有类别集合 3、计算 4、若,7.3 算法原理与流程,现在关键即计算第三步各个条件概率: 1、找一个已知分类的待分类项集合,即训练样本集。
17、 2、统计得到各类别下各个特征属性的条件概率估计。即,7.3 算法原理与流程,3、如果各个特征属性是条件独立的,则根据贝叶斯定理有 因为分母对于所有类别为常数,因为我们只要将分子最大化皆可。又因为各特征属性是条件独立的,所以有:,7.3 算法原理与流程,据上述分析,朴素贝叶斯算法流程图如下:,确定特征属性,获取训练样本,对每个特征属性计算所有划分的条件概率,对每个类型计算,以 最大项作为X所属类别,对每个类别计算,准备工作阶段,分类器训练阶段,应用阶段,7.4 算法原理与流程,第一阶段准备工作阶段,这个阶段的任务是为朴素贝叶斯分类做必要的准备,主要工作是根据具体情况确定特征属性,并对每个特征属
18、性进行适当划分,然后由人工对一部分待分类项进行分类,形成训练样本集合。这一阶段的输入是所有待分类数据,输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段,其质量对整个过程将有重要影响,分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。第二阶段分类器训练阶段,这个阶段的任务就是生成分类器,主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计,并将结果记录。其输入是特征属性和训练样本,输出是分类器。这一阶段是机械性阶段,根据前面讨论的公式可以由程序自动计算完成。第三阶段应用阶段。这个阶段的任务是使用分类器对待分类项进行分
19、类,其输入是分类器和待分类项,输出是待分类项与类别的映射关系。这一阶段也是机械性阶段,由程序完成。,k近邻算法,所谓K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(邻居), 这K个实例的多数属于某个类,就把该输入实例分类到这个类中。,k-Nearest Neighbour (KNN),8.1 实例引入,有两类不同的样本数据,分别用蓝色的小正方形和红色的小三角形表示,图正中的绿色圆所标示的数据是待分类的数据。现在我们需要给这个绿色的圆进行分类:,如果K=3,绿色圆点的最近的3个邻居是2个红色小三角形和1个蓝色小正方形,少数从属于多数,基于统计的方法
20、,判定绿色的这个待分类点属于红色的三角形一类。 如果K=5,绿色圆点的最近的5个邻居是2个红色三角形和3个蓝色的正方形,判定绿色的这个待分类点属于蓝色的正方形一类。,8.2思考,KNN算法使用的模型实际上对应于对特征空间的划分。该算法的三个基本要素为:K值的选择,距离度量和分类决策规则 (结合上述实例,考虑K=3or5情况下分类的不同)在实际应用中,K值一般取一个比较小的数值,采用交叉验证法来选择最优的K值。,8.3 适用场景,分类:对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。 回归:通过找出一个样本的k个最近邻居,将这些邻居的属性的平均值赋给该样本,就可以得到该样
21、本的属性,解决变量估计的问题。,8.4 算法优缺点,KNN 分类方法可以取得较高的分类准确率,具有概念清晰、易于实现等诸多优点。 同时也存在分类过程中计算量过大、对样本库过于依赖和度量相似性的距离函数不适用等问题。,评估假设,9.1 概述9.2 主要解决问题9.3 实例与思考,9.1 概述,对假设的精度进行评估是机器学习中的基本问题;一方面,可以用于了解是否可用该假设。如:从一个长度有限的数据库中学习以了解不同医疗手段的效果,有必要尽可能准确知道学习结果的正确性;,9.1 概述,另一方面,对假设的评估是许多学习方法的重要组成部分。如:在决策树学习中,为了避免过度拟合必须进行后修剪,必须评估每一
22、步修剪对树的精度产生的影响,了解已经修剪和未被修剪树的精度估计中固有的可能误差。,9.2 主要解决问题,已知一个假设在有限数据样本上观察到的精度,怎样估计它在其他实例的精度?若一个假设在某些数据样本上好于另一个,那么该假设是否更准确?当数据有限,怎样高效利用数据,通过它们学习假设与估计精度?,9.3实例与思考,数据样本包含n=40个样例,并且假设h在这些数据上产生了r=12个错误,这样样本错误率为:error(h)=12/40=0.3 如果没有更多的信息,对真实错误率的最好的估计即为0.3,9.3 实例与思考,但是,如果另外收集40个随机抽取的样例S,样本错误率error(h)将与原来的error(h)存在一些差别,如果不断重复这一实验,每次抽取一个包含40样例的样本将会发现约95%的实验中计算所得的区间包含真实错误率。 将上面的区间称为真实错误率的95%置信区间估计。,9.3 实例与思考,评估假设主要采用统计的方法,结合有关数据基准分布的假定,使我们可以用有限数据样本上的观察精度来逼近整个数据分布上的真实精度。,