《机器学习 1 绪论ppt课件.pptx》由会员分享,可在线阅读,更多相关《机器学习 1 绪论ppt课件.pptx(45页珍藏版)》请在三一办公上搜索。
1、智能科学与技术系刘冀伟,锚索寿命演化模型研究及预测,机器学习基础第一章绪论,1,主要参考书,1、周志华,机器学习,清华大学出版社,20152、李航,统计学习方法,清华大学出版社,2012,考核方式,1、平时成绩-大作业-40%2、期末考试-闭卷-60%,目录 CONTENT,机器学习是什么,机器学习领域奠基人之一、美国工程院院士T. Mitchell教授在其经典教材Machine Learning中所给出的机器学习经典定义为“利用经验来改善计算机系统自身的性能”。,系统对应于数据模型,如决策树、支持向量机等。,模型,6,机器学习主要是设计和分析让计算机可以自动“学习”的算法。学习算法是一类从数
2、据中自动分析获得规律,利用规律对未知数据进行预测的算法。,需要多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。,7,例:,经验收集,归纳学习,模型y=f(x1,x2,x3),应用模型,8,基本概念,问题域图像识别腐蚀预测温度预测交通状态,经验数据集合,数据集合,假设空间,10,一、特征空间,选择一组变量描述问题性质,称为特征变量(属性),特征变量组成的向量称为特征向量,变量张成的空间称为特征空间(样本空间), 变量的取值称为属性值。,特征变量(属性)记为:xi,i=1、d,特征向量记为:,二、数据集合,样本:特征空间(样本空间)中的一组示例。记为:D=x1、x2
3、、xm ,标记空间:标签变量或预测变量的取值集合,记为:Y,样例集合:特征向量与标签变量对集合,记为: D=(x1、y1) 、(x2、y2) 、 、 (xm、ym) ,特征空间记为:G,11,学习(训练)数据:在训练过程中使用的数据称为训练数据,每一个样例称为训练样本,全体训练样本集合称为训练集(training set)。,测试数据(testing data):用于检测学习得到模型的数据称为检测数据,每一个样例称为检测样本,全体检测样本集合称为检测集(testing set)。,三、学习的任务-y=f(x),分类:Y=1,2,3,是离散值集合。二分类、多分类。,回归:Y (0 1),是连续值
4、集合,预测。,聚类:没有Y的信息。,有监督学习,无监督学习,强化学习,Y的信息不完全,泛化能力:学习的结果对新样本的适应能力,对样本空间的描述能力。,12,35,9,四、假设空间(H),机器学习是通过数据集学得规律,是一个典型的归纳推理的过程,学习的结果是从样本空间到标记空间的一个映射,所有可能的映射的集合我们称为假设空间。,机器学习的任务:求fH: f:GY,满足数据集合,例:西瓜问题-假设色泽、根蒂和敲声完全决定西瓜的品质,我们可以用布尔表达式表达好瓜的概念。,引入通配符:*,(色泽=*) (根蒂=卷缩) (敲声=浊响),13,西瓜问题的所有布尔表达式表达:假设空间,版本空间:假设空间的一
5、个子集,与训练样例一致的所有假设的集合。,14,五、归纳偏好(奥卡姆剃刀、没有免费午餐),色泽=*;根蒂=卷缩;敲声=浊响,色泽=*;根蒂=*;敲声=浊响,色泽=*;根蒂=卷缩;敲声=*,版本空间:中有多个假设,每一个假设都可以是我们学习获得的模型,应该使用那个模型?那个模型会更好?,色泽=青绿;根蒂=卷缩;敲声=沉闷版本空间-假设2-好瓜但不满足假设1和假设3,版本空间例,15,以上两个例子给我们提出了新的问题-如何在版本空间获得模型?在机器学习算法学习的过程中对某种假设的偏好称为归纳偏好。,奥卡姆剃刀(Occams razor):若多个假设与观察一致,选择最简单的那个。,没有免费午餐定理(
6、NFL No Free Lunch Theorem):总误差与算法无关。,具体问题具体分析,16,黑点训练样本白点测试样本,模型评估与选择,一、经验误差与过拟合,错误率(error rate):分类错误的样例数占样例总数的比例,即:E=a/m精度(accuracy) :精度=1-错误率,即:acc=1-a/m,过拟合(overfitting)与欠拟合(underfitting) :导致学习器泛化功能下降的现象称为过拟合,相对的为欠拟合。,误差(error ) :学习器的预测输出与样例的真实输出间的差异称为误差,在训练集上的误差称为训练误差(training error)或经验误差(empiri
7、cal error),在新样本上的误差称为泛化误差(generalizatiuon error) 。,18,二、评估方法,留出法(hold-out) :直接将数据集D划分为两个互斥的集合,其中一个是训练集S,另一个为测试集T。即:D=ST;交叉验证法: (cross validation),19,自助法(bootstrapping):,调参与最终模型:,20,对学习器的泛化性能评估需要评价标准,这就是性能度量(performance measure),如常用的均方误差(mean squared error),三、性能度量,1、错误率与精度:假设数据集D=(x1,y1), (x2,y2), (x
8、m,ym),学习器为y=f(x)错误率(error rate):分类错误的样例数占样例总数的比例精度(accuracy) :精度=1-错误率,21,2、查准率、查全率和F1:,平衡点(Break-event point),混淆矩阵(Confusion Matrix),P-R曲线,22,宏查准率、宏查全率和宏F1:,有多个混淆矩阵时,我们可以在每个混淆矩阵上计算查准率、查全率和F1,得到:(P1,R1), (P2,R2), , (Pn,Rn),则有:,微查准率、微查全率和微F1:,23,2、ROC与AUC:,很多学习器的输出是连续值,然后通过一个实现给定的阈值构成分类器。ROC(Receiver
9、 Operating Characteristic)受试者工作特征,二战时期雷达信号分析,六十年代开始用于心理学医学检测,纵轴:真正例率,横轴:假正例率,AUC:ROC曲线下的面积,24,机器学习的发展和应用,机器学习是人工智能发展到一定阶段的必然产物。,人工智能的几个发展阶段:二十世纪5060年代-推理阶段-以模拟人类推理能力为研究的主流,这一时期的代表成果-Newell和Simon的LT和GPS-1975图灵奖;19701980-知识阶段-认为人类智能源于人类应用知识解决问题的能力,这一时期的代表工作费根鲍姆的专家系统-1994图灵奖。知识的获取困难-机器自己学习,二十世纪50年代-IBM
10、的A.Samuel的带有学习功能的美国跳棋;基于神经网络的连接主义,如感知机;基于逻辑表示的符号主义的学习技术,如:Winston的结构学习系统Michalski的基于逻辑的归纳学习系统Hunt的概念学习系统,一、机器学习的兴起与发展,26,27,机器学习是人工智能的一个分支,也是人工智能的一种实现方法。它从样本数据中学习得到知识和规律,然后用于实际的推断和决策。它和普通程序的一个显著区别是需要样本数据,是一种数据驱动的方法。,机器学习并不是人工智能一开始就采用的方法。人工智能的发展经历了逻辑推理,知识工程,机器学习三个阶段。第一阶段的重点是逻辑推理,例如数学定理的证明。这类方法采用符号逻辑来
11、模拟人的智能。第二阶段的代表是专家系统,这类方法为各个领域的问题建立专家知识库,利用这些知识来完成推理和决策。如果要让人工智能做疾病诊断,那就要把医生的诊断知识建成一个库,然后用这些知识对病人进行判断。,一、机器学习的兴起,28,知识的获取困难-机器自己学习,机器学习这一名词以及其中某些方法可以追溯到1958年,甚至更早,但真正作为一门独立的学科要从1980年算起,在这一年诞生了第一届机器学习的学术会议和期刊。到目前为止,机器学习的发展经历了3个阶段:1980年代正式成形期,不具备影响力。1990-2010年代是蓬勃发展期,诞生了众多的理论和算法,真正走向了实用。2012年之后是深度学习时期,
12、深度学习技术诞生并急速发展,较好的解决了现阶段AI的一些重点问题,并带来了产业界的快速发展。,29,线性回归:,Logistic回归:使用回归的方法完成分类的任务,30,已知-数据集合(D):,假设空间(H):先验概率分布P(i),类条件概率分布P(x| i),求判别函数: i=h (x),贝叶斯决策理论,朴素贝叶斯分类器,31,1980s:登上历史舞台:1980年机器学习作为一支独立的力量登上了历史舞台。在这之后的10年里出现了一些重要的方法和理论,典型的代表是:1980夏-在卡内基梅隆举行第一届机器学习研讨会(IWML);1983第一本机器学习的专著机器学习-一种人工智能的途径;1984-
13、分类与回归树(CART)1986-第一个期刊Machine Learning创刊1986-反向传播算法1989-卷积神经网络,分类与回归树由Breiman等人在1984年提出,是决策树的一种经典实现,至今它还在很多领域里被使用。决策树是一种基于规则的方法,它由一系列嵌套的规则组成一棵树,完成判断和决策。和之前基于人工规则的方法不同,这里的规则是通过训练得到的,而不是人工总结出来的。,32,反向传播算法:人工神经网络是对动物神经系统的一种简单模拟,属于仿生方法。从数学的角度看,它是一个多层的复合函数。反向传播算法是神经网络训练时使用的算法,来自于微积分中复合函数求导的链式法则,至今深度学习中各种
14、神经网络的训练使用的还是这种方法。反向传播算法的出现使得多层神经网络真正成为一种可以实现、具有实用价值的算法。在这一时期,神经网络的理论性研究也是热门的问题,神经网络数学上的表达能力的分析和证明大多出现在1980年代末和1990年代初。,从理论上来说,加大神经网络的规模可以解决更复杂的模式识别等问题。但是网络层数的增加会导致梯度消失问题,另外神经网络还面临着局部最优解的问题。训练样本的缺乏,计算能力的限制,都使得神经网络在接下来的20多年里没有太大的进展和出色的表现。,33,卷积神经网络:早在1989年,LeCun在贝尔实验室就开始使用卷积神经网络识别手写数字,这是当前深度学习中深度卷积神经网
15、络的鼻祖;1998年,LeCun提出了用于字符识别的卷积神经网络LeNet5,并在手写数字识别中取得了较好的结果。卷积神经网络借鉴了动物视觉神经系统的原理,它能够逐层的对输入图像进行抽象和理解。,34,在这一时期,隐马尔科夫模型(HMM)被成功的应用于语音识别,使得语音识别的方法由规则和模板匹配转向机器学习这条路径。,一个HMM模型是由五元组组成:要素N:状态集合S=S1, S2 , , SN,模型中状态的个数。在抛币模型中是偏心硬币的个数。一般t时刻的状态用qt表示。要素M:表示每个状态可以观察到的不同符号数。在抛币模型中是正、反两面。一般符号集表示为:V=V1,V2 , , VM状态转移矩
16、阵A=aij,其中aij=Pqt+1=Sj|qt=Si。状态j中可见符号的概率分布B=bj(k)其中 bj(k)=P在t时刻出现符号Vk|qt=sj初始状态分布=j其中j=pq0=sj j=1,2,N =N,M,A,B,-HMM,35,1990-2012:走向成熟和应用,在这20多年里机器学习的理论和方法得到了完善和充实,可谓是百花齐放的年代。代表性的重要成果有:1995:支持向量机(SVM)1997:AdaBoost算法1997:循环神经网络(RNN)和LSTM2000:流形学习2001:随机森林,SVM基于最大化分类间隔的原则,通过核函数巧妙的将线性不可分问题转化成线性可分问题,并且具有非
17、常好的泛化性能。和神经网络相比,SVM有完善的数学理论作为支撑,训练时求解的问题是凸优化问题,因此不会出现局部极值问题。,Vladimir Vapnik:SVM由Vapnik在1995年提出,在诞生之后的近20年里,它在很多模式识别问题上取得了当时最好的性能,直到被深度学习算法打败。,36,AdaBoost和随机森林同属集成学习算法,它们通过将多个弱学习器模型整合可以得到精度非常高的强学习器模型,且计算量非常小。AdaBoost算法在机器视觉领域的目标检测问题上取得了成功,典型的代表是人脸检测问题。2001年,使用级联AdaBoost分类器和Haar特征的算法在人脸检测问题上取得了巨大的进步,
18、是有里程碑意义的成果。此后这一框架成为目标检测的主流方法,直到后来被深度学习取代。,随机森林由Breiman在2001年提出,是多棵决策树的集成,在训练时通过对样本进行随机抽样构造出新的数据集训练每一棵决策树。它实现简单,可解释性强,运算量小,在很多实际问题上取得了相当高的精度。时至今日,在很多数据挖掘和分析的比赛中,这类算法还经常成为冠军。,37,流形学习作为一种非线性降维技术,直观来看,它假设向量在高维空间中的分布具有一定的几何形状。在2000年出现之后的一段时间内名噪一时,呈现出一片繁荣的景象,但在实际应用方面缺乏成功的建树。,循环神经网络作为标准前馈型神经网络的发展,具有记忆功能,在语
19、音识别、自然语言处理等序列问题的建模上取得了成功,是当前很多深度学习算法的基础。,在这一时期机器学习算法真正走向了实际应用。典型的代表是车牌识别,印刷文字识别(OCR),手写文字识别,人脸检测技术(数码相机中用于人脸对焦),搜索引擎中的自然语言处理技术和网页排序,广告点击率预估(CTR),推荐系统,垃圾邮件过滤等。同时也诞生了一些专业的AI公司,如MobilEye,科大讯飞,文安科技,文通科技,IO Image等。,38,2012:深度学习时代-神经网络卷土重来,在与SVM的竞争中,神经网络长时间内处于下风,直到2012年局面才被改变。SVM、AdaBoost等所谓的浅层模型并不能很好的解决图
20、像识别,语音识别等复杂的问题,在这些问题上存在严重的过拟合(过拟合的表现是在训练样本集上表现很好,在真正使用时表现很差。就像一个很机械的学生,考试时遇到自己学过的题目都会做,但对新的题目无法举一反三)。为此我们需要更强大的算法,历史又一次选择了神经网络。,由于算法的改进以及大量训练样本的支持,加上计算能力的进步,训练深层、复杂的神经网络成为可能,它们在图像、语音识别等有挑战性的问题上显示出明显的优势。,39,深度学习的起源可以追溯到2006年的一篇文章,Hinton等人提出了一种训练深层神经网络的方法,用受限玻尔兹曼机训练多层神经网络的每一层,得到初始权重,然后继续训练整个神经网络。2012年
21、Hinton小组发明的深度卷积神经网络AlexNet首先在图像分类问题上取代成功,随后被用于机器视觉的各种问题上,包括通用目标检测,人脸检测,行人检测,人脸识别,图像分割,图像边缘检测等。在这些问题上,卷积神经网络取得了当前最好的性能。,在另一类称为时间序列分析的问题上,循环神经网络取得了成功。典型的代表是语音识别,自然语言处理,使用深度循环神经网络之后,语音识别的准确率显著提升,直至达到实际应用的要求,在语音识别、自然语言处理等领域,深度学习算法同样取得了可喜的结果。在这些领域的成功,直接推动了语音识别、机器翻译等技术走向实际应用。,在策略、控制类问题上,深度强化学习技术取得了成功,典型的代
22、表是AlphaGo。在各种游戏、自动驾驶等问题上,深度强化学习显示出了接近人类甚至比人类更强大的能力。,40,以生成对抗网络(GAN)为代表的深度生成框架在数据生成方面取得了惊人的效果,可以创造出逼真的图像,流畅的文章,动听的音乐。为解决数据生成这种“创作”类问题开辟了一条新思路。,TCNN,二、机器学习的应用现状,1 分类算法应用场景实例1.1 O2O优惠券使用预测1.2 市民出行选乘公交预测1.3待测微生物种类判别1.4 基于运营商数据的个人征信评估1.5 商品图片分类1.6 广告点击行为预测1.7 基于文本内容的垃圾短信识别1.8 中文句子类别精准分析1.9 P2P网络借贷平台的经营风险
23、量化分析1.10 国家电网客户用电异常行为分析,1.11 自动驾驶场景中的交通标志检测1.12 大数据精准营销中搜狗用户画像挖掘1.13 基于视角的领域情感分析1.14 监控场景下的行人精细化识别1.15 用户评分预测1.16 猫狗识别大战1.17 微额借款用户人品预测1.18 验证码识别1.19 客户流失率预测1.20 汽车4S店邮件营销方案,41,2回归算法应用场景实例2.1 机场客流量分布预测2.2 音乐流行趋势预测2.3 需求预测与仓储规划方案2.4 新浪微博互动量预测2.5 货币基金资金流入流出预测2.6 电影票房预测2.7 农产品价格预测分析2.8 基于多源数据的青藏高原湖泊面积预
24、测2.9 微博传播规模和传播深度预测2.10 鲍鱼年龄预测,2.11 学生成绩排名预测2.12 网约车出行流量预测2.13 红酒品质评分2.14搜索引擎的搜索量和股价波动2.15 中国人口增长分析2.16 农村居民收入增长预测2.17 房地产销售影响因素分析2.18 股价走势预测2.19 全国综合运输总量预测2.20 地震预报,42,3聚类算法应用场景实例3.1 基于用户位置信息的商业选址3.2 中文地址标准化处理3.3 国家电网用户画像3.4 非人恶意流量识别3.5 求职信息完善3.6 搜索引擎查询聚类以进行流量推荐3.7 生物种群固有结构认知3.8 保险投保者分组3.9 网站关键词来源聚类整和3.10 图像分割,4关联规则应用场景实例4.1 穿衣搭配推荐4.2 互联网情绪指标和生猪价格的关联关系挖掘和预测4.3 依据用户轨迹的商户精准营销4.4 地点推荐系统4.5 气象关联分析4.6 交通事故成因分析4.7 基于兴趣的实时新闻推荐4.8 银行金融客户交叉销售分析4.9 电子商务搭配购买推荐4.10 银行营销方案推荐,43,作业一:根据自己的理解设计一个应用机器学习技术的具体应用的例子,44,