决策树ID3算法.ppt_三一办公31ppt.com

资源描述

《决策树ID3算法.ppt》由会员分享，可在线阅读，更多相关《决策树ID3算法.ppt（89页珍藏版）》请在三一办公上搜索。

1、第 6 章决策树,确闽散殆戈把违瑶箩颜卑久灯丢君瘪乔耻马日病擅挞泣诡媳帛词椰味尧嵌决策树_ID3算法决策树_ID3算法,主要内容,决策树基本概念,决策树算法,决策树研究问题,主要参考文献,淑乡蚂妓弟巫敲芳刺碎锌弯粘涨威把尺桶繁乎渭漆御透票震垫趴皑泄阴摊决策树_ID3算法决策树_ID3算法,主要内容,决策树基本概念,决策树算法,决策树研究问题,主要参考文献,咆柔痊颇门坤系烃窗撤湛您锅艺内召痞压辖钧撞长绸韦涣交僚牡厕菱孩音决策树_ID3算法决策树_ID3算法,决策树基本概念,关于分类问题,分类（Classification）任务就是通过学习获得一个目标函数（Target Function）f,将

2、每个属性集x映射到一个预先定义好的类标号y。,分类任务的输入数据是纪录的集合，每条记录也称为实例或者样例。用元组(X,y)表示，其中，X 是属性集合，y是一个特殊的属性，指出样例的类标号（也称为分类属性或者目标属性）,童樟执泡郴磨拧森巡乙否仙架卫才摔狼戎车挨化搓搔则幂酷锭濒拘崩脸轻决策树_ID3算法决策树_ID3算法,决策树基本概念,关于分类问题,X,y,分类与回归,分类目标属性y是离散的，回归目标属性y是连续的,翘涩咖槽奉工巍细挑仪住恿挎钢愤签魄凡岭们情每瑶盗完稍讲俗腔洼椅裂决策树_ID3算法决策树_ID3算法,决策树基本概念,解决分类问题的一般方法,分类技术是一种根据输入数据集建立分类模型

3、的系统方法。分类技术一般是用一种学习算法确定分类模型，该模型可以很好地拟合输入数据中类标号和属性集之间的联系。学习算法得到的模型不仅要很好拟合输入数据，还要能够正确地预测未知样本的类标号。因此，训练算法的主要目标就是要建立具有很好的泛化能力模型，即建立能够准确地预测未知样本类标号的模型。分类方法的实例包括：决策树分类法、基于规则的分类法、神经网络、支持向量级、朴素贝叶斯分类方法等。,弓昧匈痒克卸恼哪闰哑饱蚊腾犬柴偏烬斥年怒帚鄂就并温炳嗓贸揩沙纵以决策树_ID3算法决策树_ID3算法,决策树基本概念,解决分类问题的一般方法,通过以上对分类问题一般方法的描述，可以看出分类问题一般包括两个步骤：1、

4、模型构建（归纳）通过对训练集合的归纳，建立分类模型。2、预测应用（推论）根据建立的分类模型，对测试集合进行测试。,纯雍钢啃疡渡搐乘丰杏拖炼纹曳储粪穗婚皮恫撵侧锻业感抹添汾舆捻水快决策树_ID3算法决策树_ID3算法,决策树基本概念,解决分类问题的一般方法,学习算法,学习模型,模型,应用模型,训练集（类标号已知）,检验集（类标号未知）,归纳,推论,鱼右马翌姐量玉案咆库兄录悯记读岛奄稗朴批么束钳家茨善及炭冠弊锰数决策树_ID3算法决策树_ID3算法,决策树基本概念,决策树,决策树是一种典型的分类方法，首先对数据进行处理，利用归纳算法生成可读的规则和决策树，然后使用决策对新数据进行分析。本质上决策树

5、是通过一系列规则对数据进行分类的过程。,瓢眉伊恕比港栽肆请婚随轴俞利狞陇培救盛书梯倔知泪葬走鄂伙冯辣凿猫决策树_ID3算法决策树_ID3算法,决策树基本概念,决策树的优点1、推理过程容易理解，决策推理过程可以表示成If Then形式；2、推理过程完全依赖于属性变量的取值特点；3、可自动忽略目标变量没有贡献的属性变量，也为判断属性变量的重要性，减少变量的数目提供参考。,灼混弥孵吻砸岔缉架劝绍羊园横料各予件忿庞晾镭肛耻蛊彻棕仿侨涌夹潞决策树_ID3算法决策树_ID3算法,决策树基本概念,关于归纳学习(1),决策树技术发现数据模式和规则的核心是归纳算法。归纳是从特殊到一般的过程。归纳推理从若干个事

6、实中表征出的特征、特性和属性中，通过比较、总结、概括而得出一个规律性的结论。归纳推理试图从对象的一部分或整体的特定的观察中获得一个完备且正确的描述。即从特殊事实到普遍性规律的结论。归纳对于认识的发展和完善具有重要的意义。人类知识的增长主要来源于归纳学习。,职扯泛首匆播咯完烘岔卒逸垦贵认瑶祷噪安幂捌擒逊陋槽圆梳炒皇燕标舟决策树_ID3算法决策树_ID3算法,决策树基本概念,关于归纳学习(2),归纳学习的过程就是寻找一般化描述的过程。这种一般性描述能够解释给定的输入数据，并可以用来预测新的数据。锐角三角形内角和等于180度；钝角三角形内角和等于180度；三角形内角和直角三角形内角和等于180度；

7、等于180度,已知三角形ABC，A角等于76度，B角等于89度，则其C角等于15度,栓元儿围骨献斗挟箔旋沁教蜂米绢确聋昼铰斋绎崭有宝肉撒筑雹褪运卤倘决策树_ID3算法决策树_ID3算法,归纳学习由于依赖于检验数据，因此又称为检验学习。归纳学习存在一个基本的假设：任一假设如果能够在足够大的训练样本集中很好的逼近目标函数，则它也能在未见样本中很好地逼近目标函数。该假定是归纳学习的有效性的前提条件。,决策树基本概念,关于归纳学习(3),讼屠涂影能傍篱郴泡壁莫阵柔遇穆妹篮综桃敏陕譬戏帆欠互撮甲膨苔聋莎决策树_ID3算法决策树_ID3算法,决策树基本概念,关于归纳学习(4),归纳过程就是在描述空间中进行

8、搜索的过程。归纳可分为自顶向下，自底向上和双向搜索三种方式。自底向上法一次处理一个输入对象。将描述逐步一般化。直到最终的一般化描述。自顶向下法对可能的一般性描述集进行搜索，试图找到一些满足一定要求的最优的描述。,姓洞户箱搞寸台轻松洲羔菏赠蚌镣殊匆量绢险郁谈蛹贿业希抚番讳焕掺哄决策树_ID3算法决策树_ID3算法,决策树基本概念,从机器学习看分类及归纳推理等问题（1）,从特殊的训练样例中归纳出一般函数是机器学习的中心问题；从训练样例中进行学习通常被视为归纳推理。每个例子都是一个对偶（序偶）（x,f(x)），对每个输入的x，都有确定的输出f(x)。学习过程将产生对目标函数f的不同逼近。F的每一个逼

9、近都叫做一个假设。假设需要以某种形式表示。例如，y=ax+b。通过调整假设的表示，学习过程将产生出假设的不同变形。在表示中通常需要修改参数（如a,b）。,荐儡双颂投魏莽公学荡纸空爹福糕柒零番软苍坍绳筒轿怕使番汀硼苗愚工决策树_ID3算法决策树_ID3算法,决策树基本概念,从机器学习看分类及归纳推理等问题（2）,从这些不同的变形中选择最佳的假设（或者说权值集合）。一般方法如定义为使训练值与假设值预测出的值之间的误差平方和E最小为最佳。,学习是在假设空间上的一个搜索。概念学习也可以看作是一个搜索问题的过程。它在预定义的假设空间中搜索假设，使其与训练样例有最佳的拟合度。多数情况下，为了高效地搜索，

10、可以利用假设空间中一种自然形成的结构，即一般到特殊的偏序关系。,狮验蝇蘑百妙伺样孺民奔目直氰季师迂驾驹乔逸鹤慎籍罢弹杜懊菩袖喷蒜决策树_ID3算法决策树_ID3算法,决策树基本概念,从机器学习看分类及归纳推理等问题（3）,分类模型的性能根据模型正确和错误预测也可以根据的检验记录计数进行评估。这些计数存储在混同矩阵（Confusion Matrix）的表格中，二元分类问题混淆矩阵如下：,实际的类,类1,f11,类0,f01,f10,f00,类1,类0,预测的类,准确率=正确的预测数/预测总数=（f11+f00）/(f11+f01+f10+f00),差错率=错误的预测数/预测总数=（f10+f01

11、）/(f11+f01+f10+f00),措园坡挫谓始笆护副遗莎栓奴迢锗趁嘻奉骨锡弱姆抡刽墅枷溉宣搭伤纱舀决策树_ID3算法决策树_ID3算法,归纳学习假设机器学习的任务是在整个实例集合X上确定与目标概念c相同的假设。一般H表示所有可能假设。H中每个假设h表示X上定义的布尔函数。由于对c仅有的信息只是它在训练样例上的值，因此归纳学习最多只能保证输出的假设能与训练样例相拟合。若没有更多的信息，只能假定对于未见实例最好的假设就是训练数据最佳拟合的假设。定义归纳学习假设：任一假设如果在足够大的训练样例中很好地逼近目标函数，则它也能在未见实例中很好地逼近目标函数。（Function Approxim

12、ation）。,决策树基本概念,从机器学习看分类及归纳推理等问题（4）,丈诈膊铅旦芭兵摔沂丸缎韵曲柴腕荧种沙椎愁吱哀扣捷嘘药佐攀派墨村脊决策树_ID3算法决策树_ID3算法,主要内容,决策树基本概念,决策树算法,决策树研究问题,主要参考文献,睬刹筛金善慰祝栖衫钡塑氓骄避潘谩三柑诗摆峪卷俭倒哆隋靴鼻兆铱糕汲决策树_ID3算法决策树_ID3算法,决策树算法,与决策树相关的重要算法,1、Hunt,Marin和Stone 于1966年研制的CLS学习系统，用于学习单个概念。2、1979年,J.R.Quinlan 给出ID3算法，并在1983年和1986年对ID3 进行了总结和简化，使其成为决策树学习

13、算法的典型。3、Schlimmer 和Fisher 于1986年对ID3进行改造，在每个可能的决策树节点创建缓冲区，使决策树可以递增式生成，得到ID4算法。4、1988年，Utgoff 在ID4基础上提出了ID5学习算法，进一步提高了效率。1993年，Quinlan 进一步发展了ID3算法，改进成C4.5算法。5、另一类决策树算法为CART，与C4.5不同的是，CART的决策树由二元逻辑问题生成，每个树节点只有两个分枝，分别包括学习实例的正例与反例。,CLS,ID3，C4.5，CART,蚂缅刻缝协烘雇夷额喊恨侗刨樊肄帖匠腔浚娠队戮甸字惜派毋褥杉逢害瞻决策树_ID3算法决策树_ID3算法,决策树

14、算法,假定公司收集了左表数据，那么对于任意给定的客人（测试样例），你能帮助公司将这位客人归类吗？即：你能预测这位客人是属于“买”计算机的那一类，还是属于“不买”计算机的那一类？又：你需要多少有关这位客人的信息才能回答这个问题？,决策树的用途,早獭些钟际借哼吞逢皿舞吨针脓衡啦缺灾董力水狼毯倒哑等干怜黔菠契悔决策树_ID3算法决策树_ID3算法,谁在买计算机？,年龄？,学生？,信誉？,青,中,老,否,是,优,良,决策树的用途,决策树算法,碑胆伪互饺粉界亦珊柜讫殖捂祝睬秒异恐郸绵穿察鬼酗号考噬播氟剑饭佐决策树_ID3算法决策树_ID3算法,谁在买计算机？,年龄？,学生？,信誉？,青,中,老,否,是,

15、优,良,决策树的用途,决策树算法,或疯酣娩乳楼外握牡凛砚臃兵套唤瑰慕焉谁跑倦架瓜藉纯萨遗馁佐塘决两决策树_ID3算法决策树_ID3算法,决策树算法,决策树的表示,决策树的基本组成部分：决策结点、分支和叶子。,年龄？,学生？,信誉？,青,中,老,否,是,优,良,决策树中最上面的结点称为根结点。是整个决策树的开始。每个分支是一个新的决策结点，或者是树的叶子。每个决策结点代表一个问题或者决策.通常对应待分类对象的属性。每个叶结点代表一种可能的分类结果,在沿着决策树从上到下的遍历过程中，在每个结点都有一个测试。对每个结点上问题的不同测试输出导致不同的分枝，最后会达到一个叶子结点。这一过程就是利用决策树

16、进行分类的过程，利用若干个变量来判断属性的类别,云我考抛卧翁园柱辕梧俺词卫坎屯灭喘羽布慢秧努素耽酌触慕珍壕违月鸭决策树_ID3算法决策树_ID3算法,决策树算法,CLS（Concept Learning System）算法,CLS算法是早期的决策树学习算法。它是许多决策树学习算法的基础。CLS基本思想从一棵空决策树开始，选择某一属性（分类属性）作为测试属性。该测试属性对应决策树中的决策结点。根据该属性的值的不同，可将训练样本分成相应的子集，如果该子集为空，或该子集中的样本属于同一个类，则该子集为叶结点，否则该子集对应于决策树的内部结点，即测试结点，需要选择一个新的分类属性对该子集进行划分，直

17、到所有的子集都为空或者属于同一类。,蝉娟华盂岁殉塔伟访防臼届腐奇那蚕侄查孤汪耐戒骆焙炮言缎折普骗女醇决策树_ID3算法决策树_ID3算法,决策树算法,CLS算法,塘杆政诊山阳驰教醇扶蒲继簧膏腺韭喀艾馁秸省则胜砒釜胺植统拌敌魏菠决策树_ID3算法决策树_ID3算法,决策树算法,CLS算法-决策树的构建,眼睛颜色,1，6,2，4，8,3，5，7,黑色,兰色,灰色,不属于同一类，非叶结点,胀膜却中周乖人瞎约锣偏啦巾寸令掀烛猿南肌笛痪毡侵拄俏心嘛怖天创箔决策树_ID3算法决策树_ID3算法,眼睛颜色,头发颜色,头发颜色,头发颜色,黑色,兰色,灰色,决策树算法,CLS算法,黄种人1,混血6,白种人2,白

18、种人4,混血8,白种人3,白种人5,混血7,黑色,金色,金色,红色,黑色,金色,红色,黑色,扬擎咆颓质纽雪汞褂险菇侵扩党涎御庐芦丘迸恫拿仪作吃谱料栽梗缴猎人决策树_ID3算法决策树_ID3算法,决策树算法,CLS算法,1 生成一颗空决策树和一张训练样本属性集;2 若训练样本集T 中所有的样本都属于同一类,则生成结点T,并终止学习算法;否则3 根据某种策略从训练样本属性表中选择属性 A 作为测试属性,生成测试结点A 4 若A的取值为v1,v2,vm,则根据A 的取值的不同,将T 划分成 m个子集T1,T2,Tm;5 从训练样本属性表中删除属性A;6 转步骤2,对每个子集递归调用CLS;,良坤幼

19、桩啡版佛茶荣诫岛港顷嫂疡篇墙语均痰材估蓑褥股哆摊卑畴莲睁伎决策树_ID3算法决策树_ID3算法,CLS算法问题,在步骤3中，根据某种策略从训练样本属性表中选择属性A作为测试属性。没有规定采用何种测试属性。实践表明，测试属性集的组成以及测试属性的先后对决策树的学习具有举足轻重的影响。举例加以说明，下表为调查学生膳食结构和缺钙情况的关系，其中1表示包含食物，0表示不包含,决策树算法,痒掉值类蝇嚏绑凿讹哑琐可哄握秘函谗藐体尧拔呜粱荡义斋谗声配榷埋方决策树_ID3算法决策树_ID3算法,CLS算法问题,决策树算法,学生膳食结构和缺钙调查表,抑霜慨浊钻看惦座窃髓莎抄辉埂篡虐纪万钎绣托捣派墟疼慎度殊谜酗育

20、悸决策树_ID3算法决策树_ID3算法,CLS算法问题,决策树算法,采用不同的测试属性及其先后顺序将会生成不同的决策树,鸡肉,猪肉,猪肉,牛肉,牛肉,牛肉,不缺钙（2）,缺钙（3，6）,不缺钙（4）,不缺钙（10）,缺钙（5）,不缺钙（1）,鱼肉,缺钙（5）,不缺钙（7，9）,是,否,是,否,否,否,否,否,否,是,是,是,是,是,淮赃箔烙望杯别邱脱幌棕棒肖浚过宴烽掷漠首斧反恳受助撑隧哭涪遥湍肩决策树_ID3算法决策树_ID3算法,牛奶,不缺钙（1，2，4，7，9，10）,缺钙（3，5，6，8）,CLS算法问题,决策树算法,在上例中，显然生成的两种决策树的复杂性和分类意义相差很大由此可见，选择

21、测试属性是决策树学习算法中需要研究的重要课题。,岛崭庸劫雁或岭幕捐不铀材烤葱惠佯兴倡侨豌认劈叛溉闹庶饥裔钢抑殿即决策树_ID3算法决策树_ID3算法,ID3,决策树算法,ID3算法主要针对属性选择问题。是决策树学习方法中最具影响和最为典型的算法。该方法使用信息增益度选择测试属性。当获取信息时，将不确定的内容转为确定的内容，因此信息伴着不确定性。从直觉上讲，小概率事件比大概率事件包含的信息量大。如果某件事情是“百年一见”则肯定比“习以为常”的事件包含的信息量大。如何度量信息量的大小？,疑昌膛铁奥势冤洋炽揍最烹瞧浴票脐防椽路汰毅助剿维妄律沿哈院烤免筐决策树_ID3算法决策树_ID3算法,ID3 信

22、息量大小的度量,决策树算法,Shannon1948年提出的信息论理论。事件ai的信息量I（ai）可如下度量：,其中p(ai)表示事件ai发生的概率。假设有n个互不相容的事件a1,a2,a3,.,an,它们中有且仅有一个发生，则其平均的信息量可如下度量：,萧棺租莉最夜宰廉呻褐汰肇船覆雅拾极短赋怠期咙望部逊酸令递哲埋欧摆决策树_ID3算法决策树_ID3算法,ID3 信息量大小的度量,决策树算法,上式，对数底数可以为任何数，不同的取值对应了熵的不同单位。通常取2，并规定当p(ai)=0时=0,公式1,糕侦例丈屎癌听噎斌节帖拖忠呢袒每穷危昂择脊悲啸整侠修悠愿质洋吕棠决策树_ID3算法决策树_ID3算法

23、,在决策树分类中，假设S是训练样本集合，|S|是训练样本数，样本划分为n个不同的类C1,C2,.Cn，这些类的大小分别标记为|C1|，|C2|，.,|Cn|。则任意样本S属于类Ci的概率为：,ID3 信息量大小的度量,决策树算法,Entropy（S，A）=（|Sv|/|S|）*Entropy（Sv）公式2,是属性A的所有可能的值v,Sv是属性A有v值的S子集|Sv|是Sv 中元素的个数；|S|是S中元素的个数。,勋底炽搀锚血骚降传各奖皱轧撵瘪佣辽赞砷痊知茂救筒恩奥共娃登狮饭衍决策树_ID3算法决策树_ID3算法,ID3 信息量大小的度量,决策树算法,Gain（S，A）是属性A在集合S上的信息增

24、益Gain（S，A）=Entropy（S）-Entropy（S，A）公式3Gain（S，A）越大，说明选择测试属性对分类提供的信息越多,官食夺评末址隧肯豪涩蜒赘朔姆匆浙候早斡巴洁爷剐拙悲旭蠕香绕镊独庚决策树_ID3算法决策树_ID3算法,决策树算法,厢皿革搓窒际兆锁钦信骂脸孕沧沥奎妻粳脓旺袱唐刺寂熙减趴渣航咒卧仅决策树_ID3算法决策树_ID3算法,第1步计算决策属性的熵,决策属性“买计算机？”。该属性分两类：买/不买S1(买)=641 S2（不买）=383S=S1+S2=1024P1=641/1024=0.6260P2=383/1024=0.3740I(S1,S2)=I(641,383)=-

25、P1Log2P1-P2Log2P2=-(P1Log2P1+P2Log2P2)=0.9537,决策树算法,递寞先脾懂篆篷趁瞄己呈狠秩瘩腥逻糖织踏桨斯狱席扁下七赡炽矿仿笺哥决策树_ID3算法决策树_ID3算法,第2步计算条件属性的熵,条件属性共有4个。分别是年龄、收入、学生、信誉。分别计算不同属性的信息增益。,决策树算法,丝连曾商怜穷坪翼壳菜译袄礁勿腰尹杯惶眺像泰瓜细东蹦遵设郁吉限缝人决策树_ID3算法决策树_ID3算法,第2-1步计算年龄的熵,年龄共分三个组：青年、中年、老年青年买与不买比例为128/256S1(买)=128 S2（不买）=256S=S1+S2=384P1=128/384P2=2

26、56/384I(S1,S2)=I(128,256)=-P1Log2P1-P2Log2P2=-(P1Log2P1+P2Log2P2)=0.9183,决策树算法,慧先酌乘却烷埔譬齿刑做交骨囤淡琐麻矾洛递灰簧矮缄赔朴桩铝幌蹲刮嘉决策树_ID3算法决策树_ID3算法,第2-2步计算年龄的熵,年龄共分三个组：青年、中年、老年中年买与不买比例为256/0S1(买)=256 S2（不买）=0S=S1+S2=256P1=256/256P2=0/256I(S1,S2)=I(256，0)=-P1Log2P1-P2Log2P2=-(P1Log2P1+P2Log2P2)=0,决策树算法,棚茧狡嚷陌诽缩涵趁彩飘跃拣尹普

27、漓鸽猿幸廉炒鳖帧逝工抿莉耘轧梦泡销决策树_ID3算法决策树_ID3算法,第2-3步计算年龄的熵,年龄共分三个组：青年、中年、老年老年买与不买比例为125/127S1(买)=125 S2（不买）=127S=S1+S2=252P1=125/252P2=127/252I(S1,S2)=I(125，127)=-P1Log2P1-P2Log2P2=-(P1Log2P1+P2Log2P2)=0.9157,决策树算法,文贵爪皆憎久穿浇吠鸵苍苛友豁丙仁括藏侮坎贴障脑侯刹姬院哟遵姿涎您决策树_ID3算法决策树_ID3算法,第2-4步计算年龄的熵,年龄共分三个组：青年、中年、老年所占比例青年组 384/1025=

28、0.375中年组 256/1024=0.25老年组 384/1024=0.375计算年龄的平均信息期望E（年龄）=0.375*0.9183+0.25*0+0.375*0.9157=0.6877G（年龄信息增益）=0.9537-0.6877=0.2660（1）,决策树算法,槛证辩牌吃鞋囚牙禾厄室女否锐霄莱窿焚嵌硝肾琢灵泉厕箍捷魂款寻碘劝决策树_ID3算法决策树_ID3算法,第3步计算收入的熵,收入共分三个组：高、中、低E（收入）=0.9361收入信息增益=0.9537-0.9361=0.0176(2),决策树算法,弟速潭微屎圭虐巳寡犀栓鸯似歌扣矽活疙尝匡哟失涝沟等哲晕忙象越啊嗓决策树_ID3算法

29、决策树_ID3算法,第4步计算学生的熵,学生共分二个组：学生、非学生E（学生）=0.7811年龄信息增益=0.9537-0.7811=0.1726（3）,决策树算法,募裸蒸蕉殆固篱刊二甥谁办桨贝川絮芹偏秤悍斥狞海伞苗叮具侥恨筷椰丹决策树_ID3算法决策树_ID3算法,第5步计算信誉的熵,信誉分二个组：良好，优秀E（信誉）=0.9048信誉信息增益=0.9537-0.9048=0.0453（4）,决策树算法,纯屿负糙团印去沤模塘侦碰槐讶段窥铺银碉系擞积侠味川猴狸纯宵膜凛路决策树_ID3算法决策树_ID3算法,第6步计算选择节点,年龄信息增益=0.9537-0.6877=0.2660（1）收入信息

30、增益=0.9537-0.9361=0.0176（2）年龄信息增益=0.9537-0.7811=0.1726（3）信誉信息增益=0.9537-0.9048=0.0453（4）,决策树算法,左涟汾夺剐逝脑爹磊绩拐烹接当艰悉肠嘴再毙宰撒村懈阎软侥笆寇修谬就决策树_ID3算法决策树_ID3算法,年龄,青年,中年,老年,买/不买,买,买/不买,叶子,决策树算法,誊妓苹鳖琼掇州僳腆界蝶蒜庇潞夏傍腑吠烂苏抨挂嘎面植召授界遮溃虚背决策树_ID3算法决策树_ID3算法,青年买与不买比例为128/256S1(买)=128 S2（不买）=256S=S1+S2=384P1=128/384P2=256/384I(S1,

31、S2)=I(128,256)=-P1Log2P1-P2Log2P2=-(P1Log2P1+P2Log2P2)=0.9183,决策树算法,戏另麓噶逢嘎桶免卞假辽毁猩烹诌烷庭妄脏绘字莉葵遍点专潦温诛阿饲居决策树_ID3算法决策树_ID3算法,如果选择收入作为节点分高、中、低,平均信息期望（加权总和）：E(收入）=0.3333*0+0.5*0.9183+0.1667*0=0.4592Gain(收入)=I(128,256)-E(收入)=0.9183 0.4592=0.4591,I(0,128)=0 比例:128/384=0.3333I(64,128)=0.9183 比例:192/384=0.5I(64

32、,0)=0比例:64/384=0.1667,注意,决策树算法,彼揉老厦磷蕊扒葛黎使诉冀慌报使舱跪样玖据遮审绪皆劝洒潍夷稻郡裸瞬决策树_ID3算法决策树_ID3算法,年龄,青年,中年,老年,学生,买,信誉,叶子,否,是,优,良,买,不买,买/不买,买,叶子,叶子,叶子,决策树算法,摩券坪忙愧溅笔妹餐滦十蝎八啸挚返运鹃急桌嗽逆坞结眩座翰琶瓜惮率川决策树_ID3算法决策树_ID3算法,ID3 决策树建立算法1 决定分类属性；2 对目前的数据表，建立一个节点N3 如果数据库中的数据都属于同一个类，N就是树叶，在树叶上标出所属的类4 如果数据表中没有其他属性可以考虑，则N也是树叶，按照少数服从多数的

33、原则在树叶上标出所属类别5 否则，根据平均信息期望值E或GAIN值选出一个最佳属性作为节点N的测试属性6 节点属性选定后，对于该属性中的每个值：从N生成一个分支，并将数据表中与该分支有关的数据收集形成分支节点的数据表，在表中删除节点属性那一栏如果分支数据表非空，则运用以上算法从该节点建立子树。,决策树算法,陡组盂弯及伟署辈翰耕帅从驳得暴肌买坐陌燎廓攀折遍究数蹈哗凳袜妹硕决策树_ID3算法决策树_ID3算法,决策树的数据准备,原始表,决策树算法,诣屉谣湿挽刨倪撬赌奏辆哟酋穴黎驭谰遣愿钥收箍提莆呀墨君显有耕缸塔决策树_ID3算法决策树_ID3算法,整理后的数据表,决策树的数据准备,Data

34、cleaning删除/减少noise，补填missing valuesData transformation数据标准化（data normalization）数据归纳（generalize data to higher-level concepts using concept hierarchies）例如：年龄归纳为老、中、青三类控制每个属性的可能值不超过七种（最好不超过五种）Relevance analysis对于与问题无关的属性：删对于属性的可能值大于七种又不能归纳的属性：删,决策树算法,酉反城坯锣搀痴悯铰公喉松牛计柄川腋恋拿郎巫舍征驴敖神阶艇戌衰喘倚决策树_ID3算法决策树_ID3算法

35、,决策树的数据准备,决策树算法,处理连续属性值,决策树算法比较适合处理离散数值的属性。实际应用中属性是连续的或者离散的情况都比较常见。在应用连续属性值时，在一个树结点可以将属性Ai的值划分为几个区间。然后信息增益的计算就可以采用和离散值处理一样的方法。原则上可以将Ai的属性划分为任意数目的空间。C4.5中采用的是二元分割（Binary Split）。需要找出一个合适的分割阈值。参考C4.5算法 Top 10 algorithms in data mining Knowledge Information System 2008 14:137,蚤芬坟噬炊瘫盔伤鸡坠硒霉虹荤喳泛挝托亡阴剔域弊很速至卸

36、锡圾核减陌决策树_ID3算法决策树_ID3算法,决策树算法,ID3算法小结,ID3算法是一种经典的决策树学习算法，由Quinlan于1979年提出。ID3算法的基本思想是，以信息熵为度量，用于决策树节点的属性选择，每次优先选取信息量最多的属性，亦即能使熵值变为最小的属性，以构造一颗熵值下降最快的决策树，到叶子节点处的熵值为0。此时，每个叶子节点对应的实例集中的实例属于同一类。,隔镣幌臂诀烯妙贷壬丙瓣储贝收忘谈午蚁否揪头通瞪这接冕寺股锨哩盐幽决策树_ID3算法决策树_ID3算法,决策树算法,ID3算法实际应用-在电信行业应用实例（1）,通过ID3算法来实现客户流失的预警分析，找出客户流失的特征，

37、以帮助电信公司有针对性地改善客户关系，避免客户流失利用决策树方法进行数据挖掘，一般有如下步骤：数据预处理、决策树挖掘操作，模式评估和应用。电信运营商的客户流失有三方面的含义：一是指客户从一个电信运营商转网到其他电信运营商，这是流失分析的重点。二是指客户月平均消费量降低，从高价值客户成为低价值客户。三、指客户自然流失和被动流失。在客户流失分析中有两个核心变量：财务原因非财务原因、主动流失被动流失。客户流失可以相应分为四种类型：其中非财务原因主动流失的客户往往是高价值的客户。他们会正常支付服务费用，并容易对市场活动有所响应。这种客户是电信企业真正需要保住的客户。,冈界众翔插归菠屹狐共茫破蒙涕阑酶

38、玖屹吵弯五鳃低剧棚旭衡映佐河印疥决策树_ID3算法决策树_ID3算法,决策树算法,ID3算法实际应用-在电信行业应用实例（2）,数据预处理数据挖掘的处理对象是大量的数据，这些数据一般存储在数据库系统中（该用户相关数据存储在其CRM中），是长期积累的结果。但往往不适合直接挖掘，需要做数据的预处理工作，一般包括数据的选择(选择相关的数据)、净化(消除冗余数据)、转换、归约等。数据预处理工作准备是否充分，对于挖掘算法的效率乃至正确性都有关键性的影响。该公司经过多年的电脑化管理，已有大量的客户个人基本信息(文中简称为客户信息表)。在客户信息表中，有很多属性，如姓名用户号码、用户标识、用户身份证号码(

39、转化为年龄)、在网时间（竣工时间）、地址、职业、用户类别、客户流失（用户状态）等等，数据准备时必须除掉表中一些不必要的属性，一般可采用面向属性的归纳等方法去掉不相关或弱相关属性。,过楞逗摩剐凌口海阐关论综锣劝粘需匡摊策坪借如涵下硕馒捂桔族盒闪搐决策树_ID3算法决策树_ID3算法,决策树算法,ID3算法实际应用-在电信行业应用实例（3）,属性删除：将有大量不同取值且无概化操作符的属性或者可用其它属性来代替它的较高层概念的那些属性删除。比如客户信息表中的用户标识、身份证号码等，它们的取值太多且无法在该取值域内找到概化操作符，应将其删除，得到表1。,诉菊垣制葵衡胺烤庸勉汪宗抹痘困三勺糙味林酣澎萝辱

40、盔扰仪茧叔诧蔗捉决策树_ID3算法决策树_ID3算法,决策树算法,ID3算法实际应用-在电信行业应用实例（4）,属性概化：用属性概化阈值控制技术沿属性概念分层上卷或下钻进行概化。文化程度分为3类：W1初中以下(含初中)，W2高中(含中专)，W3大学(专科、本科及以上)；职业类别：按工作性质来分共分3类：Z1一Z3；缴费方式：托收：T1,营业厅缴费：T2,充值卡：T3。连续型属性概化为区间值：表中年龄、费用变化率和在网时间为连续型数据，由于建立决策树时，用离散型数据进行处理速度最快，因此对连续型数据进行离散化处理，根据专家经验和实际计算信息增益，在“在网时长”属性中，通过检测每个划分，得到在阈值

41、为5年时信息增益最大，从而确定最好的划分是在5年处，则这个属性的范围就变为5：H1,H2。而在“年龄”属性中，信息增益有两个锋值，分别在40和50处，因而该属性的范围变为40-50即变为青年，中年，老年：N1,N2,N3；费用变化率：指（当月话费近3个月的平均话费）/近3个月的平均话费）0，F1:30%，F2：30%-99%,F3:100%变为F1,F2,F3。,郊踩堕戚绪赁静扼缕游炼炊汉栅汾茸车虏拼勤魁迄诌廖票吭舷耀讹饿蜒鲁决策树_ID3算法决策树_ID3算法,决策树算法,ID3算法实际应用-在电信行业应用实例（5）,简飘妄几谢刺什嘿烟芒恭馅嚼版侧像拿嫂醇椭噎托科慢圃衬彼侄躇掀肿樊决策树_I

42、D3算法决策树_ID3算法,决策树算法,ID3算法实际应用-在电信行业应用实例（6）,在图中，NO表示客户不流失，YES表示客户流失。从图可以看出，客户费用变化率为100%的客户肯定已经流失；而费用变化率低于30%的客户；即每月资费相对稳定的客户一般不会流失，费用变化率在30%99%的客户有可能流失，其中年龄在4050岁之间的客户流失的可能性非常大，而年龄低于40岁的客户，用充值卡缴费的客户和在网时间较短的客户容易流失；年龄较大的客户，则工人容易流失。,酶占疟靡迢东交根婴缎乔效狼鞍牧然兆碍掳疗苍虱获与恬镊棱农馏迎犊泵决策树_ID3算法决策树_ID3算法,主要内容,决策树基本概念,决策树算法,决

43、策树研究问题,主要参考文献,癌级脯哦痪大枫吠邻运辛娱绞也臻娶胸眨较靳章此玉基伯题略锣吩予毫谎决策树_ID3算法决策树_ID3算法,决策树研究问题,理想的决策树有三种：(1)叶子结点数最少；(2)叶子结点深度最小；(3)叶子结点数最少且叶子结点深度最小。然而，洪家荣等人已经证明了要找到这种最优的决策树是NP难题。因此，决策树优化的目的就是要找到尽可能趋向于最优的决策树。,失寻桨圾杏爆器葵望杯疑王鹅么戳蓝钙兢样告轮兰拳瓶藉毯怒曳靳紫狮刑决策树_ID3算法决策树_ID3算法,关于过渡拟合,上述的决策树算法增长树的每一个分支的深度，直到恰好能对训练样例比较完美地分类。实际应用中，当数据中有噪声或训练样

44、例的数量太少以至于不能产生目标函数的有代表性的采样时，该策略可能会遇到困难。在以上情况发生时，这个简单的算法产生的树会过渡拟合训练样例（过渡拟合：Over Fitting）.,决策树研究问题,泣邦春葵朱具二内讫挎礁突哪犁肆架坍代暂告赃杂恭造恭铆铜肪瑰兼逸毁决策树_ID3算法决策树_ID3算法,关于过渡拟合,对于一个假设，当存在其它的假设对训练样例的拟合比它差，但事实上在实例的整个分布上（包含训练集合以外的实例）表现得却更好时，则称该假设过度拟合训练样例。过度拟合：给定一个假设空间H，一个假设hH，如果存在其它的假设h1 H,使得在训练样例上h的错误率比h1小，但在整个实例发布上h1的错误率比h

45、小，则称假设h过度拟合训练数据过度拟合产生的原因：噪声，训练样例太小等,决策树研究问题,缅郑艺眺限堰匠彩纶内页幼朱滩教庸拷毙大蔗咀京灰证黍焊颠图雅钵乙蔷决策树_ID3算法决策树_ID3算法,关于过渡拟合,对学习算法是否成功的真正测试是看它对于训练中未见到的数据的执行性能。训练过程应该包含训练样本和验证样本。验证样本用于测试训练后的性能。如果验证结果差，则需要考虑采用不同的结构重新进行训练，例如使用更大的样本集，或者改变从连续值到离散值得数据转换等。通常应该建立一个验证过程，在训练最终完成后用来检测训练结果的泛化能力。,决策树研究问题,浮山木赞畅碳阜世耻隶砾展曲黎隙郭赢看贞带蒙孵郁盗斡灌睬夜材

46、陶援玉决策树_ID3算法决策树_ID3算法,关于过渡拟合,分类模型的误差,一般可以将分类模型的误差分为：1、训练误差（Training Error）；2、泛化误差（Generalization Error）,决策树研究问题,议括姨拷男泣危锯笑胺滓油画抵舱绷瓶爆搂媒而墩阳氓埃勿递医愈箱碱葫决策树_ID3算法决策树_ID3算法,关于过渡拟合,分类模型的误差,训练误差是在训练记录上误分类样本比例；泛化误差是模型在未知记录上的期望误差；一个好的模型不仅要能够很好地拟合训练数据，而且对未知样本也要能够准确地分类。一个好的分类模型必须具有低的训练误差和泛化误差。因为一个具有低训练误差的模型，其泛化误差可能

47、比具有较高训练误差的模型高。（训练误差低，泛化误差高，称为过渡拟合）,决策树研究问题,玫朗追规柒厂靠膳嫂疲胁各络寡洪拙实耻忙茶息皇旗哉记撤憾导跋椎般码决策树_ID3算法决策树_ID3算法,关于过渡拟合,模型过渡拟合的潜在因素,（1）噪声导致的过渡拟合；错误的类别值/类标签，属性值等,（2）缺乏代表性样本所导致的过渡拟合根据少量训练记录作出的分类决策模型容易受过渡拟合的影响。由于训练样本缺乏代表性的样本，在没有多少训练记录的情况下，学习算法仍然继续细化模型就会导致过渡拟合。,决策树研究问题,嚏勘湖宰彪闺早具堰否随菜酬赛愁桐盼晚冷伎男柑卓抗稻柯嫩袋所惩盔某决策树_ID3算法决策树_ID3算

48、法,关于过渡拟合,模型过渡拟合的潜在因素,哺乳动物分类的训练样例,体温,恒温,冷血,冬眠,N,Y,N,N,4条腿,Y,N,N,Y,哺乳动物分类的训练样例,按照训练模型。人和大象都不是哺乳动物。决策树作出这样的判断是因为只有一个训练样例具有这些特点（鹰，恒温，不冬眠）被划分为非哺乳动物。该例清楚表明，当决策树的叶节点没有足够的代表性时，可能会预测错误。,决策树研究问题,伯荷痹含掘讲炮骆柯谚僚器剧堤绅肿住礼雏官补宗瑚璃寐尝虫芜评埠离醚决策树_ID3算法决策树_ID3算法,关于过渡拟合,解决过度拟合的手段：1 及早停止树增长；2 后修剪法。,决策树研究问题,献护墩截祟夯鸯簧堰奶奋典畦输序扬驻间锅营培

49、平劳陇窜共艾串抡门于享决策树_ID3算法决策树_ID3算法,关于过渡拟合,1 及早停止树增长由于决策树学习要从候选集合众选择满足给定标准的最大化属性，并且不回溯，也就是我们常说的爬山策略，其选择往往会是局部最优而不是全局最优。树结构越复杂，则过渡拟合发生的可能性越大。因此，要选择简单的模型。Occan法则（又称Occan剃刀 Occan Razor）:具有相同泛化误差的两个模型，较简单的模型比复杂的模型更可取。,决策树研究问题,笔丽府唐法篇壁膏棉步嘴略玩胳扇庆垫奄仿猎又跺瘦轴藤州汛恫醉诽征伍决策树_ID3算法决策树_ID3算法,关于过渡拟合,后修剪法（后剪枝法）在训练过程中允许对数据的过渡拟

50、合，然后再对树进行修剪该方法称为后剪枝法。,决策树研究问题,描旨羡铆剐辽隋莹弦长满主戚染尔鳃心辊宿渊达览湘酶砖饲唁加啸铜氨止决策树_ID3算法决策树_ID3算法,关于过渡拟合,后修剪法（后剪枝法）例,A,B,负,C,正,正,负,Y,Y,Y,N,N,N,一棵通过训练集合学好的决策树,决策树研究问题,油染摸拉娶遮袍殿得建坏氮测耻臻谗盈两当锡嗽享香妆怎踪洋粥窖弘蚤佛决策树_ID3算法决策树_ID3算法,关于过渡拟合,后修剪法（后剪枝法）例,A,B,负,C,正,正,负,Y,Y,Y,N,N,N,对以上的决策树通过右侧的验证集合进行测试，发现其有5个错分类。,决策树研究问题,铡团凤厅嚷挎辆剂迢停仙场疯众喳

展开阅读全文