《决策树方法应用实例ppt课件.ppt》由会员分享,可在线阅读,更多相关《决策树方法应用实例ppt课件.ppt(16页珍藏版)》请在三一办公上搜索。
1、例:构造决策树。下表给出了取自AllElectronics顾客数据库元组训练集。,解:由题意可知:s14,类标号属性“购买电脑”有两个不同值(即会购买,不会购买),因此有两个不同的类(即m2)。设类C1对应于“会购买”,类C2对应于“不会购买”。则s19,s25,p19/14,p2=5/14。计算对给定样本分类所需的期望信息:计算每个属性的熵。先计算属性“年龄”的熵。对于年龄“=30”:s112,s213,p11=2/5,p21=3/5,对于年龄“3140”:s12=4,s22=0,p12=4/4=1,p22=0,,对于年龄“40”:s13=3,s23=2,p13=3/5,p23=2/5,如果
2、样本按“年龄”划分,对一个给定的样本分类所需的期望信息为:因此,这种划分的信息增益是 Gain(年龄)=I(s1,s2)-E(年龄)=0.246。计算“收入”的熵。对于收入“高”:s11=2,s21=2,p11=0.5,p21=0.5,对于收入“中等”:s12=4,s22=2,p12=4/6,p22=2/4,,对于收入“低”:s13=3,s23=1,p13=3/4,p23=1/4,如果样本按“收入”划分,对一个给定的样本分类所需的期望信息为:因此,这种划分的信息增益是 Gain(收入)=I(s1,s2)-E(收入)=0.940-0.9110.029。计算“学生”的熵。对于学生“是”:s11=6
3、,s21=1,p11=6/7,p21=1/7,,对于学生“否”:s12=3,s22=4,p12=3/7,p22=4/7,如果样本按“学生”划分,对一个给定的样本分类所需的期望信息为:因此,这种划分的信息增益是 Gain(学生)=I(s1,s2)-E(学生)=0.940-0.7890.151。计算“信用等级”的熵。对于信用等级“一般”:s11=6,s21=2,p11=6/8,p21=2/8,对于信用等级“良好”:s12=3,s22=3,p12=3/6,p22=3/6,,如果样本按“信用等级”划分,对一个给定的样本分类所需的期望信息为:因此,这种划分的信息增益是 Gain(信用等级)=I(s1,s
4、2)-E(信用等级)=0.940-0.8920.048。由于“年龄”属性具有最高信息增益,它被选作测试属性。创建一个节点,用“年龄”标记,并对每个属性值引出一个分支。样本据此划分,如图所示。,表1 年龄=30,当年龄=30时,对应于表1。S5,设类C1对应于“会购买”,类C2对应于“不会购买”。则s12,s23,p12/5,p2=3/5。计算对给定样本分类所需的期望信息:计算每个属性的熵。先计算属性“收入”的熵。对于收入“高”:s110,s212,p11=0,p21=1,,对于收入“中等”:s12=1,s22=1,p12=1/2,p22=1/2,对于收入“低”:s13=1,s23=0,p13=
5、1,p23=0,如果样本按“收入”划分,对一个给定的样本分类所需的期望信息为:因此,这种划分的信息增益是 Gain(收入)=I(s1,s2)-E(收入)=0.971-0.0.40.571。,计算“学生”的熵。对于学生“是”:s112,s210,p11=1,p21=0,对于学生“否”:s120,s223,p12=0,p22=1,如果样本按“学生”划分,对一个给定的样本分类所需的期望信息为:因此,这种划分的信息增益是 Gain(学生)=I(s1,s2)-E(学生)=0.971-00.971。,计算“信用等级”的熵。对于信用等级“一般”:s111,s212,p11=1/3,p21=2/3,对于信用等
6、级“良好”:s121,s221,p12=1/2,p22=1/2,如果样本按“信用等级”划分,对一个给定的样本分类所需的期望信息为:因此,这种划分的信息增益是 Gain(信用等级)=I(s1,s2)-E(信用等级)=0.971-0.9510.02。,由于“学生”属性具有最高信息增益,它被选作测试属性。创建一个节点,用“学生”标记,并对每个属性值引出一个分支。同理,对表2进行计算。得出属性“信用等级”具有最高信息增益,它被选作测试属性。创建一个节点,用“信用等级”标记,并对每个属性值引出一个分支。最终构造的决策树如下图所示。,表2 年龄40,由决策树产生分类规则,对上图进行分析,提取的关联规则是:
7、IF 年龄“40”AND 信用等级“良好”THEN 购买电脑“不会购买”IF 年龄“40”AND 信用等级“一般”THEN 购买电脑“会购买”,论文中的应用,题目:决策树算法的研究与应用 作者:杨静1,张楠男2,李建1,刘延明1,梁美红1(1西南石油大学,四川成都610500;2西南油气田分公司信息中心,四川成都610500)发表期刊:计算机技术与发展 第20卷第2期 2010年2月 摘要:主要研究了数据挖掘中决策树算法的基本思想和算法。针对目前钻井过程故障诊断的需求,结合决策树算法的特点,提出了一种基于决策树的钻井过程故障诊断专家系统模型。分析了钻井系统事故状态下的相关特征参数,并对基于决策树的钻井过程状态和知识获取进行了详细的论述。通过实例运用ID3算法实现了决策树的建立,为钻井过程故障诊断奠定了坚实的基础。最后提出了对算法的改进,综合对实际数据的处理结果表明,基于数据挖掘的决策树算法可以很好地识别钻井过程中的不同状态,能够实现故障诊断。,论文中的应用,结语:文中在论述了决策树算法的基础上,结合钻井工程与工艺,将决策树应用于这一领域。利用决策树知识表示与获取集于一身的优点,对基于决策树的钻井过程故障诊断专家系统提出了初步的应用模型。但该算法对大量数据的实现还有待下一步的工作去改进。可以继续研究:可以学习ID3算法的改进C4.5算法,并结合应用。,