《一种决策树分类模型的设计与实现.ppt》由会员分享,可在线阅读,更多相关《一种决策树分类模型的设计与实现.ppt(25页珍藏版)》请在三一办公上搜索。
1、一种决策树分类模型的 设计与实现,计算机与通信学院,设计人:吴坤班 级:通信四班指导老师:钟清流,课题背景,数据挖掘技术的主要算法有:统计分析方法,神经元网络,决策树方法,遗传算法等。其中决策树分类作为数据挖掘工具和方法之一是运用树结构图的方式把数据特征直观地表述出来,可用于对数据的分类和预测,其核心是如何构造精度高,规模小的决策树。,课题研究目的,主要目的:利用matlab开发平台和统计工具箱设计并实现决策树的分类模型实验系统。决策树分类有其特有的分类过程,本实验系统的是通过算法的实现使分类的过程,剪枝的过程以及分类的结果可视化。借助Matlab软件用比较直观、鲜明的形式图形、图像来展现决策
2、树分类过程和结果。具体通过比较决策树分类与一般的二次分类和线性分类,展现决策树分类的优势。,决策树分类步骤,a)建立决策树:利用训练样本生成决策树模型。开始,数据都在根节点 递归的进行数据分片b)使用决策树对未知数据进行分类:按照决策树上采用的分割属性逐层往下,直到一个叶子节点。c)修剪决策树:去掉一些可能是噪音或者异常的数据。,决策树分类步骤:决策树表示法:,决策树的剪枝,剪枝目的其实质是消除训练集中的异常和噪声。两种剪枝标准 最小描述长度原则(MDL)做法:对决策树进行二进位编码,编码所需二进位最少的树即为“最佳剪枝树”期望错误率最小原则做法:对树中的内部节点计算其剪枝/不剪枝可能出现的期
3、望错误率,比较后加以取舍,系统功能需求,设计和实现一个图形界面的决策树分类模型。显示决策树分类、决策树剪枝过程,使实验内容、实验过程、实验结果可视化。运用决策树分类得到的分类结果和一般分类相比较,展现决策树分类优势。能对不同数据集进行处理。,系统模块架构,系统实现,图形、图像:表示数据分布散点图;表示分类区域栅格图;表示决策树表示树结构图;表示决策树代价曲线图;,系统主界面,该界面主要是设置路径和进入实验。设置路径是为了能找到运行模型所需的所有程序。,线性分类界面,界面 1.散点图 2.线性分类 3.区域划分 4.命令解释窗口,决策树分类界面,界 面 1.决策树分类 2.决策树构图 3.决策树
4、代价测试 4.选择最佳决策树 5.决策树剪枝。,散点显示数据分布,线性分类 显示,区域划分显示,分类结果,我们通过计算得到ans0.32,也就是说被错误分类的数据有32之多,也就说用线性分类所得到的效果并不好。,决策树分类显示,决策树构图,决策树代价测试,决策树剪枝,结果分析,由分类得到ans=0.09,即在150个样本中,只有9%样本被错误分类。从误差比较中很容易看出决策树分类具有更高的精度。,误差比较,总 结,研究过程中所遇到的困难 此课题所包含的概念、内容、理论在本科阶段并无涉及,所以掌握难度比较大。matlab虽然在矩阵、数组运算上有优势,但是对于用其开发全图形界面却有一定难度,这也是为什么很少见到全图形界面的Matlab系统软件的原因之一。,总 结,收 获 通过本次毕业设计,我学习到了新的理论知识,掌握了一门新的编程语言,培养了学习能力,使自己各方面能力得到了提高。,感 谢,衷心感谢各位老师的指导 你们辛苦了!,