基于MapReduce的ID3决策树分类算法研究.doc

资源描述

《基于MapReduce的ID3决策树分类算法研究.doc》由会员分享，可在线阅读，更多相关《基于MapReduce的ID3决策树分类算法研究.doc（5页珍藏版）》请在三一办公上搜索。

1、计算机与现代化JISUANJI YU XIANDAIHUA2012 年第 2 期总第 198 期文章编号: 1006-2475( 2012) 02-0026-05MapReduceID3基于的决策树分类算法研究钱网伟( 同济大学电子与信息工程学院，上海 201804)摘要: 决策树算法是经典的分类挖掘算法之一，具有广泛的实际应用价值。经典的 ID3 决策树算法是内存驻留算法，只能处理小数据集，在面对海量数据集时显得无能为力。为此，对经典 ID3 决策树生成算法的可并行性进行了深入分析和研究，利用云计算的 MapReduce 编程技术，提出并实现面向海量数据的 ID3 决策树并行分

2、类算法。实验结果表明该算法是有效可行的。关键词: 云计算; 数据挖掘; 决策树;ID3; MapReduce中图分类号: TP301 6文献标识码: Adoi: 10 3969 / j issn 1006-2475 2012 02 008Research on ID3 Decision Tree Classification Algorithm Based on MapReduceQIAN Wang-wei( School of Electronics and Information Engineering，Tongji University，Shanghai 201804，China)Ab

3、stract: Decision tree is widely used in data mining which is one of the typical classification algorithms Traditional ID3 treelearning algorithms require training data to reside in memory on a single machine，so they cannot deal with massive datasets To solve this problem，this paper analyzes the para

4、llel algorithm of ID3 decision tree based on MapReduce model，then proposes a parallel and distributed algorithm for ID3 decision tree learning The experimental results demonstrate the algorithm can scale well and efficiently process large-scale datasets on commodity computersKey words: cloud computi

5、ng; data mining; decision tree; ID3;MapReduceMPI 的并行分布式 SPRINT5决策树算法。该算法通过每个节点保存相应的属性表以及维护属性表的 Hash 表来实现并行运算，这将导致数据过度冗余，从而影响超大规模数据处理效率，这就需要一种新的计算模型。云计算( Cloud Computing) 是一种新近提出的计算模式，是分布式计算( Distributed Computing) 、并行0引言分类是数据挖掘的主要任务，其中决策树分类是分类挖掘的常用模型，是经典的机器学习算法之一。它能够通过训练数据集的学习来产生相应的决策规则树，目前已成功地应

6、用于 Web 智能、金融分析、天文学和分子生物学等领域1。C4 5 决策树算法更是被 ICDM 评为十大经典的数据挖掘算法之一并位居榜首2。传统的决策树算法有 ID33、C4 54等。但是，随着信息量爆发性地增长，传统内存驻留的决策树算法在处理海量数据时性能问题日益突出，大规模海量数据与处理任务不可能由一般的计算机在规定的时间内完成。为了解决算法内存驻留问题，通过引入高效的数据结构和数据调度策略等来改造决策树学习过程的算法相继提出，如 John Shafer 等提出了基于计算( Parallel Computing) 和网格计算( GridCompu-MapRe-6。ting)

7、的发展云计算的兴起，尤其是7-8duce框架( 如图 1 ) 的提出，使得大规模数据集可以在普通机器集群上实现并行运算，通过 Map 和 Re-duce 两个阶段实现大规模数据的映射和化简。9作为分布式文件系统也是云计算的关键技术，GFS它是 Google 云计算海量的数据存储的有力平台，并采用数据冗余等技术提供了一套完善的容错机制。10是云计算的开源系统并实现了 Google 云计Hadoop算的主要技术( MapReduce、GFS 等) ，是 Apache 开源组织的一个并行分布式计算框架，它具有较高的可靠收稿日期: 2011-10-2

8、1作者简介: 钱网伟( 1986-) ，男，江苏镇江人，同济大学电子与信息工程学院硕士研究生，研究方向: 数据挖掘，云计算。性和扩展性。近年来云计算技术发展迅猛，并且运用于机器学习领域11-12，其中 MapReduce 已经广泛应用于 Amazon、Google、Baidu、阿里巴巴等国内外知名企业的云计算系统，具有强大的生命力。Dm ) 。递归划分步骤仅当下列条件之一成立时停止: ( 1) 集合 D 所有元组属于同一类;( 2) 没有剩余属性可以进一步划分元组，那么就使用多数类表决;( 3) 给定的分支中没有元组( 即 Di 为空) ，此时用父节点中的多数类标记。1 2 属性度量选择不

9、同的决策树算法之间的一个重要区别就在于决策属性选取标准的不同。生成决策树时，常用属性度量标准有以下几种: 信息增益、增益率、GINI 指标1。信息增益是 ID3 使用的属性选择度量，在节点 N存放的 D 的元组，选择最高信息增益的属性作为 N 的分裂属性。该属性使结果划分中的元组分类所需的信息量最小，并反映这些划分中的最小随机性或“不纯性”。对于 D 元组分类所需的期望信息:m图 1 MapReduce 的工作模式本文深入研究 MapReduce 编程框架，对经典决策树算法进行了深入的研究和剖析，利用决策树度量属性重要性是基于属性间的相互独立性的原则，提出了

10、面向海量数据的云计算环境下决策树生成算法，并利用 Hadoop 开源平台实现了该算法。实验结果表明该算法不仅具有高效性，而且能够处理海量数据。1经典决策树算法Hong J R 已经证明决策树生成算法是一个 NP-Info( D)= pi log2 ( pi )( 1)i = 1其中，pi 是 D 中任意元组属于类 Ci 的概率，并用| Ci，D | / | D | 估计。基于按属性 A( v 个不同值) 划分对 D 的元组分类所需要的期望信息:Hard 问题13，所以经典决策树一般采用贪心、分治的思想，由顶向下的递归方式生成。它通过在决策树内部节点上进行评估来选择最佳

11、决策属性，并根据该属性的不同属性值对该节点进行分支，最终在决策树的叶子节点上得到分类结论。决策树从根节点开始的每一条路径均对应着一条分类规则，整棵决策树则对应了一组决策规则集。vInfoA ( D) = Info( Dj )( 2)j = 1信息增益为原来的信息需求与新的需求之间的差:Gain( A) = Info( D) Info ( D)( 3)A1 1经典 ID3 算法经典的深度优先生成决策树 ID3 算法如下:本文采用 C4 5 的增益率度量标准。增益率在选取属性时避免了信息增益中对大量值属性的偏倚，算法 1Decision Tree( R，C，D) 。从而提高了决策树的分类

12、准确率。它定义了一个分裂信息:输入: 属性集 R，类别属性集 C，训练集 D。输出: 决策树。vSplitInfoA ( D)= j = 1 log2( 4)( 1)( 2)记 N;( 3)创建节点 N;由公式( 3) 、( 4) 进一步得到增益率，并选取具有最大增益率的属性作为分裂属性:ifD 为空 then 返回父节点中的多数类标Gain( A)else if D 中属于同一个类别 c then 以类 cGainRatio( A) =( 5)SplitInfo( A)标记 N 为叶节点;( 4) else if记 N;R 为空then返回 D 中多数类标2云计算下决策树算法中并

13、行化思想云计算技术传统的决策树算法是内存驻留算法，整个生成决2 1( 5) else 计算并选出 R 中增益率最大的属性 S并用 S 标记节点 N;( 6) 根据属性 S 的取值 si | i = 1，2，m 将训练集合 D 分割为 Di | i = 1，2，m ;策树过程的所有数据计算必须同时在内存中进行，并且它只能在单机上运行，这就大大地影响了算法的伸( 7)递归执行 DecisionTree ( R-S，C，D1 ) ，Deci-缩性，因此它不能处理大规模数据。云计算的出现，sion Tree ( R-S，C，D2 ) ， Decision Tree ( R-S，C，为解决这一问题提供

14、了强有力的工具，使得用传统经DjDDjDDjD28计算机与现代化2012 年第 2 期典的数据挖掘算法处理大规模数据成为可能。MapReduce 是一种处理海量数据的并行编程模式。用户将实际应用问题分解成若干可并行操作的子问题，设计相应的 Map 和 Reduce 两个函数，就能将自己的应用程序运行在云计算环境中。Map 函数是接收一组输入键值对 in-key，in-value ，然后通过某种计算，产生中间结果键值对，而 Reduce 函数接收一个中间结果 key 和对应此 key 的一组 value 值，value-sum 进行 Hash 映射。根据计算增益率所需的参数建

15、立若干个 Hash 表。然后，能通过 Hash 查询从而快速地批处理地计算同一层次的各个训练集 Di 的每个属性的增益率，并选取 Di 中最大增益率的属性作为分裂属性。3基于 MapReduce 的决策树算法实现本算法通过一个划分条件集队列 Q，来实现基于然后通过归并处理，最终形成value 。 final-key，final-层次切分数据和同一层次各个训练集分裂属性的选取。利用队列先进先出原则，从队头到队尾依次对 Q中每个对象( 即划分条件) 进行标记临时 nid 号( 1，2，| Q | ) 。根据上一节描述的设计思想，结合 Al- lEle

16、ctronic 顾客数据训练集( 见表 1) 以及该数据训练2 2决策树的并行化通过分析发现，属性选择度量在决策树生成阶段是最为关键的任务，选取最佳分裂属性的阶段是整个决策树生成中占用计算资源最大的阶段。利用云计算的 MapReduce 对这个阶段进行最大化的并行计算是决策树算法并行化的突破口。由于信息增益率计算是基于属性间相互独立的，所以可以利用 MapReduce 并行地统计出计算增益率所需要的各个属性的相关信息。最后，在主程序中可以快速地计算增益率，并选取最佳分裂属性。具体设计思想如下:1集产生的决策树( 如图 2)，简述 3 个关键函数的算法实现:表 1 AllElectro

17、nic 顾客数据训练集2 2 1Map 阶段设计思想Map 阶段主要是对大规模数据按照划分条件进行切分，划分条件就是该节点在决策树中的路径。通过实验证明，切分数据的时间几乎覆盖了整个程序运行的时间。为此，本文提出的是基于层次切分数据的广度优先生成多叉树算法。假设对训练集 D，划分在决策树的同一层的 n 个节点: D1 ，D2 ，Dn ，必定满足:D D = D1 D2 Dn其中，D为已生成叶节点的子训练集，且满足:D1 D2 Dn = 那么，Map 函数的主要任务就是以单个元组的形式分解数据，并以 key，value 的形式输出 D1 ，D2 ，Dn 。其中 key 由子训练集的临时 n

18、id ( 记为 i，则Di 表示同一层次的第 i 个子训练集) ，决策表的某个属性 S，该元组对应属性 S 的值 s 以及该元组的所属决策类 c 组成的; value 值为 1 即可。2 2 2 Reduce 阶段设计思想Reduce 阶段的任务相对单一，即完成对 Map 输出的 key，value 进行以相同 key 值的 value 值累加得到 value-sum。同时，输出 key，value-sum 到分布式文件系统 HDFS 中。对上述决策表有决策树模型:图 2 AllElectronic 顾客数据训练集产生的决策树算法 2Map( DataItem，Q) 。输入: 训练数据集

19、D，条件集队列 Q( Map 以元组DataItem 的形式分解训练集 D) 。输出: key，value 组。( 1)( 2) ( 3)value = 1;if Q 为空 thenfor 所有属性 dokey = 1 #属性号，对应属性值，所属类，( 4) else if条件 thenQ 非空且 DataItem 满足 Q 中第 i 个( 5) for 所有候选属性 do( 6)key = i#候选属性号，对应属性值，所属类2 2 3 ，value = 1;主程序的设计思想该阶段首先对 MapReduce 的最终输出 key，( 7)输出 key，value ridagei

20、ncomestuCreditBuy1youthhighnoFairno2youthhighnoexcellentno3middlehighnoFairyes4seniormediumnoFairyes5seniorlowyesFairyes对于表 1 中数据，生成在决策树( 图 2 ) 第 3 层节( 4 )Hash 表; ( 5)( 6)MapReduce读取输出结果并映射若干点的条件集队列 Q 为 ( 1，youth ) ( 3，no ) ，( 1，ifQ 为空 then i = 1 并跳至步骤( 7) ;youth) ( 3，yes) ，( 1，senior)

21、 ( 4，fair) ，( 1，senior) ( 4，excellent) ，该队列 Q 对应的树模型如图 3 的虚框内:for i from 1 to | Q |do / for 循环对 1 至 | Q |号节点进行了最佳分裂属性的选取和类的决策。( i代表同一层次自左向右的第 i 节点，以下操作皆为对每个 Hash 表中 nid 号为 i 的数据进行处理)( 7)if 划分数据为空then将划分条件 + 父节点多数类放入决策规则集 R;( 8) elseif 所有类同为类 c then 将划分条件 +类 c 放入决策规则集 R;( 9) elseif 划分条件长度 = 阈值 then 将

22、划分条件 + 该节点的多数类放入决策规则集 R;( 10) else 计算各属性的增益率，取最大的作为分裂属性，分别将划分条件 + 该属性的每个属性值依次放入数据划分条件队列 Q;( 11) end for;图 3 Map 函数处理第三层数据Map 函数利用虚框中条件集 Q 分解整个训练集 D，对于 rid = 9 的元组: 因为该元组满足 Q 中第 2 个元素( 1，youth) ( 3，yes) ，所以把其归入 nid = 2 的节点中，那么该元组的 key，value 组为 ( 2 #2，low， yes) ，1 ， ( 2 #4，fair，yes) ，1 ; 其它所有元组的 k

23、ey，value 组依此类推得到。( 12) while( Q 非空) 根据 AllElectronic 顾客数据训练集，本算法通过实验输出的规则集 R 为: ( 1，middle: yes) ，( 1，youth 3，no: no) ，( 1，youth 3，yes: yes) ，( 1，senior 4，fair: yes) ，( 1，senior 4，excellent: no) 。算法 3Reduce( key，value) 。4实验输入: Map 输出的 key，value 组。输出: key，value-sum 组。( 1) for 所有相同 key 则 value-sum + =

24、 value;( 2) 输出 key，value-sum / Key = ( nid #属性号，属性值，类名) ; Value-sum = 相同 key 的总数。根据之前 Map 的输出得到，nid = 1 节点的 3 条数据对应的 Map 输出的 key，value 组为 ( 1 #2， high，no) ，1 ， ( 1 #4，fair，no) ，1 ， ( 1 #2，high， no) ，1 ， ( 1 #4，excellent，no ) ，1 ， ( 1 #2，medi- um，no) ，1 ， ( 1 #4，fair，no) ，1 ; 那么 Reduce 输出的 key，valu

25、e-sum 组为 ( 1 #2，high，no) ，2 ， ( 1#4，fair，no) ，2 ， ( 1 #4，excellent，no) ，1 ，( 1#2，medium，no) ，1 。其它所有节点的 key，val- ue 组依此类推得到。基于层次切分数据的广度优先生成多叉树算法:因为本算法是对传统算法实现并行化，算法对AllElectronic 顾客数据集分类输出的决策规则集与传统算法产生的决策树是一致的，并未改变传统决策树算法的分类精确度，所以实验仅对算法的高效性和可扩展性进行论证。软件环境: Hadoop-0 20 2，UbuntuLinux 9 04，Jdk6 0。硬件环

26、境: 7 台 PC 机，其中 1 台 Master 和 6台 Slave。每台的机器配置为: CPU P4，内存 512M，网卡 100M。实验数据来自 UCI，具体描述如表 2 所示。表 2 Nursery 数据集描述算法 4Generating-DecisionTree( D) 。为产生大规模数据，本实验采用了 Nursery 数据输入: 大规模数据训练集 D。输出: 决策规则集 R。集复制的手段分别产生了 100M、300M、500M、800M、1G 的数据集，并分别在 1、2、4、6 台机器组成的集群运行，得到如图 4 的运行时间图。( 1)( 2) ( 3)模数据创建条件队列 Q;d

27、o执行 MapReduce( D，Q) ;/ 并行处理大规数据集特征:多变量元组数:12960领域:社会属性类型:离散属性个数:8捐献日期:1997-06-01缺失值:不包含Web 点击量:2258930计算机与现代化2012 年第 2 期图 6 不同机器数的加速比图 4 不同数据量的运行时间由于切分数据的 Map 函数覆盖了程序运行的绝大多数时间，其中决策树一层的节点越多切分数据的时间就越长，图 5 是 1G 数据( 即 1 107 条数据) 在不同层次的运行时间。在图 5 中，笔者发现在第 7 层的时候运行时间达到最大，是因为此时的节点数是最多的。从第一层开始每层的节点数分

28、别为: 1、3、10、31、74、100、160、16、4。在图 5 中可以看到随着 Slave 数的增加，各节点尤其是第 7 层切分数据的时间得到大幅度下降。所以随着属性值个数的增加引起同一层次节点数的增加，可以通过动态添加 Slave 来提高算法的效率。因此本算法具有较高的可扩展性。5结束语传统的决策树算法是内存驻留算法，不能对海量数据进行决策分类。本文提出一种基于 MapReduce的大规模数据集决策树生成的算法，并将其运行在 Hadoop 的云计算平台上，通过实验和分析发现，该算法对大规模数据分类是高效可行的，具有较好的扩展性，是可以处理大规模海量数据的。参考文献:1韩家炜，坎

29、伯数据挖掘概念与技术( 第 2 版) M 范明，孟小峰译北京: 机械工业出版社，2007Kumar V The top ten algorithms in data miningJ Knowl- edge and Information Systems，2008，14( 1) : 1-37Quinlan J R Induction of decision treeJ Machine Learn- ing，1986，1( 1) : 81-106Quinlan J R C45: Programs for Machine LearningM Morgan Kaufmann Publisher，1

30、993: 27-48Shafer J，Agrawal R，Mehta M SPRINT: A Scalable Parallel Classifier for Data MiningR Research Report IBM Alma- den Research Center，San Jose，California，1996: 544-555刘鹏云计算M 北京: 电子工业出版社，2010 陈康，郑纬民云计算: 系统实例与研究现状J 软件学报，2009，20( 5) : 1337-1348Jeffrey D，Sanjay G MapReduce: Simplied data process

31、ing onlarge clustersC/ Proceedings of the 6th Sympesium on Op- erating System Design and Implementation 2004: 137-150 Ghemawat S，Gobioff H，Leung S T The Google file systemC/ Proceedings of the 19th ACM Symposium on Operat- ing Systems Principles 2003: 29-432345678图 5 决策树各层次运行时间图 6 给出的是 2、4、6 台机器相对于

32、1 台机器的加速比。在图中，发现 2 台 Salve 时的加速比处于 2 左右，在 4 台和 6 台的时候，加速比并未全部达到 4 或是 6 左右。为此，下面以 4 台 Slave 下 500M 和800M 数据的加速比为例分析其原因:MapReduce 对数据的处理一般是以 64M 为一个单位10，14，所以当数据为 500M 的时候，就有 8 个单位的数据块。那么对于 1 台 Slave 的集群需要计算 8 次，而对于 4 台 Slave 的集群只需两次，此时加速比固然为 8 /2 = 4; 而当数据为 800M 的时候，就有 13 个单位的数据块，对于 1 台 Sla

33、ve 的集群需要计算 13 次，而对于 4 台 Slave 的集群需要 4 次，此时加速比为13 /4 = 3 25。910 Tom W Hadoop: The Definitive GuideM Sebastopol: OReilly Media，Inc，200911 Chu C T，Kim S，Lin Y A，et al MapReduce for machine learn- ing on multicoreC/ Proceedings of NIPS 2006: 281-28812 钱进苗夺谦张泽华云计算环境下差别矩阵知识约简算法研究J 计算机科学，2011( 8) : 193-196，， 13 Hong J R AE1: An extension approximate method for gen-eral covering problemJ International Journal of Comput- er and Information Science，1985，14( 6) : 421-43714 The Apache Software Foundation Apache HadoopEB / OLhttp: / hadoop apache org / ，2011-08-13

展开阅读全文