毕业设计（论文）基于决策树算法对大学生消费状况的研究.doc

资源描述

《毕业设计（论文）基于决策树算法对大学生消费状况的研究.doc》由会员分享，可在线阅读，更多相关《毕业设计（论文）基于决策树算法对大学生消费状况的研究.doc（56页珍藏版）》请在三一办公上搜索。

1、JIU JIANG UNIVERSITY 毕业论文题目基于决策树算法对九江学院消费状况的研究英文题目Research on Consumption of Jiujiang University Based on Decision Tree Algorithm 院系信息科学与技术学院专业信息管理与信息系统姓名班级学号指导教师二一五年五月摘要在大数据时代，数据成为了人们关注的焦点。在我们生活的过程中会产生很多数据。当数据量巨大并且杂乱无章的时候，数据挖掘在处理这些数据中扮演着一个特别重要的角色，我们可以通过数据挖掘技术从海量的数据中挖掘出有价值的信息。近年来，

2、人们开始更多的关注与自己生活有关的数据。大学生在其日常的消费过程中产生的数据量十分庞大。这些数据中蕴含着大量的信息，需要我们去发现。本文主要研究的是九江学院大学生的宏观消费状况。本文采用了网络问卷调查的方式随机收集了九江学院在校大学生的部分消费数据。我们对收集的数据进行预处理并得到完整可靠的的数据样本，然后把这些数据以表格的形式存储于MySQL数据库中并建立可用的数据源。数据准备工作结束后，使用不同的决策相关的算法对数据建模。本文的目的是基于决策树算法对九江学院消费数据的研究，通过对算法的比较，选择了合适的决策树算法。使用的算法包括C5.0和CHAID。本文把研究目的细分为以下两项：基于决策

3、树C5.0研究九江学院大学生消费状况对学生是否加兼职的影响；基于决策树CHAID研究九江学院大学生消费状况对学生是否能够领取贫困助学金的影响。最后通过相应的决策树算法建立了不同的决策树和规则集，并对决策树和规则集进行了分析与评估。关键词：大数据，数据挖掘，消费，决策树Abstract In the era of big data, data becomes the focus of attention.We will produce a lot of data in the course of our lives .When the data becomes large and unsyste

4、matic, data mining plays a particularly important role in dealing with these data , we can mining valuable information from the vast amounts of data through the technology of data mining . In recent years, people start to given more attention on their related data with life .College students produce

5、 a huge amount of data associated with the consumption in everyday.We need to find a lot of information in these data.This paper mainly studies the Jiujiang university studentsconsumption situation.And in this paper,I random collected the date of Jiujiang university college students consumption by u

6、sing the network questionnaire.We preprocessed the data which we collected and got a complete and reliable data samples,then,we stored the data in the form of a table in the MySQL database and established the available data sources .After the preparation of data ,we used different algorithm decision

7、 for data modeling.The purpose of this article is based on algorithmic decision tree on the research of the consumption data of Jiujiang university,we select the appropriate algorithmic decision tree by comparing algorithms.The algorithmic have been used including C5.0 and CHAID.Our research objecti

8、ve was subdivided into the following two:Research on Consumption of Jiujiang University Based on C5.0 to find out the effects about whether to take part-time jobs;Research on Consumption of Jiujiang University Based on CHAID to find out the effects about whether to have chance to get financial aid.F

9、inally,different decision trees and rule sets were established by using algorithms of decision tree,then we analyzed and evaluated the decision tree and rule sets.Keywords:Big Data , Data Mining, Consumer, Decision Tree目录摘要IAbstractII1 绪论1.1课题研究的背景（1）1.2选题的意义（2）1.3决策树挖掘的研究现状（3）1.4论文的组织结构（4）2 什么是数据

10、挖掘2.1数据挖机的基本概念（6）2.2数据挖掘的过程（6）2.3数据挖掘的相关技术（8）2.4选定本课题使用的软件（12）3 决策树算法的研究3.1决策树算法的概述（17）3.2决策树基本算法的介绍（20）3.3适用课题研究的算法及原因（29）4 基于决策树算法对九江学院大学生消费状况的研究4.1九江学院大学生的消费状况调查（31）4.2消费数据的收集与处理（32）4.3决策树的挖掘结果（34）4.4研究结果总结（45）5 总结与展望5.1总结（47）5.2展望（47）致谢（49）参考文献（50）1 绪论1.1课题研究的背景自从20世纪80年代开始，计算机数据库技术越来越成熟，各行业也越

11、来越重视对自身数据的收集与处理。因此许多行业通过不同的方式获得的数据量惊人。由于人们逐渐有了提取数据中的信息的意识，因此数据挖掘技术发展的越来越成熟。国外非常重视数据中存在的价值，因此不乏数据挖掘的案例。随着互联网技术的发展，基于互联网平台进行销售的商城、书店、营业厅关于web点击流量的存储容量的大小已经到达了GB级1。这些数据中潜藏着很多十分有用的信息。例如国外某连锁超市就是通过对大量数据的分析发现顾客购买尿布后再去购买啤酒的关联性非常的大，然后根据这条关联规则，把啤酒喝尿布放相邻位置销售，结果销量相比没有放在一起销售前有了显著的上升。如今经济市场的竞争十分的激烈，为了能够更深入的了解市场及

12、自身的状况，也为了能够为企业的发展作出更好的决策，许多企业的管理者开始寻求能够提高企业经济效益以及确保企业长远发展的方法。有许多企业管理者会使用优秀的数据挖掘工具分析企业数据，并从中得到对管理企业有帮助的重要信息。因此，人们逐渐把数据挖掘技术运用到商业领域，并且引发了一系列管理、营销策略的变化。比如，在国外使用数据挖掘技术帮助从政的案例：2012年美国总统奥巴马成功连任后，有媒体报道，奥巴马投入了巨额费用使用数据挖掘技术，有效锁定目标选民后即时调整广告投放策略，因此这极大的帮助了奥巴马赢得选举。而在国内数据挖掘技术发展比国外更晚，但是发展十分迅猛，研究消费数据方面的案例十分的丰富。大部分对数据

13、挖掘技术研究重点偏向于商业应用方面。大学生是比较特殊的消费群体，其产生的海量消费数据中蕴含很多有用的信息，这些通过数据挖掘获取的信息对商家提高自己的经济效益有很大的帮助。在校大学生在生活中所产生数据量不容小视。我们知道校园管理人员的日常工作是十分繁琐与辛苦的，如果能从与学生生活息息相关的消费数据中分析得出大量的信息，并且这些信息能够有助于学生的学习和生活以及老师的教学与管理，那么这将更加能够说明数据挖掘的价值与意义。1.2选题的意义如今国内大学入学率越来越高，随之而来的是学校对于培养学生的良好的消费习惯和价值观的任务变得举足轻重。我们的消费不仅能够影响我们的学习，还能够影响我们的人生观。研究人

14、员对大学生消费的研究并不多，而且使用数据挖掘技术来分析大学生消费行为的就更屈指可数了。以往对大学生消费调查与研究所得的结果大部分比较浅显。在大数据时代我们可以使用数据挖掘技术从海量的消费数据中研究当今大学生的消费行为，并能够从中得到便于学校更好的教育莘莘学子的决策树或者规则集。比如，我们可以找到到九江学院大学生在课余时间有意愿做兼职或者勤工助学的消费特征，根据这些消费特征我们可以更准确的判断哪些学生会有兼职或勤工助学的趋势，这样学校就可以为那些预测结果为极有可能去兼职的学生做相应的引导或者帮助；我们也可以从消费数据中挖掘出判断学生电话消费档次的决策树，通过不同的规则，电信运营商可以推出更贴合学

15、生需求的话费套餐；我们还可以从消费数据中挖掘出能够判断学生能否申请到贫困补助的决策树。每个学校都有本校学生申请贫困补助的评选标准，校园管理者可以使用通过数据挖掘学生的各种数据而得到的关于是否能够成功申请贫困补助的决策树，作为评选贫困生的参考。本次课题对我的挑战非常的大。我来自信息管理与信息系统专业，平时对数据挖掘这门技术了解比较少。如今获知的一些关于大数据的信息让我更清楚的认识到我们生活中的数据中蕴含巨大的价值，以及更深刻的认识到在大数据时代数据挖掘技术的重要性。而且我发现The Big Talk栏目就有好几期节目涉及到大数据的应用。2015年3月15号，马云在德国汉诺威国际博览会开场演讲中

16、提到“未来的世界，我们将不再由石油驱动，而是由数据驱动，有一种东西将在机器中流动，那就是数据.”。我最终选择了这个课题是因为我认为这个课题将会让我更多的了解数据挖掘技术。选定课题后，在课余时间，我会向图书馆借阅关于数据挖掘的书籍，平时也会通过网络平台了解关于数据挖掘方面的知识，同时关注一些有关数据挖掘的论坛或者QQ群。只要一有疑惑，我会立即向那些对数据挖掘技术有更深入了解的人寻求帮助。选择这个课题不仅仅是因为我个人的兴趣，更多在于我的导师对数据挖掘这门技术的价值的远见卓识。我非常希望自己通过该课题能够对数据挖掘有深刻的理解，并且能通过这次研究获得让自己和导师满意的研究成果。1.3决策树挖掘的研

17、究现状决策树算法被提出至今有一个多世纪的时间了，算法的种类特别的多，但是大部分算法存在局限性。比如，只能处理较小的数据集而且被处理的数据集必须一直存储在内存当中。如今我们不难发现大部分决策树算法面对当今存放在数据库或者数据仓库中的海量数据有种无能为力的感觉，种种迹象让我们知道传统的决策树算法不管在预测精度方面还是运算效率方面都已经跟不上市场对数据挖掘算法需求的步伐了。针对这些的问题，不少研究算法的人员花了非常大的心血去改进算法或者创造新的算法，并主要从处理数据集的功能方面对算法进行了改进，使得算法能够适用于大数据集的挖掘。在我们身边有许多数据挖掘的工具，其中已经集成了决策树算法的工具非常的多

18、，例如：SAS、IBM Intrlligent Miner、MSMiner、Clementine等用于分析数据的产品，并且这些数据挖掘工具被广泛的运用于商业市场。虽然各种与决策树相关的算法被广泛的应用，但是还是存在很多问题，比如，如何去管理非常大的数据集；如何进一步提高预测的精度；如何更完美的处理更复杂的数据集。国外在较早的年代就开始了对数据挖掘这门技术的研究。在美国的一所国立医学图书馆中就有与数据挖掘的论文成全上万篇。国外研究出的决策树算法有CART、C4.5、ID3、SPRINT、CHAID等。我国比发达国家更晚进入互联网时代，这间接导致我国人民更晚认识到数据对我们未来生活影响很大，所以我

19、国对数据挖掘相应算法的研究涉及的也不多。不过根据相关报道我们知道有部分研究人员对决策树算法中的ID3算法进行了研究和改进。以刘小虎为代表的研究人员对ID3算法进行了改进，使得该新算法在选择新的分组变量值的时候考虑决策树的两层节点。在国内我们可以找出很多有关决策树在实际应用中的案例，比如：有人通过决策树算法对牙医诊断进行分类；有人通过决策树算法对高校的贫困生进行分类；有人通过决策树算法对个人的信用等级进行分类以用于房贷发放的审核；有人基于决策树的算法对超市的消费数据进行分类以用于提高超市的销售业绩。与我们生活息息相关的数据挖掘技术已经被应用的范围变得越来越大了，身在大数据时代的我们应该好好珍惜这

20、个学习机会。1.4论文的组织结构本文主要通过对C5.0算法和CHAID算法研究比较，分析各个算法的性能以及对我们收集的大学生消费数据进行挖掘是否合适。本文针对课题设计了相应的研究方法，我们主要是把九江学院在校大学生的宏观的消费数据作为研究的主体，把收集到的数据导入到MySQL数据库当中，建立相应的数据源。然后，用数据挖掘工具通过我们的训练样本建立不同的决策树模型，最后使用测试样本对我们建立的模型进行分验证和评估。本文的内容分为五章，详细安排如下：第一章：介绍本课题的研究背景，选题的意义以及决策树挖掘的研究现状，还有本文的主要研究方法和内容结构。第二章：详细介绍了数据挖掘的基本概念、数据

21、挖掘的过程、数据挖掘的相关技术与数据挖掘工具，最后通过比较各个数据挖掘工具的优缺点并结合本次研究时的实际数据环境选择了本文分析数据使用的数据挖掘软件。第三章：主要研究关决策树算法，简要的介绍了什么是决策树，并对决策树中的部分算法进行了相应的举例介绍。最后比较介绍过的决策树算法各自的优缺点，然后在本章最后通过衡量本文研究的需求选定了适用于本课题的决策树算法。第四章：介绍九江学院在校大学生的宏观消费状况和研究我们这些消费数据将要使用的工具。本文使用Clementine挖掘工具并结合了C5.0和CHAID算法对我们收集到的九江学院大学生消费数据进行分析，并对挖掘出的模型进行了评估。最后对本次研究

22、的过程以及结果进行了相应的总结。第五章：总结了本文对消费数据的研究的整个过程，其中包括数据包括数据的收集与处理，数据使用的算法与软件，挖掘结果的分析。最后介绍了一些我对数据挖掘技术未来发展的看法，该技术在发展的过程中机会与风险共存。2 什么是数据挖掘2.1数据挖机的基本概念“数据挖掘”2一词被提出至今有26年之久了，这个概念是在第11届国际人工智能联合学术会上被提出的。数据挖掘这个词被迅速流传开来是从1995年开始的，那时候人们比较重视挖掘出数据中的信息，所以经常会召开一些关于挖掘数据中知识的会议来宣传数据挖掘的重要性。数据库中的知识发现（Knowledge Discovery in Dat

23、abase，KDD）2是一个比较浅显易懂的概念，它由计算机学术界的相关人士提出的。从概念的表面意思我们可以知道数据挖掘就是从我们的数据中找到有价值的信息，并且这些信息对我们的生活有帮助。完整的KDD过程包括数据源的建立和管理、从数据源中提取数据、数据预处理、模型建立、模型评估、模型可视化以及模型应用等一系列步骤。虽然数据挖掘概念的提出以及数据挖掘技术的发展到现在有二十多年了，但目前还没有哪个行业能够对数据挖掘的定义给出确切的答案，因此我们发现不同的资料在解释数据挖掘这个词的时候说法是不一样的，但是万变不离其宗。很多人认为将存储在数据库中的数据比喻为“矿石”，数据挖掘则是一个从数据“矿石”中开采

24、知识的“黄金”的过程3。早期的数据挖掘是作为KDD的一个重要环节被提出的，特指模型建立的过程。由于数据源通常以数据库和数据仓库的形式存在，数据挖掘行业普遍认为数据挖掘需要以数据库或者数据仓库作为基础。不同的人对数据挖掘的总结不大一样，大部分数据挖掘学者认为数据挖掘就是一个从我们生活中杂乱无章的数据中找出对我们作决策有帮助的信息的过程。 2.2数据挖掘的过程数据挖掘的整个过程其实是非常复杂的，因为在进行挖掘的时候不仅要重复相同的执行过程，而且在执行这些过程的时候需要考虑到各种参数的设置的标准。当我们要求处理的数据所属领域或者应用不相同时，数据处理的过程也需要作出相应的改变。通常数据挖掘的基本

25、步骤有：1.数据的准备。2.数据的挖掘建模。3.模型的评估。数据挖掘的基本图解如图2-1。图2-1数据挖掘的基本步骤那么下面我将对图2-1的各个步骤进行相应的解释：（1）数据的准备我们知道数据挖掘将要处理的数据是非常大的，而且这些数据并不能拿来就可以使用，需要处理成适合软件工具使用的格式。因此我们需要对收集的数据进行格式化处理，这样数据挖掘的工作才会比较顺利。数据准备的目的主要有以下两个方面：一方面需要把多个数据源整合得出数据挖掘所需要的数据，并保证整合后的数据具有易用性、综合性、时效性和高质量等特征。另一方面就是要从数据中找出我们需要分析的目标字段。数据准备工作的主要内容包括数据的收集、数

26、据的清洗和数据的转换4。其中数据的收集方法随着科技的发展收集数据的方法也越来越多了，比如说可以通过纸质问卷的方式收集我们需要的数据；通过网络问卷的方式收集我们需要的数据；通过走访观察的方式收集我们需要的数据；通过各种组织帮助获得我们需要的数据。数据的清理也称数据的清洗。数据的清洗目的主要是为了去除数据中的错误数据或者解决数据不一致问题或者解决对象识别问题。数据的清洗的主要内容是把我们收集的数据中空值给删除掉，或者删除掉那些与我们需要无关的数据。如果我们不对数据的一致性进行检查，那么我们用这些数据进行数据挖掘出的结果准确性可能会下降，以至于挖掘出来的模型可信度将达不到预期的结果。（2）数据挖掘建

27、模数据挖掘建模是我们在进行数据挖掘的过程中最重要的任务。我们通过对各个建模算法进行比较，再根据数据挖掘建模的需求选择适当的建模算法和数据挖掘软件。数据建模算法极其复杂，我们需要充分了解各个算法的建模过程，才能选择出比较适合的建立模型的算法。一旦我们把需要的模型建立完成并通过了检测，我们就可以用我们的模型预测那些跟我们建立模型时情形相似的数据的结果。（3）模型的评估我们通过数据挖掘得到的模型有些可能对于我们实际需求没有太大的意义，或者说在我们建立的模型在实际应用中没有价值，也有更有可能我们建立的模型不能够准确的反映我们收集的数据它所蕴含的实际意义。因此我们需要对我们数据挖掘建立出的模型进行详细

28、的分析和评估。评估通过收集的数据建立出来的新模型需要做的工作有：判断模式准确率是否很高以及模式是否满足我们进行数据挖掘前的需求。大多数情况我们是通过使用已经准备好的测试样本集对我们挖掘出的模型进行测试并得到模型的准确率。2.3数据挖掘的相关技术（1）支撑技术随着研究者们对数据挖掘技术进行了由浅及深的研究，促使了数据挖掘技术已经融合了人工智能、统计及数据库等多种学科的理论、方法或技术。我们知道还有其它更多的学科中的优秀的技术或者方法也都可以被应用在如今的数据挖掘技术当中。至今我们了解到的数据挖掘中常用的技术非常的多，那些比较成熟的并且常用的数据挖掘技术有决策树、关联规则、聚类分析、神经网络、

29、模糊集与粗糙集4等。下面先向大家简介绍与基于决策树算法无关的其他数据挖掘技术。因本文将要使用决策树算法对九江学院的消费状况进行研究，那么我将会在第三章对决策树算法的相关内容进行详细的介绍。关联规则数据挖掘中的关联规则使用的目的是从一大堆的数据中找出满足支持度和置信度最低阈值4的全部规则。举个简单的例子，我们有一组关于顾客在超市购买商品的消费清单。那么从这些消费清单的数据中可以找出不同的规则，比如有一条规则：牛肉-苹果，具体分析消费清单我们可以知道同时购买苹果和牛肉的顾客比例是4/9，而购买苹果的顾客中也购买牛肉的顾客比例为4/4。这两个值中的第一个值表示上述规则的支持度，而另一个值表示上述

30、规则的置信度。聚类分析物以类聚，人以群分。聚类分析的思想就是把相同的事物按照不同的特征归为不同的类，所以相同特征的事物会被聚集到一起。事物不同的类别被分成不同组或者类，在分组的过程中需要把组之间的差距经量的拉大，而组类的差异要尽量的小。聚类算法不仅被运用到了模式的识别中，还被运用到了图像的处理技术当中，更被运用到了自动控制技术领域，这说明该算法被运用的相当广。我们可以使用聚类分析技术把那些表示不清晰的数据对象更据我们的需要划分成不同的类别，这样做就尽量减少了人类经验对数据分类的干扰程度，这样我们得到的信息才是具有说服力的。神经网络这是一种能够模仿我们人类大脑某些神经的结构和功能的先进技

31、术。人工神经网络是一项新兴的并且非常具有前景的学科，它是由多学科交叉发展而来的结果。人工神经网络技术有非常优秀的自我学习的功能，它能够极好的分布或者联想存储的功能，并且还能够以最快的速度找到最好的答案，所以我们知道它的适应性特别的强。人工神经网络系统通过采集我们给予的样本数据来学习并建立出模型，反复不断的通过样本来学习建立不同的模型，反复的操作构造出神经网络结构。模糊集与粗糙集我们知道在生活中存在很多概念定义的范围不清晰，这些概念的边界是比较模糊的，因此被称为模糊概念。比如在我们生活当中有这么一些模糊的概念：“高温”、“低温”，“快”、“慢”，“长”“短”等。那么这些模糊的概念放在一起就被

32、称为了模糊集合。最早提出模糊集合这个概念的人是扎德（Zender），美国人。粗糙集理论主要用于处理应用中那些不确定的或者模糊的知识。由于近些年数据挖掘工具的开发技术更加的成熟，所以该技术在数据挖掘的任务中被应用的相当的广泛。我们所知道的有加拿大的Regina大学和美国Kanss大学两所大学的研究人员已经根据粗糙集理论开发出了相关的数据挖掘软件。（2）数据挖掘工具数据挖掘软件可以根据挖掘的数据类型分为两类，一类是数据挖掘（MiningforData）工具5；另一类是文本挖掘（TextMining）工具。根据数据分析网站KDnuggets对2013年数据挖掘工具使用情况调查得到的数据，让我们知道

33、目前市场上已经存在40多种数据挖掘工具。随着数据在人们心中的地位进一步提升，以及在大数据时代提取数据中的价值成为人们十分注重的任务，因此数据挖掘技术将会被应用于人们生活的每个方面。数据职业进入全美职业排行榜TOP10,不过在国内数据分析行业也逐渐跟上了时代潮流了，为了适应市场对数据挖掘人才的需求，国内也兴起了一些数据挖掘培训机构。下面我将详细的给大家介绍一些比较受人们欢迎的数据挖掘工具。Intelligent Miner系列产品包含两个工具，一个叫数据挖掘智能挖掘机（Intelligent Miner for Data）,另一个叫文本智能挖掘机（Intelligent Miner for Te

34、xt）。该系列的工具是由IBM公司研发的，非常的实用。这种工具主要用于对大型数据的各种挖掘，主要包括时间序列聚类，序列模式发现，关联规则发现，增量式挖掘和决策树分类。Intelligent Miner for Data 这个软件对需要处理的文件格式要求比较严格，数据必须是结构化的而且存在于普通文件或者数据库中。大多数情况下我们能够使用该软件发现不同的关联规则，并建立我们需要的预测模型和分类模型等。该软件支持的操作系统平台也比较多，主要有OS/390和AIX/SP，AIX，Windows NT等5。 Intelligent Miner for Text 这个软件的优势在于它具有强大的数据采集功能

35、，因此我们可以非常简单快捷的使用我们收集的数据，比如可以把文本格式的数据作为数据源。这个软件的功能主要包括提取文本的涵义和按主题组织文档，另外还能够识别稳定的语言，将类似的文档分组，在一组文档中找寻显著的主题，并通过强大、灵活的查询去搜索功能。该软件支持的系统平台也非常的多。 Quest Quest是由IBM公司的Almaden研究中心开发出来的一款用于发现关联规则和序列模式，对数据进行聚类或者挖掘出决策树的数据挖掘工具。由于IBM公司花费大量时间和金钱对数据挖掘软件进行研究，所以该软件中集成的各种挖掘算法均可用于大型的数据库，而且这个软件设计了相应的并行算法，极大的提高了挖掘数据的效率。 C

36、lementine Clementine是SPSS公司开发的挖掘产品。由于IBM公司在2009年收购了SPSS公司下的统计分析软件，然后对Clementine数据挖掘软件进行了一定程度的修改，最后把Clementine更名为IBM SPSS Modeler并把它推向了全球市场。Clementine软件开发者们充分的优化了使用软件时人与软件的交互模式，使得我们在使用该软件的时候十分的简易。该软件还将挖掘数据常用的方法与挖掘应用的实际样例完美的集合在软件当中，在大多数情况下这个数据挖掘工具是用于解决数据挖掘问题常用的挖掘工具。该软件界面友好操作简捷，Clementine的功能包括以下内容： a.不

37、仅仅支持预测和分类和关联规则的挖掘，还提供对决策树或者神经网络的挖掘，甚至支持二次聚类、线性回归、快速聚类。 b.具有与用户交互的可视化界面，操作简单，不需要编程来完成。 c.导入数据的功能十分的丰富，不仅可以连接普通文件还可以直接使用数据库中的数据。 d.用户对数据流和数据项目的管理也十分的方便简单，显得更加具有人性化特征。 e.提供CEMI(clementine external module interface)技术，可以把其他模型、数据准备、结果展示等功能集成到软件中。 Enterprise Mine Enterprise Miner也是一款运用范围十分广的数据挖掘工具，该工具由SAS

38、公司精心研发出来的。该工具集成的数据分析工具非常丰富，拥有十分方便的决策树浏览工具。该软件具有很多显著的特色，当之无愧的是它非常优秀的实现了数据挖掘系统的可视化，使得挖掘的各个过程几乎都可视化。其它工具 DBMiner 由加拿大的一位名为Simon Frasterde的大学韩家教授领导的研究组开发出来的。DBMiner的主要优势在于其实现了与关系数据库的平滑集成，它能够通过一种交互式的类SQL语言即数据挖掘查询语言DMQL来快速的完成多任务的数据挖掘任务。它涵盖了的数据挖掘技术十分的丰富。 MinSet是由美国的一家数据挖掘软件设计公司联合美国斯坦福大学进行开发的，软件主要注重于数据挖掘系统

39、在执行时的效率优化，因此该软件具备多任务的功能。同时该软件具备一些常用的数据挖掘技术，比如集成了分类器、回归模式挖掘、关联规则发现和聚类等多种数据挖掘方法，并且它支持多种关系数据库，因此该软件不仅可以直接从Oracle数据库中获取数据，还可以从INFORMIX数据库或者Sybase数据库中读取数据。当然为了方便，该软件还支持使用SQL命令对数据库中数据进行查询。 Weka是基于Java开发的免费的数据挖掘工具，且有非常强大的挖掘功能，提供四种界面，适合不同层次用户的需求。 Darwin是由Oracle公司精心研发的数据挖掘工具，该软件突出的特点是能够直接在数据库上进行挖掘，并且支持不同种类的数

40、据源。该软件提供数据挖掘技术有神经网络、分类和回归树、K-最近邻居、遗传算法、聚类和贝叶斯算法及可视化功能。同Darwin挖掘出来的模型能够以多种计算机代码的形式导出，这样方便我们把模型集成到其他应用软件当中，可想而知这个功能非常的实用。2.4选定本课题使用的软件本文研究的课题是“基于决策树算法对九江学院大学生消费状况的研究”，因此需要选择集成了多种基决策树算法的优秀的数据挖掘软件。在本章第三节我已经对市场上一些使用比较广泛的数据挖掘工具进行了简单的介绍。我们知道要做数据挖掘就必须有相应的工具，如果只靠传统的自我编程去实现，将会局限于时间和资源不足的问题上。而且通过自我编程得到的数据挖掘工具

41、不一定比商业的数据挖掘工具强。时至今日，整个世界对数据挖掘软件的研发已经达到了盛行至极的状态，市场上出现了越来越多的数据挖掘工具，并且这些软件的人机交互体验非常棒，软件的功能也十分的强大。那么我们该如何选择出一个适用的工具用于本文课题对消费数据的研究呢？通过总结我们知道选择数据挖掘工具需要根据以下几个方面进行比较：（1）首先我们需要了解数据挖掘工具的种类，数据挖掘工具按挖掘的内容可以分为数据挖掘工具和文本挖掘工具。当然本次课题所采集的数据有明确的字段定义并且属于普通的文件，所以本次课题选用的是数据挖掘工具。（2）按数据挖掘需求可以把数据挖掘工具分为企业型挖掘工具和小型挖掘工具。大型数据挖掘工

42、具因为有强大的技术支持，所以它的功能应该会更加健全，并且在使用上遇到的软件技术问题也很容易找到解决的方法。而小型的数据挖掘工具着重点与企业型工具不同。小型数据挖掘工具主要针对的是低端低消费的用户，并为特定的需求提供特定的解决方案。那么本次课题使用的决策树算法，考虑到小型数据挖掘工具用起来产生的问题很多是要收费才能解决。所以，根据这一点我偏向于选择企业级的数据挖掘工具。（3）关于是长期使用还是短期的使用，在本次课题结束后，我将会继续对数据挖掘技术进行更深入的学习，所以我会选择能够长期使用的工具。这样的数据挖掘工具不但用起来方便，而且维护升级也很方便。（4）根据数据挖掘经验水平来选择数据挖掘软

43、件，由于研究该课题是我第一次接触数据挖掘方面的知识。平时自己也只能通过网络视频或者图书对数据挖掘技术进行学习。所以我需要选择数据挖掘工具软件的界面简洁，操作简单的，而且易于学习的软件。（5）根据我们要挖掘的数据的状态来选择数据挖掘工具。实际上就是对现有的数据进行评估，如果我有目的的去挖掘数据，但是目前的数据并不一定能满足挖掘工具的对数据格式的要求。在实际应用中软件是需要付费的，实际工作中我们需要确保经济资源被充分的利用，所以要确定什么时候才合适购买数据挖掘工具。此条件对我选择软件意义不大。（6）在评估数据挖掘工具的时候，我们还需要结合自身或者公司的财务预算来决定。此条件暂时对我选择软件意义

44、不是很大，一般我们会选择免费的。当然除了根据上面六点来评估该选择哪个数据挖掘工具，实际本次课题选择数据分析软件还得根据我们的实际情况来决定。现在市面上数据挖掘的工具非常的多，因此在还未了解这些工具之前，在图书馆找了与数据分析软件有关的资料，并发现关于SPSS Clementine的书籍相对更多。通过与其它数据分析软件的比较，发现由SPSS开发的这款数据挖掘软件界面相当的友好，而且国内有关这个软件的学习资料也相对更多。不过这是一款需要付费才能使用的企业型的数据挖掘工具，但是它性能相对更稳定。通过互联网我们可以找到旧版本的注册证书，本文使用的是IBM SPSS Modeler14.1版本的注册证

45、书。SPSS Clementine比较适合初学者使用。由于被IBM收购了，后续版本更名为IBM SPSS Modeler。在众多的数据挖掘软件当中Clementine以其独特的优势在众多产品中脱颖而出。 Clementine（IBM SPSS Modeler)最早属于英国ISL（Internet solution Limited）公司的产品，从1992年开始研发，1994年V1.0版本发布，后期版本更新速度很快。在2009年SPSS被IBM收购了，然后Clementine更名为IBM SPSS Modeler。该产品是一款以图形化“语法”为用户界面的数据挖掘软件。该软件拥有十分丰富的算法，操作

46、简单，研究结果通俗易懂。 IBM SPASS Modeler的操作数据挖掘过程是基于数据挖掘的流程建立起来的。该软件对数据的分析有以下几个过程：从数据收集开始，到数据展示和预处理，然后再到模型建立，最后到模型评价等几个过程。IBM SPASS Modeler在应用中是基于数据流的，那么这些过程在就相当于数据流中不同的节点，数据则会按照节点排列的顺序有序的流动。而该软件则将这些过程以图形的方式形象的展示在用户眼前，十分清楚的展示了数据分析的过程。如图2-2所示为IBM SPASS Modeler 14.1版本软件操的主窗口。图2-2 IBM SPASS Modeler 14.1版本主窗口数据流

47、区域：该区域位于IBM SPASS Modeler 14.1主窗口的中间部分，建立或者修改数据流的主要操作区域。节点工具箱窗口：位于主窗口的下方，该小窗口得不同选项卡存放着不同类别的节点，分别有收藏、数据源、记录选项、字段选项、图形、建模、输出、导出和文本挖掘类的节点。流管理窗口：流管理窗口是用来管理数据流用的，它主要管理流的各个节点的添加与删除，在主窗口的右侧上方。项目管理窗口：这个窗口的重要作用是通过它可以使我们管理数据流的工作更加的方便快捷，它位于主窗口的右侧下方。我们知道在实际挖掘的过程中，我们需要和IBM SPASS Modeler软件进行交互，那么在交互的过程中我们是在管理数据流，而我们管理的数据流又是又各个节点组成的，所以我们主要管理的是各个节点。这些任务主要包括：第一，选择并管理节点。第二，建立并调节各个相邻节点之间的连接。第三，设置节点的参数。第四，执行数据流。图2-3所示为我们用软件设计出来的一个简单的

展开阅读全文