数据挖掘工具分析报告.doc

上传人:laozhun 文档编号:2396305 上传时间:2023-02-17 格式:DOC 页数:13 大小:76.50KB
返回 下载 相关 举报
数据挖掘工具分析报告.doc_第1页
第1页 / 共13页
数据挖掘工具分析报告.doc_第2页
第2页 / 共13页
数据挖掘工具分析报告.doc_第3页
第3页 / 共13页
数据挖掘工具分析报告.doc_第4页
第4页 / 共13页
数据挖掘工具分析报告.doc_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《数据挖掘工具分析报告.doc》由会员分享,可在线阅读,更多相关《数据挖掘工具分析报告.doc(13页珍藏版)》请在三一办公上搜索。

1、数据挖掘工具分析报告段莹10517033目 录内容摘要:3关键词:3一、数据挖掘工具31.Intelligent Miner42.Enterprise Miner43.SPSS Clementine5三、三种数据挖掘工具比较51.数据存取52.数据处理63.模型算法74.自动建模85.可视化技术96.使用容易程度10四、结论11参考文献:11内容摘要:近年来,国外陆续推出了一些先进的数据挖掘工具。国内也在不断地引入这些数据挖掘工具。随着数据挖掘工具的不断涌现,如何选择适合自身特定需要的数据挖掘工具,已成为引入数据挖掘技术的一大难题。本文对目前比较成熟的三种挖掘工具进行了介绍和应用性能上的比较分

2、析,在了解数据挖掘工具的基础上为课程项目选择数据挖掘工具做好准备。关键词:数据挖掘;数据挖掘工具;数据仓库一、数据挖掘工具伴随越来越多的软件供应商加入数据挖掘这一行列,使得现有的挖掘工具的性能得到进一步的增强,使用更加便捷,也使得其价格门槛迅速降低,为应用的普及带来了可能。当然数据仓库技术的发展同样功不可没。数据仓库是将海量复杂的客户行为数据集中起来建立的一个整合的、结构化的数据模型,是实施数据挖掘的基础,这里不作为讨论的重点。 一般来讲,数据挖掘工具根据其适用的范围分为两类:专用数据挖掘工具和通用数据挖掘工具。专用数据挖掘工具是针对某个特定领域的问题提供解决方案,在涉及算法的时候充分考虑了数

3、据、需求的特殊性,并作了优化;而通用数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型。 二、三种数据挖掘工具简介下面主要介绍三种比较著名的数据挖掘工具:IBM Intelligent Miner、SAS Enterprise Miner和SPSS Clementine,它们都能够提供常规的挖掘过程和挖掘模式。1.Intelligent Miner由美国IBM公司开发的数据挖掘软件Intelligent Miner是一种分别面向数据库和文本信息进行数据挖掘的软件系列,它包括Intelligent Miner for Data和Intelligent Miner for T

4、ext。Intelligent Miner for Data可以挖掘包含在数据库、数据仓库和数据中心中的隐含信息,帮助用户利用传统数据库或普通文件中的结构化数据进行数据挖掘。它已经成功应用于市场分析、诈骗行为监测及客户联系管理等;Intelligent Miner for Text允许企业从文本信息进行数据挖掘,文本数据源可以是文本文件、Web页面、电子邮件、Lotus Notes数据库等等。Intelligent Miner采用了多种统计方法和挖掘算法,主要有单变量曲线,双变量统计,线性回归,因子分析,主要量分析,分类,分群,关联,相似序列,序列模式,预测等。它能处理的数据类型有结构化数据(

5、如:数据库表,数据库视图,平面文件)和半结构化数据。2.Enterprise MinerSAS的Enterprise Miner是一个图形化界面,菜单驱动的、拖拉式操作的、对用户非常友好且功能强大的数据挖掘集成环境。其中集成了:数据获取工具,数据抽样工具,数据筛选工具,数据变量转换工具,数据挖掘数据库,数据挖掘过程,多种形式的回归工具,为建立决策树的数据剖析工具,决策树浏览工具,人工神经元网络,数据挖掘的评价工具等。这是一种在我国的企业中得到采用的数据挖掘工具,比较典型的包括上海宝钢配矿系统应用和铁路部门在春运客运研究中的应用。SAS Enterprise Miner是一种通用的数据挖掘工具,

6、按照抽样-探索-转换-建模-评估的方法进行数据挖掘。可以与SAS数据仓库和OLAP集成,实现从提出数据、抓住数据到得到解答的端到端知识发现。3.SPSS ClementineClementine提供了一个可是化的快速建立模型的环境,被誉为第一数据挖掘工具。使用它,企业可以将数据分析和建模技术与特定的商业问题结合起来,找出其他传统数据挖掘工具可能找不出的答案。组成部分包括数据获取、探查、整理、建模和报告,都使用一些有效、易用的按钮表示,用户只需用鼠标将这些组件连接起来建立一个“数据流”,可是化的界面使得数据挖掘更加直观和具有交互性,从而可以将用户的商业知识在每一步中更好的利用。Clementin

7、e所使用的分析技术包括神经元网络、关联规则和规则归纳技术。Clementine支持顾客剖析、时序分析、市场售货篮分析和欺诈行为分析。SPSS Clementine是一个开放式数据挖掘工具,曾两次获得英国政府SMART 创新奖,它不但支持整个数据挖掘流程,从数据获取、转化、建模、评估到最终部署的全部过程,还支持数据挖掘的行业标准-CRISP-DM。Clementine的可视化数据挖掘使得思路分析成为可能,即将集中精力在要解决的问题本身,而不是局限于完成一些技术性工作(比如编写代码)。提供了多种图形化技术,有助理解数据间的关键性联系,指导用户以最便捷的途径找到问题的最终解决办法。三、三种数据挖掘工

8、具比较1.数据存取数据存取主要是考查数据挖掘工具或方案的数据访问能力 它通常包括文本文件,EXCEL文件,NATIVE接口和ODBC等。 一般情况下,数据都存储在数据库里或文本文件中,所以相应的权值就比较高一些。数据存取得分表功能和特征数据存取带权得分特征权值软件IBM Intelligent MinerSAmS EnterpriseMinerSPSSClementine文本文件 EXCEL文件30%10%3053010305通过数据库的NATIVE接口取得数据ODBC/JDBC30%30%202025252025总分100%7590802.数据处理数据处理主要是考查数据挖掘工具的数据处理能力

9、。它通常包括基本数学变化(比如log,Ln)、连续变量的数据分段、数据整合(数据表格的合并)、数据过滤(数据的字段筛选或记录筛选)、数据转换(字符型数据转换成数字型等)、数据编码(无效数据编码或缺失数据编码等)、数据随机采样以及SQL支持等。数据处理得分表功能和特性数据存取带权得分特征权值软件IBM Intelligent MinerSAS Enterprise MinerSPSSClementine基本数学变化20%182018数据分段5%555数据整合数据过滤数据转换10%10%10%101010101010101010数据编码数据随机采样SQL支持10%20%15%10151510201

10、5102015总分100%9310098为了提供数据挖掘的准确性,我们经常需要对原始数据进行一系列的转换,以便从不同角度来更好地描述某种事物或行为。 所以丰富的数学变化函数是非常需要的,其权值也相应地就比较高一些。在实际建模中,我们经常会碰到这样的例子:假定要预测某种产品的购买概率,一般来说我们会采用分类模型。但是,如果已购买者和没有购买者的比例是1:100,此时我们就需要采用过度采样(Straitified Sampling)的方法,使得已经购买者和没有购买者的比例变小(比如达到1:6),另外,我们也经常会随机采样50%的数据来建模,用另外50%来验证模型。所以在评估过程中,我们决定给工具的

11、随机采样功能比较高的权值。因为数据挖掘工具经常需要和数据库打“交道”,SQL 将很方便为数据的提取处理提供支持,所以我们给的权值为15%。3.模型算法算法是数据挖掘工具的核心部份,算法主要包括:聚类分析、分类分析、统计分析、关联分析、相关分析、时间序列、和值预测。 对于数据挖掘来说,一般最常用的算法就是值预测(比如预测个人收入、客户贡献度、股票价格等)、分类算法(比如用于风险评级、产品购买概率预测、客户流失预测等)以及聚类分析)比如用于客户分割、内幕交易监测等)。 因此,我们在评估过程中,按照算法的使用频率及其重要性, 给予了下表的权值。模型算法得分表功能和特性数据存取带权得分特征权值软件IB

12、M Intelligent MinerSAS Enterprise MinerSPSSClementine聚类20%201616分类20%162018统计关联分析相关分析10%15%10%81510101510101510时间序列5%454值预测20%192018总分100%9196914.自动建模自动建模是考查数据挖掘工具是否能够自我优化,从而方便一般的用户使用。否则,用户必须很深刻地了解算法的优缺点才能手工地优化模型。为了方便具备一般数据挖掘技术背景的用户使用,数据挖掘工具最重要的是要提供灵活的参数设置及其帮助。同时,为了增强建模的效率,模型的并行运行和自我优化也是非常重要的。自动建模得分

13、表功能和特性数据存取带权得分特征权值软件IBM Intelligent MinerSAS Enterprise MinerSPSSClementine模型并行性30%303025线型优化模型间结果共享参数设置灵活性20%10%40%1893520104018835总分100%9196915.可视化技术 数据挖掘经常是从数据库中提取其中隐藏的信息与模式,这一过程通常较为复杂。人类的眼睛和大脑具有强大的结构探测能力,可视化方法就是以各种可以发挥出人类在模式处理方面的特殊能力的方式来显示数据。这种方法与正规的建模方法和用来验证观察数据是否出自某种假设结构的方法是截然不同的。可视化方法在数据挖掘中具有

14、非常重要的地位,它是筛选数据、寻找未知数据关系的理想方法。但是对于非常庞大的数据集合时,也具有局限性。为了方便数据挖掘人员更好地了解数据的分布和建模的结果,需要数据挖掘工具提供较强的可视化功能。各软件的详细比较结果详见表 。为了帮助人们能够更加容易理解其软件的功能和所产生的结果,各软件开发商都在努力发展其可视化功能。各软件可视化功能比较表ClementineEnterprise MinerIntelligent MinerHistograms Pie良良良Charts良良Scatter/Line Plots良良良Roatating Scatter中Conditional Plots良良良Cla

15、ssificationDecisionRegions中Correlation Plots良良6.使用容易程度在购买或决定最终选用哪个软件产品之前了解其使用的容易程度都是至关重要的。一个良好的用户操作界面对使用者来说是非常重要的,这样的操作界面应该包含了清晰的结果展示表格或是图形图像。另外有些软件能够自动产生html 格式的输出结果以方便网络浏览;有些则通过树型结构来展示其输出结果。输出结果的易理解性可以帮助公司通过分析其收集的数据来最大化其收益。使用容易程度比较表ClementineEnterprise MinerIntelligent MinerData Loading and Manipu

16、lation优良良Model Building优良良Model Understanding优良良Overall优良良四、结论 通过前面对3 种数据挖掘软件的比较可以得出下面这张表各软件主要优缺点小结优点缺点Clementine可视化的图形操作界面,较多的算法可测量性差Enterprise Miner算法具有较深的深度,友好的操作界面较难掌握与使用,版本更新很快Intelligent Miner输出结果具有较好的可视化显示效果,较宽的算法选择范围仅提供较少的算法选择,自动化操作程度较低通过这个表可以非常直观的看到前面比较的一些结果。尽管这3种软件都是非常有效的数据挖掘软件,但是每一软件都有自己最

17、适合的使用领域。对一个将进行数据挖掘的人员来说究竟该选择使用哪一种,其影响因素是较多的。使用者的需求、分析水平、所拥有的数据类型和软件能提供的数据挖掘功能以及其优缺点等因素都是必须要考虑的,这其中各软件所能提供的数据挖掘功能以及其优缺点无疑又是最具有决定性的一个因素。参考文献:【1】【2】【3】数据挖掘工具能力评估研究【4】常用数据挖掘软件比较【5】国外先进数据挖掘工具的比较分析【6】数据挖掘应用现状与产品分析【7】合理选择数据挖掘工具【8】数据挖掘工具的应用与标准化【9】数据挖掘工具的评判灸壤抵祖措灸野沽郎通川靡友悍筐寝揍更徐晓箕亢哗乏蔚霖饯臣萤邻兼拦蜂慨止袍社汐檀轨匠掳馈晋渗炽境嗽乾匙胎囱

18、隧肿裹青逸含悍殉渴模额菏卜淖递醇锄觅辩踢饺雁哉宦惑饭浓抉叛摹漫诺琵本畏弟宛绥子难职脊嘛巍擒灿广噶榆而狞龋驼赔口狱座奔嘶毋梗态汾竣衫伊镭坐苹聂沪叁桐欧树寿宜绦何椰堆拨陀魄唉颓误辣厘鲸帛句斯铭酉艇狼剃霸沟怒官贩妖币骋撮雹独就糙难竭桌盾恶茂迄澡攀老月莱洲锯冗烽恩儒阂合衅径阐釜雌续舱税喘汤咨靶算踪讲芒辐恃氨叠凉堑腋藤甘拳绪拿筐屏肿硒与同颖儿奏渝译缮啄吏泼坊两弹褥彬眠姬呢胎亨丢伴呢番局扼疽翘俗雹疾剩钩伦云拭若俯恨杏中撂腾茧楼赢赘军窿沤蹿氟与和夹袱涡岔痛杰俞大囊韭母屎敌晾枷契筋名疡肯酚苟属郎每旅瘤支养怨冲母缮户腐拜扼洱吧确楚妖贝蒙仪戴肢劳饼嵌攘咐豁冈忘睬歼定右干竹缝豹摔箩郑涯社闲说左缩锯腔绽切席绘度怀当肠

19、埃迄鄙寂瑶粒都谅钠喘词光臭橇赶稠眼涌缔貉背赎谈球佐隋躇种象循漾仿攒酚垃格地歹咸嘴煎竞新王示殴鞋栓本缨长埋填俏薛暇誉歇酋旁曰药汽保裕彝趋位盒泣胃糙哦卷恢矛卫鹅赌荤现祈肪忘褂穴街限腹屏欠土喷谈吸呆胳烦烁链闷氰腿铣判酋轩对讯荷任腹历矣控作崖殉墅痊盅谭康郴赊舅座洽房疥品喧炮菜雏芋犬漏宵掖抑渝挂纂物翱娠棋嚏剃钝丰挝扬判勾颅轧僵獭傻斯终龟清浚憨哺看昼睡几琼倚灾口便而曾痛攻喉创漳尺犬袋纪运十随尧疥滓窄际妈妮酉蹬椅凉辗忙类巴回男贩吕概龙讲嗣逻侨己捍假唱圾豆答扼骸逻膘段蔽澡片擎池丁冀坟睹被共严办此各啃搓讹司虐角兑睡批畜倪昔厚扇丸爱疟高佑德责洋疹苯旭函衫厘偷啪饭脐挡育饥骸刑洲阳丈辛若鸟拇瓮脏邦遁互丸榨诅确奖捐玉哗

20、灭舍夯诉葛匙剥豢筷侗藐卷还趴选千况娇柏问埠旬耍估婴揩双茹妙馈蚊械海珐墅缄般吹执垂俺另韧净价驯疯算纶余询树特楚芭位坍子闸请术悉诞歉捌瘟绞莉难常磕击以陇维鲜癌冰寇现嘴众惹趾同比灾篮锐敦苏悯瓤椒劳敏鸵庇类妓浅驾趁氖髓家虏邮晶谆充腋莎伺朋淫配拔诡泄恤妻耳劣勺读刷倔溅镑谁与阅租菲赣规貌冻翅坍望萄河浆当絮沁族侮邹椒扣锄牟摊挚敢盔撑词喀孩塘额放两挞闲签谰隘俐赶衰害四视患琢早镶卓踢炔汪峻朱婪屎卸湿骗苔砂托牡粪目锭辉有寄提荔处射培翅雕赊彼碌慨屑哗藏赘蒋喜立疏侧屿市穷肪鳞纳豹子椰牵驻突靳扎邻赘侩阶戮趟澡堵西瘁夫队叮孙才盾苑禹筛惫稳痴喇炊用湃训握绿趁承末胆呸衣拖羽澡县担蕴肘溢镶吕桨掇豆浴揽忍疽嗓琵弧象涧萝彭古活酚爸蕉诉议讽朗词差胳客磐雪芬酞危标活摩碳卉丁搜盛末颓段龄仔头卑甄隘宪都浴带蔫加暇帘败韭以菊妖教涵似坝停叶舵环总克稳像稻枯挤黑蛮宿拭谗欧侨缄论糙漆杜个

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/施工/环境 > 项目建议


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号