《数据挖掘的方法论.ppt》由会员分享,可在线阅读,更多相关《数据挖掘的方法论.ppt(14页珍藏版)》请在三一办公上搜索。
1、第3章 数据挖掘方法论,数据挖掘将商业需求和所需要的数据联系在一起,它是对客户和商业前景的理解,理解产品和市场,理解供货方和合作伙伴,理解销售的全过程,并用数据将他们整合到一起。为了成功运用数据挖掘,对数据挖掘技术层面的理解至关重要,尤其是应该了解如何将数据变成有用信息的过程。,数据挖掘方法论CRISP-DM和SEMMA,CRISP-DM(CRoss-Industry Standard Process for Data Mining)即为”跨行业数据挖掘过程标准”,该模型将一个KDD工程分为6个不同的,但顺序并非完全不变的阶段:。CRISP-DM 模型在各种KDD过程模型中占据领先位置,采用量
2、达到近60%。,SAS数据挖掘方法论 SEMMA,SAS将数据挖掘过程看成5个阶段Sample 数据取样Explore 数据特征探索、分析和预处理Modify 问题明确化、数据调整和技术选择Model 模型的研发、知识的发现Assess 模型和知识的综合解释和评价,CRISP-DM与SEMMA的区别,CRISP-DM是从数据挖掘项目执行的角度谈方法论,SEMMA 则是从对具体数据集的一次探测和挖掘的角度来谈方法论,CRISP-DM的考虑的范围比SEMMA 要大。CRISP-DM关注商业目标、数据的获取和管理,以及模型在商业背景下的有效性;SEMMA 不否认商业目标,但更强调数据挖掘是一个探索的
3、过程。SEMMA体现了不同算法在项目过程的不同阶段有不同的重要性,没有如同CRISP-DM一样详细而规范的文本,从项目管理的需要来看CRISP-DM更适用一些。由于CRISP-DM在阶段间可以反馈,整个流程又是循环的,在逻辑上CRISP-DM是可以实现SEMMA的,它们互不矛盾。但由于强调的重点不同,在实践上则会有明显的区别。,面向CRM的数据挖掘方法论,数据挖掘四个重要的业务过程所构成:理解业务问题;将数据转换成可执行的结果;结果实施过程;评价结果的实施。成功实现数据挖掘需要全部四个过程,每一步产生的结果不断向后传播,由数据不断产生信息。从数据中提炼信息,不断更新建模技术,根据以前努力的结果
4、改进数据挖掘过程,如此往复生成新的有用的知识。,1.正确识别业务问题,(1)实施数据挖掘是否必要?(2)是否有最让人感兴趣的客户子群或客户细分?(3)相关的行业规则有哪些?(4)关于数据(5)检验领域专家的观点,2.数据转换成可操作的决策(2),建立数据挖掘模型是一个互动的过程,2.数据转换成可操作的决策(2),(1)确认和获取数据(2)生成有效数据、探索数据以及清洗数据(3)将数据转换成适合的粒度的数据(4)加入衍生变量(5)准备建模数据集(6)选择建模技术和训练模型(7)检测模型的性能,3.将结果生成决策,(1)新的认知(2)用于特定商业活动的结果(3)可被储存的结果(4)周期性预测结果(5)实时得分(6)修复数据,4.评测模型的有效性,5.成功建立预测模型的要点,(1)预测模型的时间范围第一个时间范围是训练模型的时间间隔。第二个时间范围是模型产生得分的阶段。(2)模型的使用有效期什么是模型使用有效期?什么是模型预测的有效期?,预测模型在使用之前必须得到的训练,6.建立预测模型的假设,假设1:过去是将来的预言家假设2:数据是可以获得的假设3:数据中包括我们的预期目标,