《某SAS软件研究所公司SAS数据挖掘白皮书.docx》由会员分享,可在线阅读,更多相关《某SAS软件研究所公司SAS数据挖掘白皮书.docx(21页珍藏版)》请在三一办公上搜索。
1、 SAS数据挖掘白皮书美国SAS软件研究所公司2000年8 月目 录第一章 总括2第二章 SAS数据挖掘方法论 SEMMA5第三章 深层统计分析与预测套件9功能10客户机/服务器方式13浏览器/服务器方式14第四章 数据挖掘套件15功能15客户机/服务器方式19浏览器/服务器方式19第一章 总括早期的计算机主要就是用来进行数据处理或称数值计算的。后来随着计算机技术及其周边设备和通讯能力的发展,计算机更多地用于了大量繁杂事务的在线处理,生产设备的实时控制等。在此过程中,计算机系统积累了越来越多的数据,数据处理的任务就更加繁重。到今天,即使是发展中的我们中国,在一个企业中有数以几十或上百GB、甚至
2、TB计的生产经营数据已不是什么希奇的事情了。企业的数据和由此而产生的信息是企业的重要财富。它最真实、具体的反映了企业运作的本质状况。但是,面对堆积如“山”的数据,你可能并未看清企业运作的本质规律是什么,或者说你至少是未能全部看清楚。面对激烈竞争的市场经济,企业的经营和管理者任何不符合客观事物规律性的决策都会给企业带来损失,甚至失败。运用有力的工具,不断地探索企业成败、得失的原委,并以此不断完善企业运作,这是每一个成功的企业家必不可少的工作任务。美国SAS软件从60年代在北卡洲立大学开创伊始就致力于计算机数据处理的研究。几十年来无数的成功事例使人们推崇SAS为国际上标准的数理统计分析软件;进而,
3、SAS的丰富数据采集、数据管理、数据分析和信息展现的能力,又使之成为决策支持的最好的工具;近几年,SAS又推出了套装的SAS/Enterprise Miner这一企业级的数据处理分析和决策支持软件包。SAS系统的软件和这些软件运用的无数成功经验,一定能帮你从企业堆积如“山”的数据中“挖掘”出隐藏着的规律性,以支持你正确的经营决策。SAS的数据挖掘软件集成了一系列有效的技术手段全面地支持你的工作。首先是支持你的数据重组工作。在你的企业或组织中或许已经有了成功的各种业务系统,其中的数据体系对应着一项项事务处理和一个又一个控制环节,它们定能完美的支持其原有的工作。但当你从企业级的角度去审视,并想进一
4、步分析处理时,你会感到这些数据过于分散,数量越来越大,并难以整合。美国数据挖掘技术开拓者Gregory Piatetsky-Shapiro曾戏言说:“原来曾希望计算机系统成为我们智慧的源泉,但从中涌出的却是洪水般的数据!”其实不必埋怨数据太多,也不必埋怨原来的数据结构不好,它们是适应原有工作任务的,只是不适合你现在的要求而已。要支持你的企业级的决策,就是需要“洪水般的数据量”,但是要面向企业级的工作任务对其进行重组。数据仓库系统支持你进行数据重组,并以全新的数据、信息的结构形式支持你的全新的工作方式。这在前面五篇连载文章中已作了详尽的介绍。建立数据仓库,这是进一步能有成效的进行数据挖掘的基础工
5、作。要看清企业或组织运作的状况,第一步就是能查询到反映你所关心事情的相应数据、信息。以SAS的多维数据库产品MDDB构造的数据仓库从物理结构上保证了你查询的迅速、方便。E.F.Codd在提出在线分析处理OLAP概念时,多维数据结构是实现其任务的第一项要求。一些简单的决策支持所需要的就是有针对性的数据。在数据重组后的数据仓库中还建立了所谓数据市场(Data Marts),它就可以更针对决策支持的需要而设计,其中还可综合不同层次的汇总数据和跨数据仓库主题的数据。 SAS软件研究所对数据挖掘所下的定义是:数据挖掘是按照既定的业务目标,对大量的企业数据进行探索、揭示隐藏其中的规律性并进一步将之模型化的
6、先进、有效的方法。对数据的探索、挖掘首先要有一个明确的业务目标。一组生产数据可作生产能力的分析;可作生产成本核算的分析;亦可作影响产品质量诸因素的分析。目标决定了此后数据挖掘过程的各种运作,并导引了运作的方向。虽然说数据挖掘的业务目标在过程中不是不可修正的,也应当在工作进程中不断的进一步明确化,但其基本原则内容要保持稳定不变,否则数据挖掘工作是难以有效的进行的。这里所指的大量企业数据最好是按照数据仓库的概念重组过的,在数据仓库中的数据、信息才能最有效的支持数据挖掘。假如所取用的数据并不足以反映企业的真实情况,当然也不可能挖掘出有用的规律。数据仓库的数据重组,首先是从企业正在运行的计算机系统中完
7、整地将数据取出来。所谓完整,就是决策支持目标所涉及的各个环节不能有遗漏;其次各个环节的数据要按一定的规则有机、准确地衔接起来。从决策支持的主题来看,这重新组织过的数据,以极易取用的数据结构方式,全面的描述了该主题。有了反映业务主题全貌的数据后,在进行数据的分析、探索时,对于不同的人,可能会采用不同的方式方法。Gartner Group在评价数据挖掘工具时,也特别提到了面对各种不同类型人员的可伸缩性和完整性。SAS支持各层次用户: 业务水平和数学水平可能比较一般,对这样的用户提供方便的数据查询是非常重要的。实际上早期的决策支持主要就是数据查询的支持。可能也要做一些简单的数理统计分析。若统计分析的
8、要求是较明确的,可以事先做好,向他们提供统计分析的结果。这可做成SAS数据仓库中的信息市场(Information Mart)。对应他们随机的需求,应当提供菜单式选择的方便工具。 业务水平较高,但数学水平一般,且没有时间和兴趣再钻研数学方法的人,除了以上资源外,还应提供能简便的实现各种常用的数理统计的工具。让他们不必受累于繁杂的过程,通过简单的需求设定,即可执行他们需要的操作。 有计算机和数学知识,但对业务的熟悉程度一般的人员。对他们要提供较全面的数据处理工具,如:数理统计;聚类分析;决策树;人工神经元网络;等。 对有很深计算机和数学造诣的数据分析专家不仅要提供上述环境,而且还要提供实现各种算
9、法的工具和开发平台。SAS系统提供了适合各类人员使用的既完整,又有伸缩性的模块化的工具。通过探索和模型化所得的结果可分成两种类型:一种是描述型的;另一种是预测型的。描述型的结果是指通过数据挖掘量化的搞清了业务目标的现状。通过数据挖掘还可以建立起企业或某个过程的各种不同类型模型。这些模型不仅能描述当前的现状和规律性,而且利用它还可以预测当条件变化后可能发生的状况。这就为企业开发新产品、定位客户群体、甚至于为企业业务重组提供决策支持依据。在世界走向信息化的今天,充分利用企业的信息资源,挖掘企业和所对应市场的运作规律性,以不断提高企业的经济效益是先进企业的必由之路。SAS数据挖掘软件广泛应用于客户关
10、系管理、金融风险防范、供应关系管理、数据库营销、企业均衡记分卡、e-智能化及竞争优势分析等方面。SAS新近推出了专用于网络流量分析的最新软件产品e-Discovery和webHound,可对优化网站的结构和客户关系管理起到非常有效的作用。正象是你拿个镐在山上挖几下不能算是开采矿山一样,用数理统计方法或人工神经元网络作个数据分析,也不能说就是在进行数据挖掘了。要开采矿山,首先要按照人类总结千百年来经验所形成的理论规律去找矿;发现矿藏后还要根据其实际地质情况,有针对性的采用相应的方法最有效的挖掘才能获得有价值的宝藏。同样,要想有效地进行数据挖掘也必须要有好的工具和一整套妥善的方法论。可以说在数据挖
11、掘中你采用的工具、使用工具的能力、以及数据挖掘过程中的方法论在很大程度上决定了你能开拓的成果。SAS研究所不仅有丰富的工具供你选用,而且在多年的数据处理研究工作中积累了一套行之有效的数据挖掘方法论SEMMA,通过使用SAS技术进行数据挖掘,我们愿意和你分享这些经验。根据客户的不同层次的业务需求,SAS公司把数据挖掘等深层次分析分为两个层次,同时提供两种产品及方案套件供用户选择。这两种方案分别为:一、深层统计分析与预测套件;二、数据挖掘套件。在下面几节中会一一加以介绍。第二章 SAS数据挖掘方法论 SEMMASAS研究所不仅有丰富的工具供你选用,而且在多年的数据处理研究工作中积累了一套行之有效的
12、数据挖掘方法论SEMMA,通过使用SAS技术进行数据挖掘,我们愿意和你分享这些经验: Sample数据取样 Explore数据特征探索、分析和予处理 Modify问题明确化、数据调整和技术选择 Model模型的研发、知识的发现 Assess模型和知识的综合解释和评价Sample数据取样当进行数据挖掘时,首先要从企业大量数据中取出一个与你要探索问题相关的样板数据子集,而不是动用全部企业数据。这就象在对开采出来矿石首先要进行选矿一样。通过数据样本的精选,不仅能减少数据处理量,节省系统资源,而且能通过数据的筛选,使你想要它反映的规律性更加凸现出来。通过数据取样,要把好数据的质量关。在任何时候都不要忽
13、视数据的质量,即使你是从一个数据仓库中进行数据取样,也不要忘记检查其质量如何。因为通过数据挖掘是要探索企业运作的规律性的,原始数据有误,还谈什么从中探索规律性。若你真的从中还探索出来了什么“规律性”,再依此去指导工作,则很可能是在进行误导。若你是从正在运行着的系统中进行数据取样,则更要注意数据的完整性和有效性。再次提醒你在任何时候都不要忽视数据的质量,慎之又慎!从巨大的企业数据母体中取出哪些数据作为样本数据呢?这要依你所要达到的目标来区分采用不同的办法:如果你是要进行过程的观察、控制,这时你可进行随机取样,然后根据样本数据对企业或其中某个过程的状况作出估计。SAS不仅支持这一取样过程,而且可对
14、所取出的样本数据进行各种例行的检验。若你想通过数据挖掘得出企业或其某个过程的全面规律性时,必须获得在足够广泛范围变化的数据,以使其有代表性。你还应当从实验设计的要求来考察所取样数据的代表性。唯此,才能通过此后的分析研究得出反映本质规律性的结果。利用它支持你进行决策才是真正有效的,并能使企业进一步获得技术、经济效益。Explore数据特征探索、分析和予处理前面所叙述的数据取样,多少是带着人们对如何达到数据挖掘目的的先验的认识进行操作的。当我们拿到了一个样本数据集后,它是否达到我们原来设想的要求;其中有没有什么明显的规律和趋势;有没有出现你所从未设想过的数据状态;因素之间有什么相关性;它们可区分成
15、怎样一些类别这都是要首先探索的内容。进行数据特征的探索、分析,最好是能进行可视化的操作。SAS有:SAS/INSIGHT和SAS/SPECTRAVIEW两个产品给你提供了可视化数据操作的最强有力的工具、方法和图形。它们不仅能做各种不同类型统计分析显示,而且可做多维、动态、甚至旋转的显示。这里的数据探索,就是我们通常所进行的深入调查的过程。你最终要达到的目的可能是要搞清多因素相互影响的,十分复杂的关系。但是,这种复杂的关系不可能一下子建立起来。一开始,可以先观察众多因素之间的相关性;再按其相关的程度,以了解它们之间相互作用的情况。这些探索、分析,并没有一成不变操作规律性;相反,是要有耐心的反复的
16、试探,仔细的观察。在此过程中,你原来的专业技术知识是非常有用的,它会帮助你进行有效的观察。但是,你也要注意,不要让你的专业知识束缚了你对数据特征观察的敏锐性。可能实际存在着你的先验知识认为不存在的关系。假如你的数据是真实可靠的话,那末你绝对不要轻易地否定数据呈现给你的新关系。很可能这里就是发现的新知识!有了它,也许会导引你在此后的分析中,得出比你原有的认识更加符合实际的规律性知识。假如在你的操作中出现了这种情况,应当说,你的数据挖掘已挖到了有效的矿脉。在这里要提醒你的是要有耐心,做几种分析,就发现重大成果是不大可能的。所幸的是SAS向你提供了强有力的工具,它可跟随你的思维,可视化、快速的作出反
17、应。免除了数学的复杂运算过程和编制结果展现程序的烦恼和对你思维的干扰。这就使你数据分析过程集聚于你业务领域的问题,并使你的思维保持了一个集中的较高级的活动状态,从而加速了你的思维过程,提高了你的思维能力。Modify问题明确化、数据调整和技术选择通过上述两个步骤的操作,你对数据的状态和趋势可能有了进一步的了解。对你原来要解决的问题可能会有了进一步的明确;这时要尽可能对问题解决的要求能进一步的量化。问题越明确,越能进一步量化,问题就向它的解决更前进了一步。这是十分重要的。因为原来的问题很可能是诸如质量不好、生产率低等模糊的问题,没有问题的进一步明确,你简直就无法进行有效的数据挖掘操作。在问题进一
18、步明确化的基础上,你就可以按照问题的具体要求来审视你的数据集了,看它是否适应你的问题的需要。Gartner group在评论当前一些数据挖掘产品时特别强调指出:在数据挖掘的各个阶段中,数据挖掘的产品都要使所使用的数据和所将建立模型处于十分易于调整、修改和变动的状态,这才能保证数据挖掘有效的进行。针对问题的需要可能要对数据进行增删;也可能按照你对整个数据挖掘过程的新认识,要组合或者生成一些新的变量,以体现对状态的有效的描述。SAS对数据强有力的存取、管理和操作的能力保证了对数据的调整、修改和变动的可能性。若使用了SAS的数据仓库产品技术时就更进一步保证了有效、方便的进行这些操作。在问题进一步明确
19、;数据结构和内容进一步调整的基础上,下一步数据挖掘应采用的技术手段就更加清晰、明确了。Model模型的研发、知识的发现这一步是数据挖掘工作的核心环节。虽然数据挖掘模型化工作涉及了非常广阔的技术领域,但对SAS研究所来说并不是一件新鲜事。自从SAS问世以来,就一直是统计模型市场领域的领头羊,而且年年提供新产品,并以这些产品体现业界技术的最新发展。按照SAS提出的SEMMA方法论走到这一步时,你对应采用的技术已有了较明确的方向;你的数据结构和内容也有了充分的适应性。SAS在这时也向你提供了充分的可选择的技术手段:回归分析方法等广泛的数理统计方法;关联分析方法;分类及聚类分析方法;人工神经元网络;决
20、策树等。在你的数据挖掘中使用哪一种方法,用SAS软件包中什么方法来实现,这主要取决于你的数据集的特征和你要实现的目标。实际上这种选择也不一定是唯一的。好在SAS软件运行效率十分高,你不妨多试几种方法,从实践中选出最适合于你的方法。Assess模型和知识的综合解释和评价从上述过程中将会得出一系列的分析结果、模式或模型。同一个数据源可以利用多种数据分析方法和模型进行分析,ASSESS 的目的之一就是从这些模型中自动找出一个最好的模型出来,另外就是要对模型进行针对业务的解释和应用。若能从模型中得出一个直接的结论当然很好。但更多的时候会得出对目标问题多侧面的描述。这时就要能很好的综合它们的影响规律性提
21、供合理的决策支持信息。所谓合理,实际上往往是要你在所付出的代价和达到预期目标的可靠性的平衡上作出选择。假如在你的数据挖掘过程中,就预见到最后要进行这样的选择的话,那末你最好把这些平衡的指标尽可能的量化,以利你综合抉择。你提供的决策支持信息适用性如何,这显然是十分重要的问题。除了在数据处理过程中SAS软件提供给你的许多检验参数外,评价的办法之一是直接使用你原来建立模型的样板数据来进行检验。假如这一关就通不过的话,那末你的决策支持信息的价值就不太大了。一般来说,在这一步应得到较好的评价。这说明你确实从这批数据样本中挖掘出了符合实际的规律性。另一种办法是另外找一批数据,已知这些数据是反映客观实际的规
22、律性的。这次的检验效果可能会比前一种差。差多少是要注意的。若是差到你所不能容忍程度,那就要考虑第一次构建的样本数据是否具有充分的代表性;或是模型本身不够完善。这时候可能要对前面的工作进行反思了。若这一步也得到了肯定的结果时,那你的数据挖掘应得到很好的评价了。第三章 深层统计分析与预测套件SAS “深层统计分析与预测套件”主要是应用SAS国际标准的经典统计分析工具对数据进行深层次的分析、加工和预测,进而再生成作为决策支持用的图形和报表。SAS既可以采用客户机/服务器方式,也可以采用浏览器/服务器方式运行。下面首先介绍此分析套件的功能,之后再介绍SAS的产品配置方案及其工作模式。功能“深层统计分析
23、与预测套件”所具有的功能包含以下几个方面。1. 强大的数据抽取和数据转换功能SAS系统最主要的一个数据集成策略就是:将任意数据,不论其数据来源及数据结构,转换为整理后的、可用的数据资源。SAS/ACCESS提供了SAS系统对多种数据库的直接、透明访问,同时还支持ODBC, OLE DB等标准,在SAS 可以访问的50多种数据源中包括Informix 和Redbrick,DB2、ORACLE、ADABAS、SYBASE等。而SAS BAS等产品提供了强大的数据清理和转换功能。在SAS系统中,既支持标准SQL,并加入了适当的增强语法,形成基于SAS的SQL超集,又支持各种DBMS SQL。但是,众
24、所周知,SQL语言是面向集合的描述性语言,对于复杂的数据处理操作,存在一定的局限性。SAS语言是更加适应复杂数据处理操作的一种选择。SAS语言可以针对库、表、行、列、甚至是字节或位进行操作,极大地提高了数据处理的灵活性;在实际应用中,SAS语言可以直接实现将静态GIF图形文件组织成动态GIF文件。同时,SAS语言提供了丰富的函数和例程,提高了代码效率,简化了代码编写;例如,分析应用中经常需要的数据表的行-列转置操作,调用一个标准SAS例程(Transpose)即可完成;又如,使用SAS Format例程,可以缩短主-码表拼合的耗时,使总耗时与复制一个主表的时间相当。另外,SAS语言中提供了大量
25、统计分析功能,可以提高数据清理的效率;例如,使用SAS频数过程,可以迅速考查主键重复及空键情况,将完整主键与不完整主键分隔,然后剔除重复主键及空键的数据行,效率远高于SQL中的SELECT DISTINCT。这样,经过清理和整合过、高质量的数据为成功的深层次统计分析合和数据挖掘奠定了良好的基础。2全方位的统计分析功能在“深层统计分析与预测套件”中覆盖几乎所有实用数理统计分析方法,并同时在不断地进行更新。包括几十中过程,上千种分析方法。这些方法包括多指标之间的关联分析及影响目标指标的因素重要性分析;用于客户群体分类的各种聚类分析;用于预测客户行为、效益和风险的各种描述和预测模型;用于市场分析的各
26、种模型,如关联分析、对应分析、多维标度分析、和研究消费者和客户的多维偏好分析等;用于风险防范的各种预警分析方法等。“深层统计分析与预测套件”提供的各种功能,既可以用简单的编程,也可以用各种GUI菜单系统来实现。生成的图形和分析都是动态的,用户可以通过3D旋转图形来探索数据,和建立模型。 “深层统计分析与预测套件” 提供的方法广泛用于应用于客户关系管理、金融风险防范、供应关系管理、数据库营销、企业均衡记分卡、e-智能化及竞争优势分析等方面。下图为经过统计分析之后的一个预警应用:3丰富的预测分析SAS/ETS提供了丰富的计量经济学和时间序列分析方法,包含方便的各种模型设定手段,多样的参数估计方法,
27、是研究复杂系统和进行预测的有利工具。ETS表示Econometric & Time Series,提供了用于进行预测,规划及商业模型(建模)的分析工具,提供了目前所有实用的用于预测的数学模型。主要应用同时间相关的指标的复杂分析、模拟、季节性调整、预测等,帮助人们对未来有充分的评估和预测,辅助决策者进行正确决策。这些预测,可以利用简单的编程来实现,也可以利用窗口菜单驱动环境进行。用户可按完全自动的方式使用系统,也可交互式地使用系统诊断功能及时间序列建模工具生成能最佳预测用户时间序列的预测模型。对于每个序列系统提供图形和统计参数帮助用户选择最佳预测方法。下图为在web上展现的预测分析:4方便的信息
28、展现为了把经过深层数据分析获得的信息在企业最大范围内得到共享,为决策支持提供及时准确的信息,必须要有方便的信息展现方式。应用上,SAS既可以通过客户机/服务器方式,也可以利用浏览器/服务器方式,甚至还可以采用新的瘦客户机技术。在信息展现的方式上,SAS提供各种方便和强大的报表和图形功能,如包括各种精美的二维报表,数据敏感钻入(data-sensitive drill down)、What-if分析、多维(Cube)数据浏览和分析、异常数据报告(exception reporting)、关键成功因子的图表等几十种展现方式。同时,还可以根据客户的要求对很多常规的应用进行客户化。客户机/服务器方式此
29、种方式把数据统计分析的处理分布于客户机和服务器端,把信息的展现集中于客户机端,而数据的存储主要是集中于服务器端。SAS产品的标准配置如下: 服务器端:BASE SAS, ACCESS, CONNECT, STAT, ETS 客户机端:BASE SAS, FSP, GRAPH, CONNECT, INSIGHT, STAT, ETS, EIS, AFSAS产品的推荐配置:为了更方便地进行数据分析和发布,推荐在客户机端同时使用SAS/Enterprise Guide.借助于其极具艺术性的Windows风格界面,Enterprise Guide对一系列复杂操作(数据操作、报表生成、动态图形制、统计分
30、析和预测作)进行了简化,为用户提供了一个完全点击的工作环境。同时可以帮助你完成对相关数据、任务、代码和结果收集的管理。另外,你也可以对项目进行调度,这样你就可以设定:当数据发生变化时,任务开始运行;然后,你可以自动将生成的报表发布到网上去。不管你是一名熟练的SAS软件用户还是一名SAS新手,Enterprise Guide都能够实现相应的定制以满足不同水平用户的SAS技能。新手可以借助一系列对话框,引导自己来完成从简单到复杂的各种类别的任务,而熟练的SAS程序员则能够尽情地享受多样化的编程、文法检查编辑器了。应用Enterprise Guide和SAS软件,你能够透明地完成对几乎所有数据源的访
31、问。你可以对存放在本地和远端服务器上的数据进行访问,不受操作系统平台(Windows、UNIX、MVS等)的限制。同时,你也可以对由SAS应用和其他应用产生的数据进行观察;应用易于操作的拖拉环境,在服务器间进行结果的交换;从其他Windows应用(Excel、Access、Word、Powerpoint)对结果进行导出和导入;将其他应用建立的文件集成到你的Enterprise Guide项目中来。浏览器/服务器方式此种方式把数据的存储、处理和统计分析完全集中于服务器端,而把静态图形和报表、动态图形和报表、统计分析和预测的结果等信息用客户机端上的浏览器展示。同客户机/服务器方式相比,维护费用低,
32、同时信息使用比较广泛,但有时在分析的灵活性上有所降低。SAS产品的标准配置如下: 服务器端:BASE SAS, FSP, GRAPH, ACCESS, CONNECT, SHARE, INTRNET, STAT, ETS 客户机端:无需安装 SAS 产品,只需安装IE5.0(或以上) 或 Netscape浏览器。SAS ODS是SAS的通用输出转换系统,其中ODS HTML输出是可以使SAS服务核心的运算结果以HTML形式输出,输出的结果具备进一步动态交互操作的功能。SAS/IntrNet为用户提供了通过WEB浏览器访问SAS应用的功能, 覆盖了WEB出版和发布、 动态数据服务和动态计算服务。
33、 SAS公司是唯一一家能够提供所有三类WEB产品的软件厂商。第四章 数据挖掘套件数据挖掘套件主要是利用SAS公司业界第一位的数据挖掘工具及其集成环境SAS/Enterprise Miner 进行企业级的数据挖掘,并利用其它的一些相关的应用展现工具把数据挖掘的结果以最适合于客户业务的方式展现给客户。数据挖掘采用客户机/服务器方式,数据挖掘的结果及其应用可以采用客户机/服务器或浏览器/服务器方式。功能“强大的数据抽取和数据转换功能” 、“丰富的预测分析” 、“方便的信息展现”参见第三章相应的部分。下面主要介绍企业级的数据挖掘工具SAS/Enterprise Miner。企业级的数据挖掘工具SAS/
34、Enterprise MinerSAS/Enterprise Miner(简称SAS/EM)是SAS客户关系管理、金融风险防范、供应关系管理、数据库营销、企业均衡记分卡、e-智能化及竞争优势分析等众多方案的一个重要工具,是数据仓库最重要的信息加工工具,没有数据挖掘,数据仓库中的数据分析只能作到一些最基本的查询、报表和简单的OLAP分析。只有数据挖掘才能够从数据仓库中的海量数据中提取决策支持所需要的有价值的信息。SAS/EM是一个图形化界面、菜单驱动、拖拉式操作,对用户非常友好且功能强大的数据挖掘集成软件。支持完善的SEMMA方法论。其中集成了: 数据获取工具 数据取样工具 数据探索和可视化工具
35、 数据筛选工具 数据变量转换工具 变量和因素重要性筛选工具 用于Marketing Basket Analysis 的关联分析工具 群体分类的各种聚类分析方法 多种形式的回归分析工具和方法 决策树方法(CART, CHAID, C4.5, C5.0) 人工神经元网络、SOM等人工智能方法和工具 模型集成和优化工具 Boosting, Bagging, Arching 等模型最优化算法 数据挖掘的评价工具 数据挖掘数据库 数据挖掘过程的各种控制工具可利用SAS/EM中具有明确代表意义的图形化的模块将这些数据挖掘的工具单元组成一个处理流程图,并依此来组织您的数据挖掘的过程。这一过程在任何时候均可根
36、据具体情况的需要进行修改、更新并将适合您需要的模式存储起来,以便此后重新调出来使用。SAS/EM图形化的界面,可视化的操作,可导引即使是数理统计经验不太多的使用者也能按照SEMMA的原则成功的进行数据挖掘。对于有经验的专家,SAS/EM也可让您一展身手精细的调整分析处理过程。这一强大的数据挖掘工具组合阵容,保证了可以支持企业级的数据挖掘的各个方面工作。SAS/EM真正实现了和数据仓库、报表和OLAP分析等的无缝集成。不但本身具有独立的应用能力,同时还能生成SAS Code 和 C Code, 以供进一步的应用使用。下图为某银行客户关系管理系统中客户群体分类的数据挖掘流程图:下图为数据挖掘结果在
37、web上的展现(客户关系管理中的客户群体分类):下图为数据挖掘结果在web上的展现(客户关系管理中影响效益的重要因素分析):客户机/服务器方式此种方式把数据的存储和数据挖掘的处理集中于服务器端,而把数据挖掘过程中的图形显示和结果的应用放在客户机端。SAS产品的标准配置如下: 服务器端:BASE SAS, ACCESS, CONNECT, STAT, ETS,Enterprise Miner (Server) 客户机端:BASE SAS, FSP, GRAPH, CONNECT, INSIGHT, Enterprise Miner (Client), EIS, AF浏览器/服务器方式此种方式把数据的存储和数据挖掘的处理集中于服务器端,而把数据挖掘过程中的图形显示放在客户机端,而数据挖掘的应用则采用web方式展现。SAS产品的标准配置如下: 服务器端:BASE SAS, FSP, GRAPH, ACCESS, CONNECT, SHARE, INTRNET, STAT, ETS,Enterprise Miner (Server) 客户机端:Enterprise Miner (Client), IE5.0(或以上) 或 Netscape浏览器。21