《SQLServer2005数据挖掘与商业智能完全解决方案.doc》由会员分享,可在线阅读,更多相关《SQLServer2005数据挖掘与商业智能完全解决方案.doc(130页珍藏版)》请在三一办公上搜索。
1、SQL Server 2005数据挖掘与商业智能完全解决方案 1.1 企业经营管理活动对商业智能的需求1.2 商业智能的技术构成1.3 部署商业智能2.2 设计和使用ETL2.3 创建OLAP数据立方2.4 创建和使用报表本章导读:“工欲善其事,必先利其器”。信息技术在商业领域应用的卓越成效在经过近20年的信息化建设已经初步显现。企业通过MIS(管理信息系统)快速收集和处理商业信息,通过ERP(企业资源计划系统)准确监控信息流,从而对企业经营的各个方面进行管理。这些系统除了本身的应用外,还积累了大量的数据,如来自业务系统的订单、库存、交易账目、客户和供应商资料,来自企业所处行业和竞争对手的数据
2、,以及来自企业所处的其他外部环境中的各种数据,这是一笔宝贵的财富。信息系统应该具备把这些庞大的数据转化为知识,进而辅助企业经营决策,甚至自动生成商业决策的能力,这就是商业智能。信息系统正在经历着“MISERPBI”的演变过程。本章将对于商业智能涉及到的相关技术,如数据仓库(DW)、数据挖掘(DM)等进行概要地分析,同时从理论上明确商业智能在企业经营决策过程中的价值发挥原理。本章先简单地说明企业经营管理活动对商业智能的需求,从而明确实施BI的原因,解决Why的问题;再阐述商业智能的技术构成,大概了解如何实现商业智能,解决What和How的问题;最后列举一些实际部署的部署商业智能项目结果,解决Wh
3、at Effect的问题。1.1 企业经营管理活动对商业智能的需求信息系统在企业管理中的应用不仅随着管理理念的更新而发展,还在很大程度上依赖于企业商业信息的存储量。随着社会节奏的加快,企业信息积累越来越多,而商业知识的需求却得不到满足,于是就提出了商业智能的概念。这一节将对商业智能系统应用的深层原因进行探讨。1.1.1 企业经营活动面临的挑战企业经营活动包括采购、生产、销售、商贸磋商、价格比较、经营决策、营销策略、推销促销、公关宣传、售前/售后服务、客户关系和咨询服务等。这些活动的背后实际上有3种“流”在支持着整个企业的运转:物流、资金流和信息流。“物流”是从原材料和零配件到成品整个物资流通的
4、过程。它将运输、仓储、加工、整理和配送等整个物资流通过程通过信息有机结合,形成完整的供应和需求链。“资金流”是资金在企业内部和企业之间的流动过程。它包括融资、应收账款和应付账款的管理等,涉及财务的各个方面。“信息流”是企业管理的各个环节产生的信息的规律性流动。如业务运作过程产生的单据及其处理过程;经营管理过程中的成本、收入、利润报表及其相互关联;战略决策规划过程中的产品结构及市场定位信息;企业的经营目标和策略信息等。实际上,每个时期的企业经营活动过程都可以抽象出这“三流”。只不过传统企业管理由于企业规模和经营过程产生的信息量等还不是十分庞大,所以对这“三流”没有进行深入的研究和给予更多的重视。
5、然而,信息时代的企业经营活动在这3个方面却面临着两个很大的挑战。1商务工具的变迁技术总是不断地影响着商务模式。自从人类社会有商业活动以来,采用新进有效的商业工具往往能在竞争中先发制人。这里不讨论生产工具和交通工具,只着眼于和商业智能关联的信息工具来看现代企业在这方面面临的这一挑战。每一次科学技术的进步,总是会在很短的时间内在商业领域得到普遍的应用。图1-1的上面部分展示了从电报到互联网在不同阶段有代表性的商业工具,伴随着商业工具的变迁,人们处理信息的能力在工具的帮助下变得越来越强大,信息量的增长也越来越快。在此图的下半部分是与商业工具的发展相对应的信息量的增长。可以说,对商业活动影响最大的工具
6、是计算机在商业领域的应用,它标志着商业活动真正进入信息化的时代,这时候的信息处理方式以数据库为主。现阶段企业的很多商业活动的信息化都还属于这个阶段。互联网在商业活动中的应用不仅从某种程度上改变了传统的商业模式,在信息增长和信息处理方式上也发生了前所未有的变化。在这个阶段,伴随着网络的使用,商业信息呈爆炸状增长,企业从以前使用的系统中继承了相当多的数据,如从ERP中继承的生产运作相关信息、从CRM中继承的客户信息和从HR系统中继承得到的员工信息等,这些信息只有共同作用才能发挥其效益,故信息处理方式以数据仓库和数据集市等为主。图1-1 商业工具的发展及其相对应的信息量正是由于信息工具的变化和信息量
7、的不断增长,人们针对这些不同时期的不同信息类型一直在探索管理好它们的方法,也伴随着产生了一些工具。在使用电报、电话和传真等商业工具的阶段,信息量还不是很庞大,人们自身的能力还可以处理它们,这段时间出现的都是手工处理信息的方法,如文件的编目和文件系统的管理等。计算机的商业应用出现后,信息处理的方式发生了革命性的变化,先是商业单据的电子化,即EDI(电子数据交换),然后是MIS(管理信息系统)的广泛应用。随着信息的持续增长,一些新的商业信息处理方式被提了出来,如企业资源规划、供应链管理、客户关系管理和人力资源管理等,对应的商业信息处理工具分别有ERP、SCM、CRM和HR等。这一过程如图1-2所示
8、。图1-2 信息管理工具的演变在这个变化的时代,能适应变化并趋利避害者才能在竞争中取得胜利。对于企业经营管理来说,这既是机遇又是威胁。新的商业工具在成本和效率等方面都有优势,如何使新的商业工具得到使用并使企业快速适应使用这种工具的环境,扬其长避其短,这是企业经营活动面临的一个重要挑战。2信息囚笼、信息孤岛和信息对抗的问题企业里有大量的分布于各个计算机系统的数据,人们使用信息处理工具的目的就是希望把这些数据进行整理和分析,找到其中有价值的信息,为企业的经营决策提供依据。但是实际情况往往和这个愿望大相径庭,在现有的信息传统中,存在着信息化系统与传统业务系统脱节、信息化各子系统脱节、信息化整合传统资
9、源脱节的“三脱节”现象,这直接导致了企业信息囚笼、信息孤岛和信息对抗的问题。在信息化过程中,企业积累了大量的数据,包括生产运作、客户、产品和销售等方面,但这些数据却被深埋在单独的计算机系统中未加以或难以运用,其潜力也不能发挥出来。而另一方面,企业在维护这些计算机设备和数据库系统上进行了可观的投资,很多管理者甚至不无感慨地说:“在信息系统上的投资就像一个黑洞,花了很多钱,却不见成效”。不仅丰富的数据被深埋着,企业自身好像也被这些系统套着,这就是信息的囚笼现象。系统间的相互交互、兼容和集成问题是另一个重要的问题。信息化有一个从初级阶段到中级阶段,再到高级阶段的发展过程。在计算机应用的初级阶段,人们
10、容易从文字处理、报表打印开始使用计算机,进而围绕一项项业务工作,开发或引进一个个应用系统。这些分散开发或引进的应用系统,一般不会统一考虑数据标准或信息共享问题,如某企业财务管理用“管家婆”,生产运作用“用友”,销售管理用“金蝶”,客户关系管理和人力资源管理自己开发,这样,各个系统之间的数据很难进行交换。信息系统往往被其所属的部门隔绝,决策者很难得到一个基于对大量数据进行运算后得到的企业经营运作总体图景,这种现象就称为“信息孤岛”。企业中的信息流、资金流和物流应该能够相互验证,协调一致,但由于数据的分散和不兼容性,不同部门也有各自不同的体制,这样导致信息流所反映的资金流和物流的情况在很多时候还存
11、在矛盾,这必然会导致信息之间的相互对抗。如何解决信息囚笼、信息孤岛和信息对抗的问题是现代企业经营管理中面临的又一个挑战。虽然进行信息系统建设非常麻烦,但却不能放弃。正如不能因为火车压死过人就不使用火车一样,决不能因为存在缺陷就拒绝新思想新技术的使用,应该想办法去消除信息孤岛、信息囚笼和信息对抗,趋利避害方能有所成。实际上在本书的姐妹篇SQL Server 2005数据库管理与应用高手修炼指南中的最后一章,已经简单地阐述了从数据到智能的相关理论,那么在这里,需要解决的问题就是从现有系统中的数据出发,如何得到能真正辅助商业活动的智能,进而转化为利润,也就是完成信息系统的“数据信息知识利润”转化过程
12、。在SQL Server 2005数据库管理与应用高手修炼指南一书中,笔者详细地论述了3个相关问题:数据、信息、知识和智慧有何区别;一般情况下数据如何经由信息和知识生成智慧;基于数据库系统的智慧是如何产生的。本书将在以上问题的基础上进一步探讨由数据转化为商业智能后如何发挥其作用,即商业活动决策中的信息需求问题,在此基础上才能明确一个提供商业智能的系统到底应该包含哪些功能。1.1.2 企业决策实现过程的信息需求管理就是决策,决策需要信息。决策过程实际上就是一个信息输入、信息输出及信息反馈的循环过程。原来的决策支持系统,现在流行的商业智能,其目的都是为了辅助决策,让管理者从拍脑袋做决策到依据数据和
13、事实做决策。这些依赖的数据和事实来源于两个方面,一是来源于竞争环境,这包括内部信息源(主要是存在于决策主体的经验信息)和外部信息源(主要是决策主体和咨询机构从社会中通过各种渠道获取的信息),另一方面来源于企业多年信息化建设中积累的数据库信息。对于第1个方面,信息的非结构化特征决定了其随意性和不确定性,这是决策理论中研究的问题,而对于第2个方面的信息,即使用存在于数据库中的信息来辅助决策的问题,就是可以通过商业智能从技术上来得到很大程度的解决。要基于计算机辅助决策的软件系统(商业智能系统就是其中最典型的代表)进行决策,需要经过5个步骤:1决策信息请求(商务查询需求)的发起。例如,现在某公司的决策
14、层次年度在不同的地区投资的力度,需要知道本年度和前5年华中、华北、华东和华南等区域的销售量和销售额,并且要有很美观的界面和直观的图示来表达这些来源于数据库中的数据,这就为此决策发出了信息请求。2调用商业智能应用程序。决策者可以直接使用原来的系统,如ERP和CRM等来访问相关的销售数据,但是,这些数据往往分散在不同的数据库中,原来的系统也可能并没有提供十分富有个性化的查询需求。比如,在上述的决策中,原系统可能只提供了所有年度的销售数据,而不会具体到某一年甚至某一个月,那么这时候要满足决策信息需求就必须使用基于数据仓库技术的商业智能应用程序。3基于已发布的模型、规则或是策略确定适当的决策。这一步是
15、用计算机辅助决策的重要步骤。也是智能化体现的地方。决策(特别是结构化决策)是有一定规律的,这些规律可以从以往的决策过程或者从以往的数据中抽象获得,把抽象得到的这些规律放在经过特别组织的库中,可以构成模型库、规则库和策略库,智能决策可以在这些库的基础上获得。4发布决策。决策最终是人的行为,计算机辅助了决策过程中信息的提取和规律性决策的结果,但最终的决策行为还是掌握在决策者自己的手中。5采取行动。这是检验决策正确性的唯一途径。图1-3是把以上决策过程中对信息的需求和计算机辅助决策的过程及其相互关系进行归纳所得。其中,图的左边部分是决策的信息源,右边部分借鉴了DSS(决策支持系统)的相关理论,表达了
16、计算机辅助决策过程的全貌。图1-3 决策信息源及基于计算机系统的决策过程商业智能系统建设的目标就是要为企业提供一个统一的分析平台,充分利用原有系统中积累的宝贵数据,对其进行深层次的发掘,并从不同的角度分析企业的各种业务指标和构建业务知识模型,进而满足决策的信息需求和实现通过技术辅助决策的功能。1.1.3 企业信息化系统的进化信息流的质量、速度和覆盖范围,可以反映企业的生产、管理和决策等各方面的优劣度。企业的“生命活动”最终都将以信息流的形式展现。因此企业管理者十分重视信息流的管理。随着技术的发展,企业信息化系统也围绕着对信息流的更合理、更有效率的管理而努力着,这一点在图1-2信息管理工具的演变
17、中已经明确。实际上,如果把相似的系统进行归一,如把对于企业相关领域的信息进行细节管理的系统都归一为管理信息系统,把通过资源管理的整合来实现全局利益最大化的系统归一为企业资源计划系统,那么企业信息化系统的转化可以表示为这样的一种路径:MISERPBI智能决策系统。在这个路径中相应的管理对象就是:数据信息知识利润。这里将通过描述这些系统的区别来明确商业智能系统在企业信息化浪潮中的位置。管理信息系统和企业资源计划系统积累了大量的历史数据,这些数据是不同历史时期,根据不同业务的需要,由不同供应商提供的,体系结构和管理实施等方面存在着较大的差异,各系统间的数据也相对分散和独立,难以共享,没有建立起统一的
18、能用于分析处理的基础数据平台。若一种类型的业务数据用一个三角形代表,那么这些百家争鸣、百花齐放的系统数据就犹如图1-4所示的状态,可见,要一下子明确整个企业中的业务数据和相互关系(即图示中三角形的数量和联系)是有较大困难的。图1-4 百家争鸣、百花齐放的管理系统数据(共有多少个三角形?)在来自不同系统的大量数据中往往隐藏着重要的规律和商业规则,这些是企业管理者需要从系统中寻找的“金矿”。此“金矿”的形成过程实际上就是“数据信息知识智慧”的转化过程:对数据进行整理得到信息,深入的分析信息得到关于这些事实的相关情况,这就是知识。知识是宝贵的,如果将这些知识用在辅助决策上,会使决策更具科学性和可行性
19、,这些决策可以是操作层面的,也可以是战术层面和战略层面的,于是,知识又转化成了智慧。若决策是用于企业经营管理中的,那么这种智慧就可以称为商业智慧,也就是商务智能,或者叫商业智能(Business Intelligence,BI)。商业智能过程实际上包含2个层次。第1个层次是在整合系统数据的基础上提供灵活的前端展现,例如,通过直方图等形式表现来自销售管理系统的地区销售情况报表,对复杂的计算则通过计算机的手段辅助完成。如图1-5所示的即是这种商业智能功能的直观表现。图1-5 经过数据整合的BI系统功能(现在有多少个三角形?)商业智能的第2个层次是数据库中的知识发现。许多商业、政府和科学数据库的爆炸
20、性增长已远远超出了能够解释和消化这些数据的能力,需要新一代的工具和技术对数据库进行自动和智能地分析。这些工具和技术正是知识发现(Knowledge Discovery in Database,KDD)。知识发现的主要技术构成就是数据挖掘(Data Mining),“啤酒与尿布”的故事是在商业领域使用数据挖掘与知识发现的一个典型的案例(见SQL Server 2005数据库管理与应用高手修炼指南第18章)。图1-6描述了加入智能数据挖掘算法后的系统功能。具备数据挖掘功能的商业智能系统能够在对历史数据分析的基础上,通过特定的算法,获取这些历史数据中的规律,进而完成预测、聚类和关联等功能。例如,通过
21、系统对销售数据的分析,可能会发现“在购买面包和黄油的顾客中,有90%的人同时也买了牛奶”,即“面包+黄油+牛奶”是一种常见的顾客购买方式。这是关联规则分析的结果。使用关联规则还可以发现商品在时间或序列上的规律。这些规律对于商务的智能化和决策的科学化将有十分重要的意义。图1-6 加入智能挖掘算法的系统功能(最后一个框中应该有多少个三角形?)知识经济的主要资产是“知本(知识资本)”,应用在商务领域,“知本”包括对客户需求的认识、市场定位和市场细分的方式、正确的定价方案等。要获取这些“知本”,就要在已有资源(其中很重要的就是信息资源)的基础上,充分分析,获取这些“知本”,从而做出可信和可行的决策。1
22、.2 商业智能的技术构成上一节可以说从多个层面明确了商业智能系统的重要性和必要性,但是,到底如何理解商业智能?商业智能如何实现?本节将解决这些问题。对这些问题的深刻认识是保证在商业智能应用技术实现过程中有一个清晰的思路。1.2.1 什么是商业智能商业智能的概念最早是Gartner Group于1996年提出来的。当时将商业智能定义为一类由数据仓库(或数据集市)、查询报表、联机分析、数据挖掘、数据备份和恢复等部分组成的,以帮助企业决策为目的的技术及其应用。而后随着商务环境的变迁和技术的进步,人们对于BI有了更多和更深的认识,下面将从两个方面探索商业智能的内涵。1不同视角的BIBI本身是一个复杂的
23、体系,况且应用环境复杂,这就形成了从不同视角看BI的情况。Gartner Group认为:商业智能技术提供使企业迅速分析数据的技术和方法,包括收集、管理和分析数据,将这些数据转化为有用的信息,然后再分发到企业各处,辅助商业决策的制定。IDC将BI定义为:商业智能是终端用户查询和报告的工具、OLAP工具、数据挖掘软件、数据集市和数据仓库产品等软件工具的集合。IBM认为:商业智能是一系列由系统和技术支持的以简化信息收集和分析的策略集合,它应该包括企业需要收集什么信息、谁需要去访问这些数据、如何把原始数据转化为最终导致战略性决策的智能、客户服务和供应链管理。Microsoft认为:商业智能是任何尝试
24、获取、分析企业数据以更清楚地了解市场和客户、改进企业流程和更有效地参与竞争的努力。SAP认为:商业智能是一大类收集、存储、分析和访问数据以帮助企业用户更好地进行决策的应用程序与技术。SAS认为:商业智能是关于在组织内部和组织周围正在发生的智能或知识。MSTR认为:商业智能是一系列能够使公司分析数据库中的数据并根据收集的信息获得的洞察力来作决策的软件系统。DWReview认为:从数据分析的观点,商业智能是收集与研究主题相关的、高质量的、有意义的信息、以帮助分析信息、得出结论或做出假设的过程。这些观点代表了最典型的BI视角,有一个名为ttnn BI观点的电子期刊也对此进行了研究,把这些对BI的认识
25、由虚到实探索其本质,大致分成如下4类。1是努力,MS主张的。2是智能和知识,SAS倡导的。3是过程,DMReview的定义。4是工具和技术集合,Gartner、IDC、IBM、SAP和MSTR代表的。任何技术的出现都是为了解决现实中存在的问题。把以上的观点与本章第1节的知识结合起来,应该对商业智能形成以下的认识。商业智能是商业数据海洋中的指南针,它从历史数据中提取信息,搞清楚经营状况,通过信息的分析获取对经营决策有价值的知识,从而帮助用户对自身的业务经营做出正确而明智的决定。比如,通过商业智能可以解决客户在不同地域的分布情况,可以对客户进行各个角度的分类,还可以把客户和订单联系起来,找出其变化
26、趋势。2BI中的统计、报表与分析、挖掘按照智能应用的范围,商业智能系统可以产生客户智能、营销智能、销售智能和财务智能。这些智能的产生包括3个部分的具体功能:信息处理、分析处理和知识发现。前2个部分是商业智能的前端展现对象,第3个部分则属于数据挖掘层次。信息处理包括查询和基本的统计分析,如使用交叉表、图表或者图进行报表的展示。分析处理是支持基本的OLAP操作,如上钻、下钻、旋转、切片和切块等,其表现形式也以报表为主。明确了这一点,就能解开大多数BI初学者的疑惑:既然是“智能”的了,为什么还是报表的天下。实际上,统计和报表在很长一段时间内还是BI的重点,但这里的统计和报表与基于数据库的统计和报表有
27、本质的区别,在BI系统中,报表的数据来源不是关系型数据库,而是从许多来自不同的企业运作系统的数据中提取出的有用数据,同时对这些数据进行清理以保证数据的正确性,然后经过抽取、转换和装载(即ETL过程),合并到一个企业级的数据仓库里,再经过联机分析处理(OLAP)而获得的企业数据的一个全局视图。都是报表,BI系统中的报表往往有很强的自定义功能(如可以针对某一个维度随意上钻和下钻)和很强的表现能力(如可以在不同的图形表现形式上随意切换)。BI的应用必须基于数据仓库技术,因为数据仓库够大、够清楚、够全面,并且对统计分析需要的数据源支持得够好,这些优点是传统的数据库没有的。笔者所接触到的很多BI与DW的
28、初学者对于商业智能和数据挖掘这两者的关系都存在着认识上的误区,他们要么把它们独立开来,要么把它们等同起来。而实际上,通常讲到BI,更多时候指的是前端应用部分,如现阶段声称是BI提供商的,大多数提供的是前端展现工具;而DW更多时候指的是后端部分,包括架构体系的设计和多维模型的建立等。还有一个问题就是数据挖掘(DM,Data Mining),说得学术化一点就是知识发现的问题,这是商业智能过程的第2个层次的应用,通过它可以找出隐藏的模式和关联,进行分类和预测。本书主要描述的是基于数据仓库的商业智能和数据挖掘的技术实现,对其关系的准确认识是学习过程中进行整体把握的基础。对商业智能体系结构的深入探究将有
29、助于达到这一目的。1.2.2 商业智能的结构描述商业智能的实现包含了“数据信息知识行动智慧”这一过程所运用的技术和方法。在国外,有人曾经把BI作为一种数据的提纯工厂。BI过程以来自业务系统的数据为基础,经过数据仓库技术的处理,整合数据并将其转化为有序的信息;这些信息经过联机分析处理(OLAP)技术的分析后,可以表达出数据内部的各种关联,这是对商业管理活动有很大帮助的知识;经营活动中很多时候还要进一步明确数据中隐藏的规则,这要靠数据挖掘技术的帮助,最后要采取行动时,可以用模型库和方法库等决策支持的相关技术来辅助决策;而决策和行动的结果又可以作为业务数据反应在业务环境中,为以后的决策提供数据源支持
30、。如此循环往复,商务活动就在BI系统的支持下变得智能了。图1-7表达了这一过程。在图1-7中可以发现,商业智能系统是建立在数据仓库、OLAP和数据挖掘等技术的基础之上,通过收集、整理和分析企业内外部的各种数据,加深企业对客户及市场的了解,并使用一定的工具对企业运营状况、客户需求和市场动态等做出合理的评价及预测,为企业管理层提供科学的决策依据。图1-7 BI过程及其对应的技术与方法把商业智能系统工作的这一过程进行技术上的抽象,可以把商业智能的体系结构分为源数据层、数据转换层、数据仓库(数据集市)层、OLAP及数据挖掘层和用户展现层。这几层通过密切的协作完成商业智能的功能,它们的相互依赖关系如图1
31、-8所示。在图1-8中可以看到,实现商业智能应用有4个十分关键的环节,包括数据源、ETL过程、数据仓库及其应用和BI前端展现。数据仓库系统的数据来源主要是外部的操作性应用系统,这些数据源包括数据的业务含义和业务规则,表达业务数据的表、字段、视图、列和索引等。图1-8 BI解决方案的体系结构ETL过程即抽取(Extraction)、转换(Transformation)和装载(Load)。ETL过程负责将业务系统中各种关系型数据、外部数据、遗留数据和其他相关数据经过清洗、转化和整理后放进中心数据仓库。数据仓库是商业智能系统的基础,是面向主题的、集成的、稳定的和随时间不断变化的数据集合。数据仓库的应
32、用包括联机在线分析处理(OLAP)和数据挖掘(DM)。通过对数据仓库中多维数据的钻取、切片及旋转等分析动作,可以完成决策支持需要的查询及报表。通过数据挖掘,可以发现隐藏在数据中的潜在规则。前端展现可以提供各种能帮助人们快速理解数据内涵的可视化手段。它是数据仓库的门面,包括各种报表工具、查询工具和数据分析工具以表格或图形化的手段对数据的展现。这是一种具有层次关系的体系结构。实际上,这种结构是极为稳定的,这是自然界的普遍规律,如生态系统中有层次,食物链中有层次,良好的软件构架有层次(如MVC结构)。分层处理的同时也是解决复杂问题的一种基本思考方法,如管理中的层次。基于数据仓库的商业智能和数据挖掘应
33、用采用这种结构已经通过实践证明是可行的。因此本书将依据图1-8所示的商业智能系统实现的技术阶段来组织相关内容。事实上,这一结构图是较为通用的,包括SQL Server 2005在内的很多数据挖掘和商业智能工具都是基于此图所描述的过程来实现其功能的。1.2.3 数据挖掘和商业智能工具商业智能具有极为广阔的应用前景,吸引了相当多的软件产商为BI提供解决方案。其中包括软件巨人Microsoft、Oracle、IBM和Sybase等。所以,商业智能工具的选择余地还是很大的。根据BI解决方案的体系结构,一个完整的BI应用需要ETL工具、数据仓库管理工具、OLAP工具、数据挖掘工具和报表查询工具5种工具协
34、同工作。如表1-1所示列出了其中一些软件厂商在这些工具方面的主要产品。表1-1 一些厂商提供的数据仓库工具公 司 名 称ETL工具数据仓库管理工具OLAP工具数据挖掘工具报 表 工 具IBMWarehouse ManagerVisual WarehouseOLAP ServerIntelligentMinerInsight&Qucik viewOracleOracle ETL ServerEnterprise ManagerExpress ServerDarwinExpress AnalyserSybaseReplication Server PowerStageWarehouse Studi
35、oWarehouse AnalyzerSASSPSSInfoMakerCAInfoPump PLATINUM ERWinPLATINUM InfoPumpDecisionBase InfoBeaconNeugentAionForest&TreesInfoReportsSAS第三方Warehouse AdministratorSAS MDDBEnterprise MinerEIS ERMicrosoftSSISSQL ServerSSASSSASSSRS目前BI在开放源码方面也有发展,最著名的是Pentaho开源BI系统,该系统的OLAP服务器采用Mondrian,OLAP展示使用JPivot,
36、关系型数据库使用Firebird RDBMS,ETL工具使用Enhydra,服务器使用JBoss,数据挖掘使用Weka,集成管理和开发环境使用Eclipse。这些都是开源项目。关于SQL Server 2005的商业智能解决方案将在1.2.5节讲解。1.2.4 商业智能工具的选择通过上面的讨论,可以看出IBM、Oracle、NCR、CA、SAS和Sybase等著名数据仓库厂商在数据仓库管理、OLAP和报表、数据挖掘方面都提供了丰富的工具。各类产品各有其特点,并且有各自的适用环境,需要从商业需求和技术两个角度来选择。一般来说,产品选择需要进行如下4个方面的基本工作。1了解商业需求了解商业需求首先
37、要了解应用的范围和级别。这需要确定建立企业级数据仓库、部门级数据仓库和个人级数据仓库中的哪一级数据仓库。还需要了解系统预期使用的用户群体是哪些、预期的用户数量是多少、用户在地理上的位置怎样、是集中在一起还是分散在网络的不同位置,然后需要了解建立数据仓库的用途和功能。了解用户想利用数据仓库进行哪些领域的工作,需要哪些功能,是简单的多维查询,还是需要进行多维分析,甚至是复杂的数据挖掘。了解现在进行数据分析的工作人员是如何进行工作的,他们的工作流程是怎样的,在他们的工作过程中遇到了哪些比较棘手的问题和困难。2了解信息系统需求在商业需求的基础上,需要进一步了解信息系统本身的需求。估算系统的数据量,了解
38、数据的稳定性。这是首当其冲的工作。另外,元数据的维护要求也非常重要。如果元数据由专业的技术人员来维护,则可以注重工具的效率;如果元数据由非专业的用户群体来维护,则可以注重工具表达的直观性。还需要了解企业用户现有的技术情况,比如企业现在经常使用哪些工具进行数据处理。在选择工具时,需要考虑选择的工具是否能够同用户已经使用习惯了的工具互通。3工具功能评估在获取上述需求后,应当对各大数据仓库厂商的工具进行客观的功能评估。功能评估可能包括:系统结构(操作系统平台、系统的跨平台性、系统的可靠性、安全性和系统备份恢复的能力等)、数据抽取能力(定时调度的能力、数据抽取的速率和数据转化功能的强弱等)、数据存取呈
39、现能力(支持多维查询的能力、是否具有OLAP分析的功能和是否有良好的客户界面等)、应用支持(是否有良好应用程序开发语言、数据库对存储过程的支持情况、系统提供的可重用软件成分的多少和软件的跨平台性等)、用户接口(用户界面的美观性和对Web平台的支持情况)和工具的互操作性(数据库、数据仓库、OLAP分析、数据挖掘和前端展现工具间的互通情况)。4工具组合和测试在对各种产品进行客观评价后,可以选择某个厂商的产品或者选择多个厂商产品的组合。在选定产品后还需要对产品进行现场测试,看产品是否能够满足实际需求。需要特别注意的是数据仓库将随着时间的推移不断增大。因此,我们在进行产品选择和测试时,必须对将来的情况
40、进行预测。对于数据挖掘工具,第11章介绍的5A模型具有很好的指导意义。5A模型认为任何数据挖掘方法学都由5个基本元素组成,即Assess、Access、Analyze、Act和Automate。在选择数据挖掘软件产品时,要注意某些软件所采用的算法虽然名称可能完全一样,但它们的实现方法通常都不一样。这些算法的不同影响了软件对内存和硬盘的需求不同及性能上的差异。1.2.5 SQL Server 2005的商业智能构架SQL Server 2005相关的知识综合起来有两大体系,一是关于数据库管理的,一是关于商业智能应用的。不同的服务各司其职,共同完成数据管理和应用的功能。把这些服务和相应的程序分配到
41、这两大知识体系就是如图1-9所示的样子。图1-9 SQL Server 2005的两大知识体系SQL Server 2005在商业智能方面提供了三大服务和一个工具来实现系统的整合。三大服务是SQL Server 2005 Analysis Services(SSAS)、SQL Server 2005 Integration Services(SSIS)和SQL Server 2005 Reporting Services (SSRS),一个工具是Business Intelligence Development Studio。它们的关系如图1-10所示。图1-10 三大服务一个工具实现BI的体
42、系图从图1-10中可以看出,三大服务都整合在BI Studio中,其中SSIS能从各种异构数据源中整合BI需要的业务数据,同时可以实现与商务流程统一。这项功能在以前是通过DTS服务(即数据转换服务)来实现的。SSAS是从数据中产生智能的关键,通过这种服务,可以构建数据立方(Cube),也就是多维数据集,然后进行OLAP分析,SSAS也提供数据挖掘的功能。有了这种服务就能够很容易找出隐藏在数据中的金矿。一个BI项目一般要为不同的人提供不同特点的报表,如总经理和部门经理对报表的内容要求是完全不一样的,SSRS服务为满足这一要求提供了相应的工具,通过它可以对分析结果提供类型多样、美观且适合不同需求的
43、图表和报表。通过以上体系结构的设计,SQL Server 2005可以实现建模、ETL、建立查询分析或图表、定制KPI、建立报表和构造数据挖掘应用及发布等功能。1.3 部署商业智能企业要能维持竞争优势,持续改进流程与精确的商业决策是相辅相成的两把利剑。正确的信息才能引导合理而高效率的企业流程。商业智能系统致力于企业管理信息的即时获取,使得企业管理者能将这些信息转化为决策,从而实现经营目标。商业智能系统可以在大多数企业经营管理领域起到重要的作用。1.3.1 商业智能如何协助企业管理高科技行销泰斗麦肯纳在其著作即时行销革命中认为,信息技术促使时间与空间瓦解,企业必须采用即时管理,以满足客户需求;而
44、实现即时管理的企业,又必须以获得即时信息为根基。即时信息加工后成为企业经营的知识,把知识进一步与企业的经营目标相结合,即可实现商业智能。商业智能主要通过4种方式协助企业管理。1辅助目标管理(Management By Objective,MBO)个企业可能有上百个绩效目标。基于横跨全企业的信息系统,辅以撷取自外界的资料,商业智能系统能即时计算跨组织的绩效目标,与同行业或工业标准相比较,便于企业了解自身的竞争优势。2辅助例外管理(Management By Exception)由于能即时而持续地计算各种绩效目标,商业智能系统可监测其与计划目标的偏差。当偏差过大时,系统立即以各种通信方式,比如电子
45、邮件,来通知主管人员。例外管理可与工作流技术结合,进一步使整个例外处理自动化。3辅助事实管理(Management By Fact)无论目标或例外,背后支持的力量都来自于事实。维持企业营运的ERP系统在每日的交易之中,累积了无数的事实与知识。商业智能系统将企业目标与例外结合事实,使主管得以进一步分析原因或趋势,查询并探测相关信息。4智能协同管理(Management By Intelligent Cooperation) 它将企业外部资源和内部资源的信息智能实时协同集成,辅助企业管理者不仅可以充分协同调度企业内部资源,而且可以及时集成客户和供应商等变化信息,实现与客户、供应商及业务环境的协同同
46、步和协同进化。智能协同管理,将有效改善企业管理者之间及企业与环境之间的信息交流,改进商务协作及决策的方式,从而有效地解决目前信息系统应用中存在的诸多资源管理失调问题,辅助企业实现实时智能商务联盟和智能协同决策,提高企业供应链价值及企业综合竞争力。1.3.2 商业智能在各领域的应用商业智能的应用具有很强的普适性。只要一个企业积累了历史数据,并且有对这些数据进行分析的需求,商业智能都有用武之地。下面列举企业管理和客户服务两个典型的应用领域。1在企业管理中的应用以生产制造企业为例,一般需要管理的领域包括库存管理、采购管理、销售管理、财务报表、账务管理、应收账管理、应付账管理、工资核算、质量管理和成本
47、管理等。商业智能系统应用于这类企业主要完成以下功能。1)销售分析把握市场动向,提高销售利润是企业的最终目标。在企业管理日趋科学化的今天,如何准确及时地进行生产经营决策是企业老总面临的严峻问题。这要求决策者准确及时地捕捉到销售信息,分析销售情况,随时根据历史的销售情况,对下一步的生产经营科学地进行决策。销售分析需要的基础数据涉及到的模块有销售、库存、财务和人事,能够围绕销售合同,从人员绩效、应收款、财务和库存等多角度进行分析,并给出如销售趋势和产品需求趋势等辅助决策信息。商业智能系统根据企业需要解决的问题,帮助企业建立相应的分析主题和分析指标,从业务系统的基础数据库中抽取需要的数据,按预先建立的
48、业务模型进行分析决策。分析结果显示直观而形象,决策者只需要简单地点取操作,便可以从商业智能强大的销售分析工具中获得所需的决策信息。 2)库存分析 良好的库存管理是企业正常运作的基础之一。一方面保证生产所需原材料的及时供应,生产半成品的合理周转,另一方面保证产品销售的及时供给。同时要求资金占用少,周转快捷,即达到最优库存。基于商业智能系统构建的库存分析,既可满足一般用户对库存物品的数量、库存成本和资金占用进行级别、类别、货位、批次和单件等不同角度的查询,又能辅助决策解决企业深层次的相关问题,如呆滞物品的分析和处理,根据盘点结果及时进行库存调整及优化等。库存分析的基础数据取自于采购、销售、生产和财务等业务模块。3)采购分析生产原材料采购是企业生产的基础,采购物品的价格及质量问题直接影响到产品的质量与成本。采取正确的采购策略是企业不容忽视的问题,一个好的全面的采购分析对于领导制定下一步采购策略是至关重要的。基于数