《商务智能调查.doc》由会员分享,可在线阅读,更多相关《商务智能调查.doc(102页珍藏版)》请在三一办公上搜索。
1、商务智能调查报告第一章 商务智能概述31.1商务智能31.2商务智能具有的功能51.2.1读取数据51.2.2分析功能61.2.3丰富的画面71.2.4数据输出功能71.2.5定型处理71.2.6 D系统应用范围71.3商务智能技术和工具81.3.1数据挖掘(Data Mining)81.3.1.1什么是数据挖掘81.3.1.2数据挖掘的起源91.3.1.3数据挖掘能做什么91.3.1.4数据挖掘中的关联规则111.3.1.5数据挖掘技术实现151.3.1.6数据挖掘与数据仓库融合发展151.3.1.7统计学与数据挖掘161.3.1.8数据挖掘相关的10个问题191.3.2数据仓库(Data
2、Warehouse)和数据集市(Data Mart)271.3.2.1什么是数据仓库281.3.2.2数据仓库系统体系结构291.3.2.3数据仓库的组成291.3.2.4设计数据仓库的九个步骤301.3.2.5技术上311.3.2.6实现上311.3.2.7数据仓库带来了什么321.3.2.8数据仓库和数据集市331.3.3联机分析处理 (OLAP)341.3.3.1简介341.3.3.2作用341.3.3.3起源351.3.3.4分类361.3.3.5 OLAP的发展背景361.3.3.6联机分析处理的特点371.3.3.7 OLAP逻辑概念和典型操作381.3.3.8 OLAP系统的体系
3、结构和分类391.3.3.9联机分析处理的实现方式401.3.3.10主要OLAP厂商产品介绍451.4商务智能的三个层次481.4.1数据报表不可取代481.4.2八维以上的数据分析491.4.3数据挖掘看穿你的需求501.5商务智能为企业带来的效益511.6实施商务智能的步骤511.7商务智能的发展趋势52第二章 BI系统购买还是自建542.1成本是第一考核标准552.2避免大幅修改商业软件562.3基于套装软件进行开发572.4将开发的软件投向市场582.5第三种选择:购买构件58链接一:开源软件的影响59链接二:MCI的决策过程60 我们应该自已开发吗?61 我们应该购买吗?61第三章
4、 如何架构一个BI系统623.1模块623.2需求623.3架构设计四项原则643.4实施商务智能的基础信息资源规划643.4.1什么是IRP643.4.2信息资源的三种形态643.4.3信息规划的三种方法653.4.4在实施IRP时,建议应该同时包括以下三种规划主体653.5如何构建及分发BI报表663.5.1建立开发环境663.5.2创建报表673.5.3部署到生产环境683.5.4管理和维护693.5.5扩展应用范围693.5.6小经验703.6商务智能系统的生命周期703.6.1项目规划与管理713.6.2项目范围划定723.6.3效益评价723.6.4人员配置733.7商务智能项目团
5、队构成733.7.1核心团队733.7.2外围团队753.7.3 BI仲裁面板763.8实施BI的三大障碍四大建议763.8.1三大障碍773.8.2四大建议783.9商务智能成功的秘诀803.9.1 BI之行,始于选型803.9.2 BI实施须解决的三个问题823.9.3立企业基础数据管理机制833.9.4立明晰的商业分析逻辑模型843.9.5功应用BI策略的五大要点853.9.6部署BI应注意避免数据灾难86第四章 数据仓库的建设884.1数据仓库建设的成功之道884.1.1影响数据仓库系统建设成功的关键因素884.1.2保障数据仓库系统建设成功904.2据仓库实施过程需要考虑的七个步骤9
6、14.2.1再三考虑应用程序的实现方法914.2.2创建抽象的、良好部署的数据库访问组件914.2.3保持松散924.2.4将管理放在首位924.2.5从字里行间发现问题924.2.6保持领先924.2.7发出警告934.3数据仓库项目常见问题934.4数据仓库建设失败的主要原因954.4.1国内信息化的现状954.4.2以应用驱动,数据仓库建设应由后向前规划964.4.3“想大做小”(整体设计、分布实施)974.4.4三分段的设计思想984.4.5最佳实施方案984.4.6最佳实践100案例100一个总成本花费100W的失败项目的小小反省100第一章 商务智能概述1.1商务智能商务智能,又称
7、商业智能,英文为Business Intelligence,简写为BI。其代表为提高企业运营性能而采用的一系列方法、技术和软件。它把先进的信息技术应用到整个企业,不仅为企业提供信息获取能力,而且通过对信息的开发,将其转变为企业的竞争优势,也有人称之为混沌世界中的智能。因此,越来越多的企业提出他们对BI的需求,把BI作为一种帮助企业达到经营目标的一种有效手段。商务智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。这里所谈的数据包括来自企业业务系统的订单、库存、交易账目、客户和供应商等来自企业所处行业和竞争对手的数据以及来自企业所处的其他外部环境中的各种数据。而商
8、务智能能够辅助的业务经营决策,既可以是操作层的,也可以是战术层和战略层的决策。为了将数据转化为知识,需要利用数据仓库、联机分析处理(OLAP)工具和数据挖掘等技术。因此,从技术层面上讲,商务智能不是什么新技术,它只是数据仓库、OLAP和数据挖掘等技术的综合运用。商务智能的概念于1996年最早由加特纳集团(Gartner Group)提出,加特纳集团将商务智能定义为:商务智能描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。商务智能技术提供使企业迅速分析数据的技术和方法,包括收集、管理和分析数据,将这些数据转化为有用的信息,然后分发到企业各处。目前,学术界对商务智能的定义
9、并不统一。商务智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。这里所谈的数据包括来自企业业务系统的订单、库存、交易账目、客户和供应商资料及来自企业所处行业和竞争对手的数据,以及来自企业所处的其他外部环境中的各种数据。而商务智能能够辅助的业务经营决策既可以是操作层的,也可以是战术层和战略层的决策。为了将数据转化为知识,需要利用数据仓库、联机分析处理(OLAP)工具和数据挖掘等技术。因此,从技术层面上讲,商务智能不是什么新技术,它只是数据仓库、OLAP和数据挖掘等技术的综合运用。可以认为,商务智能是对商业信息的搜集、管理和分析过程,目的是使企业的各级决策者获得知
10、识或洞察力(insight),促使他们做出对企业更有利的决策。商务智能一般由数据仓库、联机分析处理、数据挖掘、数据备份和恢复等部分组成。商务智能的实现涉及到软件、硬件、咨询服务及应用,其基本体系结构包括数据仓库、联机分析处理和数据挖掘三个部分。因此,把商务智能看成是一种解决方案应该比较恰当。商务智能的关键是从许多来自不同的企业运作系统的数据中提取出有用的数据并进行清理,以保证数据的正确性,然后经过抽取(Extraction)、转换(Transformation)和装载(Load),即ETL过程,合并到一个企业级的数据仓库里,从而得到企业数据的一个全局视图,在此基础上利用合适的查询和分析工具、数
11、据挖掘工具、OLAP工具等对其进行分析和处理(这时信息变为辅助决策的知识),最后将知识呈现给管理者,为管理者的决策过程提供支持。提供商务智能解决方案的著名IT厂商包括微软、IBM、Oracle、Microstrategy、Business Objects、Cognos、SAS等。商务智能系统设计,包括实体数据模型设计、ETL(抽取、转换和装载)设计、数据挖掘方法设计、终端程序设计(OLAP或EIS)等步骤。1.2商务智能具有的功能目前,很多厂商活跃在商务智能(以下称BI)领域。事实上,能够满足用户需要的BI产品和方案必须建立在稳定、整合的平台之上,该平台需要提供用户管理、安全性控制、连接数据源
12、以及访问、分析和共享信息的功能。BI平台的标准化也非常重要,因为这关系到与企业多种应用系统的兼容问题,解决不了兼容问题,BI系统就不能发挥出应有效果。这里通过对一个实验室的BI系统模型(将其称为D系统)进行功能解剖,来介绍BI系统。D系统是一个面向终端使用者,直接访问业务数据,能够使管理者从各个角度出发分析利用商业数据,及时地掌握组织的运营现状,作出科学的经营决策的系统。D系统可实现从简单的标准报表浏览到高级的数据分析,满足组织内部人员的需求。D系统涵盖了常规意义上商务智能(BI)系统的功能,主要构架包括以下几个方面。1.2.1读取数据 D系统可读取多种格式(如Excel、Access、以Ta
13、b分割的txt和固定长的txt等)的文件,同时可读取关系型数据库 (对应ODBC)中的数据。在读取文本和数据的基础上,D系统还可以完成:(1)连接文本:把2个CSV文件中的共同项目作为键(Key),将所需的数据合并到一个文件,这样可以象操作数据库一样方便,但无须用户编程即可实现。(2)设置项目类型:作为数据的项目类型,除按钮(button)(文字项目)、数值项目以外,还可以设置日期表示形式的日期数据项目、多媒体项目和不需要生成按钮但在列表显示中能够浏览的参照项目。(3)期间设置:日期项目数据可以根据年度或季度等组合后生成新的期间项目。同样,时间项目数据可以根据上午、下午或时间带等组合后生成新的
14、时间项目。(4)设置等级:对于数值项目,可以任意设置等级,生成与之相对应的按钮。例如,可以生成与年龄项目中的20岁年龄段、30岁年龄段的等级相对应的按钮。1.2.2分析功能 (1)关联/限定:关联分析主要用于发现不同事件之间的关联性,即一个事件发生的同时,另一个事件也经常发生。关联分析的重点在于快速发现那些有实用价值的关联发生的事件。其主要依据是,事件发生的概率和条件概率应该符合一定的统计意义。D系统把这种关联的分析设计成按钮的形式,通过选择有/无关联,同时/相反的关联。对于结构化的数据,以客户的购买习惯数据为例,利用D系统的关联分析,可以发现客户的关联购买需要。例如,一个开设储蓄账户的客户很
15、可能同时进行债券交易和股票交易。利用这种知识可以采取积极的营销策略,扩展客户购买的产品范围,吸引更多的客户。(2)显示数值比例/指示显示顺序:D系统可使数值项目的数据之间的比例关系通过按钮的大小来呈现,并显示其构成比,还可以改变数值项目数据的排列顺序等。选择按钮后,动态显示不断发生变化。这样能够获得直观的数据比较效果,并能够凸显差异,便于深入分析现象背后的本质。(3)监视功能:预先设置条件,使符合条件的按钮显示报警(红)、注意(黄)信号,使问题所在一目了然。比如说:上季度营业额少于100万元的店警告(黄色标出),少于50万元的报警(红色标出)。执行后,D系统就把以店名命名的按钮用相应的颜色表示
16、出来。(4)按钮增值功能:可将多个按钮组合,形成新的按钮。比如:把4月、5月、6月三个按钮组合后得到新的按钮第2季度。(5)记录选择功能:从大量数据中选择按钮,取出必要的数据。挑出来的数据可重新构成同样的操作环境。这样用户可以把精力集中在所关心的数据上。(6)多媒体情报表示功能:由数码相机拍摄的照片或影像文件、通过扫描仪输入的图形等多媒体文件、文字处理或者电子表格软件做成的报告书、HTML等标准形式保存的文件等,可以通过按钮进行查找。(7)分割按钮功能:在分割特定按钮类的情况下,只需切换被分割的个别按钮,便可连接不断实行已登录过的定型处理。(8)程序调用功能:把通过按钮查找抽取出的数据,传给其
17、他的软件或用户原有的程序,并执行这些程序。(9)查找按钮名称功能:通过按钮名查找按钮,可以指定精确和模糊两种查找方法。另外,其他的按钮类也可以对查找结果相关的数据进行限定。1.2.3丰富的画面 (1)列表画面:可以用and/or改变查找条件,可以进行统计/排序。统计对象只针对数值项目,统计方法分三种:合计、件数、平均,而且可以按照12种方式改变数值的显示格式。(2)视图画面:提供切换视角和变换视图功能,通过变换与设置条件相应的数值(单元格)的颜色表示强调。依次变换视角可进行多方面的数据分析。视图的统计对象只针对数值项目,统计方法有合计、平均、构成比(纵向、横向)、累计(纵向、横向)、加权平均、
18、最大、最小、最新和绝对值等12种。(3)数值项目切换:通过按钮类的阶层化(行和列最多可分别设置8层),由整体到局部,一边分层向下挖掘,一边分析数据,可以更加明确探讨问题所在。(4)图表画面:D系统使用自己开发的图形库,提供柱形图、折线图、饼图、面积图、柱形+折线五大类35种。在图表画面上,也可以像在阶层视图一样,自由地对层次进行挖掘和返回等操作。1.2.4数据输出功能 打印统计列表和图表画面等,可将统计分析好的数据输出给其他的应用程序使用,或者以HTML格式保存。1.2.5定型处理 所需要的输出被显示出来时,进行定型登录,可以自动生成定型处理按钮。以后,只需按此按钮,即使很复杂的操作,也都可以
19、将所要的列表、视图和图表显示出来。1.2.6 D系统应用范围 商务智能系统可辅助建立信息中心,如产生各种工作报表和分析报表。用作以下分析:(1)销售分析:主要分析各项销售指标,例如毛利、毛利率、交叉比、销进比、盈利能力、周转率、同比、环比等等;而分析维又可从管理架构、类别品牌、日期、时段等角度观察,这些分析维又采用多级钻取,从而获得相当透彻的分析思路;同时根据海量数据产生预测信息、报警信息等分析数据;还可根据各种销售指标产生新的透视表。(2)商品分析:商品分析的主要数据来自销售数据和商品基础数据,从而产生以分析结构为主线的分析思路。主要分析数据有商品的类别结构、品牌结构、价格结构、毛利结构、结
20、算方式结构、产地结构等,从而产生商品广度、商品深度、商品淘汰率、商品引进率、商品置换率、重点商品、畅销商品、滞销商品、季节商品等多种指标。通过D系统对这些指标的分析来指导企业商品结构的调整,加强所营商品的竞争能力和合理配置。(3)人员分析:通过D系统对公司的人员指标进行分析,特别是对销售人员指标(销售指标为主,毛利指标为辅)和采购人员指标(销售额、毛利、供应商更换、购销商品数、代销商品数、资金占用、资金周转等)的分析,以达到考核员工业绩,提高员工积极性,并为人力资源的合理利用提供科学依据。主要分析的主题有,员工的人员构成、销售人员的人均销售额、对于销售的个人销售业绩、各管理架构的人均销售额、毛
21、利贡献、采购人员分管商品的进货多少、购销代销的比例、引进的商品销量如何等等。1.3商务智能技术和工具商务智能技术是包括数据挖掘(Data Mining)、数据仓库(Data Warehousing)、联机分析处理(Online Analytical Processing,OLAP)在内的用于统计和分析商务数据的先进的信息技术。1.3.1数据挖掘(Data Mining)1.3.1.1什么是数据挖掘数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模
22、式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。 并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索(information retrieval)领域的任务。虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。尽管如此,数据挖掘技术也已用来增强信息检索系统的能力。1.3.1.2数据挖掘的起源为迎接前一节中的这些挑战,来自不同学科的研究者汇集到一起,开始着手开发可以处理不同数据类型的更有效的、
23、可伸缩的工具。这些工作建立在研究者先前使用的方法学和算法之上,在数据挖掘领域达到高潮。特别地是,数据挖掘利用了来自如下一些领域的思想:(1) 来自统计学的抽样、估计和假设检验。(2) 人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。1.3.1.3数据
24、挖掘能做什么(1)数据挖掘能做以下六种不同事情(分析方法): 分类 (Classification) 估值(Estimation) 预言(Prediction) 相关性分组或关联规则(Affinity grouping or association rules) 聚集(Clustering) 描述和可视化(Des cription and Visualization) 复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)(2)数据挖掘分类 以上六种数据挖掘的分析方法可以分为两类:直接数据挖掘;间接数据挖掘 直接数据挖掘:目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个
25、特定的变量(可以理解成数据库中表的属性,即列)进行描述。 间接数据挖掘:目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系 。 分类、估值、预言属于直接数据挖掘;后三种属于间接数据挖掘 (3)各种分析方法的简介 分类 (Classification) 首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。例子:a. 信用卡申请者,分类为低、中、高风险 b. 分配客户到预先定义的客户分片 注意: 类的个数是确定的,预先定义好的 估值(Estimation) 估值与分类类似,不同之处在于,分类描述的是离散型变量
26、的输出,而估值处理连续值的输出;分类的类别是确定数目的,估值的量是不确定的。例子: a. 根据购买模式,估计一个家庭的孩子个数 b. 根据购买模式,估计一个家庭的收入 c. 估计real estate的价值 一般来说,估值可以作为分类的前一步工作。给定一些输入数据,通过估值,得到未知的连续变量的值,然后,根据预先设定的阈值,进行分类。例如:银行对家庭贷款业务,运用估值,给各个客户记分(Score 01)。然后,根据阈值(在自动控制系统中能产生一个校正动作的最小输入值),将贷款级别分类。 预言(Prediction) 通常,预言是通过分类或估值起作用的,也就是说,通过分类或估值得出模型,该模型用
27、于对未知变量的预言。从这种意义上说,预言其实没有必要分为一个单独的类。预言其目的是对未来未知变量的预测,这种预测是需要时间来验证的,即必须经过一定时间后,才知道预言准确性是多少。 相关性分组或关联规则(Affinity grouping or association rules) 决定哪些事情将一起发生。 例子:a. 超市中客户在购买A的同时,经常会购买B,即A = B(关联规则) b. 客户在购买A后,隔一段时间,会购买B (序列分析) 聚集(Clustering) 聚集是对记录分组,把相似的记录在一个聚集里。聚集和分类的区别是聚集不依赖于预先定义好的类,不需要训练集。 例子:a. 一些特定
28、症状的聚集可能预示了一个特定的疾病b. 租VCD类型不相似的客户聚集,可能暗示成员属于不同的亚文化群 聚集通常作为数据挖掘的第一步。例如,哪一种类的促销对客户响应最好?,对于这一 类问题,首先对整个客户做聚集,将客户分组在各自的聚集里,然后对每个不同的聚集,回答问题,可能效果更好。 描述和可视化(Des cription and Visualization)是对数据挖掘结果的表示方式。1.3.1.4数据挖掘中的关联规则1、什么是关联规则 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的
29、是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。Agrawal等于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的工作包括对原有的算法进行优化,如引入随机采样、并行的思想等,以提高算法挖掘规则的效率;对关联规则的应用进行推广。关联规则挖掘在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。2、关联规则挖掘的过程关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目
30、组(Frequent Itemsets),第二阶段再由这些高频项目组中产生关联规则(Association Rules)。关联规则挖掘的第一阶段必须从原始资料集合中,找出所有高频项目组(Large Itemsets)。高频的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平。一项目组出现的频率称为支持度(Support),以一个包含A与B两个项目的2-itemset为例,我们可以经由公式(1)求得包含A,B项目组的支持度,若支持度大于等于所设定的最小支持度(Minimum Support)门槛值时,则A,B称为高频项目组。一个满足最小支持度的k-itemset,则称为高频k-项目
31、组(Frequent k-itemset),一般表示为Large k或Frequent k。算法并从Large k的项目组中再产生Large k+1,直到无法再找到更长的高频项目组为止。关联规则挖掘的第二阶段是要产生关联规则(Association Rules)。从高频项目组产生关联规则,是利用前一步骤的高频k-项目组来产生规则,在最小信赖度(Minimum Confidence)的条件门槛下,若一规则所求得的信赖度满足最小信赖度,称此规则为关联规则。例如:经由高频k-项目组A,B所产生的规则AB,其信赖度可经由公式(2)求得,若信赖度大于等于最小信赖度,则称AB为关联规则。从上面的介绍还可以
32、看出,关联规则挖掘通常比较适用与记录中的指标取离散值的情况。如果原始数据库中的指标值是取连续的数据,则在关联规则挖掘之前应该进行适当的数据离散化(实际上就是将某个区间的值对应于某个值),数据的离散化是数据挖掘前的重要环节,离散化的过程是否合理将直接影响关联规则的挖掘结果。3、关联规则的分类按照不同情况,关联规则可以进行分类如下:(1)基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系;而数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理,当然数
33、值型关联规则中也可以包含种类变量。例如:性别=“女”=职业=“秘书” ,是布尔型关联规则;性别=“女”=avg(收入)=2300,涉及的收入是数值类型,所以是一个数值型关联规则。(2)基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。在单层的关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同的层次的;而在多层的关联规则中,对数据的多层性已经进行了充分的考虑。例如:IBM台式机=Sony打印机,是一个细节数据上的单层关联规则;台式机=Sony打印机,是一个较高层次和细节层次之间的多层关联规则。(3)基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。在单维的关联规则
34、中,我们只涉及到数据的一个维,如用户购买的物品;而在多维的关联规则中,要处理的数据将会涉及多个维。换成另一句话,单维关联规则是处理单个属性中的一些关系;多维关联规则是处理各个属性之间的某些关系。例如:啤酒=尿布,这条规则只涉及到用户的购买的物品;性别=“女”=职业=“秘书”,这条规则就涉及到两个字段的信息,是两个维上的一条关联规则。4、关联规则挖掘的相关算法(1)Apriori算法:使用候选项集找频繁项集Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称
35、为频繁项集,简称频集。该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递推的方法。可能产生大量的候选集,以及可能需要重复扫描数据库,是Apriori算法的两大缺点。(2)基于划分的算法Savasere等设计了一个基于划分的算法。这个算法先把数据库从逻辑上分成几个互不相
36、交的块,每次单独考虑一个分块并对它生成所有的频集,然后把产生的频集合并,用来生成所有可能的频集,最后计算这些项集的支持度。这里分块的大小选择要使得每个分块可以被放入主存,每个阶段只需被扫描一次。而算法的正确性是由每一个可能的频集至少在某一个分块中是频集保证的。该算法是可以高度并行的,可以把每一分块分别分配给某一个处理器生成频集。产生频集的每一个循环结束后,处理器之间进行通信来产生全局的候选k-项集。通常这里的通信过程是算法执行时间的主要瓶颈;而另一方面,每个独立的处理器生成频集的时间也是一个瓶颈。(3)FP-树频集算法针对Apriori算法的固有缺陷,J. Han等提出了不产生候选挖掘频繁项集
37、的方法:FP-树频集算法。采用分而治之的策略,在经过第一遍扫描之后,把数据库中的频集压缩进一棵频繁模式树(FP-tree),同时依然保留其中的关联信息,随后再将FP-tree分化成一些条件库,每个库和一个长度为1的频集相关,然后再对这些条件库分别进行挖掘。当原始数据量很大的时候,也可以结合划分的方法,使得一个FP-tree可以放入主存中。实验表明,FP-growth对不同长度的规则都有很好的适应性,同时在效率上较之Apriori算法有巨大的提高。5、该领域在国内外的应用(1)关联规则发掘技术在国内外的应用就目前而言,关联规则挖掘技术已经被广泛应用在西方金融行业企业中,它可以成功预测银行客户需求
38、。一旦获得了这些信息,银行就可以改善自身营销。现在银行天天都在开发新的沟通客户的方法。各银行在自己的ATM机上就捆绑了顾客可能感兴趣的本行产品信息,供使用本行ATM机的用户了解。如果数据库中显示,某个高信用限额的客户更换了地址,这个客户很有可能新近购买了一栋更大的住宅,因此会有可能需要更高信用限额,更高端的新信用卡,或者需要一个住房改善贷款,这些产品都可以通过信用卡账单邮寄给客户。当客户打电话咨询的时候,数据库可以有力地帮助电话销售代表。销售代表的电脑屏幕上可以显示出客户的特点,同时也可以显示出顾客会对什么产品感兴趣。同时,一些知名的电子商务站点也从强大的关联规则挖掘中的受益。这些电子购物网站
39、使用关联规则中规则进行挖掘,然后设置用户有意要一起购买的捆绑包。也有一些购物网站使用它们设置相应的交叉销售,也就是购买某种商品的顾客会看到相关的另外一种商品的广告。但是目前在我国,“数据海量,信息缺乏”是商业银行在数据大集中之后普遍所面对的尴尬。目前金融业实施的大多数数据库只能实现数据的录入、查询、统计等较低层次的功能,却无法发现数据中存在的各种有用的信息,譬如对这些数据进行分析,发现其数据模式及特征,然后可能发现某个客户、消费群体或组织的金融和商业兴趣,并可观察金融市场的变化趋势。可以说,关联规则挖掘的技术在我国的研究与应用并不是很广泛深入。(2)近年来关联规则发掘技术的一些研究由于许多应用
40、问题往往比超市购买问题更复杂,大量研究从不同的角度对关联规则做了扩展,将更多的因素集成到关联规则挖掘方法之中,以此丰富关联规则的应用领域,拓宽支持管理决策的范围。如考虑属性之间的类别层次关系,时态关系,多表挖掘等。近年来围绕关联规则的研究主要集中于两个方面,即扩展经典关联规则能够解决问题的范围,改善经典关联规则挖掘算法效率和规则兴趣性。1.3.1.5数据挖掘技术实现在技术上可以根据它的工作过程分为:数据的抽取、数据的存储和管理、数据的展现等关键技术。 1、数据的抽取 数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的
41、数据存储介质中导入数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面的处理。在数据抽取方面,未来的技术发展将集中在系统功能集成化方面,以适应数据仓库本身或数据源的变化,使系统更便于管理和维护。 2、数据的存储和管理 数据仓库的组织管理方式决定了它有别于传统数据库的特性,也决定了其对外部数据的表现形式。数据仓库管理所涉及的数据量比传统事务处理大得多,且随时间的推移而快速累积。在数据仓库的数据存储和管理中需要解决的是如何管理大量的数据、如何并行处理大量的数据、如何优化查询等。目前,许多数据库厂家提供的技术解决方案是扩展关系型数据库的功能,将普通关系数据库改造成适合担当数
42、据仓库的服务器。 3、数据的展现 在数据展现方面主要的方式有查询:实现预定义查询、动态查询、OLAP查询与决策支持智能查询;报表:产生关系数据表格、复杂表格、OLAP表格、报告以及各种综合报表;可视化:用易于理解的点线图、直方图、饼图、网状图、交互式可视化、动态模拟、计算机动画技术表现复杂数据及其相互关系;统计:进行平均值、最大值、最小值、期望、方差、汇总、排序等各种统计分析;挖掘:利用数据挖掘等方法,从数据中得到关于数据关系和模式的识。1.3.1.6数据挖掘与数据仓库融合发展数据挖掘和数据仓库的协同工作,一方面,可以迎合和简化数据挖掘过程中的重要步骤,提高数据挖掘的效率和能力,确保数据挖掘中
43、数据来源的广泛性和完整性。另一方面,数据挖掘技术已经成为数据仓库应用中极为重要和相对独立的方面和工具。 数据挖掘和数据仓库是融合与互动发展的,其学术研究价值和应用研究前景将是令人振奋的。它是数据挖掘专家、数据仓库技术人员和行业专家共同努力的成果,更是广大渴望从数据库“奴隶”到数据库“主人”转变的企业最终用户的通途。1.3.1.7统计学与数据挖掘统计学和数据挖掘有着共同的目标:发现数据中的结构。事实上,由于它们的目标相似,一些人(尤其是统计学家)认为数据挖掘是统计学的分支。这是一个不切合实际的看法。因为数据挖掘还应用了其它领域的思想、工具和方法,尤其是计算机学科,例如数据库技术和机器学习,而且它
44、所关注的某些领域和统计学家所关注的有很大不同。1统计学的性质试图为统计学下一个太宽泛的定义是没有意义的。尽管可能做到,但会引来很多异议。相反,我要关注统计学不同于数据挖掘的特性。差异之一同上节中最后一段提到的相关,即统计学是一门比较保守的学科,目前有一种趋势是越来越精确。当然,这本身并不是坏事,只有越精确才能避免错误,发现真理。但是如果过度的话则是有害的。这个保守的观点源于统计学是数学的分支这样一个看法,我是不同意这个观点的,尽管统计学确实以数学为基础(正如物理和工程也以数学为基础,但没有被认为是数学的分支),但它同其它学科还有紧密的联系。数学背景和追求精确加强了这样一个趋势:在采用一个方法之
45、前先要证明,而不是象计算机科学和机器学习那样注重经验。这就意味着有时候和统计学家关注同一问题的其它领域的研究者提出一个很明显有用的方法,但它却不能被证明(或还不能被证明)。统计杂志倾向于发表经过数学证明的方法而不是一些特殊方法。数据挖掘作为几门学科的综合,已经从机器学习那里继承了实验的态度。这并不意味着数据挖掘工作者不注重精确,而只是说明如果方法不能产生结果的话就会被放弃。正是统计文献显示了(或夸大了)统计的数学精确性。同时还显示了其对推理的侧重。尽管统计学的一些分支也侧重于描述,但是浏览一下统计论文的话就会发现这些文献的核心问题就是在观察了样本的情况下如何去推断总体。当然这也常常是数据挖掘所
46、关注的。下面我们会提到数据挖掘的一个特定属性就是要处理的是一个大数据集。这就意味着,由于可行性的原因,我们常常得到的只是一个样本,但是需要描述样本取自的那个大数据集。然而,数据挖掘问题常常可以得到数据总体,例如关于一个公司的所有职工数据,数据库中的所有客户资料,去年的所有业务。在这种情形下,推断就没有价值了(例如,年度业务的平均值),因为观测到的值也就是估计参数。这就意味着,建立的统计模型可能会利用一系列概率表述(例如,一些参数接近于0,则会从模型中剔除掉),但当总体数据可以获得的话,在数据挖掘中则变得毫无意义。在这里,我们可以很方便的应用评估函数:针对数据的足够的表述。事实是,常常所关注的是
47、模型是否合适而不是它的可行性,在很多情形下,使得模型的发现很容易。例如,在寻找规则时常常会利用吻合度的单纯特性(例如,应用分支定理)。但当我们应用概率陈述时则不会得到这些特性。统计学和数据挖掘部分交迭的第三个特性是在现代统计学中起核心作用的“模型”。或许“模型”这个术语更多的含义是变化。一方面,统计学模型是基于分析变量间的联系,但另一方面这些模型关于数据的总体描述确实没有道理的。关于信用卡业务的回归模型可能会把收入作为一个独立的变量,因为一般认为高收入会导致大的业务。这可能是一个理论模型(尽管基于一个不牢靠的理论)。与此相反,只需在一些可能具有解释意义的变量基础上进行逐步的搜索,从而获得一个有很大预测价值的模型,