《【教学课件】第14章数据仓库的维护和解决方案.ppt》由会员分享,可在线阅读,更多相关《【教学课件】第14章数据仓库的维护和解决方案.ppt(38页珍藏版)》请在三一办公上搜索。
1、数据仓库与OLAP实践,清华大学出版社,2,第14章 数据仓库的维护和解决方案,14.1 更新数据仓库14.2 维护OLAP数据14.3 优化数据仓库性能14.4 数据仓库解决方案14.5 小结,3,14.1 更新数据仓库,更新数据仓库数据包括定期从联机事务型系统中析取数据,清理、转换数据以及将新数据加载到数据仓库。更新数据还包括:在联机分析处理的情况下必须同步完成多维数据集的任务,而且还必须更新所有作为数据仓库一部分的数据集市。,4,初始数据加载和数据更新的区别,初始数据加载和数据更新之间的一个不同之处在于:在将数据加载到数据仓库供用户使用之前,应在更新数据上不断地验证引用完整性。更新通常包
2、括添加和更改维度表以及向事实数据表添加数据行。在将新更改的数据加载到数据仓库之前,应检查其内部的一致性并且应在数据仓库的当前数据上验证,5,14.1.1 调度数据更新,用于分析历史业务数据的数据仓库最好由定期更新而非联机数据更新提供服务。经常更改数据会影响分析过程,因为这要求时间和反复查询来优化和验证结果。数据仓库的更新频率取决于单位的需要和数据仓库的用途。典型的更新周期可以是每月、每周或每天。调度数据仓库更新时需要考虑一些事项。,6,14.1.1 调度数据更新(续),将数据加载到数据仓库,就是填充将由显示应用程序使用的表,该应用程序使用户可以使用这些数据。加载数据通常涉及从源操作系统、数据准
3、备区向数据仓库数据库中的表传输大量的数据。这样的操作会显著增加所涉及的数据库的处理负荷,因此这些操作应在系统相对不忙的时候进行。此外,还必须协调数据仓库的更新操作与提供数据的显示服务的操作间的关系。,7,14.1.1 调度数据更新(续),更改基础数据对多维数据集的影响因使用的多维数据集类型的不同而不同。例如,MOLAP多维数据集不受基础数据更改的影响,除非重新处理多维数据集。根据定义的方式,ROLAP多维数据集和HOLAP多维数据集可能会立即受到影响,并要求更新或重新处理以恢复一致性。实时多维数据集是为立即包含新数据仓库数据而设计的。,8,14.1.2 更新数据集市,在有些数据仓库的实施过程中
4、,数据集市从主数据仓库接收它们的数据,即按自顶向下模式。而在有些数据仓库的实施过程中,数据集市是在本地更新并向数据仓库数据库提供数据,即按自底向上模式。如果数据集市设计为与主数据仓库一致,则将更新的数据移入数据集市或从数据集市移出更新的数据都很简单。使用标准化架构、共享维度和常用事实数据表格式都可以显著减轻数据集市的维护工作。,9,14.1.2 更新数据集市(续),如果数据集市从主数据仓库接收数据更新,则可以设计自动化任务,如果数据集市在本地收集数据并向主数据仓库提供数据,则可能需要将数据集市看成是操作数据源来处理,并在发布数据到数据仓库之前,将数据放入准备区进行清理并在数据仓库上进行验证。如
5、果数据集市是作为数据仓库的一个完整部分设计和管理,则可以将数据直接从数据集市装入数据仓库数据库。,10,14.2 维护OLAP数据,14.2.1 数据仓库中的修改 14.2.2 同步OLAP和数据仓库数据 14.2.3 刷新客户端应用程序,11,14.2.1 数据仓库中的修改,实际应用中通常需要定期向数据仓库中添加数据,以便反映业务活动的最新信息。但不经常修改数据仓库中现有的数据,而只是在发现数据有错误或者是由于业务变动需要重新构造数据时才修改数据仓库中的数据。这种情况一般是很少发生的。,12,1.添加数据,在数据仓库中添加数据时,由于数据与多维数据集分区之间的相互作用,客户端应用程序可以联机
6、使用的多维数据集信息会受到影响。可以通过仔细地定义分区筛选以及设计同步OLAP 和数据仓库数据的策略,来管理向数据仓库中添加数据所带来的影响。,13,2.修改数据,若认真对待数据转换、验证和清理等操作,就可以减少因纠正数据仓库中的错误而进行的修改。企业或其产品的结构若发生改变,也需要对数据仓库中已有的数据进行修改。例如,将产品重新组织成不同的类别就需要对数据仓库中的数据做重大修改。在某些情况下,这样的修改可能需要对多维数据集进行重新设计。或者是重新设计维度和处理所有使用那些维度的多维数据集。,14,2.修改数据(续),如果修改事实数据表中的数据而没有对多维数据集进行处理,则会影响对多维数据集查
7、询的准确性。可以使用“刷新数据”处理选项重新加载多维数据集的数据并重新计算聚合。由于聚合设计保持不变,“刷新数据”处理选项会比完整的“完整处理”处理选项的速度快。,15,2.修改数据(续),即使表结构保持不变,维度层次结构也会受数据仓库维度表中数据改动的影响。因为维度层次结构基于维度表中成员间的关系,当改变这些关系时(例如,将城市重新组织成不同的销售区域时),必须重新生成维度结构。添加、修改或删除数据仓库中的数据时必须保持引用的完整性。,16,3.改变结构,OLAP多维数据集和维度的结构会受数据仓库设计改变的影响,比如添加、删除、修改表或表之间的关系。当结构改变时,必须修改受影响的多维数据集和
8、维度的设计,重新定义分区和聚合,并彻底处理所修改的多维数据集和维度。,17,14.2.2 同步OLAP和数据仓库数据,当分析服务器正在运行时,有效的多维数据集处于联机状态,客户端应用程序可以随时使用这些多维数据集。由于OLAP多维数据集分区与数据仓库数据之间存在潜在的交互,因此在设计数据仓库时应考虑同步策略,使添加数据时不会导致多维数据集在可由联机客户端应用程序使用的多维数据集内提供错误的查询答案。,18,14.2.2 同步OLAP和数据仓库数据(续),管理数据仓库和在OLAP数据库中添加数据的比较好的一个策略是设计一个批处理更新系统。在该策略中,数据仓库事实数据表中的所有数据在每个记录中都包
9、含一个批号。在设计多维数据集时,在多维数据集的每个分区的筛选中可以添加一个表达式以指定适用的最大批号。当需要向事实数据表中添加数据时,在新记录中包含一个更大的新批号。这些添加的记录并不影响多维数据集。,19,14.2.2 同步OLAP和数据仓库数据(续),在维度被处理之前,添加到维度表中的数据并不影响多维数据集内现有的专用或共享维度。批号在维度表记录中不是必需的,但在保证连续的引用完整性方面很有用。将一批数据添加到事实数据表和维度表之后,可以对维度和多维数据集或分区进行处理,使其包含新数据。共享维度的处理应在包含它们的多维数据集处理之前进行。,20,14.2.2 同步OLAP和数据仓库数据(续
10、),要将一批新数据合并到多维数据集中,可在多维数据集的每个分区中更新筛选表达式以包含新的批号,然后处理或增量更新多维数据集。如果多维数据集的数据分散在多个分区中,可以用其中的一个分区来聚集这批新数据,然后只处理那一个分区。,21,14.2.3 刷新客户端应用程序,当正处于联机状态的多维数据集由三个处理选项(“完整处理”、“增量更新”或“刷新数据”)之一处理时,多维数据集将保持联机状态直到处理过程结束,结束时联机多维数据集会被新的多维数据集版本取代。,22,14.2.3 刷新客户端应用程序,当使用“完整处理”选项处理多维数据集时,客户端应用程序与多维数据集的连接将在多维数据集切换到新的版本时断开
11、,每个客户端应用程序必须分别重新连接才能访问新版本。当使用“增量更新”或“刷新数据”选项处理多维数据集时,联机客户端应用程序与多维数据集的连接在处理过程结束时不会中断。,23,14.2.3 刷新客户端应用程序,共享维度的处理过程会影响在设计中包含该维度的多维数据集。如果使用“重建维度结构”选项处理共享维度,所有使用该维度的多维数据集都将立即变得不可用,必须在处理完成之后客户端应用程序才能重新使用。如果使用“增量更新”选项处理共享维度,则使用该维度的多维数据集仍可由客户端应用程序使用,任何添加到该维度的新成员都将在维度处理结束时自动由客户端应用程序使用。,24,14.3 优化数据仓库性能,对于分
12、析并汇总多个联接表中的大量行的查询,数据仓库必须提供对这类查询的快速评估。SQL Server 2000 提供可用于优化包含数据仓库数据的关系数据库性能的信息。数据库的性能调节是通过将网络流通、磁盘I/O和CPU时间减到最小,使每个查询的响应时间最短并最大限度地提高整个数据库服务器的吞吐量。,25,14.3 优化数据仓库性能(续),对性能问题的考虑应贯穿于开发阶段的全过程,不应只在最后实现系统时才考虑性能问题。许多使性能得到显著提高的性能事宜可通过开始时仔细设计得以实现。为最有效地优化SQL Server 2000 的性能,必须在多样化的情形中识别出会使性能提升最多的区域,并对这些区域集中分析
13、。可以通过使用一些工具来优化 Analysis Services 的性能,这些工具在处理多维数据集时通过调整预先计算好的聚合量分析使用模式,从而优化多维数据集架构以避免不必要的联接。,26,14.4 数据仓库解决方案,IBM、Oracle、Sybase、CA、NCR、Informix、Microsoft和SAS等公司相继推出了自己的数据仓库解决方案。BO和Brio等专业软件公司也在前端在线分析处理工具市场上占有一席之地。根据各公司提供的数据仓库工具的功能,可将其分为三类:解决特定功能的产品(主要包括BO的数据仓库解决方案)提供部分解决方案的产品(主要包括Oracle、IBM、Sybase、In
14、formix、NCR、Microsoft及SAS等公司的数据仓库解决方案)提供全面解决方案的产品(CA是目前的主要厂商)。,27,1Business Objects(BO)数据仓库解决方案,BO是集查询、报表和OLAP技术为一身的数据仓库解决方案,它使用独特的语义层和动态微立方技术来表示数据库中的多维数据,具有较好的查询和报表功能,提供钻取等多维分析技术,同时支持基于Web浏览器的查询、报表和分析决策。从严格意义上讲,只能算是一个前端工具。几乎所有的数据仓库解决方案都把BO作为可选的数据展示工具。,28,2IBM数据仓库解决方案,IBM公司提供了一套基于可视数据仓库的商业智能解决方案,具有集成
15、能力强,高级面向对象SQL等特性。包括:Visual Warehouse(VM)Essbase/DB2OLAP Server 5.0IBM DB2 UDB,来自第三方的前端数据展示工具(如BO)和数据挖掘工具(如SAS)。VW是一个功能很强的集成环境,既可用于数据仓库建模和元数据管理,又可用于数据抽取、转换、加载和调度。Essbase/DB2OLAPServer支持维度的定义和数据加载,但它不是关系型OLAP,而是混合型的OLAP。,29,3Oracle数据仓库解决方案,Oracle一直致力于为企业提供最能满足企业竞争需要的数据仓库解决方案,其数据仓库解决方案包含了业界领先的数据库平台、开发工
16、具和应用系统。Oracle数据仓库突破了现有数据仓库产品的局限,能够帮助企业以任何方式访问存放在任何地点的信息,在企业中的任何层次上,满足信息检索和商业决策的功能需要。数据仓库解决方案能够提供一系列的数据仓库工具和服务,具有多用户数据仓库管理能力,多种分区方式,较强的与OLAP工具的交互能力,以及快速和便捷的数据移动机制等。,30,Oracle数据仓库解决方案的两个部分,Oracle Ecpress:Oracle Express Server是一个MOLAP服务器,它利用多维模型,存储和管理多维数据库或多维高速缓存,同时也能访问多种关系型数据库;OracleExpressWebAgent通过C
17、GI或Web插件支持基于Web的动态多维数据展示;OracleExpressObjects前端数据分析工具提供了图形化建模和假设分析功能,支持可视化开发和事件驱动编程技术;OracleExpressAnalyzer是通用的面向最终用户的报告和分析工具。,31,Oracle数据仓库解决方案的两个部分(续),OracleDiscoverer即席查询工具,专门为最终用户设计,分为最终用户版和管理员版,在其数据仓库解决方案实施过程中,通常把汇总数据存储在Express多维数据库中,而将详细数据存储在Oracle关系数据库中。,32,4Sybase数据仓库解决方案,Sybase公司提供的数据仓库解决方案
18、以能够支持多种关系型数据库而受到业界的推崇。它能够同时处理几十个即席查询,其垂直数据存储技术是系统只访问特定的少量数据,使得查询速度比传统的关系型数据库管理系统快100倍。Sybase提供的数据仓库解决方案称为Sybase企业级关系型数据库,AdaptiveServerIQ是专门为数据仓库设计的关系型数据库,它为高性能的DSS和数据仓库的建立作了专门的优化处理,SybaseIQ支持各种流行的前端展现工具。,33,5Infomix数据仓库解决方案,Infomix于1998和1999年相继收购了国际上享有盛誉的数据仓库供应商RedBrickSystem和数据管理软件供应商Ardent,并提供了完整
19、集成的数据仓库解决方案。该解决方案还包括了一个快速启动咨询服务,能够帮助用户快速完成数据仓库或数据集市的开发。Infomix产品能够集成Microsoft IIS或NetscapeEnterprise/FastTrack服务器,从而支持基于Web的数据仓库应用。,34,6NCR数据仓库解决方案,NCR提出了一套独特的数据仓库方法论和实施框架理论,成为“可扩展数据仓库”(ScalableDataWarehouse,简称为),其基本框架主要分为个部分:数据加载。数据管理这一部分是整个数据仓库的心脏,它必须采用一个具有优良并行处理性能的关系数据库管理系统。信息访问。,35,7Microsoft数据仓
20、库解决方案,2000年4月,Microsoft发布了SQL Server 2000 Beta 2版本,供用户测试评估该公司下一版本的数据库系统。该版本是一套完全的数据库和数据分析解决方案。包括功能如下:完备的Web功能。高度可扩展性和高可靠性。加速应用开发。,36,8SAS数据仓库解决方案,SAS公司提供的工具可以帮助企业实现一个灵活和低风险的处理,并提供了特点鲜明的数据仓库解决方案,包括多个专用模块。SAS/WA(WarehouseAdministrator)是建立数据仓库的集成管理工具,包括定义主题、数据转换与汇总、更新汇总数据、元数据管理和数据集市的实现等;SAS/MDDB是SAS用于在
21、线分析的多维数据库服务器;SAS/AF提供了屏幕设计功能和用于开发的SCL(屏幕控制语言);SAS/ITSV(ITService Vision)是IT服务的性能评估和管理的软件。,37,9CA数据仓库解决方案,CA于1999年收购了PlatinumTechnology公司后,得到了完整的数据仓库解决方案,包括:Erwin数据仓库设计工具InfoPump数据转换与抽取工具InfoBeaconROLAP服务器Foresrt&Trees前端数据展示工具Provision系统监视与作业调度工具DecisionBase元数据管理工具等。,38,14.5 小结,数据仓库专家的任务不仅仅是创建数据仓库并用现有的历史业务数据初始加载它,如果要让数据仓库不断接收新的数据,并按照用户的意图执行任务,则需要对它进行维护。更新数据仓库数据包括定期从可操作系统中析取数据,清除和转换数据和将新数据装入数据仓库。修改数据仓库中的数据之后必须更新OLAP数据。数据库的性能调节是通过将网络流通、磁盘 I/O 和 CPU 时间减到最小,使每个查询的响应时间最短并最大限度地提高整个数据库服务器的吞吐量。,