数据仓库原理.doc_三一办公31ppt.com

资源描述

《数据仓库原理.doc》由会员分享，可在线阅读，更多相关《数据仓库原理.doc（104页珍藏版）》请在三一办公上搜索。

1、第一章概述一、数据库技术的发展（略）二、决策支持系统的演化与发展1 从时间角度看包括以下四个阶段：（1）数据处理阶段（Data Processing）上个世纪50年代到60年代。（2）管理信息系统阶段（MIS）兴起于上个世纪60年代到70年代。中国80年代才开始兴起。目前MIS已进化到ERP、CRM，BI（商务智能）等。（3）决策支持系统阶段（DSS）兴起于上个世纪70年代到80年代。它是MIS与模型辅助决策系统（运筹学+系统工程+计算机）结合的产物。（4）智能决策支持阶段(IDSS) 上个世纪90年代以来，决策支持领域的发展方向之一。主要特征是模型技术、专家系统、数据仓库和数据挖掘

2、技术的有机集成，使得决策支持技术无论是在体系结构还是在信息处理能力上都发生了较大的变化。2 从技术角度看（1）专家系统辅助决策方式由专家系统和决策支持系统结合所形成的系统，称为智能决策支持系统，它是决策支持系统的发展方向之一。（2）数据仓库和数据挖掘技术对决策支持系统的支持 “数据仓库是体系结构化环境的核心，是决策支持系统处理的基础”。因为在数据仓库中只有单一集成的数据资源，并且因为数据是可访问的，所以与传统数据环境相比，在数据仓库环境中DSS分析员的工作将要容易得多。多维、多角度的联机分析工具（OLAP）是DSS强有力的工具。数据挖掘技术提供了从大量数据中发现知识、规律和趋势的基本方法和基

3、本手段。3. 决策支持系统体系结构的演化1）自然演化式体系结构其起源可以追溯到计算机与信息系统发展的初期，“决策支持系统处理是信息技术长期复杂演化的产物，并且今天这种演化仍然在继续进行着。”（数据仓库）（1）创建运行于主文件上的单个应用（2）直接存储设备（DASD）的出现产生了基于数据库的联机事务处理（OLTP）（3）个人计算机、4GL使得最终用户开始扮演一种以前无法想象的角色直接控制数据和系统，支持MIS、进而进入到DSS时代。（4）进入抽取程序它使用某些标准，搜索整个文件或数据库，从中选择合乎要求的数据并将这些数据传送到其他文件或数据库中去，主要用于分析和辅助决策。（5）失控的数据抽取处

4、理导致出现蜘蛛网起初只是抽取，随后是抽取之上的抽取（在已抽取的数据集上进行再抽取），接着是在此基础上的再抽取，如此等等。对于一个大公司，每天进行多达45000次的抽取是很正常的。2）自然演化式体系结构的问题（1）数据缺乏可信性这是因为“蜘蛛网”引发的以下几个问题所引起的：l 数据无时间基准l 数据算法上的差异l 抽取的多层次问题l 外部数据问题l 无公共起始数据源（参见数据仓库p5-6）（2）生产率问题，例如当需要在整个企业范围内进行数据分析时，生产率可能十分低下（比如为生成企业报表所进行的数据检索可能是一个十分漫长而乏味的工作。（参见数据仓库p6-8）（3）无法将数据转化为信息（参见数据仓库

5、p8-9）3）体系结构化环境（体系化的数据仓库环境）（1）核心存在两种数据：原始数据和导出数据。l 原始数据是维持企业日常运行所需的细节数据；l 导出数据是要经过汇总或计算来满足公司管理者需要的数据。两种数据的比较l 原始数据可以更新；导出数据可以通过重新计算得出，但不能直接进行更新。l 原始数据主要是当前数据；导出数据通常为历史数据。l 原始数据由以重复方式运行的过程操纵（例如订货数据都是通过执行订单表单程序而获得的）；导出数据由启发式（“想到什么”确定主题，才去导出相关的数据，“给我看一下我所想要看的东西，然后才能告诉你，我真正想要什么”）而非重复运行的程序与过程操纵。l 操作型数据是原始

6、的；分析型数据是导出的。l 原始数据支持日常工作；导出数据则支持管理工作和决策分析工作。（2）（数据）体系结构层次分为：操作层，原子/数据仓库层，部门层，个体层等四个层次。上述不同层次的数据是一种称为企业信息源（ CIF，corporate information factory）的更大的体系结构的基石。操作层l 细节的l 日常的l 当前值的l 访问频繁的l 面向应用原子/数据仓库层l 大部分是粒度化数据l 随时间变化的l 集成的l 面向主题的l 一些汇总部门层l 领域狭窄l 一些导出数据，一些原始数据l 典型的部门财务市场工程保险制造个体层l 暂时的l 为特定目的的l 启

7、发式的l 非重复式的l 基于PC和工作站的图1-1 体系结构层次示例l 存在于数据的体系结构化环境中的数据冗余少（这是相对于蜘蛛网环境而言，因为该环境存在着数据的重复抽取，所以势必增加数据的冗余）。l 不同层次的数据支持不同类型的查询。【例】一个贯穿于体系结构的顾客数据的简单实例。图1-2 不同层次的数据可以完成不同类型的查询操作层原子/数据仓库层部门/数据集市层按月的顾客数据个体层一个顾客J JonesMain大街123号信用度-AAJ Jones1986-1987High大街456号信用度-BJ Jones1987-1989High大街456号信用度-AJ Jones1989-今

8、Main大街123号信用度-AAJ Jones现在的信用度是多少？J Jones的信用记录如何？1月41012月42093月41754月4215顾客从1982年起账户余额5000，信用度不低于B我们吸引的顾客是越来越多还是越来越少？我们所分析的顾客趋势如何？（3）体系结构化环境中的数据集成如果不加以集成地将数据从操作型数据源直接载入数据仓库是没有意义的、而且可能形成灾难性的结果，非集成状态的数据无法支持数据的企业视图，而数据的企业视图是体系化结构环境的本质之一，也是数据仓库的重要特征。集成虽然是繁琐的，但却是必须的，事实上ETL可以使集成处理部分地自动进行。下面给出一个有关保险公司“顾客”主题

9、所需要的各种顾客数据的集成之例。保险公司的顾客数据在操作型环境中被存放到不同的库（表）中，但在数据仓库层（分析型数据环境）中有可能被集成在一张表内。人寿保险原子/数据仓库层一个顾客J Jones女1945年7月20日J Jones女1945年7月20日去年有二张罚单一次大事故Main大街123号已婚两个孩子高血压操作层J Jones去年有二张罚单一次大事故汽车保险房屋财产保险J JonesMain大街123号已婚健康保险J Jones两个孩子高血压图1-3 顾客数据集成示例（4）数据仓库的用户主要是DSS分析员，首先是商务人员，其次才是技术人员。DSS的主要工作是定义和发现在企业

10、中使用的信息。 DSS分析员的想法和工作方式通常是：“给我看一下我所想要看的东西，然后才能告诉你，我真正想要什么”。具体说：DSS分析员在发现模式下工作，只有看到报表或屏幕上的数据时，他们才开始探讨是否有必要进行DSS分析。4. 开发生命周期（SDLC）（数据仓库P14-15）（1）传统的SDLCl 收集需求l 分析l 设计l 编程l 测试l 集成l 实现（2）数据仓库SDLC（CLDS）l 构建数据仓库l 集成数据l 检验偏差（数据存在什么偏差）l 针对数据编程l 设计DSS系统l 分析结果l 理解需求可以看出，CLDS的特点是：由数据开始，得到数据后将数据集成；然后检验数据存在什么偏差；之

11、后，针对数据写程序，分析程序的执行结果；最后，系统需求才得到理解。而一旦系统需求得到理解，就需要对系统的设计进行调整，然后针对不同的数据集开始新的开发周期，采用的是一种“螺旋式”的开发方法。注意：CLDS是数据驱动开发生命周期，而SDLC是需求驱动开发生命周期。三、数据仓库技术的发展1背景数据资源应用方面的几个深层次的问题：l “信息已成为人类社会中除了物质、能量之外的第三大资源。”l “对数据库系统的应用只停留在数据采集、查询、统计（日常业务处理）等几个方面，远远没有发挥数据库中的数据的作用和价值”。l “我们正在被信息所淹没，但我们却由于缺乏知识而感到饥饿。”l “数据库容量（数据量）的指

12、数增长和对数据库应用的贫乏形成了强烈的反差，导致了大量的数据垃圾。”信息管理的主要问题（参见数据仓库原理与应用 p.4）（1）“数据太多，信息不足”的现状是指各个企业数据库中长年累月积累了大量的业务数据。但真正被再利用，发掘出来支持辅助决策的信息太少。（2）异构数据源问题数据格式、关于数据的描述（元数据）、数据跨平台共享等。（3）事务处理环境不适宜DSS 的应用l 事务处理和分析处理的性能和特性不同l 数据集成问题l 数据动态集成问题l 历史数据问题对于决策分析而言，历史数据是相当重要的，许多分析方法必须以大量的历史数据为依托，对历史数据的分析，至少可以发现趋势，甚至发现规律。l 数据的

13、综合问题细节数据很难支持决策分析，一则是因为细节数据数量太大，会影响分析的效率，再则因为决策分析往往是宏观的，所关注的不可能是细节数据。因此需要按一定的规则对细节数据进行综合。结论：要提高分析和决策的效率和有效性，分析型处理及其数据必须与操作型处理及其数据分离，必须把分析型数据从事务处理环境中提取出来，按照DSS处理的需要，以分析对象为单位，进行重新组织，建立单独的分析处理环境。数据仓库正是为了构建这种新的分析处理环境而提出的一种数据存储和组织技术。2数据仓库概念的提出 1992年，William.H.Inmon在其里程碑式的建立数据仓库一书中提出了“数据仓库（DW，Data Warehou

14、s）”的概念。从此，数据仓库的研究和应用得到了广泛的关注和突飞猛进的发展。3数据仓库的发展（1）信息管理思想的进步从单纯向数据库中添加数据到既不断地向数据库添加数据又源源不绝地从数据库获取信息和利用信息，这就是信息管理理念进步的特征与表现。 “我们花了二十多年的时间将数据放入数据库中，如今是该将它们拿出来的时候了”。（2）数据组织技术和支撑环境的进步l 从专门为业务的统计分析而建立的数据中心到作为决策支持系统和联机分析应用数据源的多维（结构化）数据环境。l 从原来以单一数据库为中心的数据环境发展为体系（结构）化环境。（网络计算的二个方向：广度计算和深度计算，后者是推进数据体系（结构）化环境的

15、动力。广度计算的含义是把计算机的应用范围尽量扩大，同时实现广泛的数据交流（例如Internet就是广度计算的典型）；深度计算是人们对以往计算机仅从事的简单数据操作，提出更高的要求，希望计算机能够更多地参与数据分析与决策的制定领域。）（3）数据仓库技术的发展主要技术包括：l 仓库结构（自顶向下结构、自底向上结构、数据集市、数据集市/数据仓库、分布式数据仓库/数据集市、分布式知识管理结构等）。l 建模技术，工具集。l 元数据描述与管理技术。l 数据仓库管理技术，多维数据存储、增量更新、海量数据管理等。4数据仓库的应用情况（资料）据调查，幸福500中已经有85%的企业建成或正在建立数据仓库，数据仓库

16、与Internet一样，正在成为最快的IT增长点。1996年，全球企业在数据仓库上的投资达到16.8亿美元，并且每年以19.1%的速度增长。据IDC调查，数据仓库的平均投资回报率在401%。使用数据仓库所产生的巨大效益的同时又刺激了对数据仓库应用的需求，数据仓库市场得到迅猛的发展，其市场需求越来越大，平均每年以400%的速度扩张。另一方面，数据仓库技术愈来愈成熟，生产数据仓库辅助工具的厂家也越来越多，如：众多数据库服务器提供商把支持数据仓库作为新数据库服务器的重要特性。数据仓库已经广泛应用在电信、银行、航空、铁路运输、零售业、邮政等许多领域和多个方面，并且在国外取得了很大的成功。1998年全球

17、500家大银行中的前100家，已经有近90家建有数据仓库；1999年全球金融机构共投资54亿美元实施数据仓库建设，其中欧美地区占了近80%。2000年全球500大企业中有50%的企业已经实施数据仓库或部门级数据集市。国内的应用情况：（通过调研和资料检索加以了解）我国的数据仓库技术却相对地落后了许多，因为：第一，实现数据仓库技术的前提是要有大量的历史数据。但目前我国除了银行、电信等少数行业以外，数据积累都不够充分。1995年国家计委、国家科委和国家信息中心对全国的数据库系统进行了一次全面的调查，结果显示，具有一定容量、可对外提供服务的数据库有1000多个，数据库的容量在10MB100MB之间的占

18、42%，10MB以下的占35%，100MB以上的占22%，整体水平与发达国家差距达20年的时间。而国外数据库的规模越来越大，例如，世界专利数据库有2000多万条记录，容量达到几十个GB；美国在线公司仅在华盛顿的一个网站就有上百台服务器，其中每台服务器上都有若干个数据库，而每个数据库的容量都在几十GB到TB级的数据量。第二，数据仓库在我国的引入相对较晚；第三，受我国管理现代化、科学化意识相对落后的影响；第四，也因我国用户早期在计算机软件方面投资意识薄弱的影响。（资料：早在2006年，全球的商业分析软件市场达到193亿美元，增长率为11.2%。商业分析类软件服务市场目前国内达到3亿美元，国际市场达

19、到250亿美元的规模，而且据权威机构预测在未来的10年成稳定增长的趋势。）（资料：从行业的角度来分析，无论是金融、电信。零售等已有大量数据积累的企业，还是新兴的中型制造、能源化工、交通等行业，更多的分析型应用成为迫切的需要，如何为企业经营决策者、执行者或者高级操作人员，精确提供对企业经营、产品销售、绩效管理、客户偏好、客户构成以及客户忠诚度的分析，这种需求持续促进未来几年商业分析软件市场的发展。）（资料：基于云计算的数据分析）5数据仓库的发展动态 P.7（1）关于数据仓库应用的效益IDC于1997年曾进行了一项研究，在调查了62家各种规模的、采用了数据仓库的公司之后，得出的结论表明他们的平均

20、ROI（投资回报率）超过400%。数据量越大，数据仓库的作用就越大，通常情况下，用低于50GB的数据量去建立一个数据仓库可能是得不偿失的。（2）几次大型国际学术会议（3）其它方面请检索相关资料并进行综述。5 数据仓库的关键技术建立数据仓库的目的并不是取代数据库，相反、数据库仍旧是数据仓库的强大支撑。数据仓库是建立在一个较全面和完善的信息应用的基础上，支持高层决策的。数据仓库的创建与使用技术并不比数据库创建与使用技术复杂，但是有许多特定要求。主要有多维建模技术、数据管理技术、元数据管理技术、高效索引与数据监视技术、数据压缩技术、多维数据存储技术、数据仓库安全技术等，此外还包括健壮的接口技术（

21、例如多技术接口、语言接口和数据的高效率加载技术）、支持复合键码技术、可变长技术、锁切换技术等。（1）多维建模技术与数据库相同，数据模型同样也是数据仓库的核心问题之一，数据仓库的特征之一是面向主题，也即围绕主题来组织数据。一个主题对应于企业中某一宏观分析领域所涉及的分析对象，例如产品质量、产品销售量等，它至少与两种实体有关，即指标实体和维实体。与此相对应，主题数据必须以多维逻辑方式组织，这是因为一个指标实体往往与多个维实体有关，数据在各个维之间相互交叉，形成立体的数据视图。例如“学生成绩”是一个指标实体，该实体与学生、课程、学年、学期，甚至专业等维实体有关。传统的数据模型不能有效地表示主题的数据

22、结构和语义，也难以支持OLAP应用。因此必须采用多维数据模型；又因为主题的易变性，使得面向最终用户的建模工具显得尤为重要。（2）数据管理技术数据管理技术是数据仓库所有技术中最重要的技术。它在支持有效管理数据的同时，还应能够满足高效率的要求。一般数据仓库对大批量数据（海量数据）的管理可以通过对文件的寻址、索引，数据分割、数据的外延，有效的溢出管理等技术来实现。（3）元数据管理技术元数据是数据仓库运行和维护的核心，用于描述（存储）数据模型和定义数据结构（数据模式），描述转换规则、仓库结构、控制信息，实现操作型环境和数据仓库环境之间的映射。数据仓库服务器依据它来存储和更新数据；用户通过对元数据的准确

23、和实时的访问，来有效支持决策分析。常用的元数据模型有OIM(Open Information Model,开放信息模型)、CWM(Common Warehouse Metamodel,通用仓库元模型)等。高效索引与数据监视技术数据仓库一般基于双重粒度级实现对大批量数据进行各种不可预知的查询或访问并采用数据分割技术进行查询优化。这些技术需要依靠二级索引、稀疏索引、动态索引和临时索引等索引技术的支持。为能高效地访问这些索引，一般采用位映像、多级索引、索引项的压缩、创建选择索引范围或将索引全部装入内存等方法。采用数据监视技术，分析索引是否建立不恰当，是否有太多数据溢出，决定是否应重组数据和可用的剩

24、余空间，当然数据监视技术还可以延伸与应用到观察数据源的动态变化，以实现数据仓库数据的动态增量更新。数据压缩技术由于数据仓库中的数据很少发生变化，因此比较适合采用压缩技术。尽管对数据访问时必须有相应的解压缩，因此需要消耗CPU资源，但是这样可以减少空间管理问题，同时可以减少I/O操作，使得数据仓库的效率得到极大的提高。而通常，在数据仓库环境中I/O资源比CPU资源少得多，因此数据的解压缩并不是主要问题。数据的无损压缩一般采用小波变换和主要成分分析方法等。数据存储技术主要指多介质存储设备的管理技术，实现对磁盘、磁盘阵列、磁带等各种介质的存储设备的统一、有效的管理，从而达到效率和费用的平衡。在

25、物理块或物理页上对数据存储进行有效的控制，支持对数据存储物理地址进行调整。在多用户环境中，采用数据的并行存储与管理技术来提高数据仓库的性能。（6）数据仓库安全技术数据仓库安全问题与数据库安全问题实际上没有本质的区别，只是仓库中的数据价值提升了，其重要性便凸显了；再则，仓库数据的建立目的与限制对数据的访问是矛盾的，数据仓库中存在着不同粒度的数据，数据仓库中的数据是以多维的方式存在的。这些因素决定了数据仓库安全的研究是一个复杂的领域。传统的数据库安全所采取的方法、技术，如身份认证、数据分类、用户分类、数据加密、访问控制、审计（操作行为审计），并不完全适用于数据仓库安全。因此亟待研究一种行之有效的数

26、据仓库安全模型和研究新的安全技术。目前，国际上许多重要的学术会议，如超大型数据库国际会议、数据工程国际会议等都设立有专门数据仓库研究机构来研究相关数据仓库技术。因此，DW技术也越发成熟起来。6数据仓库的发展方向p11p14（1）数据仓库技术的发展包括数据抽取、数据管理、数据表现和方法论。l 数据抽取：未来的发展集中在系统集成化。使用元数据，将互联、转换、复制、调度、监控等纳入标准化的统一管理，以适应数据仓库本身或数据源可能的变化，使系统更便于管理和维护。l 数据管理方面：未来的发展将使数据库厂商推出数据引擎，作为服务器产品与数据库服务器并驾齐驱。l 数据表现方面：数理统计的算法和功能将普遍集

27、成到联机分析产品中，同时与Web技术紧密结合、推出适用于Intranet和终端免维护的数据仓库访问前端以及基于Web的联机分析（WEBOLAP）。（2）数据仓库应用的发展l 与应用系统的集成在新一代的应用系统中，数据仓库作为重要需求，在一开始便被纳入总体规划和系统设计的考虑范畴，联机分析普遍应用于事务处理系统中。数据仓库系统将成为下一代应用系统的重要组成部分。l 数据仓库的发展趋势主要表现在以下三个方面：对非结构化数据（主要指多媒体数据）的处理实现共享数据对信息进行打包。数据仓库技术的一个分支客户关系管理系统”(CRM)也与网上交易、供应链管理一起，构成一个全面的整体电子商务解决方案。

28、数据仓库已经转向商业智能（BI），而现在正在向电子智能(EI)转变。（3）国内对数据仓库的需求 p13 （略）第二章数据仓库原理2.1 数据仓库的概念2.1.1 数据仓库的定义1. 与传统数据库的比较传统数据库主要用于事务处理，即面向日常业务，实现对业务数据的常规处理，例如数据的增、删、改，查询以及基本统计处理。主要用于支持特定的应用服务，也称为操作型处理。数据仓库的提出是以关系数据库、并行处理和分布式计算等技术的飞速发展为基础，用于解决所谓的“拥有大量数据，但是有用信息贫乏”的问题的一种综合解决方案。数据仓库主要用于决策支持，数据处理的方式以分析为主，也称为分析型处理。2. 数据仓库的定义

29、l 公认的定义：数据仓库是面向主题的、集成的、非易失的，是随时间变化的数据集合，用来支持管理决策。（W.H.Inmon,1992）l 其他一些关于数据仓库的定义数据仓库将分布在企业网络中的不同信息岛上的业务数据集成到一起，存储在一个单一的集成关系型数据库中，利用这种集成信息，可方便用户对信息的访问，更可使决策人员对一段时间内的历史数据进行分析，研究事物发展趋（走）势。(Infoxmix)注意：定义中提到的信息岛目前多数是孤岛（信息孤岛），因此该定义更强调将数据仓库作为一种比较有效的数据集成手段。数据仓库是一种管理技术，旨在通过通畅、合理、全面的信息管理，达到有效的决策支持。2.1.2 数据

30、仓库的特征数据仓库定义中提到的面向主题、集成、非易失、随时间变化是数据仓库的四大特征。1. 面向主题主题：是一个抽象的概念，是在较高层次上将企业（或组织）信息系统中的数据综合、归并，进行分析利用的抽象。在逻辑意义上，主题对应于企业（或组织）中某些宏观分析领域所涉及的分析对象。必须强调的是，主题是数据，但绝对不是简单的数据而是各种数据交叉、聚集而成的数据立方体。例如保险公司的顾客，教学管理系统的教学质量，证券公司的资产、交易等。就保险公司对顾客的分析需求而言，仅靠顾客档案得到的只能是片面的结果（因为顾客档案往往只记录顾客的基本信息，而没有记录顾客的行为信息），除了顾客档案外，还需要了解顾客的服务

31、要求（例如顾客选择哪些保险项目）、顾客的行为等。因此一个主题通常需要大量相关数据的综合、归并和烘托、才能得到预期的分析结果。我们知道，与主题相关的数据通常散落在各个业务系统数据库中，因此必须必须围绕主题、按特定的数据模型重新组织并集成于数据仓库中。例2-1 保险公司业务数据到业务主题的转换（抽象）。汽车人寿健康以外保险公司的操作型环境顾客保险单保险费索赔主题转化图2-1 保险公司的业务主题示意图从上面的例子可以看出：（1）数据仓库是以一个企业或组织中固有的业务主题作为处理的主体，是从整体、全局的角度来衡量这些主题在企业中的作用。（2）数据仓库是围绕主题构建的。面向主题的数据组织方式：是在较高

32、层次上对分析对象的数据的一个完整、一致的描述，能完整、统一地刻画各个分析对象所涉及的企业（或组织）的各项数据以及数据之间的联系。例如对顾客这一分析对象的完整、一致的描述，需要包含各种保险产品、时间、地点（区）、营销人员等数据，同时还要阐明这些数据之间的联系。2. 集成是指数据仓库的数据是集成的，也即数据仓库的数据是从原有的分散的数据库数据中，按描述主题的需要抽取并经过一些转换、数据综合和计算得来的。（分散有二个含义：其一，存在于不同的数据源中，其二，零碎数据和细节数据。）在一个企业或组织中存在多个分散的数据库，这是普遍现象，主要是因为企业中存在各种各样的应用系统，它们可能是在不同时期由不同的开

33、发人员开发的。这种缺乏统一规划的开发行为导致编码、命名习惯、实际属性、属性度量等方面的不一致，以及数据的重复甚至数据环境是异构的。因此在进入数据仓库之前要消除数据之间在描述上的相互矛盾，取得格式上的完全统一。此外还需对细节数据进行一定程度的数据综合。例2-2 不同的性别表示法的转换与集成处理。不同的系统对性别有不同的表示法，例如可以用“0”、“1”表示，也可以用“M”、“F”表示，甚至可以用汉字“男”、“女”表示。在将这些来自不同数据源的数据集成到数据仓库之前，必须转换成统一的表示方式，可以选择其中一种方式，如下图所示：应用A： M，F应用B： 0，1应用C：男，女M，F转换图2.1性别集成

34、前的转换例2-3 键码的集成应用A：char(10) 应用B：int 应用C：char(12)键码男，女键码char(12)转换图2.2键码集成前的转换3. 非易失非易失也称为不可更新性。在数据仓库中，数据从操作型数据库中抽取而来，反映相当长的一段时间内历史数据的内容，是不同时间点的数据库快照的集合，以及基于快照的统计、综合和重组。一旦操作型数据进入数据仓库，只要数据没有超过数据仓库的数据存储期限，一般不对数据进行更新操作，只进行查询操作。注意：与操作型数据库的频繁更新不同，一般情况下，在数据仓库环境中，数据仅在抽取和装载时被更新/修改。因此数据仓库具有非易失性。数据库数据仓库修改修改插入插

35、入访问插入访问删除抽取/装载访问图2.3 数据仓库的非易失性因为数据仓库一般只进行数据查询操作，所以数据仓库管理系统（DWMS）相比数据库管理系统（DBMS）而言要简单得多。DBMS 中的许多技术难点，如完整性保护、并发控制等，在DWMS中几乎可以不加考虑。4. 随时间变化而不断变化(1) 含义随时间变化的含义是指时间元素（如年、月、日等）明确地包含在数据仓库的数据中，使得随时间变化的趋向可以用于决策分析。（2）该特征表现在以下三方面数据仓库随时间变化不断地增加新的数据内容。数据仓库系统必须不断捕捉OLTP数据库中变化的数据，追加到数据仓库中，也就是要不断地生成OLTP数据库的快照，经统一集

36、成后，增加到数据仓库中（数据仓库中，快照确实是不会再变化的）。数据仓库随时间变化不断删去旧的内容。数据仓库的数据也是有期限的，只是它的期限远远长于OLTP数据库中的数据期限，通常需要保存较长时间（如510年），以支持DSS进行趋势分析。数据仓库中总是包含时间元素。数据仓库中包含大量的综合数据，这些数据中有很多和时间有关，如数据经常按照时间段进行综合，或隔一定的时间片进行抽样等。这些数据要随着时间的变化不断地进行重新综合，例如按月、按季度、按年度等等。因此，数据仓库数据的键码都包含时间项，以标明数据的历史时期，时间通常作为数据的一种维度。2.2 数据集市数据仓库一般面向全组织范围为各部门提

37、供决策支持、属于企业级的，而数据集市则建立在组织内的各个部门，一般只能在部门范围内提供服务和决策支持。因此，数据集市也称为部门级数据仓库。1 数据集市的特点（1）规模较小、灵活，可以按照多种方式来组织。（2）能够快速实现，代价较低，投资回收期短，风险小。（3）工具集的紧密集成。（4）有利于进一步升级到完整的数据仓库或形成分布式数据仓库。先构建部门级的数据仓库（集市），然后逐步形成企业级的数据仓库，这种自底向上的方法是构建数据仓库时，经常采用的方法。当然，也可以先构建数据仓库，然后将数据分类“批发”到各部门，形成数据集市，这似乎更符合数据集市的特征。仓库是数据的集散地（物流中心），而集市

38、则是数据的销售点，这一比喻应该说是比较切当的。2 数据集市的类型根据其获得数据的方式，可以分为两种类型：从属数据集市和独立数据集市。数据仓库从属数据集市数据源独立数据集市数据源图2.4 从属数据集市和独立数据集市仓库的非易失性l 从属数据集市不与操作型数据源打交道，其数据直接来自于中央数据仓库。这种结构能够保证数据的一致性，同时可以减少各个部门对中央数据仓库的频繁访问，减轻其压力。此种结构一般是为那些访问数据仓库十分频繁的业务部门设立的。案例：某证券公司采用总部数据仓库和营业部数据集市相结合的主从式数据管理模式：数据从总部数据仓库获取并存储在营业部本地，应用请求都直接在营业部本地，这种模式可

39、以大大提高执行效率和响应速度，减少总部数据仓库的压力；营业部还可以进行二次开发来满足个性化业务需求，大大增加了系统的灵活性。l 独立数据集市，以部门为单位构建，其数据直接来源于各操作型数据源，为部门的决策提供支持。可以看出，独立数据集市和企业数据仓库除了在数据量大小和服务对象（最终用户）上有所区别外，其逻辑结构并无多大区别，因此也称为部门级数据仓库。l 如果为多个部门都构建了独立数据集市，就形成如图2.5所示的结构。由于操作型数据源一般是全局的，又由于独立数据集市必须与这些数据源直接打交道，因此就必须为每个数据集市设计或设置数据转换工具，以保证数据的一致性。这种结构（策略）所存在的问题：（1）

40、可能使系统变得复杂而且难以维护（2）有可能发展成蛛网结构。独立数据集市数据源图2.5 独立数据集市转化程序转化程序转化程序l 数据集市可以是数据仓库的一般继承，只不过在数据的组织方式上，数据集市处于一个相对较低的层次。2.3 数据仓库的技术要求1管理大量（海量）数据有效管理大量数据的能力是数据仓库最基本也是最重要的技术要求。具体包括能力和效率。2管理多种存储介质主要介质：主存（Main Memory）扩展存储（Expanded Memory）高速缓存（Cache）直接存储设备（DASD）光盘介质（Optical Disk）线性存储设备，例如磁带微缩胶片（File）各种介质的比较（参见数据仓库

41、原理P.19）3对数据进行方便的索引和监控（1）通过对数据索引提高对数据的快速访问能力。这一技术要求的实现需要借助一些索引技术稀疏索引、动态索引、临时索引等。（2）监控数据仓库中的数据的主要原因l 决定是否对数据进行重组（综合）。l 判定索引结构的有效性。l 了解数据仓库中的数据是否溢出。l 了解数据的统计组成。l 了解剩余可用空间。4与其它技术的接口主要考虑数据仓库数据的接收与传送问题。5并行存储和管理数据6元数据管理元数据就是数据的数据，也即对数据的描述（描述数据的起源、意义和由来）。元数据贯穿了数据仓库设计、开发、运行和维护的全过程，是数据仓库中的核心部分，是数据仓库赖以实现的基础

42、。可以说是元数据把数据仓库系统中各个松散的组件联系起来组成一个有机的整体。在数据仓库中，生成和管理元数据，有助于实现各种管理工作的自动化，有助于实施复杂的安全机制，有助于提高系统的灵活性，有助于支持系统集成，有助于改善信息抽取等。实现各种数据仓库工具之间的元数据信息的交换，也是元数据管理系统的重点。近几年，随着元数据联盟MDC（Meta Data Coalition）的开放信息模型OIM（Open Information Model）和对象管理组OMG（Object Management Group）组织的公共仓库模型CWM（Common Warehouse Model）标准的逐渐完善，以及M

43、DC和OMG组织的合并，为数据仓库厂商提供了统一的标准，从而为元数据管理铺平了道路。7语言接口数据仓库系统中应有功能强壮的语言（类似于DBMS 的DDL和DML）。典型的数据仓库语言接口必须满足如下要求：l 既能够一次访问一组数据也能够一次访问一条记录；l 能够确保使用一个或多个索引以满足用户访问的需要；l 有SQL接口；l 能够插入、删除和更新数据。8有效地装载数据装载方式：方式一、通过语言接口（例如用存储过程），方式二、使用装载工具（ETL）。9数据压缩10支持变长数据主要指复杂类型数据。11双层环境指数据存储环境。l DASD环境存储需要进行在线和交互处理的数据。l 海量存储环境

44、。主要用来存储不常使用的数据（也可以称为离线数据）2.3 数据仓库的结构结构的两个含义：（1）数据的组织结构，主题和数据粒度是数据重新组织的基本依据，按照主题和决策需要（概括和综合程度）对原始数据按多维的方式进行重新组织并进行适当的概括（综合），形成具有不同粒度的综合数据层。（2）对数据仓库中的数据进行操纵、管理的工具可以视为体系结构或DWMS的结构。下面将讨论六种仓库结构，分别是自顶向下结构、自底向上结构、企业级数据集市结构、数据存储/数据集市结构、分布式数据仓库/数据集市结构以及分布式知识管理结构，这些结构部分地体现含义（1）。还将简要介绍数据仓库系统的结构（体现含义2）以及数据的组

45、织。1自顶向下的数据仓库结构数据准备区原有应用和数据源数据仓库/数据集市元数据数据集市数据仓库图2.6 自顶向下的数据仓库结构自顶向下的意思是：先构建数据仓库，再构建数据集市，其实施过程如下：首先从外部数据源获取数据并进行抽取、集成处理，将数据和元数据装载进入数据仓库（构建数据仓库）。接着根据数据仓库中所包含的各种数据来建立数据集市（批发给各个部门）。数据仓库所存储的数据包括：全部的元数据、当前细节数据和详尽的历史数据。数据集市则存储拥有轻度和高度综合的数据和相关的元数据。案例某证券公司数据仓库和客户服务系统结构分析总部元数据数据抽取客户数据A股数据B股数据开放基金市场数据底层数据准备区数据管理营业部数据集市总部数据仓库CSDW营业部元数据元数据管理中间层多维建模多维数据库数据挖掘多维分析数据展现顶层 l 系统底层系统底层主要由数据源、数据抽取程序构成，是整个应用系统的基础。数据如何抽取，是通过元数据进行描述的（也即元数据描述了抽取规则）。数据源中与客户分

展开阅读全文