《数据仓库的体系结构ppt课件.ppt》由会员分享,可在线阅读,更多相关《数据仓库的体系结构ppt课件.ppt(43页珍藏版)》请在三一办公上搜索。
1、数据仓库,新的应用与面临问题,11/11/2022 1:53 PM,提纲,数据仓库的实质与价值数据仓库新的应用与环境数据仓库的模型与设计方法传统的数据仓库体系结构及其改进数据仓库的操作问题展望,11/11/2022 1:53 PM,提纲,数据仓库的实质与价值数据仓库新的应用与环境数据仓库的模型与设计方法传统的数据仓库结构及其改进数据仓库的操作问题展望,11/11/2022 1:53 PM,数据仓库的实质与价值,数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision-Support)。其实数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于
2、外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。因此数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层源数据、数据仓库、数据应用:,11/11/2022 1:53 PM,数据仓库的实质与价值,从图中可以看出数据仓库的数据来源于不同的源数据,并提供多样的数据应用,数据自下而上流入数据仓库后向上层开放应用,而数据仓库只是中间集成化数据管理的一个平台。数据仓库从各数据源获取数据及在数据仓库内的数据转换和流动都可以认为是ETL(抽取Extra, 转化Transfer, 装载Load)的过程,ETL是数据仓库的流水线,也可以认为是数据仓库的血液,它维系着数据仓库中数据
3、的新陈代谢,而数据仓库日常的管理和维护工作的大部分精力就是保持ETL的正常和稳定。,11/11/2022 1:53 PM,数据仓库的价值,高效的数据组织形式时间价值集成价值历史数据,11/11/2022 1:53 PM,提纲,数据仓库的实质与价值数据仓库新的应用与环境数据仓库的模型与设计方法传统的数据仓库结构及其改进数据仓库的操作问题展望,11/11/2022 1:53 PM,数据仓库新的应用领域,随着数据仓库的技术的发展和普及,将来可能在以下俩方面提出新的发展瓶颈和挑战:首先,是对新数据类型的出现,提出新的数据仓库技术对其支持非传统的系统架构和新的需求,在数据仓库技术中可以找到好的解决办法,
4、11/11/2022 1:53 PM,空间数据仓库,随着移动互联网和基于位置服务的发展,同时卫星遥感,GPS,医药成像以及其他空间可计算工具获得数据的普及,我们获取了大量的关于时空的数据。但是,这些数据的结构复杂,数据量大的特点,对其处理和分析的技术还有一定的欠缺,近年来,提出了空间数据仓库的概念,现在已经存在了几个大型的空间数据仓库。例如美国的联合国环境规划署(EP),11/11/2022 1:53 PM,空间数据仓库,空间数据仓库是融合了数据仓库跟空间数据库技术,利用这两种技术提高了对大量空间数据的处理、分析、管理的能力,但是现在还是存在一下几种挑战:空间数据粒度的划分空 间数据的分割空间
5、数据的集成当前数据仓库的数据模型标准化推广空间DW对决策系统的支持对空间DW的多维度表示,11/11/2022 1:53 PM,Web数据仓库,11/11/2022 1:53 PM,Web数据仓库,11/11/2022 1:53 PM,本体数据仓库,11/11/2022 1:53 PM,本体数据仓库,11/11/2022 1:53 PM,其他领域数据仓库,生命科学数据仓库模式数据仓库,11/11/2022 1:53 PM,11/11/2022 1:53 PM,数据仓库新的应用环境,业务流程数据仓库数据流,实时动态数据仓库数据仓库与云计算,11/11/2022 1:53 PM,提纲,数据仓库的实
6、质与价值数据仓库新的应用与环境数据仓库的模型与设计方法传统的数据仓库结构及其改进数据仓库的操作问题新的挑战,11/11/2022 1:53 PM,数据仓库模型与设计方法,数据仓库建立模型的过程实际上是一个从关系型、规范式的数据模型向多维模型转换的过程。其中数据仓库建模和数据仓库开发方法是数据仓库的构建过程中最为关键的技术环节,它直接决定数据仓库构建的成败。,11/11/2022 1:53 PM,数据仓库建模,概念建模 概念建模为数据仓库的设计提供了一个高层次的抽象,从各个方面描述了数据仓库的过程和体系结构,从而完成数据仓库的实施。通常,借助于图形表示法能让设计者和商业用户更方便的对概念模式进行
7、表达、理解和管理。现有的方法可以分为三类:扩展ER模型;扩展UML模型;特殊的模型。当前概念模型存在的问题有以下:缺乏标准概念模型安全问题Mining-aware design,11/11/2022 1:53 PM,逻辑建模,逻辑建模逻辑建模的总体任务是将概念模型转换成逻辑模型。在数据仓库领域,目标数据库系统通常要么是关系型的,要么是多维的。对于关系型的而言,人们普遍采用所谓的星型、星座和雪花模型来处理数据立方体,并且各个厂商也对这些模型提供支持。关于多维模型的实施,人们提出几种有效的多维数据结构,如浓缩数据立方体来管理数据立方体。当前逻辑模型最大的存在问题:概念数据模型与关系或者数据立方多维
8、实现的语义差别的问题,11/11/2022 1:53 PM,物理建模,物理建模 根据逻辑模型设计阶段的星型模型或雪花模型能够方便地定义物理数据结构,一般将指标实体转化为物理数据库表,称为事实表。事实表首先包括星型模型中心的指标量,其次应包括星型模型角上的维度实体中层次最低单位的主码。维度实体通常也转化为维数据库表,称为维表,它包括其每一层次的主码和对应的值。维表的关键字是该维度实体对应的详细类别实体的主码。维表和事实表通过维表关键字相关联。,11/11/2022 1:53 PM,概念模型,(1) 界定系统的边界 (2) 确定主要的主题域,11/11/2022 1:53 PM,概念模型,学年学期
9、维 课程信息维,11/11/2022 1:53 PM,概念模型,学生信息维 教师信息维,11/11/2022 1:53 PM,概念模型,11/11/2022 1:53 PM,逻辑模型,11/11/2022 1:53 PM,物理模型,11/11/2022 1:53 PM,数据仓库开发方法,2)数据仓库开发方法数据仓库的设计和创建是一个分布实施的连贯过程,在确定用户需求的基础上,完成数据仓库的设计和建立、提取和加载,最后进行长期的使用和维护。从系统的角度看,数据仓库的建立首先必须明确其设计方法,针对解决问题的短期性或长效性,将数据仓库设计方法分为以下3种:自顶向下的方法、自底向上的方法、联合方法,
10、当前的方法都还存在以下问题:首先是需求分析评估质量指标的问题,11/11/2022 1:53 PM,互操作与元数据,在物理模型和逻辑模型中的混杂性,同时在市场中存在的多种工具和软件产品,这就会产生大量的多种多样的元数据,在我们把一种元数据转换成另一种元数据的时候,就会损失掉大量的信息。所以在数据仓库中就需要这样的一种标准转换,当前工业界有两种标准:开放信息模型和元数据结合。但是这两种模型都有大量的缺陷,11/11/2022 1:53 PM,提纲,数据仓库的实质与价值数据仓库新的应用与环境数据仓库的模型与设计方法传统的数据仓库结构及其改进数据仓库的操作问题新的挑战,11/11/2022 1:53
11、 PM,数据仓库的体系结构,首先,要有更好的方法获得用户想要的数据并且把他们智能化其次,既要能分析标准化的数据,也要能分析非标准化的数据再次,提高数据的安全性和有效性,11/11/2022 1:53 PM,传统的体系结构,11/11/2022 1:53 PM,传统的体系结构,11/11/2022 1:53 PM,参考体系结构,11/11/2022 1:53 PM,提纲,数据仓库的实质与价值数据仓库新的应用与环境数据仓库的模型与设计方法传统的数据仓库结构及其改进数据仓库的操作问题展望,11/11/2022 1:53 PM,数据仓库操作的问题,OLAP标准化的问题Approximate answe
12、rs.(近似解答)What-if analysis.(假设分析)Holistic aggregation(整理聚合),11/11/2022 1:53 PM,提纲,数据仓库的实质与价值数据仓库新的应用与环境数据仓库的模型与设计方法传统的数据仓库结构及其改进数据仓库的操作问题展望,11/11/2022 1:53 PM,接下来要做的工作,11/11/2022 1:53 PM,现状:数据仓库的概念已经被国内用户接受多年,但在应用方面的收效仍很有限。原因:尚不存在可靠的、完善的、被广泛接受的数据仓库标准;现有的数据库系统不健全,数据积累还不够,无法提出决策支持需求;缺乏能够担负规划、设计、构建和维护数据
13、仓库的重任的复合型人才;缺乏数据仓库前端工具(如OLAP工具、数据挖掘工具等);由于国内外文化的差异,一些用于构建数据仓库的知名产品无法处理一些难以预料的问题,使得建立数据仓库的困难加大。,11/11/2022 1:53 PM,前景:随着计算机技术的发展,尤其是分布式技术的发展, 数据仓库在我国有着广阔的发展空间和良好的发展前景。例如:由于银行商业化的步伐正在加大,开始重新考虑自身的业务,特别是信贷风险管理方面特别注意,因而有关信贷风险管理和风险规章的基于数据仓库的决策支持系统的需求逐渐增多;由于电子商务的迅速发展,越来越多的电子商务网站,开始考虑如何将数据仓库应用于商品销售分析、顾客的诚信度
14、分析等,为客户提供更进一步的个性化服务;如移动通信等各大型企业也开始考虑着手进行决策支持以及数据仓库规划。,11/11/2022 1:53 PM,参考文献,Joachim Hammer,Manifesto of a Markus Schneider , Timos Sellis.Dagstuhl Perspectives Seminar,Data Warehousing at the Crossroads .Dagstuhl,一2004.The Model of Data War ehouse Based on OntologyCHEN Zhi-gang, LUO Xin-nanResearch in Data Warehouse Modeling an Design: Dead or Alive?张维明.数据仓库原理与应用 M .北京: 北京电子工业出版社,2002:5- 7.陈超, 沙基昌, 罗爱民, 等.一种基于本体的数据仓库开发模型 J .计算机仿真, 2005 ( 2) :255- 258.,11/11/2022 1:53 PM,謝謝聆聽,請多多指教。,