数据仓库的基本概念.ppt

上传人:牧羊曲112 文档编号:6296240 上传时间:2023-10-14 格式:PPT 页数:129 大小:304KB
返回 下载 相关 举报
数据仓库的基本概念.ppt_第1页
第1页 / 共129页
数据仓库的基本概念.ppt_第2页
第2页 / 共129页
数据仓库的基本概念.ppt_第3页
第3页 / 共129页
数据仓库的基本概念.ppt_第4页
第4页 / 共129页
数据仓库的基本概念.ppt_第5页
第5页 / 共129页
点击查看更多>>
资源描述

《数据仓库的基本概念.ppt》由会员分享,可在线阅读,更多相关《数据仓库的基本概念.ppt(129页珍藏版)》请在三一办公上搜索。

1、课程安排数据仓库:18学时数据挖掘:18学时考 试:撰写论文,第一章 数据仓库的基本概念,案例讨论:下图展示了某电信公司的市场部和计划部对业务A是否具有市场前景的分析过程和结果。试讨论为什么两部门分析结果不同。,企业级数据库,市场部,分析程序1,分析结果1:前景很好,计划部,分析程序2,分析结果2:前景不好,第一章:数据仓库的基本概念,1-1 数据仓库的产生与发展 传统的数据库技术作为数据管理手段,主要用于联机事务处理(OLTP,On-Line Transaction Process),数据库中保存的是大量的日常业务数据。在数据共享、数据与应用程序的独立性、维护数据的一致性与完整性、数据的安全

2、保密性等方面提供了有效的手段。,第一章 数据仓库的基本概念,与分析型应用结合时存在的问题:决策支持系统为掌握充分的信息,需要访问大量的企业内部数据和外部数据。企业中存在不同的操作型MIS即不同的数据源;不同的数据管理平台信息提取不方便。如:Oracle SQL Server传统数据库中的大量数据是事务型数据,即该数据是对每一项工作、管理对象的具体的、细节性的描述。如:一份合同;DSS需要的是综合的、总结性数据。其特点:数据量大。基与传统的操作型DB不适合建立分析型应用系统。,第一章 数据仓库的基本概念,与分析型应用结合时存在的问题(续):,事务处理型应用与分析决策型应用对数据库系统的性能要求不

3、同。事务处理型应用特点:数据存取频率高、处理时间短;分析决策型应用特点:数据存取频率低、处理时间长。将分析决策型应用与事务处理型应用共同放在同一DBS环境中系统资源紧张事务处理型应用瘫痪。传统数据库中保存和管理的一般是当前数据,而决策支持系统不仅需要当前的数据,而且还要求有大量的历史数据进行分析和比较找出企业发展变化趋势。传统的数据库系统不能满足分析决策型应用的需要。,结论:()在事务处理型应用环境中直接构建分析决策型应用不可行的。()面向分析决策型应用的数据及数据处理与事务处理型应用的数据及数据处理分离。即必须把分析决策型数据从事务处理系统应用环境中分离开来,建立单独的分析性应用环境。于是:

4、面向分析决策型应用而组织和存储数据的数据仓库技术应运而生。,第一章 数据仓库的基本概念,时间:20世纪80年代初 人物:定义:数据仓库是面向主题的、集成的、具有时间特征的、稳定的数据集合,用以支持经营管理中的决策制定过程。A data warehouse is a subject-oriented,integrated,time-variant,and nonvolatile collection of data in support of managements decision making process.,第一章 数据仓库的基本概念,数据仓库的四大特征:数据是面向主题的 数据是集成的

5、数据是具有时间特征的 数据是相对稳定的 数据仓库的其它特点:数据量非常大(10GB-1000GB)是数据库技术的一种新的应用 使用人员较少,第一章 数据仓库的基本概念,1-2 数据仓库与数据库 操作型数据库 分析型数据仓库系统目的 支持日常操作 支持管理需求,获取信息使用人员 办事员、DBA、数据库专家 经理、管理人员、分析专家数据内容 当前数据 历史数据、派生数据数据特点 细节的 综合的或提炼的数据组织 面向应用 面向主题存取类型 添加、修改、查询、删除 查询、聚集数据稳定性 动态的 相对稳定,第一章 数据仓库的基本概念,续上表:,操作型数据库 分析型数据仓库需求特点 需求事先可知道 需求事

6、先不知道 操作特点 一个时刻操作一单元 一个时刻操作一集合 数据库设计 基于E-R图 基于星型模式、雪花模式一次操作数据量 一次操作数据量小 一次操作数据量大存取频率 较高 较低响应时间 小于3秒 几秒几十分钟,第一章 数据仓库的基本概念,1-3 数据仓库的基本结构,操作型事物处理系统设计目的:简单检索(少量记录的日常操作)复杂的分析型数据仓库设计目的:复杂查询(大量数据汇总和分类)技术人人使用角度分:体系结构用户使用角度分:数据仓库的基本结构由四部分组成:,数据仓库的基本结构(续),数据源(Data Source)提供原始数据:内部数据源(MIS-遗传系统)、外部数据源(调查或统计数据)、历

7、史数据 例:营销分析(发票、合同、客户、计划、产品结构、地区、市场数据等)数据仓库的数据存储(Data Storage)数据源接收、分析、抽取、净化、汇总、变换、存储、清理、转换确定分析主题抽取面向主题的集成数据确定数据模型DW,数据仓库的基本结构(续),应用工具(Application Tools)OLAP(On-Line Analytical Processing)工具:支持复杂但目的明确的分析操作。如:2011与2010比,产品P在地区R的销售增长是多少?其特点:a).应分析人员的要求可快速灵活进行大量数据的复杂的查询处理;b).通过可视化前端服务以一种直观易懂的方式将分析结果-分析人员

8、。数据挖掘DM(Dat Mining)工具:从大量的数据中寻找尚未发现的的知识支持企业的战略决策 如:我们拥有的客户有怎样的特点。,数据仓库的基本结构(续),可视化用户界面(Visualization)可视化前端服务:需求的分析结果显示给用户。前端服务的主要内容:用户指定分析主题,确定分析粒度与维度,对DW中的主题数据进一步汇总集成,以同步数据表、分析报告、折线图、直方图、雷达图、圆饼图等方式将分析结果用户。总结:未体现建设DW技术内容和实现过程。,1-4 数据仓库技术的术语 主题:(Subject)主题是一个在较高层次上将数据归类的标准,每一个主题基本对应一个宏观的分析领域。例:面向主题:产

9、品订货分析,货物发运分析,新产品开发分析;面向应用:财务,销售,供应,人力资源,生产调度.主题域的特征:独立性,完备性,第一章 数据仓库的基本概念,1.主题是抽象的。即在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。是对应企业中某一宏观分析领域所涉及的分析对象。面向主题的数据组织方式:是在较高层次上对分析对象数据的一个完整、一致的描述,能完整、统一的刻画各个分析对象所涉及的企业各项数据,以及数据之间的联系。2.DM中的数据是面向主题进行组织的。传统DB数据是面向应用进行组织的。如:一个生产企业的DB-财务、销售、供应、人力资源、生产调度子系统;一个生产企业的DW-产品订货分析

10、货物发运分析等。主题是根据分析的要求来确定的,而不是按照数据处理或应用的要求来组织数据的。如:生产企业中的材料供应 操作型DBS-关系材料供应业务处理;分析型DBS-关心材料的不同采购渠道、材料供应是否及时及材料质量情况等。,3.数据组织的步骤:()确定分析的主题。()确定每个主题所应包含的数据内容。一个主题:多个表(增加一个公共码:作为其主码的一部分,该公共码将各个表统一联系起来,表明它们属于同一主题的)4.主题域主题域-面向主题的数据组织方式是根据分析要求将数据组织成一个完备的分析领域。特征:()独立性。主题域可以和其他的主题域有交叉部分,但它必须具有独立的内涵,即要求有明确的界限,规定某

11、项数据是否属于该主题。()完备性。要求任何一个与某主题相关的分析要求,都应该能在这一主题中找到该分析处理所要求的一切内容。如:产品,根据分析处理要求,将产品之外的数据增加到“产品”主题中来。,粒度:(Granularity)粒度是指数据仓库中数据单元的详细程度和级别。数据越详细,粒度越小,级别越低,回答查询的种类就越多。(数据堆积,回答综合问题效率低)数据越综合,粒度越大,级别越高,回答查询的种类就越少。,第一章 数据仓库的基本概念,维度:(Dimension)维的概念 维度是指人们观察事物的角度,类似于关系表的属性。例如:当人们关注产品销售情况时,有如下维度:时间维:随时间变化的销售数据;地

12、区维:不同地区的销售数据;客户维:不同客户的销售;在DW中常用的维主要有:时间维、客户维、产品维、地区维。维层次 人们从某个维的角度观察数据,还可以根据细节程度的不同形 成多个描述层次,该多个描述层次称为维层次。渠道维:不同销售渠道的销售数据;产品维:不同产品的销售数据,第一章 数据仓库的基本概念,一个维具有多个层次,例:时间维:日期、周、月份、季度、年等;地区维:城市、地区、国家等。3.维层次的表示(1)维的层次关系用层次图来表示。如:地区维 维层次的信息放在元数据 查询时:通过元数据的信息-区分不同的维层次-查询(2)维层次级别的确定 如:地区维的级别关系是国家地区省城市四个层次。注意:数

13、据综合时,要在同一维层次上进行求和操作。,第一章 数据仓库的基本概念,数据立方体:数据立方体是指由两个或更多个属性即两个或更多个维来描述或者分类的数据。在三维的情况下可以用图形来表示,一般称为数据立方体。实际的数据仓库的应用中,数据是多维的。,第一章 数据仓库的基本概念,例企业销售数据表单位(万元)半年 季度 月份 地区大类 具体地区吗 CAMC VCR TR-75 Ux-11 TR-78 EC-1 XVG 上 1 1 东北 531 745 790 70 600 40 上 1 2 东北 539 745 790 58 600 40 上 1 3 西北 652 745 790 45 600 40 上

14、 2 4 西北 683 745 790 50 600 40产品、时间、地区存在维层次 数据立方体是决策需要的一类特殊数据,可以针对不同的的查询请求 形成不同维层次上的数据汇总。如:商业应用数据具有多维性质。“产品的销售收入是多少?”简单“某产品在某个月份在某个地区的销售收入是多少?”考虑:销售事实销售收入是多少维度产品、时间、地区。产品、时间、地区三个维度数据立方体查询每种产品在某个时间、在某个地区的销售情况。DW的主要操作对象是多维数据多维建模技术 用户从多个角度对数据进行分析。,第一章 数据仓库的基本概念,联机分析处理:(OLAP)联机事务处理(OLTP-On-Line Transacti

15、on Processing):不能满足复杂的查询分析。联机分析处理(OLAP-On-Line Analytical Processing):是快速、灵活的多维数据分析工具。OLAP的目的是支持分析决策,满足多维环境的查询和报表需求。即从不同的维度以不同的粒度对多维数据进行快速、交互性访问,使管理决策人员掌握企业数据信息。数据仓库的多维数据存储结构为OLAP的实施提供了理想的多维数据环境。,第一章 数据仓库的基本概念,OLAP访问和分析的数据对象:多维数据信息抽取、清理、转换原始 数据多维数据信息:反映用户理解企业业务事实和观察这些事实的各维。数据仓库目的:分析企业信息、制定决策.2.OLAP与

16、OLTP的区别 OLTP OLAP处理的数据对象 底层的业务数据库 多维数据库(抽取、清理、转化)面向的用户 日常业务操作人员 决策人员和高层管理人员分析的数据对象 DB DW3.OLAP如何进行多维数据分析选择不同的维度及不同的粒度,即对多维数据进行不同的分析。(1)多维数据视图 以三维为例给出多维数据视图的四种情况:观察在某一时间点或时间段上各个产品在各个地区销售情况;观察某地区各个产品在各个时期的销售情况;观察某种产品在各个时期和各个地区中的销售情况;观察某种产品在某时间点或时间段上在某地区的销售情况;,第一章 数据仓库的基本概念,(2)多维数据报表 如:月 具体 销售量/台 销售额/万

17、元 份 地区码 CAMC VCR CAMC VCR TR-75 Ux-11 TR-78 EC-1 XVG TR-75 Ux-11 TR-78 EC-1 XVG 1 531 745 790 70 600 40 1 539 745 790 58 600 40 1 652 745 790 45 600 40 2 683 745 790 50 600 40OLAP功能:多维分析 快速的反应能力,第一章 数据仓库的基本概念,数据集市:(Data Mart)1.数据集市的概念 数据集市是完整的数据仓库的一个逻辑子集,而数据仓库正是由其所有的数据集市有机组合而成的。且各数据集市间应协调一致,满足整个企业分析

18、决策的需要。一般在某个业务部门建立数据集市,满足其分析决策的需要,称为部门级数据仓库。建立数据集市与数据仓库,一般是采用“自顶向下”和“自下而上”相结合的设计思想。,第一章 数据仓库的基本概念,2.数据集市的设计原则在DW中,所有的数据集市必须具有统一一致的维定义和统一一致的业务事实。采用自顶向下和自底向上相结合设计思想进行设计。(1)自顶向下全局的数据仓库 部门级的数据仓库保证一致性,但设计周期长且费用高(2)自底向上部门需求 逐步建立各部门级的数据仓库装配全局数据仓库设计周期短且费用低,但组装困难且不能保证一致性方法:采用总线型结构设计实施部门级DW,使所有的数据集市具有具有统一一致的维定

19、义和统一一致的业务事实。3.数据集市的组织方法(1)按业务分析领域进行数据组织如:销售数据集市、人力资源数据集市、财务数据集市。(2)按主题进行数据组织如:销售数据集市、订货数据集市、客户分析数据集市。,第一章 数据仓库的基本概念,第一章 数据仓库的基本概念,讨论题:1、结合XXX大学学生学籍管理系统进行数据仓库的主题划分,列举有哪些主题。,1-4 多维数据模型 多维数据模型是进行决策支持数据建模的最好方式,数据仓库采用多维数据模型不仅能使其使用方便,而且能提高系统的性能。1-4-1 实体关系模型与多维模型 实体关系模型应用于操作型数据库系统,多维模型应用于分析型数据仓库系统。操作型业务处理系

20、统 数据仓库数据建模方法 E-R模型 多维数据模型 实体关系模型不适用于以查询为主的分析型应用,具体表现在:使用者、界面、检索手段。,第一章 数据仓库的基本概念,1、E-R模型(Entity-Relationship Model)实体关系模型 定义数据间的关系,去除了数据中的冗余。E-R模型不适用于以查询为主的分析型应用,具体表现在:分析人员、决策人员(1)所分析的操作不能是实体属性,而必须是基于集成或按某种主题组织的数据,所以在E-R模型中不能进行主动的数据检索。(2)没有图形界面支持最终用户使用实体-关系数据模型。2、多维数据模型(Dimensional Data Model)多维数据模型

21、以直观的方式组织数据,并支持高性能的数据访问。1.多维数据模型的组成多维数据模型由多个多维数据模式表示。多维数据模式:由一个事实表和一组维表组成。,第一章 数据仓库的基本概念,事实表:主码是组合码,惟一标识一些事实(一项或多项事实);事实表中的事实具有数值特征和可加性,是按不同维度不同粒度汇总的、综合性的数据。维表:主码是简单码,每一张维表中的简单码与事实表组合码中的一个组成部分相对应。它所包含的是描述性的文本信息,这些信息成为事实表的检索条件。例:一个企业销售数据的多维数据模式图。实体-关系模型和多维模型的区别:E-R模型 多维数据模型建模方式 数据的结构 数据的含义应用需求 操作型数据库系

22、统 分析型数据库系统企业级多维数据模型设计包含几十个简单的“星形连接”形式的多维数据模式;整个多维数据模型中包含4-15个维,各维之间相互独立,每个多维数据模式之间相互独立。,第一章 数据仓库的基本概念,企业销售数据的多维数据模式图,第一章 数据仓库的基本概念,时间码,日期月份季度年度,时间码产品码地区码,销 售 量销 售 额销售成本,产品码,产品大类产品细类产品名称,地区码,国 家地 区城 市,时间维表,事 实 表,产品维表,地区维表,多维数据模型的优势:1.多维数据模型是已知标准化的结构。包含多个多维数据模式,每一个多维数据模式都对应一张事实表和多张维表;使得查询的约束条件一定来自维表。如

23、:时间 地区 产品某种组合.2.多维数据模型具有已知的多维结构,能支持最终用户不可预知的操作。在进行多维数据模型的查询设计时,不必预先知道用户所要进行的具体操作是什么。因为多维数据模型的各个维是逻辑等价的,无论以哪个维或哪几个维作为约束条件查询事实表,逻辑上都是一样的,查询设计不受影响。如:查询设计以维作为切入点.3.对决策分析有好的扩展性。决策需求发生变化修改不影响系统运行,不重新编写前端分析工具设DW已完成,并在运行。,第一章 数据仓库的基本概念,下面举例说明几种数据或决策需求扩展情况:()在事实表中增加新的事实记录或(注意粒度的匹配)或增加新的数据项,不影响原有系统的运行,不必修改查询工

24、具、报表生成器及分析工具等。(2)在维表中可以增加新的维属性,不影响原有系统的运行结果和前端工具(多维数据模型的查询设计不依赖于某个维,支持预先未知的操作)。如:国家,地区,省,城市.(3)可以增加全新的维,不影响原有系统的运行结果和前端工具。新维表的主码 事实表中组合码的某一部分.汇总数据带来的巨大价值。事实表中存放的是不同粒度的数据,这些不同粒度的数据是根据不同的维层次组合计算后存放在事实表中的。粒度越小详细程度越高综合程度越低回答问题越具体;粒度越大详细程度越低综合程度越高回答问题越概括。结论:多维数据模型适用于DW的分析型系统的设计和应用,且直观,易于理解,支持最终用户不可预知的操作,

25、具有良好的扩展性能和快速查询能力。,第一章 数据仓库的基本概念,1-4-2 星型模式星型模式是事实表与维表通过星型方式连接而成.事实表(主表)包含的是业务数据信息,这些信息用于分析型查询,数据取值通常是可度量的、连续型的,且具有可加性,数据量可达到几百万甚至上亿条记录;业务数据信息可以从多个维度查看。维表(辅表,即维度)包含的是相应维度的描述型信息,这些信息用作查询的约束条件,一般是离散的、描述性的,不具有可加性。,第一章 数据仓库的基本概念,产品码(PK),产品大类产品细类产品名称,地区码(PK),国 家地 区城 市,产品维表,地区维表,时间码(FK)产品码(FK)(PK)地区码(FK),销

26、 售 量销 售 额销售成本,事 实 表,时间码(PK),日期月份季度年度,时间维表,第一章 数据仓库的基本概念,星型模式的优点:(1)星型模式结构简单,表的数目少,建模方便。易于理解和使用。(2)星型模式支持多维数据建模,支持使用人员从不同的维度对数据进行分析。(3)星型模式能较好地为数据仓库提供查询支持星形模式用简单的连接来定义复杂的多维数据结构,维内层次定义简单,连接路径清晰。(4)星型模式可以提高查询速度。事实表中拥有大量的数据记录,维表拥有少量的数据记录,一个大表与几个小表连接时,表连接的性能较好。,第一章 数据仓库的基本概念,主码、外码和代理码:主码(Primary Key):主码是

27、表中的一个属性或属性的组合,它能唯一地标识表中的每条记录。外码(Foreign Key):外码是出现在一个表中,同时在另一个表中被定义成主码的属性。事实表中的组合码(主码)的组成部分i维表i的简单码(主码)代理码(Surrogate Key):所有的主码和外码一般都是采用没有具体含义的代理码,例如,从1开始的自然数编码。,第一章 数据仓库的基本概念,从1开始的自然数编码值不具有原始的含义。在DW中所有的码(主码和外码)都采用代理码。如:7722000年5月29日时间码 日期 月份 季度 年份 月份码772 29 5 2 2011 5403773 1 6 2 2011 5404 mm/dd/nn

28、nn 优点:(1)代理码比较简洁,占用存储空间较小。(2)代理码可以简化事实表与维表的连接关系。某维中一个代理码代表多个维层次。如产品 01 01 01查询时:三个字段47(和三为一)(3)直接采用原始代码作为主码或外码会出现一些难以解决的问题。原始代码的惟一性和稳定性不能得到保证。如:产品代码。0101001 位数不够或空位等,第一章 数据仓库的基本概念,描述星形模式的原则(1)事实表或维表的方框内包含的项属性;(2)事实表或维表的主码阴影方框中;区别于非主属性。(3)不是主码组成部分的外码不能放在阴影方框中;(4)外码与事实表的关系用连线表示。维表中的主码-唯一 一条记录事实表中的外码-多

29、条记录1:n 2006年2月2012年2月2012年3月,第一章 数据仓库的基本概念,事实表:事实表(主表)是星型模式的核心,它是按维进行分析形查询的对象,包含的是业务数据信息,这些信息用于分析型查询,数据取值通常是可度量的、连续型的,且具有可加性,数据量可达到几百万甚至上亿条记录;业务数据信息可以从多个维度查看。例如:销售量、销售额、销售成本等。事实表中的数据一般是数值型,具有可加性。可以进行各种计算:求和、平均)。事实表的主码为外码的组合,唯一的标识各条事实记录,事实表的外码对应各维表的主码。,第一章 数据仓库的基本概念,事实表=度量值+主码(外码组合,惟一地标识各条事实记录,外码对应各维

30、表的主码)。如:销售事实表日销售实施表时间码 产品码 地区码 销售量 销售额 销售成本 销售利润 772 107 15 600 12000 10800 10 772 107 16 600 12000 10800 10 773 107 15 700 13000 11800 12月销售事实表时间码 产品码 地区码 销售量 销售额 销售成本 销售利润 5403 107 15 6000 120000 109000 100内容(1)存储在DW中的事实必须满足决策人员进行分析的需要,若不满足,可以通过维的约束条件选择来运行各种计算。如:1+2+3月(2)事实表中可以存储不同粒度的数据,同一主题中不同粒度的

31、数据一般存储在不同的事实表中。如:日销售 月销售数据(3)在DW中,简单的主题一个主题对应一个事实表;复杂的主题一个主题对应多个事实表。常用事实表主要有:销售表、合同表或订单表、运输表、市场表、预算表等。,第一章 数据仓库的基本概念,维表:维表(辅表,即维度)包含的是相应维度的描述型信息,这些信息用作查询的约束条件,一般是离散的、描述性的,不具有可加性。维表用于指导从不同的角度在事实表中选择数据行。维表中有一个主码,其余非主码的列为属性,维表中的属性数据通常是字符型数据。维表具有层次性,维表的层次性可用来分割其他的明细维表,维表层次的级别数量取决于查询的粒度。,第一章 数据仓库的基本概念,维表

32、用于指导从不同角度在事实表中选择数据行。维表=主码+属性主码:是事实表外码,用代理码表示,实现事实表和维表之间的连接。属性:为事实表中每一行数据的描述信息,通常是字符型数据。如:地区码 城市 省 国家15 咸阳 陕西 中国特性维表具有层次性,层次性用来分割其他的明细维表;层次的级别数量取决于查询的粒度。如:星形模式对DW的分析型查询通过在各维层次间的变换比较来进行。这类操作称为“上钻”或“下钻”。如:国家省:下钻结论:简单的星形模式=一个事实表+若干个维表复杂的星形模式=多个事实表+若干个维表事实表:包含基本的企业业务数据,数据量很大。维表:包含业务数据的描述性属性,作为检索业务数据的约束条件

33、,数据量较小。实际的业务环境中,多维数据模型含有4-15维.常见的维有:产品维、时间维、地区维、客户维、供应商维、销售渠道维等。,第一章 数据仓库的基本概念,星形模式的种类 随着事实表和维表的增加和变化,星形模式有多种建模方式。一、简单星形模式 是星形模式的基本模式,由一个事实表和多个维表组成。事实表中的外码与相应维表中的主码是多对一的关系。如:产品码二、星系模式1.星形模式中包含多个事实表,这些事实表连接的维表可能不完全相同,但共享多个维表。如:,第一章 数据仓库的基本概念,时间维表时间码 日期 季度 年度 供应商维表 采购事实表 销售事实表 地区维表 供商商码 时间码 时间码 地区码 供应

34、商名称 产品码 产品码 国家 供应商帐号 供应商码 地区码 城市 采购量 销售量 区域 采购额 销售额产品维表 产品码 品牌 规格,第一章 数据仓库的基本概念,2.联系表:定义商业特定维之间多对多的关系。如:时间维表 时间码 季度 年度 产品组维表 销售事实表 地区维表 产品组码 时间码 地区码 产品组名称 产品码 国家 地区码 城市 销售量 销售额 联系表 产品码 产品组码 产品维表 产品码 品牌 规格,第一章 数据仓库的基本概念,三、星座模式 星座模式由一系列事实表共享一系列维表而形成的数据建模方式,该模式也称为多事实表簇星形模式。这一系列事实表用来装载不同级别的聚集数据。如:日销售数据四

35、、二级维表 维表具有两个层次,即维表将另一个维表的主码作为自己的外码。如:地区维表(国家码,城市码),国家维表(国家码,国家名称)五、雪花模式 雪花模式是用多个维表来描述一个维。如:是对星形模式的扩展,每一个点都沿着半径连接到多个点。是通过对星形模式的维表进一步标准化而形成的.优点:减少了数据存储量缺点:增加了表的数量结论:(1)把经常查询的聚集数据作为事实表的一个数据域;(2)把一些频繁连接的表组合起来。,第一章 数据仓库的基本概念,季维表 季码 时间维表 季度 时间码 季码 销售表年维表 年码 时间码 国家维表 年码 产品码 地区维表 国家码 年度 地区码 地区码 国家名称 销售量 国家码

36、 销售额 城市码 城市维表品牌维表 产品维表 城市码 品牌吗 产品码 城市名称品牌名称 品牌吗 规格吗规格为表 规格码规格名称,第一章 数据仓库的基本概念,1-4-3 数据仓库的总线型结构 著名的数据仓库专家Ralph Kinball认为,数据仓库的建设应该是一步步完成的,以部门级数据集市的建设为出发点,但必须统观全局,使数据集市成为完整的企业级数据仓库的一个逻辑子集。这种建设思想的实现是以一种特定的结构为指导的,称为数据仓库的总线型结构(Data Warehouse Bus Architecture)。,第一章 数据仓库的基本概念,步骤(1)建立企业级数据仓库的总体框架,给出其总体范围及总体

37、实施方案。(2)监控企业级数据仓库的各组成部分-数据集市的建设。原则(多维数据模型的设计)(1)各数据集市的维定义是统一的;(2)事实定义是标准化的、一致的。总线型结构的目的将各数据集市有机地组合在一起;能从全企业的角度察看数据信息。,第一章 数据仓库的基本概念,统一的维:统一的维是指:一个维,无论其维表与哪一个事实表相连接,维的含义是完全相同的。即:如果一个维是统一的,那么对所有的数据集市而言,该维都是具有唯一码的同一个维;且维层次的定义必须是统一的。建立、公布、维护和完善统一的维是全局数据仓库项目小组一项非常重要的工作。公布了统一维之后,各数据集市必须严格执行。,第一章 数据仓库的基本概念

38、,常见的统一的维DW建立、公布、维护和完善统一的维为全企业所采用,它是众多的源数据(包括内部遗传数据、外部数据)统一、增值的结果。(1)统一的时间维至少10年的日期表向上的维层次有:周、月、季、上/下半年、年等。包含下列信息:日历相关信息,如年份、月份、节日等;与企业经营相关的不同国家的日历特点,如中国的农历;财务年度和财务周期;市场的时间周期特点,如淡季、旺季等。(2)统一的地区维注意最小粒度的选择:市区街区向上的维层次有:省份(或州)、国家等。包含下列信息:销售区域划分;邮政编码等。,第一章 数据仓库的基本概念,3)统一的产品维全企业统一的产品详细列表。向上的维层次有:细类、大类等。包含下

39、列信息:规格、型号、材质等。(4)统一的客户维内容:客户码、客户名称及客户其他信息的一张表。包含下列信息:客户的属性特征,如行业、是否属高新技术企业等;客户地址信息,如街区地址、通信地址、电子邮箱结算信息,如开户行、帐号等;法人代表、联系人等信息等;客户的商业信息,如主要业务、生产或业务规模、重大事件、商誉等。,第一章 数据仓库的基本概念,统一的事实:统一的事实的定义工作与统一的维的定义工作同时进行,由数据仓库项目:小组负责,工作量相对较少,但要注意以下几点;统一的计算口径 统一的计量单位 统一的含义 事实表中要包含最详细的事实数据,即粒度最小 的数据,第一章 数据仓库的基本概念,事实一般是数

40、值型、具有可加性,如销售收入、销售成本、采购成本、采购价格等。由于它们的计算方法多种;且部门存在计算口径的差异,不进行标准化出现异议。如:以生产企业外购材料为例,材料的采购价格可能出现种情况:(1)采购计划价;(2)不含增值税不含运杂费分摊的材料实际价;(3)含增值税不含运杂费分摊的材料实际价;(4)已分摊运杂费不含增值税的材料实际价;2.注意:(1)统一的事实一定要有统一的计算口径,最常见的是时间区间要一致、地区范围要一致。(2)统一的事实一定要有统一的计量单位。在进行事实的定义时,一定要进行计量单位的换算,保证计算结果的正确性。如:重量(3)统一的事实一定要有统一的含义。如:外购材料(4)

41、数据集市的事实表中要包含最详细的事实数据,即粒度最小的数据。粒度最小的数据与维的最低层次相对应.,第一章 数据仓库的基本概念,四、数据仓库的总线数据仓库总线型结构的含义(1)数据集市是完整的数据仓库的一个逻辑子集,其中包含的是各粒度级别的数据,且各数据集市间应协调一致,满足整个企业分析决策的需要。(2)采用数据仓库的总线型结构进行数据集市的设计,可以成功地建设数据集市,使其能有机地组成完整的数据仓库。2.数据仓库总线型结构的设计关键:一个数据仓库内所有的数据集市必须具有统一的维定义和统一的业务事实。统一的维和统一的事实就是数据仓库的“总线”。总线:指是一种通用的结构定义,结构设计中的每一个对象

42、都满足该定义的要求,其他满足该定义的对象也可以加入到该结构中。新加入的对象和原有的对象间协调一致、有机共存,功能上互不影响。如:。,第一章 数据仓库的基本概念,销售量事实销售额事实应收账款事实产品维客户维时间维分销售渠道维,第一章 数据仓库的基本概念,讨论题:2、根据学籍管理系统数据仓库的建设,确定事实表与维表,列举各个维,并划分维层次。,1-5 数据仓库的体系结构1-5-1 体系结构的内容总体框架Zachman框架:回答问题数据体系结构-数据仓库的内容是什么?系统体系结构-存放在什么平台上?技术体系结构-如何实现?,第一章 数据仓库的基本概念,前端工具,数 据 预处理工具,技术体系结构图如下

43、:,第一章 数据仓库的基本概念,预处理数据,数据源,数据集市,数据集市,数据集市,总 线,查询服务数据,元数据,OLAP,数据挖掘,其他工具,报表生成器,抽取、转换、装载,可视化分 析结 果,后台,前台,第一章 数据仓库的基本概念,1-5-2 相关的数据存储 数据源:数据源是数据仓库的原始来源,是数据仓库系统开发与应用的数据基础,分为两部分;企业内部数据源 企业外部数据源,第一章 数据仓库的基本概念,主题数据:主题数据是数据仓库的核心数据,一般以多维数据模型的形式存储在数据仓库中,直接面向分析型用户的访问。主题数据的存储称为实视图,它与数据库的视图概念不同之处在于:它不是虚拟的,而是已经过计算

44、,含有大量数据,并存储在数据仓库中的实实在在的表。,第一章 数据仓库的基本概念,实视图的好处:通过建立实视图可以提高系统的响应速度;由于数据源到主题数据映射关系的复杂性,采用普通视图的方式不可行。实视图的特点:时间是数据仓库中几乎所有数据的属性之一;数据在装于数据仓库后,基本不发生变化;实视图不是数据源中数据的简单拷贝,而是经历了数据预处理过程;主题数据分为最小粒度数据和聚集数据。,第一章 数据仓库的基本概念,预处理数据:从数据源向主题数据的变换,就如同穿越冰山的过程,工作量大而繁杂,预处理数据正是这一过程的中间结果。对于数据仓库的建设而言,预处理数据是一非常重要数据存储环节。预处理数据的作用

45、:保存大量的细节型业务处理数据 保存净化后的数据 存储代理码的分配 创建并存储统一的事实和统一的维 作为数据仓库的数据备份之一,第一章 数据仓库的基本概念,查询服务数据:在数据仓库的主题数据中直接得到所需的信息仍然存在一定的难度,因此,在很多情况下,需要查询服务数据作为主题数据和最终查询结果之间的过渡数据。查询服务分为:查询服务数据同前台分析工具紧密联系,临时地存储在分析工具中,以便进一步分析查询;将查询服务数据转存起来,留待以后在进行分析或同其他系统结合起来使用;将查询服务数据存储到数据仓库的主题数据中,典型例子是数据挖掘工具同数据仓库结合应用。,第一章 数据仓库的基本概念,1-5-3 相关

46、的数据服务 后台数据预处理:数据抽取(Data Extraction)数据转换(Data Transformation)数据装载(Data Loading)前台数据查询服务:多种展现形式的数据查询 灵活的分析报表生成 访问安全保障,第一章 数据仓库的基本概念,1-5-4 相关的数据管理元数据 元数据的含义:后台元数据与过程相关,它指导着抽取、净化和装载的过程;前台元数据更具有描述性质,它帮助查询工具和报表生成器更顺利地工作。它是所有数据元素表述的一种业务内容字典。,第一章 数据仓库的基本概念,元数据的内容:数据源元数据预处理数据元数据主题数据元数据前台查询服务元数据元数据的工作流程:元数据的工

47、作流程分为13个步骤。,第一章 数据仓库的基本概念,1.数据源元数据数据仓库的数据源有多个,各有各的特点为实现数据的抽取。数据源元数据包含的内容:(1)数据源存储平台;(2)数据源的数据格式(表格文件 数据库表 扫描图形等);(3)数据源的业务内容说明;(4)数据源的更新频率;(5)数据源的所有者;(6)数据源的访问方法及使用限制;(7)实施数据抽取的工具或其他方法,及相应的参数设置;(8)数据抽取的进度安排;(9)实际数据抽取的时间、内容及完成情况的记录。,第一章 数据仓库的基本概念,2.预处理数据元数据 后台数据预处理工作量大,内容复杂。预处理数据相关的元数据包含的内容:(1)数据抽取、转

48、换、装载过程中用到的各种文件定义;(2)从数据源到各级中间视图以及主题数据实视图之间的数据对应 关系;(3)有关数据净化的详细说明;(4)为了满足数据挖掘需要进行的数据处理的详细说明;(5)DW的总线-统一的事实和统一的维的定义;(6)维表各属性的更新策略选择;(7)代理码的分配情况;(8)数据聚集的定义;(9)数据聚集的使用统计及更新维护记录;(10)完成数据转换的工具或其他方法,及相应参数设置;(11)预处理数据的备份方法;(12)实际数据转换与装载记录。,第一章 数据仓库的基本概念,3数据仓库主题数据元数据有关数据仓库主题数据组织的元数据包含的内容:(1)各种数据库表或视图的定义;(2)

49、数据库分区设置;(3)索引的建立方法;(4)数据库访问权限分配;(5)数据库备份方案。4前台查询服务元数据前台元数据:满足用户方便灵活地访问主题数据的需要,包含的内容:(1)数据库表及表中数据项的业务含义说明;(2)可视化查询结果格式的定义;(3)用户及其访问权限的定义;(4)数据仓库使用情况的监控与统计。总之:除基本数据存储以外,元数据无所不在。它对所有的数据元素进行定义,并确定这些数据元素之间如何协调工作来共同满足分析型应用的需要。,第一章 数据仓库的基本概念,三、元数据的工作流程-包含13个步骤DW的实际存储DBMS实现的元数据存储一数据库表形式存在,用DBMS来实现。步骤1:数据仓库主

50、题数据元数据的定义:根据分析主题的需要,用建模工具建立DW的逻辑模型和物理模型(事实表、维表及库结构定义)。逻辑模型多维数据模型(星形模式)。包含:事实表、维表、各表中的数据项、数据项举例及相关说明。物理模型定义事实表和维表的数据库结构。包含:各表列、是否为主码、数据类型、数据长度及是否允许为空值。步骤2:数据源元数据的定义:数据源的定义(数据源的存储平台、数据的存储格式、数据源的所有者、访问方法及使用限制、实施数据抽取工具)这些所有相关定义存储为数据源元数据。步骤3:预处理数据元数据的定义:根据主题数据元数据和数据源元数据的内容记录在数据预处理过程中的数据转换信息(如:预处理过程中各种文件定

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号