数据仓库与数据挖掘.ppt

上传人:小飞机 文档编号:5738393 上传时间:2023-08-15 格式:PPT 页数:58 大小:288.49KB
返回 下载 相关 举报
数据仓库与数据挖掘.ppt_第1页
第1页 / 共58页
数据仓库与数据挖掘.ppt_第2页
第2页 / 共58页
数据仓库与数据挖掘.ppt_第3页
第3页 / 共58页
数据仓库与数据挖掘.ppt_第4页
第4页 / 共58页
数据仓库与数据挖掘.ppt_第5页
第5页 / 共58页
点击查看更多>>
资源描述

《数据仓库与数据挖掘.ppt》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘.ppt(58页珍藏版)》请在三一办公上搜索。

1、课程安排数据仓库:18学时数据挖掘:18学时考 试:撰写论文,第一章 数据仓库的基本概念,案例讨论:下图展示了某电信公司的市场部和计划部对业务A是否具有市场前景的分析过程和结果。试讨论为什么两部门分析结果不同。,企业级数据库,市场部,分析程序1,分析结果1:前景很好,计划部,分析程序2,分析结果2:前景不好,第一章:数据仓库的基本概念,1-1 数据仓库的产生与发展 传统的数据库技术作为数据管理手段,主要用于联机事务处理(OLTP,On-Line Transaction Process),数据库中保存的是大量的日常业务数据。在数据共享、数据与应用程序的独立性、维护数据的一致性与完整性、数据的安全

2、保密性等方面提供了有效的手段。,第一章 数据仓库的基本概念,与分析型应用结合时存在的问题:决策支持系统为掌握充分的信息,需要访问大量的企业内部数据和外部数据。传统数据库中的大量数据是事务型数据,即该数据是对每一项工作、管理对象的具体的、细节性的描述。事务处理型应用与分析决策型应用对数据库系统的性能要求不同。传统数据库中保存和管理的一般是当前数据,而决策支持系统不仅需要当前的数据,而且还要求有大量的历史数据。,第一章 数据仓库的基本概念,结论:在事务处理型应用环境中直接构建分析决策型应用是不可行的。于是:面向分析决策型应用而组织和存储数据的数据仓库技术应运而生。,第一章 数据仓库的基本概念,时间

3、:20世纪80年代初 人物:定义:数据仓库是面向主题的、集成的、具有时间特征的、稳定的数据集合,用以支持经营管理中的决策制定过程。A data warehouse is a subject-oriented,integrated,time-variant,and nonvolatile collection of data in support of managements decision making process.,第一章 数据仓库的基本概念,数据仓库的四大特征:数据是面向主题的 数据是集成的 数据是具有时间特征的 数据是相对稳定的 数据仓库的其它特点:数据量非常大(10GB-1000

4、GB)是数据库技术的一种新的应用 使用人员较少,第一章 数据仓库的基本概念,1-2 数据仓库与数据库 操作型数据库 分析型数据仓库系统目的 支持日常操作 支持管理需求,获取信息使用人员 办事员、DBA、数据库专家 经理、管理人员、分析专家数据内容 当前数据 历史数据、派生数据数据特点 细节的 综合的或提炼的数据组织 面向应用 面向主题存取类型 添加、修改、查询、删除 查询、聚集数据稳定性 动态的 相对稳定,第一章 数据仓库的基本概念,续上表:,操作型数据库 分析型数据仓库需求特点 需求事先可知道 需求事先不知道 操作特点 一个时刻操作一单元 一个时刻操作一集合 数据库设计 基于E-R图 基于星

5、型模式、雪花模式一次操作数据量 一次操作数据量小 一次操作数据量大存取频率 较高 较低响应时间 小于3秒 几秒几十分钟,第一章 数据仓库的基本概念,1-3 数据仓库技术的术语 主题:(Subject)主题是一个在较高层次上将数据归类的标准,每一个主题基本对应一个宏观的分析领域。例:面向主题:产品订货分析,货物发运分析,新产品开发分析;面向应用:财务,销售,供应,人力资源,生产调度.主题域的特征:独立性,完备性,第一章 数据仓库的基本概念,粒度:(Granularity)粒度是指数据仓库中数据单元的详细程度和级别。数据越详细,粒度越小,级别越低,回答查询的种类就越多。(数据堆积,回答综合问题效率

6、低)数据越综合,粒度越大,级别越高,回答查询的种类就越少。,第一章 数据仓库的基本概念,维度:(Dimension)维度是指人们观察事物的角度。例如:当人们关注产品销售情况时,有如下维度:时间维:随时间变化的销售数据;地区维:不同地区的销售数据;客户维:不同客户的销售;根据观察事物角度的细节程度不同,维又具有维层次。数据;渠道维:不同销售渠道的销售数据;产品维:不同产品的销售数据 例:时间维:日期、周、月份、季度、年等;地区维:城市、地区、国家等。,第一章 数据仓库的基本概念,数据立方体:数据立方体是指由两个或更多个属性即两个或更多个维来描述或者分类的数据。在三维的情况下可以用图形来表示,一般

7、称为数据立方体。实际的数据仓库的应用中,数据是多维的。,第一章 数据仓库的基本概念,联机分析处理:(OLAP)联机分析处理是快速、灵活的多维数据分析工具。OLAP的目的是支持分析决策,满足多维环境的查询和报表需求。数据仓库的多维数据存储结构为OLAP的实施提供了理想的多维数据环境。,第一章 数据仓库的基本概念,数据集市:(Data Mart)数据集市是完整的数据仓库的一个逻辑子集,而数据仓库正是由其所有的数据集市有机组合而成的。一般在某个业务部门建立数据集市,或称为部门级数据仓库。建立数据集市与数据仓库,一般是采用“自顶向下”和“自下而上”相结合的设计思想。,第一章 数据仓库的基本概念,第一章

8、 数据仓库的基本概念,讨论题:1、结合武汉理工大学学生学籍管理系统进行数据仓库的主题划分,列举有哪些主题。,1-4 多维数据模型 多维数据模型是进行决策支持数据建模的最好方式,数据仓库采用多维数据模型不仅能使其使用方便,而且能提高系统的性能。1-4-1 实体关系模型与多维模型 实体关系模型应用于操作型数据库系统,多维模型应用于分析型数据仓库系统。实体关系模型不适用于以查询为主的分析型应用,具体表现在:使用者、界面、检索手段。,第一章 数据仓库的基本概念,多维数据模型以直观的方式组织数据,每一个多维数据模型由多个多维数据模式(Dimensional Data Schema)表示。每一个多维数据模

9、式都是由一个事实表(Fact Table)和一组维表(Dimension Table)组成。事实表的主码是组合码,维表的主码是简单码,每一张维表中的简单码与事实表组合码中的一个组成部分相对应。,第一章 数据仓库的基本概念,企业销售数据的多维数据模式图,第一章 数据仓库的基本概念,时间码,日期月份季度年度,时间码产品码地区码,销 售 量销 售 额销售成本,产品码,产品大类产品细类产品名称,地区码,国 家地 区城 市,时间维表,事 实 表,产品维表,地区维表,多维数据模型的优势:多维数据模型是已知标准化的结构,即包含多个多维数据模式,每一个多维数据模式都对应一张事实表和多张维表。这种多维结构能支持

10、最终用户不可预知的操作,原因在于多维数据模型的各个维是逻辑等价的。多维数据模型对决策分析有好的扩展性。汇总数据的巨大价值。,第一章 数据仓库的基本概念,1-4-2 星型模式 星型模式是事实表与维表通过星型方式连接而成,如下图:,第一章 数据仓库的基本概念,产品码(PK),产品大类产品细类产品名称,地区码(PK),国 家地 区城 市,产品维表,地区维表,时间码(FK)产品码(FK)(PK)地区码(FK),销 售 量销 售 额销售成本,事 实 表,时间码(PK),日期月份季度年度,时间维表,第一章 数据仓库的基本概念,星型模式的优点:星型模式结构简单,表的数目少,建模方便。星型模式支持多维数据建模

11、,支持使用人员从不同的维度对数据进行分析。星型模式能较好地为数据仓库提供查询支持。星型模式可以提高查询速度。,第一章 数据仓库的基本概念,主码、外码和代理码:主码(Primary Key):主码是表中的一个属性或属性的组合,它能唯一地标识表中的每条记录。外码(Foreign Key):外码是出现在一个表中,同时在另一个表中被定义成主码的属性。代理码(Surrogate Key):所有的主码和外码一般都是采用没有具体含义的代理码,例如,从1开始的自然数编码。,第一章 数据仓库的基本概念,事实表:事实表是星型模式的核心,它是按维进行分析形查询的对象,其中存储的是业务事实,例如:销售量、销售额、销售

12、成本等。事实表中的数据一般是数值型,具有可加性。事实表的主码为外码的组合,唯一的标识各条事实记录,事实表的外码对应各维表的主码。,第一章 数据仓库的基本概念,维表:维表用于指导从不同的角度在事实表中选择数据行。维表中有一个主码,其余非主码的列为属性,维表中的属性数据通常是字符型数据。维表具有层次性,维表的层次性可用来分割其他的明细维表,维表层次的级别数量取决于查询的粒度。,第一章 数据仓库的基本概念,1-4-3 数据仓库的总线型结构 著名的数据仓库专家Ralph Kinball认为,数据仓库的建设应该是一步步完成的,以部门级数据集市的建设为出发点,但必须统观全局,使数据集市成为完整的企业级数据

13、仓库的一个逻辑子集。这种建设思想的实现是以一种特定的结构为指导的,称为数据仓库的总线型结构(Data Warehouse Bus Architecture)。,第一章 数据仓库的基本概念,统一的维:统一的维是指:一个维,无论其维表与哪一个事实表相连接,维的含义是完全相同的。建立、公布、维护和完善统一的维是全局数据仓库项目小组一项非常重要的工作。公布了统一维之后,各数据集市必须严格执行。,第一章 数据仓库的基本概念,统一的事实:统一的事实的定义工作与统一的维的定义工作同时进行,由数据仓库项目:小组负责,工作量相对较少,但要注意以下几点;统一的计算口径 统一的计量单位 统一的含义 事实表中要包含最

14、详细的事实数据,即粒度最小 的数据,第一章 数据仓库的基本概念,讨论题:1、根据学籍管理系统数据仓库的建设,确定事实表与维表,列举各个维,并划分维层次。,1-5 数据仓库的体系结构1-5-1 体系结构的内容总体框架Zachman框架:回答问题数据体系结构-数据仓库的内容是什么?系统体系结构-存放在什么平台上?技术体系结构-如何实现?,第一章 数据仓库的基本概念,前端工具,数 据 预处理工具,技术体系结构图如下:,第一章 数据仓库的基本概念,预处理数据,数据源,数据集市,数据集市,数据集市,总 线,查询服务数据,元数据,OLAP,数据挖掘,其他工具,报表生成器,抽取、转换、装载,可视化分 析结

15、果,后台,前台,第一章 数据仓库的基本概念,1-5-2 相关的数据存储 数据源:数据源是数据仓库的原始来源,是数据仓库系统开发与应用的数据基础,分为两部分;企业内部数据源 企业外部数据源,第一章 数据仓库的基本概念,主题数据:主题数据是数据仓库的核心数据,一般以多维数据模型的形式存储在数据仓库中,直接面向分析型用户的访问。主题数据的存储称为实视图,它与数据库的视图概念不同之处在于:它不是虚拟的,而是已经过计算,含有大量数据,并存储在数据仓库中的实实在在的表。,第一章 数据仓库的基本概念,实视图的好处:通过建立实视图可以提高系统的响应速度;由于数据源到主题数据映射关系的复杂性,采用普通视图的方式

16、不可行。实视图的特点:时间是数据仓库中几乎所有数据的属性之一;数据在装于数据仓库后,基本不发生变化;实视图不是数据源中数据的简单拷贝,而是经历了数据预处理过程;主题数据分为最小粒度数据和聚集数据。,第一章 数据仓库的基本概念,预处理数据:从数据源向主题数据的变换,就如同穿越冰山的过程,工作量大而繁杂,预处理数据正是这一过程的中间结果。对于数据仓库的建设而言,预处理数据是一非常重要数据存储环节。预处理数据的作用:保存大量的细节型业务处理数据 保存净化后的数据 存储代理码的分配 创建并存储统一的事实和统一的维 作为数据仓库的数据备份之一,第一章 数据仓库的基本概念,查询服务数据:在数据仓库的主题数

17、据中直接得到所需的信息仍然存在一定的难度,因此,在很多情况下,需要查询服务数据作为主题数据和最终查询结果之间的过渡数据。查询服务分为:查询服务数据同前台分析工具紧密联系,临时地存储在分析工具中,以便进一步分析查询;将查询服务数据转存起来,留待以后在进行分析或同其他系统结合起来使用;将查询服务数据存储到数据仓库的主题数据中,典型例子是数据挖掘工具同数据仓库结合应用。,第一章 数据仓库的基本概念,1-5-3 相关的数据服务 后台数据预处理:数据抽取(Data Extraction)数据转换(Data Transformation)数据装载(Data Loading)前台数据查询服务:多种展现形式的

18、数据查询 灵活的分析报表生成 访问安全保障,第一章 数据仓库的基本概念,1-5-4 相关的数据管理元数据 元数据的含义:后台元数据与过程相关,它指导着抽取、净化和装载的过程;前台元数据更具有描述性质,它帮助查询工具和报表生成器更顺利地工作。它是所有数据元素表述的一种业务内容字典。,第一章 数据仓库的基本概念,元数据的内容:数据源元数据预处理数据元数据主题数据元数据前台查询服务元数据元数据的工作流程:元数据的工作流程分为13个步骤。,1-6 数据仓库的数据组织1-6-1 事实表和维表的设计事实数据和维数据的区分:数据是否是数值型数据 该数据是作为查询的条件还是查询的结果事实表的设计:明确数据集市

19、及相应的数据源 确定事实表的粒度 确定响应的维度 完成事实表的设计,第一章 数据仓库的基本概念,第一章 数据仓库的基本概念,维表的设计:维表中的属性值一般是文本型的、离散的及不具有可加性的。它们将最终成为分析型查询的约束条件,是分析型查询的起点,在形成的分析型报表中,维属性将成为列标题。维表设计应注意以下两点:维表中的维属性应该具体明确,体现出维层次的划分,能够成为分析型查询的约束条件。由于维属性将成为列标题,所以进行维表设计时一定要注意维属性值的可读性。,1-6-2 数据聚集的设计数据聚集的含义:所有的数据仓库都包含数据的聚集(Aggregates),在数据仓库中进行数据的聚集是减少OLAP

20、 分析需要扫描的数据量及提高查询效率的最重要的方法。为提高查询的效率,减少分析时需要访问的数据量,需要对数据按分析型查询的要求预先进行计算及汇总,并保存计算及汇总的结果,这就是聚集。,第一章 数据仓库的基本概念,数据聚集的创建方法:确定聚集的内容可分两个步骤完成:各个维的哪些属性上需要进行数据的聚集;确定不同维的属性如何进行组合。聚集数据也采用星型模式进行多维数据建模,形成聚集事实表及相应的维表。设计应注意:聚集数据应该存储在自身的聚集事实表中,不能同基本事实表存储在一起;粒度不同的聚集数据不能存储在同一个聚集事实表中;对于聚集事实表对应的相关各维,一般也要进行调整。,第一章 数据仓库的基本概

21、念,数据聚集的创建方法:确定聚集的内容可分两个步骤完成:各个维的哪些属性上需要进行数据的聚集;确定不同维的属性如何进行组合。聚集数据也采用星型模式进行多维数据建模,形成聚集事实表及相应的维表。设计应注意:聚集数据应该存储在自身的聚集事实表中,不能同基本事实表存储在一起;粒度不同的聚集数据不能存储在同一个聚集事实表中;对于聚集事实表对应的相关各维,一般也要进行调整。,第一章 数据仓库的基本概念,1-6-3 数据仓库中的索引在数据仓库中建立索引提高数据访问速度具有重要意义。传统的数据库索引技术传统的数据库索引技术目前仍然是主流。B-树索引(B-Tree Index):指针指向记录的实际地址,适合于

22、高基数列值索引。位图索引(Bit-Map Index):用“位”确定索引列的值,适合于低基数列值索引。哈希索引(Hash Index):行标识与存储位置之间用哈系函数f进行转换。,第一章 数据仓库的基本概念,事实表的索引事实表中的主码(组合码)索引一般采用B-树索引的方式。非主码索引可根据具体情况而定。维表的索引维表中的主码(简单码)索引一般采用B-树索引的方式。非主码索引一般采用位图索引。数据仓库索引新技术投影索引(Projection Index)位切片索引(Bit-Sliced Index)连接索引(Join Index)R-树索引(R-Tree Index),第一章 数据仓库的基本概念

23、,1-6-4 数据库的物理设计物理设计的任务就是将逻辑模型(前述的多维数据模型)转变为实际的数据库存储。物理设计的内容物理设计的内容包括如下方面:制定数据库对象的命名规范建立数据库物理模型确定数据库索引策略进行数据仓库数据量的估计物理设计的具体实施,第一章 数据仓库的基本概念,案例分析:数据仓库的数据量估计,第一章 数据仓库的基本概念,时间维表Time_idYearQuarterMonthWeek,地区维表Geo_idCountryProvinceCity,产品维表Product_idPro_classPro_subclass,事实表Time_idGeo_idProduct_idSales,案

24、例分析:数据仓库的数据量估计上图假定每个维表具有50个条目,则它们的组合将在事实表中产生50*50*50个数据条目,并假定所有表中的所有属性为8个字节长度。则所需存储空间计算如下:维表空间为:50*5*8+50*4*8+50*3*8=4800事实表空间为:50*50*50*4*8=4000000总空间为:4000000+4800=4004800=3.8(MB)可以看出,事实表空间比维表空间多得多。,第一章 数据仓库的基本概念,1-7 数据仓库的数据预处理1-7-1 数据的净化数据质量与数据净化:高质量的数据应该是正确的 高质量的数据应该是清晰的 高质量的数据应该是及时的 高质量的数据应该是完整

25、的 高质量的数据应该是一致的 高质量的数据应该是唯一的,第一章 数据仓库的基本概念,数据净化的方法:不正确数据的净化 例:SQL判别,校验 不清晰数据的净化 例:客户维的拆分,“备注”类数据 不完整数据的净化 例:缩小范围,补充数据 不一致数据的净化 例:统一转换 不唯一数据的净化 例:SQL:DISTINCT,第一章 数据仓库的基本概念,1-7-2 数据预处理计划初步计划 应包括数据抽取,数据转换,数据装载三部分内容。见下页图详细计划 制定详细计划与实施数据预处理先从主题数据中的维表开始,然后再处理事实表。就维表而言,先从简单的静态的维表开始,然后处理复杂的需要动态更新的维表。,第一章 数据

26、仓库的基本概念,第一章 数据仓库的基本概念,财务数据库(RDBMS),行业产品代码规范(MS Excel),销售管理系统(RDBMS),历史销售数据存档(文本文件),收款数据,价格数据,产品分类,客户数据,时间数据,订货数据,数据源:,主题数据:,每张发票对应一条收款记录,据发票金额、数量计算价格,客户编码表集成净化,客户数据要缓慢更新,集 成,2000年以后数 据,1999年以前数 据,1-7-3 维表的数据预处理维表的基本数据预处理 可能的数据转换:1、文件类型的转换2、数据类型和长度的变换3、错误的更正4、消除数据的不一致性,不唯一性5、修改数据结构与数据内容6、补充数据达到完整性要求7

27、、代理码的分配8、维表的变更处理,第一章 数据仓库的基本概念,1-7-4 事实表的数据预处理事实表的基本数据预处理 可能的数据转换:1、文件类型的转换2、数据类型和长度的变换3、度量单位的统一4、数据的净化5、生成最小粒度的数据6、建立数据聚集7、非代理码的替换8、事实表的变更处理9、数据聚集的更新维护,第一章 数据仓库的基本概念,非代理码的替换事实表中的代理码必须与维表中的代理码绝对保持一致,即:事实表中的外码在相应的维表中一定要存在。,第一章 数据仓库的基本概念,时间产品代码客户代码渠道代码,销售量销售额销售成本,时间码产品码客户码渠道码,销售量销售额销售成本,将时间替换为时间码,将产品代

28、码替换为产品码,将客户代码替换为客户码,将渠道代码替换为渠道码,数据聚集的更新维护 数据聚集在建立之后并不是一成不变的,需要不断的加入或删除。由于要时时刻刻保持同最小粒度数据的一致性,因此,聚集事实表的更新维护有以下方法:1、在最小粒度数据装载入数据仓库之前,完成数据聚集的计算。2、在最小粒度数据装载入数据仓库时,同时完成数据聚集的计算及装载。3、在最小粒度数据装载入数据仓库之后,再用SQL语句完成数据聚集的计算。增量维护的形式,即:只对新载入的最小粒度数据进行聚集的计算与更新,而不是完全重新计算所有的聚集。,第一章 数据仓库的基本概念,第一章 结束软件推荐:公司名称 数据仓库管理工具IBM Visual WarehouseSAS Warehouse AdministratorOracle Enterprise ManagerSybase Warehouse StudioSagent Sagent AdminCA PLATINUM ERWin PLATINUM InfoPumpNCR Database Manager,第一章 数据仓库的基本概念,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号