数据仓库与数据挖掘第二章B.ppt

上传人:小飞机 文档编号:6296221 上传时间:2023-10-14 格式:PPT 页数:57 大小:411.50KB
返回 下载 相关 举报
数据仓库与数据挖掘第二章B.ppt_第1页
第1页 / 共57页
数据仓库与数据挖掘第二章B.ppt_第2页
第2页 / 共57页
数据仓库与数据挖掘第二章B.ppt_第3页
第3页 / 共57页
数据仓库与数据挖掘第二章B.ppt_第4页
第4页 / 共57页
数据仓库与数据挖掘第二章B.ppt_第5页
第5页 / 共57页
点击查看更多>>
资源描述

《数据仓库与数据挖掘第二章B.ppt》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘第二章B.ppt(57页珍藏版)》请在三一办公上搜索。

1、0,第二章 数据仓库原理,1,第二章 数据仓库原理,2.1 数据仓库定义 2.2 数据仓库特征 2.3 数据库体系化环境 2.4 数据仓构造模式 2.5 数据仓库概念结构 2.6 数据仓库中的数据组织 小节,2,数据仓库中的数据组织 粒度 分区 维度 元数据 数据仓库的数据组织形式 数据仓库的数据追加,2.6 数据仓库中的数据组织,3,数据仓库中的数据组织 粒度 分割 维度 元数据 数据仓库的数据组织形式 数据仓库的数据追加,2.6 数据仓库中的数据组织,4,2.6 数据仓库中的数据组织,为了提高分析和决策的效率和有效性,分析型处理及其数据必须与事务型处理及其数据相分离,把分析型处理所需要的数

2、据从事务型处理环境中提取出来,按照分析型处理的要求进行重新组织,建立单独的分析处理环境。数据仓库正是构建这种新的分析处理环境而出现的一种数据存储和组织技术。,5,2.6 数据仓库中的数据组织,数据仓库的数据组织结构不同于一般的数据库系统,需要将从原有的业务数据库中获得的基本数据和综合数据分成一些不同的级别。在数据仓库中,数据按照粒度从小到大可分为四个级别:早期细节级、当前细节级、轻度细节级和高度细节级。从事务型处理环境中提取的源数据经过综合后,首先进入当前细节级,并根据需要进行进一步的综合进入轻度综合级或高度,6,数据仓库的数据组织结构,元数据,高度综合级,轻度综合级,当前细节级,早期细节级,

3、2.6 数据仓库中的数据组织,7,数据仓库中的数据存在着不同的综合级别早期细节级一般而言,当前细节级的数据对于决策的支持程度随数据发生时间的久远而降低。为了有效控制数据仓库中当前细节级数据的规模,保证系统的运行效率,在设计数据仓库时,通常应结合业务的特点和系统硬件的水平,设定一个合理的时间阀值,将老化的数据转为早期细节级的数据,并以合适的方式进行存储。,2.6 数据仓库中的数据组织,8,数据仓库中的数据存在着不同的综合级别当前细节级来自数据源的数据,所反映的都是当前的业务情况,因此在导入数据仓库之后,首先做为当前细节级数据进行存储。这些数据规模较大,实时性强,是数据仓库用户感兴趣的部分。当前细

4、节级的数据一方面依据数据仓库的既定规则,经过处理,得到情况度综合级和高度综合级的数据,另一方面,随时间的推移,逐渐老化,成为历史细节级数据。,2.6 数据仓库中的数据组织,9,数据仓库中的数据存在着不同的综合级别轻度综合级为了有效控制数据仓库进行决策支持时的系统开销,对当前细节级的数据,通常以一定的时间段为单位进行综合。这一设定的时间段参数又称为“粒度”。以较小的粒度生成的综合数据,称为“轻度综合级数据”,其规模要远远小于当前细节级数据,因此,可以明显提高决策运算的效率。,2.6 数据仓库中的数据组织,10,数据仓库中的数据存在着不同的综合级别高度综合级以较长的时间段,即较大的粒度,对当前细节

5、级的数据进行综合而形成的结果,称为“高度综合级数据”。高度综合级的数据内容十分精练,可以认为是一种“准决策数据”。这里,“高度”和“轻度”只是一种相对的概念没有绝对的界限。,2.6 数据仓库中的数据组织,11,数据仓库的数据组织结构的一个例子,高度综合级,轻度综合级,当前细节级,早期细节级,1990-2004年 每月销售表,1996-2004年每周销售表,1996-2004年销售情况表,1990-1995年销售明细表,数据仓库中的数据组织,2.6 数据仓库中的数据组织,12,数据仓库中的数据组织 粒度 分割 维度 元数据 数据仓库的数据组织形式 数据仓库的数据追加,2.6 数据仓库中的数据组织

6、,13,粒度 对数据仓库中的数据综合程度高低的一个度量。例如:一个简单的交易处于低粒度级,而每月所有交易的汇总和处于一个高粒度级。粒度会深刻地影响存放在数据仓库中的数据量的大小以及数据仓库所能够回答的查询类型。在数据仓库中的数据量大小与所能回答查询的细节级别之间要做出权衡。,2.6 数据仓库中的数据组织,14,粒度,一个顾客一个月中每次通话的细节,一个顾客一个月中通话的综合,Cass Squire上星期给他在波士顿的女友打过电话没有?,能回答,尽管需要一定数量的检索,根本不能回答,细节已经丢失,“上个月,华盛顿人平均打出多少个电话?”,由此可见,粒度级别对于能回答什么问题和问答问题所需资源多少

7、有深刻的影响。,2.6 数据仓库中的数据组织,15,粒度,粒度的权衡是固有的,所以大多数企业的最佳解决方法是采用多重粒度的形式,低粒度,高粒度,能回答任何问题效率低数据量大,能回答所有问题效率高数据量小,2.6 数据仓库中的数据组织,16,粒度分为两种形式:对数据仓库中的数据的综合程度高低的一个度量粒度越小,细节程度越高,综合程度越低粒度大小影响数据仓库效率、能回答询问的种类“张三在某时某地是否给李四打过电话?”“张三去年共打了几次长途电话”“某地区今年长途与普通电话费用之比”“今年长途普通电话费用增长率”“预测未来长途普通电话费用变化趋势”数据仓库是多粒度的,不同的粒度回答不同的查询,2.6

8、 数据仓库中的数据组织,17,粒度分为两种形式:样本数据库在分析过程中,有许多探索的过程有时分析的目的并不要求精确的结果,只需要得到相对准确、能反映趋势的数据,所以可以提取出样本数据库。样本数据库的粒度:是根据采样率的高低来划分的,采样粒度不同的样本数据库可以具有相同的综合级别,它是按一定的采样率从细节数据库或轻度综合数据库中提取的一个子集。样本数据库的抽取按照数据的重要程度不同进行,利用样本数据库采集重要数据进行分析既可提高分析效率,又有助于抓住主要因素和主要矛盾。,2.6 数据仓库中的数据组织,18,样本数据库根据采样率的高低来划分粒度:以一定的采样率从细节数据或轻度综合数据中抽取的一个子

9、集用处:代替源数据进行模拟分析,适用于趋势分析和预测分析抽样的方法:随机抽取,必要时可采用“判断样本”优点:高效率,在启发式分析中,源数据量很大的情况下,抽样数据可以大大下降,分析结果误差极小有助于抓住主要因素和主要矛盾,2.6 数据仓库中的数据组织,19,数据仓库中的数据组织 粒度 分区 维度 数据仓库的数据组织形式 数据仓库的数据追加,2.6 数据仓库中的数据组织,20,分区 数据分区是指把数据分散到可独立处理的分离物理单元中去。数据分割后的数据单元称为分片。在数据仓库中围绕分区的问题的焦点不是该不该分区而是如何去分区的问题。因为运行维护人员和设计者在管理小的物理单元时比管理大的享有更大的

10、灵活性。恰当进行分区的好处:数据装载、数据访问、数据存档、数据删除、数据监控、数据存储、当结构相似的数据被分到多个数据的物理单元时,数据便被分区了。任何给定的数据单元属于且仅属于一个分区。,2.6 数据仓库中的数据组织,21,分区,数据分区,小的数据单元易于:重构索引顺序扫描重组恢复监控,1989,1990,1987,1991,1988,独立管理的数据单元可以有不同的定义,处理设备A,处理设备B,2.6 数据仓库中的数据组织,22,分区 有多种数据分区的标准:时间 业务范围 地理位置 组织单位 所有上述标准数据分区的标准是完全由开发人员来决定的。然而,在数据仓库环境中,日期几乎总是分区标准中的

11、一个必然组成部分。,2.6 数据仓库中的数据组织,23,分区 人寿保险公司选择时间和保险种类,将数据分区为以下物理单元:2000年健康索赔2001年健康索赔2002年健康索赔1999年人寿保险索赔2000年人寿保险索赔2001年人寿保险索赔2002年人寿保险索赔2000年意外伤亡索赔2001年意外伤亡索赔2002年意外伤亡索赔,2.6 数据仓库中的数据组织,24,分区数据分区优点:提高系统性能“1996年家电类商品销售的季节分布如何?”“每年的第一季度商品销售在各类商品上的分布情况是怎样的?”提高灵活性 修改数据定义容易 不同年份的险种的定义描述是相互独立,2.6 数据仓库中的数据组织,25,

12、数据仓库中的数据组织 粒度 分区 分割 维度 数据仓库的数据组织形式 数据仓库的数据追加,2.6 数据仓库中的数据组织,26,维度管理人员可以从客户的角度、产品的角度或者从供应商、地点、渠道、时间发生的时间等角度来分析决策问题。用户的这些决策分析角度或决策分析出发点就是数据仓库中的维。数据仓库中的数据就按照这些维来组织,维也就成了数据仓库中识别数据的索引。同时,数据仓库中的维还可以作为数据仓库操作过程的路经,这些路径通常位于维的不同层次结构中。,2.6 数据仓库中的数据组织,27,维度是一个物理特性(如时间、地点、产品等),它是表达数据仓库中信息的一个基本途径,可作为标识数据的索引。通常的报表

13、只包含有行和列两维,但在数据仓库中所存储的数据大多是用多维(三维或三维以上)视图表示的。例如:一个销售系统中的数据可分为时间维、产品维和地理位置维等;,2.6 数据仓库中的数据组织,28,一个数据立方体,比如数据仓库sales,允许以多维对数据进行建模和观察。例销售分析:数据仓库sales围绕商品销售量这个主题。同时,销售量涉及以下几个方面:time,item,location,branch。有了这些方面的信息,能够记录商品的月销售,销售商品的地点。,2.6 数据仓库中的数据组织,29,Location,Vancouver,Chicago,Toronto,New York,Time(季度),I

14、tem,Q1,Q2,Q3,Q4,605,680,812,927,825,952,1023,1038,14,31,30,38,400,512,501,580,854,1087,818,882,968,746,89,38,43,623,872,591,682,925,698,728,1002,789,784,984,870,家庭娱乐,计算机,电话,安全,2.6 数据仓库中的数据组织,30,维:人们观察数据的特定角度。本例中涉及time,item,location。每一个维都有一个表 与之相关联,称为维表。事实:数据仓库的主题,数值 度量的。本例中指销售 量。事实对应事实表。,2.6 数据仓库中的数

15、据组织,31,A Sample Data Cube,Total annual salesof TV in U.S.A.,Date,Product,Country,sum,sum,TV,VCR,PC,1Qtr,2Qtr,3Qtr,4Qtr,Canada,Mexico,sum,32,基于维的常见操作上卷:用户在数据仓库的应用中,从较低层次的数据开始逐步将数据按照不同的层次进行概括处理下钻:从数据仓库中的高层数据开始逐步向低层数据探索,了解组成概括数据的具体细节,2.6 数据仓库中的数据组织,33,数据仓库中的数据组织 粒度 分区 维度 元数据 数据仓库的数据组织形式 数据仓库的数据追加,2.6 数

16、据仓库中的数据组织,34,“关于数据的数据”。它描述和定位数据组件、它们的起源及它们在数据仓库进程中的活动;元数据在数据仓库中的作用为决策支持系统分析员和高层决策人员服务提供便利解决面向应用的操作型环境和数据仓库的复杂关系 数据仓库中数据的管理,2.6 数据仓库中的数据组织,35,元数据的种类转换元数据:为了从事务处理型环境向数据仓库中转换而建立的元数据,它包含了所有源数据的信息、事务描述、数据结构的定义、提取数据和传送数据的算法、综合数据和净化数据的规则、数据访问和传送的记录等。DSS元数据:在数据仓库中用来与终端用户的多维商业模型/前端工具之间建立映射,这种元数据常称为DSS元数据,常用来

17、开发更先进的决策支持工具。,2.6 数据仓库中的数据组织,36,元数据的分类按元数据的类型:关于基本数据、用于数据处理和关于企业组织结构的元数据。按抽象级别:概念级、逻辑级和物理级的元数据。按元数据承担的任务:静态和动态从用户的角度:技术元数据和业务元数据。静态和动态元数据静态元数据主要与数据结构有关;动态元数据主要与数据的状态和使用方法有关。,2.6 数据仓库中的数据组织,37,元数据的分类,2.6 数据仓库中的数据组织,38,元数据的内容数据源的元数据外部数据和非结构化数据的描述数据源中所有物理数据结构;所有数据项的业务定义;每个数据项更新的频率,以及由谁或哪个过程更新的说明;每个数据项的

18、有效值;其它系统中具有相同业务含义的数据项的清单。数据模型的元数据记录系统定义逻辑模型的定义粒度的定义数据分割的定义广义索引有关存储路径和结构的描述,2.6 数据仓库中的数据组织,39,元数据的内容数据源与数据仓库映射的元数据用元数据反映数据仓库中的数据项是从哪个特定的数据源填充的,经过哪些转换、集成过程。数据仓库应用的元数据关于系统安全的元数据。描述系统中用户、权限组及用户权限信息。用户使用数据仓库中不同数据的频率信息,2.6 数据仓库中的数据组织,40,元数据在数据仓库设计中的作用确认数据质量同步化和刷新映射元数据在数据源抽取中的作用资源领域的确定跟踪历史数据结构变化的过程属性到属性的映射

19、属性转换元数据在数据求精与重构工程上的作用数据的分割概括与聚集预算与推导转换与再映像,2.6 数据仓库中的数据组织,41,数据仓库中的数据组织 粒度 分区 维度 元数据 数据仓库的数据组织形式 数据仓库的数据追加,2.6 数据仓库中的数据组织,42,数据仓库的数据组织形式简单堆积文件 它将由数据库中提取并加工的数据逐一积累存储轮转综合文件 数据存储单位被分为若干个级别轮转记录-综合优点:结构简捷,数据量较简单堆积结构减少缺点:损失数据细节。越久远的数据,细节损失越多,2.6 数据仓库中的数据组织,43,简单堆积结构它将每天从数据库中提取加工后的数据逐日积累的存储起来。按这种方式存储的数据细节化

20、程度很高,可以应付多种细节查询,但分析时查询的效率较低。,2.6 数据仓库中的数据组织,面向应用数据库,每天数据,每天综合,1,月,1,日,1,月,2,日,1,月,3,日,2,月,1,日,2,月,2,日,2,月,3,日,3,月,1,日,3,月,2,日,3,月,3,日,需要许多存储空间无细节丢失许多处理与数据有关,44,轮转综合结构它将数据按不同的期限轮转地存储。,2.6 数据仓库中的数据组织,非常紧凑一些细节丢失提取越久的数据,越不详细,45,简单直接数据是从操作型环境直接装入数据仓库中,并没有任何积累,只不过这种文件不是在每天的基础上组织的,而是以较长时间(如一个星期、一个月)为单位的。因此

21、,简单直接文件是按一定时间操作型数据库的一个快照,即按一定所时间间隔对数据库的采样。,J Adams Main大街P Anderson High 大街456号K Appleby A大街10号L Azimoff 被农场路64号,面向应用数据库,1月份数据,2.6 数据仓库中的数据组织,46,连续结构它是通过比较两个连续的简单直接文件的不同而生成的另一种连续文件,生成的连续文件又可以和新的简单直接文件一起生成新的连续文件。,J Adams Main大街P Anderson High 大街456号K Appleby A大街10号L Azimoff 被农场路64号,J Adams Main大街W Ab

22、raham 9号公路12号P Anderson Tincup郡14号K Appleby A大街10号,J Adams Main大街 1 月今 W Abraham 9号公路12号 2月今P Anderson High大街456号 1月1月P Anderson Tincup郡14号 2月今K Appleby A大街10号 1月今,2.6 数据仓库中的数据组织,47,连续文件 1)两个连续的简化直接文件 比较他们的不同 连续文件2)连续文件+新的简单文件 新的连续文件,数据仓库的数据组织形式,2.6 数据仓库中的数据组织,48,一月份顾客表,数据库快照,操作型数据,图1-5 生成简化直接文件,2.6

23、 数据仓库中的数据组织,49,连续文件 两个连续的简化直接文件 比较他们的不同 连续文件,1-2月份顾客表,比较不同,2月份顾客表,1月份顾客表,50,连续文件+新的简单文件 新的连续文件,姓名,1-2月份顾客表,3月份顾客表,1-3月份顾客表,比较不同,51,数据仓库中的数据组织 粒度 分区 维度 元数据 数据仓库的数据组织形式 数据仓库的数据追加,2.6 数据仓库中的数据组织,52,数据追加:数据仓库的数据初装完成后,再向数据仓库输入数据的过程追加内容:上次数据追加后在OLTP数据库中变化了的数据变化数据的捕捉途径:时标方法 DELTA文件前后映象文件日志文件,数据仓库的数据追加,2.6

24、数据仓库中的数据组织,53,时标方法时标方法 如果数据含有时标,对新插入或更新的数据记录,加更新时的时标问题许多数据库中的数据并不含有时标,1.时标方法,2.6 数据仓库中的数据组织,54,DELTA文件方法由应用生成DELTA文件,记录应用所改变的所有内容优点避免了扫描整个数据库,效率比较高问题生成DELTA文件的应用不普遍更改应用代码,应用在生成新数据时可自动将其记录下来应用成千上万,且修改代码十分繁琐,很难实现,1.时标方法,2.6 数据仓库中的数据组织,55,3.前后映象文件前后映象文件的方法抽取数据到数据仓库之后,本次将抽取数据之前,对数据库分别作一次快照,比较两幅快照的不同,确定追加的数据问题占用大量资源,影响系统性能,2.6 数据仓库中的数据组织,56,4.日志文件优点利用DB的固有机制,数据只限于日志文件,不用扫描整个数据库缺点原来日志文件的格式是依据DB系统的要求设计的。要进行改进 如:对一个记录的多次更新,日志文件将全部变化过程都记录下来,而数据仓库,只要最终结果,2.6 数据仓库中的数据组织,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号