《数据仓库与数据挖掘》第三章 数据仓库的设计(31P).ppt

上传人:仙人指路1688 文档编号:2877040 上传时间:2023-02-28 格式:PPT 页数:31 大小:379.50KB
返回 下载 相关 举报
《数据仓库与数据挖掘》第三章 数据仓库的设计(31P).ppt_第1页
第1页 / 共31页
《数据仓库与数据挖掘》第三章 数据仓库的设计(31P).ppt_第2页
第2页 / 共31页
《数据仓库与数据挖掘》第三章 数据仓库的设计(31P).ppt_第3页
第3页 / 共31页
《数据仓库与数据挖掘》第三章 数据仓库的设计(31P).ppt_第4页
第4页 / 共31页
《数据仓库与数据挖掘》第三章 数据仓库的设计(31P).ppt_第5页
第5页 / 共31页
点击查看更多>>
资源描述

《《数据仓库与数据挖掘》第三章 数据仓库的设计(31P).ppt》由会员分享,可在线阅读,更多相关《《数据仓库与数据挖掘》第三章 数据仓库的设计(31P).ppt(31页珍藏版)》请在三一办公上搜索。

1、1,第三章数据仓库的设计,本章要点数据仓库的设计步骤高层设计技术准备工作中层设计低层设计数据仓库生成,2,数据仓库的数据组织:简单堆积,3,数据仓库的数据组织轮转综合,4,高细节:低粒度低细节:高粒度例:顾客一个月内通话细节顾客一个月内通话综合,日期月份时间通话总次数通话人姓名通话人姓名通话人ID 通话人ID 接线员帮助长途次数电话接通状态中断次数通话时间 平均时长长途移动电话特别折扣率,5,李三 2005年四月份2005年月日下午:李三54000345 54000345接线员帮助 通话次数2005年月日下午:018:12 通话平均长度分钟长途 长话次数个2005年月日下午:接线员帮助个 未接

2、通电话个2005年月日下午:9:2005年月日下午:未接通2005年月日下午:号码错误,6,综合数据表-细节数据表,7,数据仓库的数据组织简单直接,2001年1月采购表2001年2月采购表,8,数据仓库的数据组织连续文件,9,收集应用需求,分析应用需求,构建数据库,数据仓库建模,数据获取与集成,构建数据仓库,系统实施,应用编程,系统测试,DSS应用编程,系统测试,理解需求,DB,应用B,应用A,DB,DB,外部数据,DW,SDLC方法,10,数据仓库设计的技术要求,对大量数据的组织和管理。支持高性能的复杂分析。对提取出来的数据进行集成。对高层决策的最终用户提供工具。,11,数据仓库的设计步骤,

3、高层设计技术准备工作中层设计低层设计数据仓库生成,12,高层设计(概念模型设计),高层设计:创建信息包图的过程:分析用户需求,收集信息将信息打包的过程。分析用户需求(确定系统边界):确定用户要做的决策类型确定用户决策时需要的信息确定原始信息决定数据仓库所需要的信息的级别,采用多级信息包图,13,制造业E-R图,零件,供应商,订单,生产线,14,高层设计(概念模型设计),定义关键性能指标(确定主要的主题域):主题域的公共键码主题域间的联系充分代表主题的属性定义维度:定义类别:,15,数据仓库应用实例,航空公司的佣金计算系统 座位(是否还有剩余 座位是否可以优先使用 涉及哪些转换航班 是否能转换得

4、上)票价 佣金零售个性化系统 市场(男/女,职业/其他,城市/乡村)顾客(上次购买时间,上次所购商品,产品市场分类)信用审核 偿还历史 私有财产 收入 开销,16,高层设计(概念模型设计),创建信息包图:确定涉及的主题域,例如:时间、顾客、地理位置和产品。设计可以跟踪的确定一个事件怎样被完成和运行的关键指标。决定在给定的用户分析或查询中实际包含了多少数据。确定用户如何按层次聚合数据和移动数据。决定数据层次。估计数据仓库的大小。确定一个数据仓库里数据的更新频率。定义如何访问数据。决定数据如何被传递给仓库的用户。,17,保险公司:2-3年银行信托:2-5年电话公司:顾客使用情况:30-60天 供货

5、商/销售商活动:2-3年普通银行:小额客户:30天 销售商:1 年 贷款:2-5年零售业:1-14天,销售商 1 个月航空公司:座位30-90天,供应/销售1-2年公用事业:顾客60-90天,供应商1-5年,18,技术准备工作,技术评估技术环境准备确定软硬件的配备要求,19,中层设计(逻辑模型设计),中层设计:建立数据仓库的逻辑模型,对前期收集的信息的细化,将信息包图转换成星形图模型。主要工作:定义指标实体。定义维度实体。定义详细类别实体。设计成果:适当的粒度划分合理的数据分割策略适当的表划分定义适当的数据源,20,银行活动,帐号 业 存款 票据日期 务 需要邮寄金额 类 地点 型 提款 余额

6、需要核实类型 现金/支票/其他出纳员 服 ATM ID号 务 请求超出限额 类 时间戳 型 出纳员 出纳员ID 自动核实 顺序号 现金库余额,21,低层设计(物理数据模型设计),低层设计阶段的任务:建立数据仓库的物理模型,确定数据仓库的存储结构、数据的存储位置和索引策略。设计人员需要了解和考虑的问题:所选用的数据库系统,特别是存储结构和存取方法;数据环境、数据的使用频率、使用方式以及响应时间;存储设备的特性等。主要工作:确定数据的存储结构。确定数据的存储位置。确定索引策略。,22,零件表 很少修改 不常修改 经常修改,零件ID 是主要替换件 是库存量 是订单单位 是最低应达库存主要供应商订货到

7、交货的时间 是可以接受的废品率 是加急上次的订单日期上次订货量上次发往地发货清单订货量,23,数据仓库生成,设计接口从面向应用和操作的环境生成完整的数据基于时间的数据转换数据的聚合对记录系统进行扫描,以便追加数据数据装入确定数据装入的顺序过滤无效或错误数据数据老化数据粒度管理数据刷新,24,接口设计,数据仓库中的数据是从数据库系统中提取出来的,所以在需要在数据库系统和数据仓库之间建立一个接口。建立这种接口,并不是简单的编制一个提取程序。由于数据库中的数据与数据仓库中的数据有很大区别,所以在设计接口时,除了提取外还要完成数据的净化、集成等。接口应包括转换器、监控器和集成器等,以完成对数据的提取、

8、净化和集成。,25,数据提取,数据的提取是数据仓库成功的关键。在提取过程中,为了支持实际应用中的趋势分析,它还必须对数据基于时间进行转换。在大多数情况下,把数据库系统中的数据变化提取出来是通过访问数据库日志进行的。在数据提取时应考虑建立可靠的复制机制,使复制不受诸如系统失败之类问题的影响,保证传送符合数据完整性规则的一致数据,并优化传送过程,减少在捕获或修改数据和传送复制结果之间的等待时间。复制机制包括数据发布器和数据阅读器。数据发布器是原始的或控制的源,它控制了从企业内部来的数据的捕获和净化;数据阅读器是一种对数据访问的系统。,26,数据装入,数据装入:即运行数据仓库的接口程序,将数据装入数

9、据仓库中。主要工作:按顺序装入数据。最初只装入一部分数据来生成第一个主题域,这样能使设计人员轻易而迅速的对所做的工作进行调整,然后再依次装入全部数据。检查数据的有用性。数据仓库的设计过程是一个反馈、循环的过程,原先对决策分析起作用的数据随着时间的推移越来越陈旧无法再支持决策分析,清除老化、无效和错误数据,不断的适应用户的需求。,27,数据仓库的使用与维护,构建数据仓库的最终目的是为了使用,如果数据仓库中存放了大量的数据而没有开发相应的应用程序就失去了其存在的价值。数据仓库的目的是用于决策分析而不是事务管理。决策分析应用可分为两种类型:例行分析处理和启发式分析处理。例行分析处理是指一些要求比较明

10、确、需要重复进行的分析处理,通常属于部门级的应用,如部门的销售分析、财务分析、报表分析等;启发式分析是指随机性较大的、即时进行的分析处理,通常属于企业高层决策者级的应用,这种决策分析并没有固定的模式,决策者受到某种信息的启发而进行一些随机的决策分析。,28,数据仓库的使用与维护,对于例行分析处理,由于其分析模式固定,因此可以使用查询/报表工具、固定模式的验证工具或OLAP工具来实现。对于启发式分析处理则需要在验证工具、OLAP工具和数据挖掘工具中为用户提供一个灵活的、功能强大的交互式界面,使决策者能够方便地利用这些工具循环渐进地进行决策分析,最终获得分析结果。,29,数据仓库的维护,系统维护:

11、是在系统已经交付使用之后为了改正错误和为了满足新的需要而修改系统的过程。数据仓库中数据的日常管理工作:清除过时的、不再使用的数据;定期从源数据中提取数据,刷新数据仓库中的数据;管理元数据等。,30,连续文件,王一落 1月-今 五华区1街2号 李二进 2月-今 盘龙区2街3号张三丰 1月-2月 石林区4街6号 3月份顾客表王一落 江南区9街7号 新的连续文件王一落 1月-2月 五华区1街2号王一落 3月-今 五华区1街2号李二进 2月-今 盘龙区2街3号张三丰 1月-2月 石林区4街6号考虑出错情况,31,数据仓库系统的完善工作:,改正性维护:在数据仓库设计与开发过程中,虽然已经进行了严格的测试,但对于一个大型的系统可能还潜藏着一些错误,改正性维护就是为了发现和改正这些错误而进行的过程。适应性维护:数据仓库的构建是基于当时的技术条件的,由于计算机科学技术发展十分迅速,每隔一定的周期硬件设备和系统软件都会发生重大的变革,适应性维护就是为了与变化了的环境相配合而进行的对系统进行修改的活动。完善性维护:因为数据仓库系统一般是采用快速原型法开发的,需要在系统的运行过程中不断地听取用户对已有功能的修改建议和增加新功能的需求,使系统日趋完善,这项工作称为完善性维护。预防性维护:预防性维护则是指为了改进系统未来的性能和功能打下基础而进行的修改工作。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/施工/环境 > 项目建议


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号