《《数据仓库概述》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《数据仓库概述》PPT课件.ppt(43页珍藏版)》请在三一办公上搜索。
1、,数学科学学院周书锋,1,第1章 数据仓库概述,数学科学学院周书锋,2,nnn,数据仓库基础.段云峰等译.电子工业出版社.2004年4月(Data Warehousing Fundamentals.Paulraj Ponniah)数据仓库原理与实践.林宇.人民邮电出版社.2003年1月数据仓库与数据挖掘.陈文伟.人民邮电出版社.2004年1月,&教材,数学科学学院周书锋,3,引言:,n,主要介绍从数据库到数据仓库的演变过程,着重说明“蜘蛛网”问题产生原因以及随之而来的种种问题。为此,必须将操作型环境和分析型环境分离,使企业由以数据库为中心的生产环境过渡到以数据仓库为中心的生产环境。最后简要介绍
2、数据仓库技术的应用前景。,数学科学学院周书锋,4,内容1.1、数据库到数据仓库的演变1.2、操作型系统和分析型系统的分离1.3、数据仓库定义1.4、数据仓库解决的问题1.5、数据仓库体系结构1.6、数据仓库的运行结构1.7、一个现实的问题1.8、数据仓库应用前景,数学科学学院周书锋,5,1.1数据库到数据仓库的演变,n,1、蜘蛛网问题,n 2、蜘蛛网现象n 3、蜘蛛网问题特征,数学科学学院周书锋,6,1、蜘蛛网问题,n,随着数据库技术的广泛应用,企业的运营环境逐渐转化为以数据库为中心。企业对数据的需求是多方面的(企业级、部门级、个人级),这样随着数据逐层提取就会形成一种“蜘蛛网”结构,使数据的
3、访问相当复杂。,数学科学学院周书锋,7,2、蜘蛛网现象,部门,个人,个人,部门,部门,部门,企业级,数据库,部门,个人,部门,个人,企业级,数据库,个人,个人,个人,个人,个人,个人,个人,数学科学学院周书锋,8,3、蜘蛛网问题特征,n,数据分析的结果缺乏可靠性,n,电信公司“市场部”和“计划部”对同一业务得出截然相反的结果。,n,数据处理的效率很低,n,错综复杂的体系结构中,不同级别的数据库可能使用不同类型的数据库系统。大型:Oracle、DB2;中型:MicrosoftSQLServer;小型:Foxpro、MySQL。,n,难于将数据转化为信息,n,综合数据处理复杂,分析程序1,不同部门
4、分析过程的差异,企业级数据,计划部,外部市场信息A,外部市场信息B外部市场信息C,外部信息,分析程序2数学科学学院周书锋,分析结果2:,业务A没有场前景9,抽取数据的内容不同,分析程序和分析内容不同分析结果1:业务A市场前景很好,抽取数据的时间不同2001/03/05市场部,2001/03/25,数学科学学院周书锋,10,1.2操作型和分析型系统分离,n,背景:,nnnn,目前,随着技术的发展和应用需求的不断提高,以及当前的市场形势促使企业必须保持旺盛活力。关键:适时掌握准确信息,利用这些信息作出正确决策。获取和利用信息的方式就是建立覆盖企业所有部门的企业综合信息系统。采用不同技术使得信息必须
5、一致、准确,数学科学学院周书锋,11,操作型处理和分析型处理,n,数据处理:,nn,操作型:以传统的数据库为中心进行企业的日常业务处理。如:电信计费系统,银行系统。分析型(信息型):以数据仓库为中心分析数据背后的关联和规律,为企业的决策提供可靠有效的依据。如:对超市近期数据分析发现畅销商品;对连锁店各个营业点不同时期营业情况的分析。,n,处理目标:,nn,操作型:操作员使用,实现企业的业务运营分析型:企业的中高层管理者或从事数据分析的工程师,为企业的决策者提供支持信息。,数学科学学院周书锋,12,客户数据库,计费数据库,财务数据库,操作,型系,统,面向操作人员,解决业务运营问题,某个数据库只包
6、含企业中的部分信息,数据仓库,系统,面向管理人员,解决决策支持问题,数据仓库中包含企业中整体的宏观信息分析型,数学科学学院周书锋,13,两种处理的区别,分析型数据表示业务处理的静态情况(综合提炼)处理过去历史数据不可更新,只读型用户是综合的提炼的结论性数据操作需求事先并不知道,不知道下一步用户要做什么少数查询访问大量数据对性能要求宽松面向分析,支持管理需求用户需理解数据库得出结论,操作型数据表示业务处理的动态情况(细节)存取瞬时数据可更新,由企业录入员录入处理业务细节问题操作需求事先可知,可按预计的工作量进行优化有许多事务,影响局部数据对性能要求高面向应用,支持日常操作用户只输入数据,数学科学
7、学院周书锋,以数据库为中心,数据库,应用B应用C,生产环境应用A,数据库,以数据仓库为中心应用A,应用B,应用C,数据库,分析应用A,分析应用B,分析应用C14,生产环境,数学科学学院周书锋,15,1.3数据仓库定义,n,数据仓库定义:(数据仓库之父W.H.Inmon),nn,DataWarehouse:是一个面向主题的、集成的、非易失的(稳定的)且随时间变化的数据集合,用来支持管理人员的决策。面向主题:指围绕企业的基本实体设计的;如:城市数据仓库,可考虑人口总数、人均工资水平等。但是,企业业务系统是以优化事务处理的方式来构造数据结构的,对于某个主题的数据常常分布在不同的业务数据库中。,16,
8、收益数据,客户数据,市场数据,客户服务数据库,财务数据库面向主题的数据仓库数学科学学院周书锋,市场信息数据库,计费数据库现,有业务,系统,数学科学学院周书锋,17,nnn,数据集成:决策支持系统需要集成的数据。全面而正确的数据是有效分析和决策的首要前提,相关数据收集得越完整,得到的结果就越可靠。通过设计实现命名协议、关键字、关系、编码的一致等手段使数据库中的分散数据经过汇总、提炼而集成在一起;决策支持系统需要的不是静态的集成,而是动态的集成。数据仓库必须能够使集成数据以一定的周期进行刷新。,数学科学学院周书锋,18,nnn,非易失:数据不进行实时更新,数据经过复杂的提取过程后定期转入数据仓库。
9、随时间按不同时段组织数据。数据仓库中的数据只能增加不能随意删除;可看成是一个“虚拟的只读型”数据库系统;数据仓库为了能在尽量短的时间内将数据呈现给使用人员,使用所谓的“空间换时间”技术,增加了数据的冗余度,从而减小系统的响应时间。,数据仓库系统数据稳定性,时间:3月24日客户号:1001费用(元):22019,数据仓库中又增加一条记录数学科学学院周书锋,业务运营系统,客户号:1001费用(元):20023日数据提取记录号:XXX时间:3月23日客户号:1001费用(元):200,客户号:1001费用(元):22024日数据提取记录号:XXX时间:3月23日客户号:1001费用(元):200记录
10、号:XXX,数学科学学院周书锋,20,0102532,45,52,t1,t2,t3,t4,t5,t6,数据仓库的快照集合,业务系统的运营数据仓库数据随时间变化的特点,数学科学学院周书锋,21,数据仓库定义(续),n,数据仓库的开拓者SeanKelly认为数据是:,nnnnnnn,彼此分离可利用的综合的包含时间标记的面向主题的非易失的能访问的,数学科学学院周书锋,22,1.4数据仓库解决的问题,n,数据仓库技术可以解决事务处理相关的决策问题,具有动态集成和综合处理能力,nnn,解决“业绩下降10%”与“业绩上升15%”的问题解决企业环境中多数据源及数据不一致性问题充分而高效地利用企业积累的大量历
11、史数据,n,数据仓库中主要存储历史数据和大量的汇总数据,因而基于历史数据的分析在数据仓库系统中则非常方便,且效率显著提高。,n,进行辅助决策分析,n,基于数据挖掘、数据抽取和决策支持,数学科学学院周书锋,23,1.5数据仓库体系结构,n,背景:,nnn,数据仓库技术是随着计算机技术的飞速发展而产生的;传统的数据库技术是单一的数据资源,即数据库为中心,进行事务处理、批处理到决策分析等;由于计算机和网络的应用,计算向两个方向拓展:,nn,广度计算:把计算机的应用范围尽量扩大,同时实现广泛的数据交流深度计算:对以往的大量简单数据操作,提出更高的要求,希望计算机能够更多地参与数据分析与决策地制定,数学
12、科学学院周书锋,24,数据仓库体系结构(续),n,数据库和数据仓库应用的出发点不同,数据仓库将独立于业务数据系统,但是数据仓库又同业务数据库系统息息相关;不是简单地对数据进行存储,而是对数据进行“再组织”定期由业务数据库综合、提炼后转入到数据仓库,为后期分析做准备。,数据挖掘系统/数据展现系统,数据仓库存储,数据市场,数据,数据,数据市场,数据市场,数据市场,企业外部数据,提取仓库25,数据清洗/转换数据提取业务操作型系统数学科学学院周书锋,关系数据库,数据文件,其他数据,数据仓库,管理工具,抽取、转换装载元数据,数据建模工具,综合数据,当前数据,历史数据,用户查询,工具,C/S工具OLAP工
13、具,DM工具,数据源,仓库管理 数据仓库数学科学学院周书锋,分析工具26,数据仓库系统结构,数学科学学院周书锋,27,数据集市,nnn,数据仓库是企业级的,能为整个企业各个部门的运行提供决策支持手段;数据集市:则是部门级的,一般只能为某个局部范围内的管理人员服务,因此也称为部门级数据仓库(DepartmentDataWarehouse)两种数据集市,nn,从属数据集市:数据直接来源于数据仓库独立数据集市:数据直接来源于各生产系统,数学科学学院周书锋,28,数据集市结构,数据源数据仓库从属数据集市数据分析,数据源独立数据集市数据分析,数学科学学院周书锋,29,数据仓库软件工具集,n,包括两类分析
14、工具,n,查询工具,nn,可视化工具:以图形化方式展示数据,帮助了解数据的结构、关系以及动态性;多维分析工具(OLAP):通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,方便用户对数据进行深入的分析和观察;,n,挖掘工具,n,从大量数据中挖掘具有规律性的知识,常采用数据挖掘(DM)工具;,数学科学学院周书锋,30,体系结构的稳定性,n,稳定性,nnn,体系结构的本质特性是稳定性,但需求是流动;任何体系结构,不管多么坚固和灵活,总有有限的扩展;体系结构应提供一个灵活的平台,在高度连贯而松散结合的框架下包容许多可能性,才能避免冲击,在发展的环境中持续提供服务;,数学科学学院周书锋,31
15、,维数据结构,n,数据仓库侧重于维间数据结构的区分;,nnnnn,时间维地点维客户维产品维事实维,数学科学学院周书锋,32,数据仓库体系结构的基本特点,nn,数据仓库中存储的信息越有价值,保密就越重要。为了采取防范措施,通常在网络层和后端数据仓库中,采用对工作组授权的方法,以防范有意的或偶然的攻击和破坏体系结构必须是灵活的,它必须能适应不断变化的商业规则和环境,允许对其进行有效的修改、指导和管理,所以数据仓库必须是可移植的。,数学科学学院周书锋,33,基本特点(续),n,特点:,nnnnn,安全性、健壮性、可移植性和灵活性:开放性:使用公开的标准,独立于某个主导企业,或在主要的技术设计上代表实
16、事标准,应用程序接口通过更改控制来发布和修改一致性:单独的组件有定义良好的接口,不受其他组件实现的改变的影响可维护性:通过对由于环境的变化而改变或磨损的特性进行常规检查,系统的生命周期可以延长可扩展性:系统组件可用于新的不可预见的环境,数学科学学院周书锋,34,基本特点(续),nnnn,工具化:系统有内置传感器或数据收集设备这样,如果出现问题,无需大量工作就可以诊断;可重用性:组件定义良好,可以进行配置管理;连通性:信息和功能可以通过预定义的接口、路径和系统其他地方的连接,包括跨分布式节点的连接得到;可缩放性:当增加系统组件处理增大的数据量、用户和处理需求时,系统性能提高,并呈线性或近似线性增
17、长;,数学科学学院周书锋,35,1.6数据仓库的运行结构,n,数据仓库应用是一个典型的客户/服务器(C/S)结构。,nnn,服务器端:对外提供服务,主要有各种辅助决策的SQL查询、复杂的计算和各类综合功能等;客户端主要做:客户交互、格式化查询、结果显示和报表生成等;注:随着网络的广泛应用提出了三层C/S结构,即在客户与数据仓库服务器之间增加一个多维数据分析(OLAP)服务器;,数学科学学院周书锋,36,数据仓库应用的三层C/S结构,OLAP如SASMDDB,数据仓库BO,IBMOLAPServer Cognos、WebEIS,数学科学学院周书锋,37,1.7一个现实的问题,nnn,企业的数据仓
18、库建设不是一蹴而就,其基础和必须进行的工作是数据的不断积累与重组。一旦历史数据达到一定规模,就会自然推动企业引进新的信息技术,采取新的解决方案;使数据或信息资源更有效地为企业服务;数据仓库并不是数据的简单堆积,而是合理地提出适合企业数据仓库的解决方案数据仓库技术不仅是技术问题,更是管理问题。,数学科学学院周书锋,38,1.8数据仓库的应用前景,n,以数据仓库为基础的商业智能系统强大的功能在实际应用中能带来高利润的回报,所以在证卷业、银行领域、税务领域、控制金融风险、保险、客户管理等领域有广泛应用:,数学科学学院周书锋,39,1.客户服务及营销方面的应用,n,客户关系管理(CustomerRel
19、ationManagement,CRM),nnnnnnn,客户概况分析(Profiling)层次、爱好、习惯客户忠诚度分析(Persistency)忠诚、持久性客户利润分析(Profitability)边缘、总体和净客户性能分析(Performance)不同客户所消费的产品按种类、渠道、销售点等划分销售额等客户未来分析(Prospecting)争取客户客户产品分析(Product)产品设计、供应链等客户促销分析(Promotion)广告、宣传等,数学科学学院周书锋,40,2.银行领域的应用,n,如何防范银行的经营风险、实现科学管理以及进行决策是金融研究的一个重要课题,nn,银行决策支持系统是建
20、立在银行管理信息系统基础上的、以银行数据库和数据仓库为基础,包括各种辅助制定货币政策、开拓金融业务等的模型库、方法库和知识库。中国银行广东省分行开发的中国银行省市两级金融管理信息系统,工程组织和总体方案设计上采用数据仓库及联机分析处理。主要:财务分析、业务管理、动态报表和金融资讯等。1997年22家,数学科学学院周书锋,41,3.保险业的应用,n,如何满足保险业日益增长的各种查询、统,计、报表以及分析的需求;如何提高防范和化解经营风险的能力;如何有效利用这些数据实现经营目标,预测发展趋势;甚至如何来设计企业的发展宏图等是保险业决策支持系统需要解决的问题;n 2000年6月菲奈特公司与深圳华安保险公司合作开发财产险主业务系统(SPS)和保险决策支持系统(IDSS)。有联机分析和数据挖掘等,数学科学学院周书锋,42,本章小结,nnnnn,现代信息处理向两个方向发展:广度计算和深度计算;企业面对两类数据:操作型数据和分析型数据;数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合;数据仓库技术主要面对决策支持问题,具有动态集成和综合处理能力;数据仓库建模是将操作型数据转换为分析型数据的过程;,数学科学学院周书锋,43,梦想下周见,