第五章 数据仓库和商业智能ppt课件.ppt

上传人:牧羊曲112 文档编号:1901306 上传时间:2022-12-24 格式:PPT 页数:102 大小:2.23MB
返回 下载 相关 举报
第五章 数据仓库和商业智能ppt课件.ppt_第1页
第1页 / 共102页
第五章 数据仓库和商业智能ppt课件.ppt_第2页
第2页 / 共102页
第五章 数据仓库和商业智能ppt课件.ppt_第3页
第3页 / 共102页
第五章 数据仓库和商业智能ppt课件.ppt_第4页
第4页 / 共102页
第五章 数据仓库和商业智能ppt课件.ppt_第5页
第5页 / 共102页
点击查看更多>>
资源描述

《第五章 数据仓库和商业智能ppt课件.ppt》由会员分享,可在线阅读,更多相关《第五章 数据仓库和商业智能ppt课件.ppt(102页珍藏版)》请在三一办公上搜索。

1、第五章 数据仓库+OLAP,课程导入:,DSS的数据大多来自于事务处理系统。随着信息系统处理能力的增强,所产生的数据越来越多,如何解决数据的整合性和提高分析的有效性,成为DSS发展的难题。问题:MIS中的数据库难道还不满足数据整合分析的要求吗?为什么?瓶颈在哪里?,数据仓库出现的背景:1.DSS的数据来源:不同的事务处理部门,每个部门都有独立的数据库,因此,数据库的结构有所不同,一般有以下三种结构:,5.1 数据仓库,整合型,分离型,析取型,DSS的数据库和事务处理系统的数据库是统一的,决策者可以直接运用事务处理系统中的数据进行决策分析。,DSS的数据库是独立于事务处理系统的,其数据可能从各种

2、数据源获取,部分可能来自事务处理系统。,DSS的数据库和事务处理系统的数据库虽然是分离的,但DSS中的数据是从事务处理系统的数据库中析取得来的。,80年代前,90年代后,用例子说话:某企业的销售数据查询,C表,D表,B表,A表,尽管各表上的数据都不一样,但实际上都是对该企业的销售额数据从不同的视角进行观察的结果。 因此,用 二维表来表示数据的效率是很差的。 如果将这些表存储在不同的数据文件或应用程序中,就可能产生大量的冗余,同时会产生数据不一致的情况。假设,用户甲发现表A中的数据记录有误,于是对表A的数据进行修正,但表A与其他表没有关系,其他表的数据都没有得到修正。在年底计算合计时,将会产生数

3、据的不一致。 因此,将每个特定的需求看做是对这个整体的特定维度上的某种操作所得到的结果将来自不同数据源的数据整合起,就可以避免出现以上问题。 整合工具数据仓库。,数据仓库(Date Warehouse,DW)是一种数据资源架构。是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,它用于支持企业或组织的决策分析处理。,5.1.2 数据仓库的定义,数据存储中心,过滤、筛选、整理、分类,数据仓库,作业性数据,决策者,数据仓库的基本工作方式,数据仓库之父Bill Inmon的定义:,在1991年出版的“Building the Data Warehouse”一书中所提出的定义被广泛接受数据

4、仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。,定义解读:,面向主题:操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的(例如顾客、政策类型、保险公司索赔等)。 面向主题使用户可以不仅能够确定他们的企业运转如何,而且知道为什么。,集成的:,数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经

5、过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。 不同地点保存的数据也许编码类型不同,例如性别数据在一个地方以“0”和“1”进行编码,而在另一个地方以“F”和“M”表示。这样的数据要进入到数据仓库中,要先被清洗成同一种格式,使数据具有标准化和一致性的特点。另外,数据和时间格式在世界各地也不同。,相对稳定的:数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。因此,数据仓库需

6、要大量的自由空间为数据量增长做准备。,定义解读:,反映历史变化:,数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。 数据仓库的数据通常保存510年甚至更长时间用于趋势分析、预测和比较。时间维是所有数据仓库必须支持的一个重要维度。,不同角度解读“数据仓库”,设计者视角:数据仓库的关键成功因素在于如何设计其中的数据存储中心的结构以及它的一套数据转换和操作机制,使得作业性数据能够以恰当的形式进入数据仓库并得到妥善的管理,在需要的时候能有效的被决策者所利用。数据使用者视角:

7、数据仓库应当根据不同的管理活动的需要,对作业性数据从多角度进行加工处理。,数据仓库支持第一美国银行的企业战略,第一美国银行(First American)改变企业战略从传统的公司经营方法转向成为创新金融服务的领袖,如果没有一个被称为“VISION”的数据仓库,这一战略的成功实施是不可能的。这个数据仓库中保存顾客行为数据,例如顾客使用过的产品、购买偏好和顾客价值层次。VISION系统提供了: 识别前20%的盈利顾客; 识别40%-50%的非盈利顾客; 顾客保留策略; 低成本的分销渠道; 扩展顾客关系的战略; 信息流的再设计。通过数据仓库获取信息能够促进渐进的和革命性的变革。第一美国银行获得的革命

8、性的变革,是它成功成为“Sweet 16”的金融服务公司。,西尔斯公司的数据仓库,到2002年4月,西尔斯罗巴克公司部署了95TB的新的数据存储。这一容量是原来的3倍。西尔斯公司将两个关键的数据仓库统一起来并建立一个存储的网络,能够用库存和销售数据仓库处理顾客信息。依靠这一系统,西尔斯能够执行有效的目标直邮促销。大约5000名西尔斯员工出于分析目的使用数据仓库。他们能够得到促销信息,分析单个顾客的购买情况并和历史购买记录联系起来。,数据仓库的主要供应商,Carleton、IBM、Informix、Microsoft、NCR、Oracle、Red Brick和Sybase,数据集市(Data M

9、art)是部门级的数据仓库,或是为某种专门的用途开发的数据存储系统。,5.1.2 数据集市,数据集市,从属Dependent Data Mart数据从企业的数据仓库获得,可看做数据仓库的一个子集。,独立Independent Data Mart直接从各个应用系统取得数据。部门级的数据仓库。,优点:具有较好的数据整合性,因为其数据是从数据仓库中得来的,具有继承性。缺点:若所需数据不在集市内,需先修改数据仓库的结构,让该数据先进入数据仓库,才能再进入集市。,优点:成本低、灵活性好,需要新的数据时不需修改企业级的数据仓库。可用其来提供个别部门所需的数据。缺点:整合性差。虽然在数据量和服务对象上有所不

10、同,但和企业级的数据仓库的逻辑结构是一样的。,数据仓库的高成本使其主要应用于大公司中,作为替代方案,许多企业使用低成本、小规模的数据集市。,数据集市的优点: 其成本和企业数据仓库相比较低(通常在10万100万美元左右) 实施的时间短,通常少于90天 数据集市可以在局部进行控制而不需要在企业范围集中控制,用户有更多的权力 数据集市比数据仓库包含更少的信息,更容易被浏览 允许业务单元建立自己的决策支持系统而不需要依靠公司的信息系统部门 独立的数据集市可以用于验证开发全面的企业数据仓库所需资源,这能够快速实现收益,投资回报更快,5.2 数据仓库的体系结构,数据仓库系统通常由数据仓库、管理部分和分析工

11、具三个部分组成,这三个部分之间的关系下图所示。,数据仓库的数据来自多个数据源,包括企业内部数据和市场查与分析的外部数据。,在确定数据仓库信息需求以后,需要进行数据建模,确定从数据源到数据仓库的数据抽取、清理和转换过程,分析、划分维数以及确定数据仓库的物理存储结构。,元数据是数据仓库的核心,用于存储数据模型,定义数据结构、转换规则,数据仓库结构和控制信息等等,管理部分的主要功能,强调:,在客户与服务器之间是多维联机数据分析(OLAP)服务器。该服务器的作用:可将数据仓库服务器所做的OLAP操作工作转移到其上,降低系统中的数据传输量,提高工作效率。客户端的作用:与用户进行交互对话,将用户的需求转换

12、为服务器可以理解的方式送到服务器,取回查询的结果进行显示和提供报表等。,5.2.2 ETCL功能,数据整理中常用的一些技术和手段1.数据抽取(Extract)从数据源中抽取相应的数据到DSS中。常见的数据源包括一些著名的数据库厂商和ERP厂商;互联网。数据的抽取要根据DSS的要求,只选取数据源中对于特定的决策问题有用的数据。,某些数据需要经过审查和净化等才能加载到系统的数据库中。数据源中可能含有噪音数据,即错误数据,要通过过滤机制将它们除去。譬如,顾客性别字段为空值,或者填写了不存在的邮政编码等这样的情况需要根据业务规则进行修正。,2.数据清洗(Clean),原始数据中,不同的数据源的数据格式

13、是不同的,有些数据需要进行拆分或合并后才能形成我们需要的格式,有些可能还需要进行计算。例如,中西方习惯不一样,姓名、日期等的表示有所不同,这些都需要转换为统一的格式,方便下一步处理。重要的数据转换类型:数据聚合,即将零散的数据按照某种维度进行汇总合计,成为抽象度较高的数据。,3.数据转换(Transform),对转换后的数据可以指定相应的目标数据库,对大量数据可以由系统根据相应的设定条件自动进行加载。,4.数据加载(Load),有一些专业的软件公司专门生产通用的ETL工具,如Informatica,Sagent,Ascential公司等。另外,一些以ERP和数据库产品为主的软件公司也提供自己专

14、用的ETL工具,如SAP的BI,IBM的Warehouse Manager,5.2.3 数据的存储层次,数据仓库的特点之一丰富的存储机制数据仓库中的数据存储是一个层次化的逻辑结果,见P111图5-6。先从作业性的数据源获得数据仓库的输入,根据决策者所需要的主题进行存储。这一层所存储的是详细数据,称为当前基本数据层。在此基础上可以对详细数据进行不同程度的汇总和抽象,形成概略数据层,可分为轻度概略和高度概略。随着时间的推移,也为了对数据进行有效的归纳和管理,详细数据通常只保存一定的时间,超过期限就应当转为历史详细数据,以便数据仓库长期保管。,5.2.2 数据的存储层次,高度概略数据层,轻度概略数据

15、层,当前基本数据层,历史详细数据层,见课本112页商店中的销售活动所产生的数据的处理。,案例2:详细数据,案例1:,公安监控网:高速球进行实时监控,传回的数据全是图像数据,要求实时存储,保存期限15天、一个月,甚至三个月。一个高速球监控状态: 每小时监控到的图像数据平均约有225兆250兆,24小时连续运转。数据仓库的要求:TB级存储容量。,数据仓库开发的困难,1.没有理解数据的价值2.未能理解数据仓库的概念3.尚未清楚了解用户将如何使用数据仓库之前,便贸然开发数据仓库4.对数据仓库的规模的估计模糊5.忽视了数据仓库体系结构和数据仓库开发方法,为了建立有用的数据仓库,在结构、过程、专家知识以及

16、其他方面,开发者必须拥有非常丰富的资源。但是光有这些资源,还不能保证建立一个成功的数据仓库环境。数据仓库的投资必须有一个严密的评估过程,来评价领先数据仓库提供商提供的数据仓库的优缺点。,数据仓库厂商面临的挑战:,目前没有一个数据仓库厂家能够提供端对端(end-to-end)的数据仓库解决方案,但SAS,IBM,Software,AG,Information Builders和Platinum已经开始朝这个方向努力,但热度远远不够。以下的例子中,主要的数据仓库提供商IBM就面临了一种这样的挑战。,IBM的挑战,主要数据仓库提供商IBM面临这样的挑战: IBM起初的产品是Visual Wareho

17、use(可视化数据仓库),如果在OS/2系统下运行,可以很好的整合,但是在其他的操作系统平台上,例如Windows NT和Novell等,它的灵活性就很差。而且Visual Warehouse还不能管理局域网之外的数据库。 由此可见,即使是数据仓库供应商,也在协调各部分工作中遇到了很多麻烦。,补充: 数据仓库未来发展方向,1.数据仓库技术和应用 数据仓库成为一个组织决策支持基础设施的成熟部分是一个必然趋势。数据仓库技术的发展包括数据抽取、数据管理、数据表现和方法论等方面。数据仓库的发展趋势主要表现在几个方面: (1)对非结构化数据的处理 (2)实现共享数据 (3)对信息进行打包 (4)信息互联

18、(万维网) (5)规则的约束,规则的约束,从大量的不相关的数据中分析提取信息的能力,使得必须产生一些保护某些数据不被其他对象访问的要求。随着数据的访问更加容易,这种防止隐私泄露的要求也不断提高,这就需要建立一些规则,在进行大量有用分析的同时,保护个人隐私。,万维网(WWW),随着目前越来越多的信息相互关联,WWW无疑对数据仓库的建立有着重要的影响。网络使得访问和转换大量的相关数据更为容易和经济。这使得Internet和Web成为把外部数据库和数据仓库整合起来的理想工具。这样,数据的一致性、精确性和数据质量问题就需要注意和解决了;这样就可能会出现第三类企业,它们的主要目标就是评估外部数据源的一致

19、性和质量。这种质量评估可以决定外部数据源载入数据仓库时的价值。同样,这种质量评估可以决定访问这些数据需要的价格,数据质量越高,价格也越高。,存储非结构化的数据,通常,一般的数据仓库只局限于存储结构化的数据,形式一般为记录、域以及数据库。非结构化的数据,例如多媒体文件、图形、图像、声音、视频文件,在组织中已越来越重要。对这些文件的存储、整合和访问要求有扩展的数据仓库结构和接口。在未来数据仓库环境中,用户可能会寻找不同产品之间的联系,数据仓库不仅要存储结构化的数据,而且还需要能够扫描和分析图像、视频和音频文件来促进这种关系的建立。要实现这个层次上的使用和功能,数据仓库应用和工具厂商面临大量的技术上

20、的和实现上的挑战。,2.国内数据仓库的需求与应用特点国内数据仓库的需求主要表现在如下方面:(1)由于银行商业化的步伐正在加大,各大、中型银行开始重新考虑自身的业务,特别是加强对自身的信贷风险的管理,因而对有关信贷风险管理和风险规避的决策支持系统的需求逐渐多了起来。(2)由于电子商务的迅速发展,不少网站开始考虑如何提高对顾客的忠诚度,为客户提供更进一步的“贴身”服务。(3)各大型企业如移动通信公司等开始考虑着手进行决策支持以及数据仓库规则。,虽然国内的数据仓库市场经过了多年的发展,但是比起国外大企业所建的巨型企业级数据仓库来讲,还只能算是刚刚起步,还存在很多的不足之处,主要表现为以下几点:,(1

21、)计算机应用水平较低,无法提出决策支持需求,所以很多企业无法马上实施数据仓库。(2)缺乏数据仓库方面的人才。(3)缺乏以国内环境为背景的范例和成功应用。(4)数据仓库概念过大,很多用户感觉可望不可及。,数据仓库中“数据的数据”(data about data)。可对数据仓库中的各种数据进行详细的描述与说明,说明每个数据的上下文关系,使每个数据具有符合现实的真实含义,使最终用户了解这些数据之间的关系。即描述数据及其环境的数据。元素据通常是根据不同的系统、不同的应用需求来设计的,一个数据仓库中的元素据对于另一个数据仓库可能是完全没有意义的。,5.2.4 元数据,常用的元数据类型,描述数据的来源、源

22、数据的结构、索引信息等,数据源描述,数据模型,转换映射,数据模型:组织数据所依据的逻辑结构记录数据的实体、关系、有效值和存取规则,记录数据源中的数据经过哪些处理后才能进入到数据仓库。例如转换规则、属性的转换等,应用性,记录有关数据仓库的应用历史,用户类型、使用频率等,生活中的元数据,一个数据存储在共享卷里时,我们可以直接看到它是一个文档、或图片、或视频、或数据库文件,这些都是数据本身。然而在存储该数据时,文件系统还会产生很多无法直接看到的,与该数据有关的数据,如文件系统中文件检索表,路径信息、地址信息等,而这些数据就称之为文档、图片、视频等在共享卷中的元数据。 我们可以在很多地方看到元数据的存

23、储,网上DOWN下来的电影本身只是一个视频文件数据,而点击右键查看到的视频文件属性,如存储路径、码率、文件大小及导演、演员、制作单位等就是视频文件的元数据。,例子(元数据应用):假定在同一时刻我们查询组织的数据仓库时,找到以下三种数据集:,1.615397 8350621 885214 005210232.一个小组9/11/96的报告指出,机械工具在亚洲的市场1995年增长了33%。3.领先的体育用品营销公司:IMG45%,SportStars33%,Legends Inc 16%我们能从这些数据中得到什么信息呢?,第一个数据,答案是“没有”。这些数字可以是部门或地区的销售数据,可能是某些城市

24、的人口,可能是一组样本的细胞数目,还可能是代表一系列计算机的机器码有两个方法可以确定这些数据的意义: 通过上下文或者通过元数据通过上下文,这些数据是我们已知意义的给定表的查询结果。根据元数据,我们查询描述这些数据的元数据,元数据可以告诉我们表的名称或者更多的信息。,第二个例子看起来易懂一些。这是一句话,自己对自己进行了描述。但是有一点:日期的显示出现了歧义。 9/11/96究竟是指1996年9月11日(美式),还是指1996年11月9日(英式)呢?我们可以通过元数据指出所显示的数据格式为“月/日/年”而消除歧义。,第三个例子包含了一些元数据:我们知道数据代表着领先的体育用品营销公司。但我们不知

25、道 百分比代表什么,数据是哪个时期的,是如何收集起来的,甚至不知道信息的来源。没有足够的元数据,本例中的数据就毫无用处。可以把元数据看做一种“夹子”,利用它来处理原始数据。没有元数据,数据就失去了意义,我们不知道它们在哪里,占有多大的容量,有关数据仓库的讨论题:,1.数据仓库的支持者说,数据仓库的概念能够运用到任何行业或者知识领域。考虑几个利用数据仓库完善信息管理的例子,你能够想出一些不能运用数据仓库的行业吗?2.元数据无处不在,找到一个与学校、工作或者家里的信息相关的数据库,尽可能地找出所有的元数据。,课程导入:,数据仓库希望解决的主要问题是企业数据的整合,如何将数据进行有效的分析需要使用新

26、的工具。企业的经理和决策人员、商业分析人员、DSS助理等往往希望自己能根据实际需要来进行一些数据查询和数据分析,而这种工作需要系统提供更强大的灵活性以及各种分析的角度。例如:P117,传统的业务系统数据处理:,用户根据系统中设定好的查询要求对数据进行查询,例如,一个商店的经理可以通过诸如“上个月销售量超过1000件的日用品有哪些品牌?”之类的查询,找出哪些商品是畅销商品。这些查询的规则是根据决策者的经验事先设计好的,属于验证性查询。但是,企业管理者所需要的查询并非一定是已经经验过的事件,有时可能是一系列随机查询中发现新的经验。例如:,经理可能要先看看总体数据有什么问题,整个市场的走势如何,然后

27、他可能发现某一类商品中究竟哪些商品的销售量最大。这样的查询过程是不可能在开发系统时事先设计好的,只能提供一系列数据操作功能,让用户自己联机操作,从需要的数据中发现问题。在基于数据的DSS中,设计者根据某些预定的决策目标,从大量事务数据中抽取数据,并将其整理、转换为一些新的存储格式,并提供方便的联机操作手段,让决策者在这种新的存储方式下联机操作获得决策信息。,决策者可以根据自己关心的事项(主题)将事务性数据整合起来,用多维数据库的存储机制来保存,并在其上进行有关的数据操作,这样的机制称为联机分析处理(OLAP),即多维数据库和多维分析。,什么是OLAP?,定义1 :OLAP(联机分析处理)是针对

28、特定问题的联机数据访问和分析。通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。定义2 :OLAP(联机分析处理) 是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。(OLAP委员会的定义)OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。,联机分析处理OLAP(On-Line Analytical Proce

29、ssing)应用是不同于与联机事务处理(OLTP)的一类应用。它专门设计用于支持复杂的分析操作,侧重对分析人员和高层管理人员的决策支持,可以应分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观易懂的形式将查询结果提供给决策制定人,以便他们准确掌握企业(公司)的经营状况,了解市场需求,制定正确方案,增加效益。联机分析处理的用户是企业中的专业分析人员及管理决策人员,他们在分析业务经营的数据时,从不同的角度来审视业务的衡量指标是一种很自然的思考模式。,5.4 联机分析处理(OLAP),OLAP和OLTP的性质比较,归纳:,OLAP技术有两个主要的特点:一是在线性(On-Line),

30、表现为对用户请求的快速响应和交互式操作,它的实现是由客户机/服务器体系结构完成的;二是多维分析(Multi-Analysis),这也是OLAP技术的核心所在。,为了方便对数据的操作,需要将大量的数据组织成具有多个维度的多维数据库(Multidimensional Data Base)。相关的常用概念:,5.4.1 多维和数据立方体,又称为事实,是数据库中数据所描述的实体;必须是数值型的,是可度量的量。,一个多维数据库的数据集合。各个维和变量的数组形式称为多维数组。,变量的某种性质,是决策者用来观察变量的依据。如时间维等。现实世界中,与一个变量有关的维往往不止三维,多维立方体也称为超立方体(Hy

31、percubic),根据问题的需要,可以将维分解为不同的抽象程度。如,年、季度、月构成了时间维的3个层次。,立方体: 方体的格,案例:P121 纳斯达克股市的多维数据库操作,数据模型:对现实数据的一种规范化的表示。对用户的帮助: 更直观方便地掌握数据的形态; 明确有关数据项之间的相互关系; 在后续的数据分析中更好的理解和操作。,5.4.3 数据建模数据模型,数据模型同时具有商业和技术意义。,商业意义:特定的商业活动中所涉及到的所有数据实体。,技术意义:表示一组查询以及相应的数据表的连接方式。例如在Access或VFP中所建立的表的连接。,星型模式: 事实表在中央, 连接一组维表。主推模式。雪花

32、模式 : 星型模式的精炼, 其中一些维分层结构被规范化成一组较小的维表, 形成类似于雪花的形状。事实星座: 多个事实表共享维表, 可以看作星星的集合, 因此称作星系模式, 或事实座。,数据模型的类型,星型模式的例子,Sales Fact Table,time_key,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,Measures,雪花模式的例子,Sales Fact Table,time_key,item_key,branch_key,location_key,units_sold,dollars_sold

33、,avg_sales,Measures,事实星座的例子,Sales Fact Table,time_key,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,Measures,Shipping Fact Table,time_key,item_key,shipper_key,from_location,to_location,dollars_cost,units_shipped,从OLAP使用的效率角度考虑,在设计数据仓库时应该考虑如下因素:(1)尽可能使用星型架构,如果采用雪花结构,就要最小化事实表底层维度表

34、以后的维度表数量。(2)为用户设计包含事实表的维度表,这些维度表应该包含有意义的、用户希望了解的信息。(3)维度表的设计应该符合通常意义上的范式约束,维度表中不要出现无关的数据。(4)事实表中不要包含汇总数据,事实表中所包含的用户需要访问的数据应该具有必需的粒度,这些数据应该是同一层次的数据。,(5)对事实表和维度表中的关键字必须创建索引,同一种数据尽可能使用一个事实表。(6)保证数据的参考完整性,是事实表中的所有数据都出现在所有的维度表中,避免事实表中的某些数据行在立方体进行聚集运算时没有参加过来。,小组活动,对一个现实的业务活动构造出其多维数据模型。,联机分析准则,OLAP是介于客户与数据

35、仓库之间的数据分析处理系统,它需要对来自数据仓库的数据进行多维处理和分析,因此在系统的构造中常常采用三层客户/服务器结构。这种三层客户/服务器的结构通常将数据仓库、OLAP服务器与客户端严格区分。,数据准备区,数据仓库,OLAP服务器,数据仓库与OLAP关系,业务处理系统,第三层,第二层,第一层,数据抽取,数据加载,多维化处理,数据清理、转换,可视化处理,客户端,三种基本的类型:关系型ROLAP多维MOLAP混合型HOLAP具体内容见课本123页,5.4.3 数据建模工具,OLAP的基本分析功能包括切片、切块、旋转、上钻、下钻等。,5.5 数据分析操作,切片条件: time=“Q2”,切块条件

36、: (location=“Montreal” or “Vancouver”) and (time=“Q1” or “Q2”) and (item=“home entertainment” or “computer”),旋转,在 location上卷(由 cities 到 countries),在 time下钻 (由 quarters 到 months),5.5.2 数据透视表,以Excel中数据透视表的操作为例。 (该节内容以演示为主),Outokumpu铜矿产品公司,Outokumpu铜矿产品公司(芬兰)超过上百万公斤的基底金属,主要用于带扣、饮用水箱和雷达等产品。该公司的产品在世界范围内用

37、于工业、电子、采矿、运输和建筑。 Outokumpu公司在欧洲、美洲和亚洲有4家分公司,13条独立运营的业务生产线。对该公司来说确定产品的边际利润,降低生产成本,降低顾客流失率和提升利润水平是关键性问题。集成和分析不同业务单元的信息是一项巨大的挑战,因为不同分公司运营的市场有不同的特殊要求,一个通用的信息系统难以解决问题。解决方案是建立一个数据仓库和使用基于Web的OLAP服务器。数据库选用Hyperion软件公司的Essbase。快速建立了支持顾客盈利性和产品的两个模型以及报告运营绩效的模型。公司使用了Temtec软件公司的OLAP前端产品Executive Viewer(上有该产品的演示)

38、。 Executive Viewer基于Web并和很多数据库,包括Hyperion的Essbase相集成。公司能够使用Executive Viewer开发应用系统以快速获取市场、产品和顾客服务的信息,并支持数据下钻分析。 Executive Viewer已成为全公司广为接受的柔性分析工具。,ING Antai保险公司(中国台湾地区)使用IBM的OLAP服务器分析大量数据检测欺诈行为并加快针对这些行为的处理速度,仅有几天就能处理原先需要几周时间处理的工作。当工具和硬件水平提升后,数据处理工作可以在瞬间完成,处理成本也大大降低。TCF银行应用OLAP向那些需要信息的人直接提供信息。银行现在能够更准

39、确地理解顾客以对营销活动进行更好的定位。具体见以下案例:,TCF银行的OLAP和数据挖掘,作为美国中西部最大的银行之一,TCF银行在6个州有390家分支机构,面向所有收入水平的顾客群体服务。TCF有122亿美元资产并运营着全美第四大的超市银行系统。TCF致力于成为一家方便顾客的一站式服务银行,它还是全美少数几家每周营业7天,每天营业12小时,包括节假日的银行之一。银行主要部门(零售银行、消费信贷、抵押贷款、经纪业务)的用户发现IT报告不能满足其需求,不得不开发定制化的程序从IT系统下载数据文件,并将数据导入电子表格进一步分析。简历一份标准化的图表报告的时间约需一个月,而要产生顾客营销名单则要6

40、周时间。信息管理部门需要开发能使用户更好地理解消费者的新流程,以识别机遇和更有效地想顾客提供新服务。TCF银行在2002年中采用了Informatica公司的PowerCenter和PowerAnalyzer。 PowerAnalyzer的报告产生模板、基于测量的报告和建立下钻分析路径是重要的易于使用的功能,这些特点促使TCF采用了这一工具。公司开发了包括一系列关键指标的报告的仪表盘,每周550位信贷员和经理使用这些报告。有了这一新的包括交叉销售功能的OLAP,TCF能够识别顾客的类型,并针对性地提供专门的产品和服务。这在识别新顾客的需求方面特别关键。另外可以迅速产生报告以进行进一步的分析。,

41、补充: 商业智能,一、商业智能的概念 商业智能(Business Intelligence,简称BI)的概念最早是Gartner Group于1996年提出来的。当时将商业智能定义为一类由数据仓库(或数据集市)、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的技术及其应用。 目前,商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。从技术层面上讲,商业智能不是什么新技术,它只是数据仓库、OLAP和数据挖掘等技术的综合运用。,商业智能是一种解决方案,关键是从许多来自不同的企业运作系统的数据中,提取出有用的数据,进行清理以保证数据的

42、正确性,然后经过抽取(Extraction)、转换(Transformation)和装载(Load),即ETL过程,合并到一个企业级的数据仓库里,从而得到企业数据的一个全局视图,在此基础上利用合适的查询和分析工具、数据挖掘工具、OLAP工具等对其进行分析和处理(这时信息变为辅助决策的知识),最后将知识呈现给管理者,为管理者的决策过程提供支持。,外 部 数 据 库,MSSQL,ORACAL,外部文件,ETL工具,数据仓库,元数据,数据挖掘,OLAP分析,信息表现,查询报表,数据仓库数据模型,BI系统用户,元数据库,元数据,数据描述,用法,结构安全设置,数据,数据,数据,查询,请求,商业智能基本过

43、程图,目前得到广泛应用的BI软件大多包含以下功能:,1.数据获取和整理功能,即ETL过程。2.数据集市/数据仓库3.在线分析处理工具(OLAP)4.数据挖掘软件5.报表设计6.业务活动分析模型7.经理信息系统,二、商业智能包含的内容,商业智能包括专家系统、神经网络、遗传算法和智能代理等几个方面。 1. 神经网络被称为有学习能力的商业智能系统。神经网络具有和人类大脑相似的功能.经过对神经网络系统进行一段时间的训练以后,该系统可以在没有人干预的情况下进行模拟识别,以解决特定领域中的问题。神经网络可以很容易的解决具有上百个参数的问题,神经网络常用于两类问题:分类和回归。当神经网络被训练好以后,如果给

44、它制定领域内新的模式识别问题,它就能给你有关这种模式的相关信息。原因就是在于神经网络是按照人脑的模式来制造出来的。它的任务就是响应、自我组织、学习、抽象和遗忘,而不是执行。,2. 遗传算法是基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。它通过选择、交叉和变异等进化概念,产生出解决问题的新方法和策略。选择是指挑选出好的解决方案,交叉是将好的方案中的部分进行组合连接,而变异则是随机的改变解决方案的某些部分。这样当提供了一系列可能的解决方案后,遗传算法就可以得出许多解决方案。 3. 智能代理是将计算机和网络中许多重复的工作独立出来,自动的适应人们的爱好和习惯,按照人们的要

45、求完成工作。融合了许多现代的软件技术。它的典型应用是在Web上为消费商品进行筛选或监测拍卖,在竞价时提醒用户。,二、商业智能包含的内容,案例:金蝶的商业智能方案及其特点,商业智能已经成为中国软件市场的新热点,全球著名的BI厂商已经纷纷进入中国,以期占领较高的市场份额。如,SAS、SPSS、Hyperion、Cognos、Brio、Business Objects、Microstrategy等BI厂商,SAP、ORACLE、SYBASE、Microsoft、IBM也都纷纷推出自己的商业智能方案。 在中国金蝶公司也在推出自己的“金蝶商业智能方案”,该方案主要借助于Brio Performance

46、Suite完成,金蝶公司和Brio公司建立了战略合作伙伴关系,双方公司力图共同开拓企业商业智能分析市场。,首先,企业内不同平台上的应用系统如,K/3、SAP、ORACLE、开思TEEMS、CRM、E-Business通过KD-ETL(金蝶数据抽取转换导入工具)建立数据仓库;其次,在数据仓库的基础之上,建立生产、财务、市场、采购、人力资源、成本、预算等各种分析模型,这些模型可以存贮在专门的OLAP SERVER中;最后,利用Brio Performance Suite(BRIO商业性能套件),采集数据仓库和OLAP中的数据,实现决策支持,企业还可以通过利用Brio Portal做出整个企业的信息

47、门户。无论决策支持还是信息门户,管理者和员工都可以通过WAP手机、各种PDA(个人数字助理)、PC(个人电脑)、笔记本电脑等设备轻松快捷的获得信息和知识。,是不是必须通过建立数据仓库和OLAP Server才能最终建立企业的决策支持系统和信息门户呢?不是必须的。对于中小型企业,建立数据仓库和OLAP成本是昂贵的,并且需要专门的数据仓库管理人员,金蝶商业智能解决方案提供更为巧妙和简洁的处理方式,Brio Performance Suite可以直接连接在多个应用系统上进行决策分析,而勿需建立数据仓库。实践证明,这种应用方式是非常适合中小型企业的。 当然,数据仓库、OLAP的建立对于一个大型企业或者

48、数据源相当丰富的企业来说是必须的。它的优点是不影响应用系统的日常操作,分析更为规范和清晰,能够处理企业内部大数据量。,强大灵活的报表。报表中可包括计算、字段、图表、旋转透视表等,并可以将分析结果在企业内部实现共享。OLAP-强大的交互式分析和灵活的钻取功能。钻取功能则让你从轻松的集团的销售总额透视到子集团的销售额,再透视到子集团下属基本公司的具体销售情况。分析应用开发及商业信息成果的发布。允许开发者建立支持Web的分析应用,并可加入各种通用控件及利用JavaScript进行编程定制企业EIS系统和DSS系统。,金蝶商业智能方案的特点:,4.可选择的语义层。该方案提供了“开放式元数据解释器”(O

49、pen Metadata Interpreter-OMI),构造数据模型的语义层和业务视图就成为可选择的。OMI可以动态地从几乎任何数据源中读取现有的元数据。 5.可配置的安全性。可以自行管理安全性,也可以利用数据库的安全性。 6.客户端零管理。Web方式的客户端软件实现了自动安装和升级,显著地减少了实施维护人员和管理者的工作,大大地方便了用户。,7. 数据库同步。通过自动的分布式刷新(ADR),向所有用户发布共享库的变化,并同步化他们对数据库的视图,而不需要任何手工的干预。8. 广泛的环境支持。支持主流的关系数据库、多维数据库、数据仓库产品。9. 使用方便,为最终用户而设计。10. 提供离线

50、分析。,1 . 业务活动分析模型 应用范围:该设计适用于企业内部的财务、销售、采购、库存、仓库各活动环节的分析及KPI。 销售分析的关键维度:时间、产品、销售员、销售渠道、促销手段、顾客地理分布、顾客行业分布、顾客年龄、顾客性别、顾客收入。,金蝶商业智能的分析模型:,模型作用:,(1)在4P中,哪个是最强的因素,哪个是最弱的因素? (2)哪些产品的收入占了总收入的80%?哪些产品的盈利占了整个盈利的80%? (3)哪些是明星产品?哪些是瘦狗产品?哪种产品和销售部门业务增长得最快或者最慢?各种产品的销售和盈利的时间变化趋势?,应用范围:该设计适用于任何企业内实际执行情况的分析。 关键维度:实际支

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号