企业竞争的利器-数据仓库和数据挖掘.ppt

上传人:牧羊曲112 文档编号:4998794 上传时间:2023-05-28 格式:PPT 页数:59 大小:1.27MB
返回 下载 相关 举报
企业竞争的利器-数据仓库和数据挖掘.ppt_第1页
第1页 / 共59页
企业竞争的利器-数据仓库和数据挖掘.ppt_第2页
第2页 / 共59页
企业竞争的利器-数据仓库和数据挖掘.ppt_第3页
第3页 / 共59页
企业竞争的利器-数据仓库和数据挖掘.ppt_第4页
第4页 / 共59页
企业竞争的利器-数据仓库和数据挖掘.ppt_第5页
第5页 / 共59页
点击查看更多>>
资源描述

《企业竞争的利器-数据仓库和数据挖掘.ppt》由会员分享,可在线阅读,更多相关《企业竞争的利器-数据仓库和数据挖掘.ppt(59页珍藏版)》请在三一办公上搜索。

1、阮闯 博士多媒体通信事业部广东省邮电科学技术研究院,电信企业参与竞争的利器-数据仓库和数据挖掘,2,提要,市场竞争-竞争技术数据仓库的基本认识数据仓库设计数据挖掘数据融合动力系统研究我们的实践,3,市场竞争-竞争技术,随着电信市场的开放,竞争将越来越激烈利润的降低使得必须从粗放的经营转变到集约的经营经营决策需要尽可能多的定量的依据经营决策需要尽可能快的速度所有这些需要技术上的支持-数据仓库和数据挖掘,4,数据仓库的基本认识,5,统一认识:什么是数据仓库技术(Data Warehousing)?,是一个处理过程,而不仅仅代表一组产品是一个从大量的企业数据中发现有价信息的过程是充分利用现有资源,而

2、不是摒弃重构是提供系统及数据的多种访问形式,6,统一认识:什么是数据仓库(Data Warehouse)?,数据仓库是在企业管理和决策中面向主题的,集成的,与时间相关的和不可修改的数据集合,Bill Inmon,7,统一认识:数据仓库体系结构图,8,统一认识:数据仓库应用体系结构,数据集成,数据转换,数据发布,Warehouse Process Management,数据存取,Metadata,数据集成:集成不同业务系统中的数据数据转换:全部数据被转换成统一的数据格式数据发布:数据被存储在靠近用户的地方数据存取:满足数据分析等应用需求Metadata:元数据.即数据仓库的数据字典.Wareho

3、use Process Management 保证数据仓库的正确实施,9,统一认识:建设数据仓库的十二步,1.定义项目范围,制定项目开发计划2.确定在企业决策中至关重要的数据3.用数据语言描述企业需求4.建立并修正企业的逻辑数据模型5.建立数据仓库数据模型6.定义数据集市数据模型7.定义可操作的数据源(OLTP数据)8.详细设计9.设计数据仓库的物理数据库10.准备高层次的应用结构设计11.定义各种技术规范12.准备项目实施计划,10,统一认识:数据仓库建设取得成功的关键因素,从项目建设的角度出发:有一个坚实的数据仓库数据模型 有一个专职的数据仓库分析小组 有一个经过深思熟虑的执行计划 各方紧

4、密配合 资金保证 好的自动化工具,支持设计过程和元数据管理 最终用户好用 各种工具齐全,易得 正确的期望值 有专家支持从用户的角度出发:数据准确 数据易于管理 数据可以随时刷新 数据容易访问 数据表现通俗易懂 有利于正确的企业决策,11,数据量估算,一般情况下,数据空间=数据量估算*2索引空间=数据空间*0.5估算数据量时要考虑:现有数据日,月,季和年的增长率.数据仓库中保留多长时间的历史数据:数据仓库中一般保留几年数据.操作型系统中一般只保留当前数据注意:数据仓库系统和OLTP系统不同,它需要更大的临时空间,用于排序操作和数据求和汇总数据仓库系统也需要较大的缓存空间,用于驻留经常被访问的数据

5、.,12,模型选择:Inmon 的数据分布式体系结构,数据源系统,ODS:操作型数据存储,集中式数据仓库,数据集市,OLTP系统时实数据,实时/准时实数据数据以批方式修改数据日期:1秒-2 天,历史数据数据以批方式修改数据日期:1天-5 年,历史和汇总数据数据以批方式修改数据日期:1天-10 年,数据源系统也可以直接给数据仓库和数据集市提供数据,13,模型选择:集中式数据仓库模型,OLTP数据源系统,集中式数据仓库,最终用户,数据被不断地从数据源系统累积到数据仓库中数据格式和数据的取舍规则与OLTP系统独立数据仓库中存放的是企业的数据,可以跨业务领域OLTP 系统 与数据仓库系统彼此独立,OL

6、TP的性能不受影响,14,模型选择:集中分布式数据仓库模型,OLTP数据源系统,集中式数据仓库,按地域发布的数据集市,地域性最终用户,数据更靠近最终用户,15,模型选择:分布式累积型数据仓库模型,按地域发布的数据集市,各地区的OLTP数据源系统,集中式数据仓库,集中定义数据的集成与转换规则 数据传递从下往上 此模型适用于敺植际綌企业,16,硬件与软件选择:硬件选择,数据库服务器的选择取决于数据库的大小和查询的复杂度,17,硬件与软件选择:硬件选择(续),网络服务器:Single CPU Pentium-based serversUp to 10 GB DatabasesSingle proce

7、ssor UNIX platforms10 to 40 GB Databases适用于高度汇总(Highly Summaried)型数据仓库适用于做网关(Gateway)SMP 数据库服务器:2 to 64 CPUs(通常 4 to 8)共享内存/硬盘大容量内存适用于中型和大型数据库SMP 供应商:Digital,HP,Pyramid,Sequent,Sun,Cray,IBM,18,设计阶段:数据仓库数据的多级模型,Olderatomicdata,Currentatomicdata,Lightlysummarized,Highlysummarized,METADATA,85-90%of ana

8、lysis,10%of analysis,19,设计阶段:数据仓库数据建模的一般方法,1.获取最终用户的业务需求2.定义业务规则3.建立主题(SA)数据视图4.建立企业逻辑数据模型5.定义操作型的数据源6.建立数据仓库数据模型7.必要的话,把数据仓库模型分割成几个子模型,分别建设,以满足不同用户和不同工具的需要.,注意:数据仓库建设的每一步都要严格质量检查,每一步的实施可能要经过多次反复.,20,设计阶段:数据建模的基本概念,模型-对主题的抽象表示.数据模型-对一定范围的数据的定义,特征和关系的表示.主题视图-高层主题及其关系的表示.逻辑数据模型-从最终用户的角度出发,对企业中的信息的数学描述

9、.这里并不考虑数据的功能和物理属性.数据仓库数据模型-是反映在决策支持分析活动中对数据的使用的数据模型 实体(Entity)-代表 人,物,地点和事件.实体在数据模型中是唯一的.关系(Relationship)-两个实体之间的企业规则.元素(Element)-表现实体的低级属性.也称为属性(Attribute)键(Key)-唯一识别一个实体的元素.属性(Attribute)-实体中的非键元素.递归(Recursion)-与自身相关的实体关系.,21,设计阶段:主题视图模型,逻辑数据模型与数据仓库数据模型之间的关系,主题视图,逻辑数据模型,操作型数据模型,数据仓库数据模型,物理模型,数据集市数据

10、模型,22,设计阶段:什么是主题?,主题代表企业中数据的自然归类范畴.主题也称为高层实体.主题视图包含:数据被归类成为广义的,功能上独立的,没有重叠的主题.表现数据之间的主要关系.表现模型之间的数据共性.主题视图中的主题数目一般不超过 12 个 可以先构造局部主题视图,然后合并成全局主题视图.,23,设计阶段:局部主题视图,Customer,Order,Product,Order,Part,Product,Customer,Order,Employees,Part,Supplier,User View 1,User View 2,User View 3,User View 4,24,设计阶段:

11、全局主题视图,Customer,Order,Employees,Part,Product,Supplier,25,设计阶段:建立逻辑数据模型的基本方法,基于主题视图,把主题视图中的数据定义转入到逻辑数据模型中.删除重复数据项识别某些数据共性,比如:数据类型,.识别主题间的关系分解多对多的关系用范式理论检验逻辑数据模型由用户审核逻辑数据模型命名规则审核,26,设计阶段:主题视图与逻辑数据模型,Product,Order,High-level,主题视图,Mid-level,逻辑数据模型,Customer IDCustomer NameCredit Rating,Customer IDCustome

12、r Address TypeAddress Line 1Address CityAddress StateAddress Zip-code,Order,Customer IDSIC CodeNo.Employees,Commercial,Customer IDNo.KidsIncome Level,Residential,Customer,Customer,SelectedSubject Area,27,设计阶段:逻辑数据模型与数据仓库数据模型的区别,逻辑数据模型 数据仓库数据模型范式化 非范式化详细数据详细和汇总数据企业运作角度 企业决策和战略角度可能含有时间键 必须含有时间属性没有派生数据

13、 含有派生的战略数据无数据数组 有数据数组以企业规则为中心 以数据的使用和稳定性为中心,28,设计阶段:数据粒度分析,数据粒度(Data Granularity)-代表数据的细节化程度.粒度越大,数据的汇总程度越高.事务级数据的粒度最小,它是汇总型数据的数据源.数据仓库中数据的粒度取决于数据仓库的类型.数据仓库中数据的粒度可以和操作型系统的数据粒度一样,也可以不一样.当粒度发生改变时,数据仓库数据模型要反映出这种变化.如果仅仅存储汇总型数据,那么数据的细节型分析就无法做到,29,设计阶段:数据粒度分析,在数据仓库中,多层(Multi-tier)体系结构表达的是数据的汇总程度.,每一层并不一定彼

14、此独立并非每个数据仓库项目都含有多层汇总.,30,设计阶段:数据汇总模型,简单累加:如,求和每天各种商品的销售额 滚动型累计:如,求和每周各种商品的销售额 清单型汇总:类似于做台账 连续汇总:形如多级汇总 纵向汇总:按特定的问题进行汇总,以获取最佳的性能.,31,设计阶段:数据稳定性分析,数据仓库中数据的最好组织原则是:变化慢的数据存放在一张表中.变化快的数据存放在另一张表中.关键是要根据数据的稳定性,对数据元数进行分离,下列数据应该按其稳定性来组织:数据的修改时间完全不同.最终用户习惯于频繁地修改数据.下列数据可以不按其稳定性来组织:系统性能不好.大部分时间总是被一起使用.,32,数据集市数

15、据模型设计,数据集市是数据仓库中数据的一个子集,用于解决某个业务部门特定的应用需求.,33,数据集市数据模型设计,数据集市:从数据仓库中派生出来可以和数据仓库存放在同一平台上,也可以分开.应该把它作为数据仓库的一部分 来建设,Archiveddetail,Enterprise-wide,Individual,METADATA,Data Mart,Individual,Data Mart,34,多维模型,多维模型是人们观察数据的形象表示 可以是 2,3,4或更多维 可以对多维模型进分析-即:选择哪维作为查询条件.,传统的数据模型比较复杂,最终用户难于理解多表联结(Join)查询(尤其是大表),既

16、费时,又占用大量资源,35,多维模型:基本概念,维:是人们观察数据的特定角度维成员:维的取值.维层次:代表维的细节程度.比如:时间维的层次可以是年,季,月,周,日,等等.类:维成员互不相交的一个子集.多维分析:指对以维形式组织的数据采取切片,切块和旋转等动作,以求全面深刻地分析数据.切片(Slice):按照某一维取值做查询.切块(Dice):按照一维或多维取值做查询.旋转:改变一个报告或页面显示的维方向.维表:存放维数据.事实表:由事实数据元素和维数据元素组成.事实表是多维多维模型的核心.事实数据是决策分析的数据基础.,36,多维模型:怎样建立维表和事实表,建立维表和事实表要考虑:建立中央事实

17、表,它存储大量数据.事实表周围,维表的数目要少,并且维表中的数据量要小.关键是要控制维数,它直接影响数据粒度.注意1:多维模型是非范式化的,大量的事实数据可能是重复的.2:多维模型通常不适合企业级的模型分析,因为在企业级,数据量太大并且太复杂.,37,多维模型:多维数据模型的四种模式,星型模式(Star Schema)雪花模式(Snowflake Schema)星座模式(Constellation Schema)雪暴模式(Snowstorm Schema),38,多维模型:星型模式,Grocery Transaction,Store Number,Transaction Date,Custom

18、er,Product,Quantity,Amount,Customer,Customer,From Date,To Date,First Name,Last Name,Address 1,Address 2,Address 3,City,State,Country,Postal Code,Time,Transaction Date,Store,Store Number,Store Name,City,State,Country,Telephone,Product,Product,Description,Category,Fact Table,DimensionTables,DimensionT

19、ables,39,多维模型:雪花模式,Grocery Transaction,Store Number,Transaction Date,Customer,Product,Quantity,Amount,Customer,Customer,First Name,Last Name,Address 1,Address 2,Address 3,City,State,Country,Postal Code,Customer Category,Time,Transaction Date,Store,Store Number,Store Name,City,State,Country,Telephone

20、,Region,Product,Product,Description,Category,Product Category,Product Category,Description,Region,Region,Description,Sales Period,Period Identifier,Sales Period,From Date,To Date,Customer Category,Category,Customer Category,为了避免数据冗余,用多张表来描述一个复杂维在星型模式的基础上,构造维表的多层结构,40,多维模型:星座模式,Grocery Transaction,St

21、ore Number,Transaction Date,Customer,Product,Purchase Quantity,Amount,Customer,Customer,First Name,Last Name,Address 1,Address 2,Address 3,City,State,Country,Postal Code,Customer Category,Time,Transaction Date,Store,Store Number,Store Name,City,State,Country,Telephone,Region,Product,Product,Descript

22、ion,Category,Product Line,Sales Period,Period Identifier,Sales Period,From Date,To Date,Customer Category,Category,Customer Category,Product Purchases,Product,Purchase Date,Supplying Vendor,Purchase Order,Unit Quantity,Purchase Cost,Vendor,Vendor,Vendor Name,Address 1,Address 2,Address 3,City,State,

23、Country,Postal Code,Product Inventory,Product,Warehouse Location,Quantity On Hand,Quantity Back Ordered,Warehouse,Warehouse,Address 1,Address 2,Address 3,City,State,Country,Postal Code,具有多个事实表,41,多维模型:雪暴模式,Grocery Transaction,Store Number,Transaction Date,Customer,Product,Purchase Quantity,Amount,Cu

24、stomer,Customer,First Name,Last Name,Address 1,Address 2,Address 3,City,State,Country,Postal Code,Customer Category,Time,Transaction Date,Store,Store Number,Store Name,City,State,Country,Telephone,Region,Product,Product,Description,Category,Product Line,Product Category,Product Category,Description,

25、Region,Region,Description,Sales Period,Period Identifier,Sales Period,From Date,To Date,Customer Category,Category,Customer Category,Promotion Period,Promotion Id,Promotion,From Date,To Date,Product Line,Product Line ID,Description,Product Purchases,Product,Purchase Date,Supplying Vendor,Purchase Or

26、der,Unit Quantity,Purchase Cost,Vendor,Vendor,Vendor Name,Address 1,Address 2,Address 3,City,State,Country,Postal Code,Product Inventory,Product,Warehouse Location,Quantity On Hand,Quantity Back Ordered,Warehouse,Warehouse,Address 1,Address 2,Address 3,City,State,Country,Postal Code,具有多个事实表与多层维表,42,

27、多维模型:如何增加时间维?,Grocery Transaction,Store Number,Transaction Date,Customer,Product,Quantity,Amount,Time,Transaction Date,Sales Period,Period Identifier,Sales Period,From Date,To Date,取决于企业结构与时间的使用方式确定企业的时间坐标,是一个坐标,还是有几个坐标?企业是否有财政年和日历年?弄清哪些数据属于哪个时间坐标企业的成员与相关者是否有相同的节假日?,43,面向个人的数据仓库数据模型设计,集中的数据仓库,数据集市,个

28、人数据集市,与个人相关的,或个人感兴趣的1天-10年的数据.可以是高度汇总型数据,或个人特定的数据,历史数据数据以批方式修改数据日期:1天-5 年,历史和汇总数据数据以批方式修改数据日期:1天-10 年,44,操作型数据存储(ODS)与数据仓库,ODS集成企业中所有的操作型系统中的数据,用以支持企业日常的全局应用,操作型数据存储(ODS)与数据仓库之间有着非常明确的区别.,45,操作型数据存储(ODS)与数据仓库的区别,-适用于当前的,偏细节性的决策-面向战术型用户,-适用于长期的,方向与定位性的决策-面向战略型用户,OperationalData Store,DataWarehouse,46

29、,操作型数据存储(ODS),数据仓库和数据集市的关系,SourceSystems,OperationalData Store,Central DataRepository,Metadata,EIS,DSS,PC,DataMart,ODS可以实现数据的集成与数据清洗,47,什么是元数据(Metadata),是描述数据仓库中数据的数据 Metadata 的组成是:表,数据元素,主键数据元素的物理特征各种定义数据抽取历史数据汇总算法数据属主关系及存取模式数据生命期以及淘汰规则数据安全性数据的度量单位,48,怎样收集元数据?,在整个数据仓库建设过程中,元数据被不断积累和丰富,从源数据到目标数据或相反是

30、可以追踪的,49,数据转移与加载:基本模型,Bulk Data Transfer,Periodic Data Refresh,Data Sources,Data Targets,Store and Forward,DATA,DATA,DATA,DATA,DRDM,PersonalDM,ODSDR,ODSDRDM,Real-Time Synchronous,2PC,2PC,2PC,50,数据仓库应用阶段:数据访问方式,简单的访问形式有:动态SQL命令 使用图象工具标准报表应用工具电子报表常用的应用类型:DSS软件(Decision support systems):生成各种日常报告EIS软件(E

31、xecutive information systems):详细分析数据模型,走势,异常和汇总报表软件:产生标准报表.,51,数据分析的四种模型与相应工具,数据分析的四种模型:绝对模型属于静态数据分析.它通过比较历史数据和行为来描述过去发生的事情.解释模型属于静态数据分析.它通过层层细化,找出事实发生的原因.思考模型属于动态数据分析.它通过引入一定参数后,预测将来会发生什么.公式模型最高级动态数据分析.它知道需要引入哪些参数以及所产生的结果.数据分析的工具有三种类型:查询工具:指对分析结果的查询,而不是记录级的查询.验证型工具:从数据仓库中发现事实.实现数据分析的前三种模型.挖掘型工具:从大量

32、数据中发现模式.实现第四种分析模型.,52,数据挖掘-Data Mining,数据挖掘是一种决策支持过程.它的核心技术是人工智能,机器学习和统计学等它高度自动化地分析企业的历史数据,通过归纳推理,挖掘出企业潜在的发展模型.数据挖掘不一定建立在数据仓库的基础上.,53,数据挖掘-分析方法与分析过程,数据挖掘有四种分析方法:关联分析:挖掘出隐藏在数据间的相互关系.序列模式分析:分析数据间的前后(因果)关系.分类分析:先定义一组标记,再赋予每条记录一个标记,从而实现对记录的分类分析.典型的分类分析模型有:线性回归模型,策略树模型,基于规则的模型,神经物理模型,聚类分析:是分类分析的逆过程.它根据一定

33、的规则,对记录进行合理的分类.通过分类分析可以发现分类规则,再用所发现的分类规则对记录重新分类(即聚类分析),可以发现预先对记录分类的合理性和准确性.数据挖掘步骤:数据准备:细分为数据集成,数据选择和预分析.数据挖掘:综合利用上述四种分析方法.数据表达:挖掘的信息要以直观的,便于用户理解和观察的方式表达.评价:如果分析人员对结果不满意,可以重复上述过程,至止满意.,54,数据融合,融合的不同层次原始数据的融合特征融合模型融合融合的不同方面时间融合空间融合时间/空间或空间/时间融合系统的数据融合业务数据体系指标体系,55,数据融合,数据融合的高级境界战略数据分析态势评价博弈理论商场如战场-运用军

34、事理论关键是模型的建立基础是数据仓库的建立,56,动力系统,企业实施数据仓库和数据挖掘战略的重要问题是建立一个有效的动力学系统反馈是一个有效的动力系统最重要的环节反馈的相关要素有反馈的量和反馈的时间延迟目前的主要问题是没有形成有效的反馈环路反馈的量不够反馈的时间太长,57,反馈的解决,建立有效的反馈通路基于WEB的计算技术增加反馈的量-到企业领导的手上移动计算人机界面数据融合缩短反馈的时间高性能计算-亿次计算,58,研究,一般人用一般的工具Normal use normal数据仓库-企业竞争的基础数据挖掘-企业竞争的秘密武器数据融合-战略竞争的武器需要有效地实施-过程与架构需要深入地研究,59,我们的实践,首先在视聆通后台管理系统中应用,使用Sybase的数据仓库解决方案和BusinessObjects的联机分析解决方案,能够在3分钟的时间里对全省数据进行任意的查询,并能够通过WWW的方式进行在线分析并发布分析结果。目前与我院网络市场部合作在电信市场经营支撑系统中进行更大规模的应用长期的研究:在数据挖掘方面参与国家重点基础研究规划项目(“973”)有关海量数据库中的知识发现研究,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号