《数据仓库-数据集市-BI-数据分析-介绍.ppt》由会员分享,可在线阅读,更多相关《数据仓库-数据集市-BI-数据分析-介绍.ppt(36页珍藏版)》请在三一办公上搜索。
1、广州市品高软件开发有限公司,1,数据仓库介绍,议程,数据仓库概念及由来基本概念产生背景数据仓库搭建数据整合数据建模数据管控3.Oracle数据仓库产品介绍,广州市品高软件开发有限公司,3,什么是数据仓库,一个面向主题的、集成的、非易失性的、随时间变化的数据的集合,以用于支持管理层决策过程。,广州市品高软件开发有限公司,4,数据仓库的特点,面向主题:操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。集成的:面向事务处理的操作型数
2、据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。相对稳定的:操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。反映历史变化:操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中
3、的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。,广州市品高软件开发有限公司,5,几个相关的概念,BIBusiness Intelligence,即商业智能,一类由数据仓库(或数据集市)、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的技术及其应用,数据集市:面向特定主题和部门级的数据仓库,是数据仓库的子集,数据仓库是提供跨部门的,统一数据视图,OLAP On-Line Analytical Processing是数据仓库系统的主要应用,支持复杂
4、的分析操作,侧重决策支持,并且提供直观易懂的查询结果,数据挖掘从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,OLTP on-line transaction processing,传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易,广州市品高软件开发有限公司,6,数据仓库与OLTP系统的差别,广州市品高软件开发有限公司,7,数据仓库是怎么产生的,在数据库技术的支持下,一大批成熟的业务信息系统投入运行,为企业发展做出了巨大贡献。各类信息系统大多属于
5、面向事务处理的OLTP系统,经过多年的运行,积累了大量的数据,而管理决策层对数据分析基础平台的需求却日益强烈。,数据可信性:两个部门提供的数据是不一样的,让管理者无所适从报表的生产率问题:由于OLTP的单项系统导致数据的分散性和相同元素定义不一致所致不可能把数据转换成信息数据动态集成问题:不同的需求,要求将操作型环境和分析型环境相分离历史数据问题:单项系统之间保留的历史数据时间范围不一致,无法满足DSS分析的需要数据的综合问题:非细节数据、多种程度的综合提升现有的信息:,数据仓库解决的问题,1.企业范围内的信息共享2.准确、一致的集成数据3.面向整个企业和最终用户,针对分析需要,进行数据重组,
6、形成一套全新的、相对完整的数据视图,能够进行快速访问,精确、灵活分析,广州市品高软件开发有限公司,9,数据仓库之父,数据仓库之父比尔恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(建立数据仓库)一书中所提出的定义被广泛接受,主张使用第三范式进行数据仓库建模,广州市品高软件开发有限公司,10,数据仓库领域另外一名重要的人物,比尔恩门的对头随着拉尔夫金博尔(Ralph Kimball)博士出版了他的第一本书“The DataWarehouse Toolkit”(数据仓库工具箱),数据仓库行业就开始喧哗起来,恩门的“Building the
7、Data Warehouse”主张建立数据仓库时采用自上而下(DWDM)方式,以第3范式进行数据仓库模型设计,而他生活上的好朋友Ralph Kimball在“The DataWarehouse Toolkit”则是主张自下而上(DMDW)的方式,力推数据集市建设,以致他们的FANS吵闹得差点打了起来,直至恩门推出新的BI架构CIF(Corporation information factory),把Kimball的数据集市包括了进来才算平息。,议程,数据仓库概念及由来基本概念产生背景数据仓库搭建数据整合数据建模数据管控3.Oracle数据仓库产品介绍,自上而下进行全企业的数据建模和数据整合,并
8、建立原子级数据仓库;对于各部门的应用再建立相应的数据集市,两种数据仓库构建方式,自下而上根据特定的业务过程建立数据集市;在各部门数据集市之上递增构建整个企业的数据仓库,广州市品高软件开发有限公司,13,两种数据仓库构建方式对比,结论:一般结合两种方式的优点混合使用,广州市品高软件开发有限公司,14,数据仓库体系架构,15,数据整合-ETL,元数据管理模块,数据质量管理模块,转换,文件,数据抽取插件,ETL监控,数据抽取监控,数据清洗监控,数据转换监控,磁盘IO监控,网络IO监控,CPU监控,数据库监控,告警处理,装载,DB2,Oralce,数据加载插件,数据中心,数据转换,数据清洗,任务管理,
9、作业调度,ETL框架,采集,广州市品高软件开发有限公司,16,数据整合-ETL特点,多种数据源支持:支持DB2、ORACLE、MySql、SQLSERVER、文件多种不同数据源的抽取;作业调度可视化配置:使用图形化界面配置调度作业;3.ETL过程监控:对采集、转换、装载过程进行监控,在发生异常时自动记录相关信息。,ETL工具特点,广州市品高软件开发有限公司,17,数据仓库数据建模步骤,一般按照主题进行建模,一般步骤,梳理组织架构关系梳理系统用户、角色梳理业务流程(实际工作流程)提出业务流程改进方法及措施,抽象业务概念分组业务概念,按照业务主线聚合类似的分组理解分组概念之间的关联及关系,具化抽象
10、概念的属性细化业务流程,针对特定物理平台作出相应的技术调整针对模型的性能考虑对特定平台作出相应调整,18,数据建模方法,范式建模法:Bill Inmon主张使用,使用关系型数据库第三范式进行ER建模,同业务系统的数据库建模类似,维度建模法:Kimball 最先提出这一概念,按照事实表,维表来构建数据仓库,数据集市。并针对各个维作了大量的预处理,这种方法的最被人广泛知晓的名字就是星型模式(Star-schema),另外还有雪花模型、星座模型、雪暴模型,星型,雪花,两种建模方法比较,结论:一般在数据仓库底层使用范式建模,在数据集市层或多维数据库使用维度建模,数据应用-多维分析之切片、切块,数据应用
11、-多维分析之钻取,按时间维向下钻取,按时间维向上钻取,60,数据应用-多维分析之旋转,广州市品高软件开发有限公司,23,数据应用之即席查询,基本信息字段,工班日期,即席查询,导出列编辑,输出结果,所属路段,构建宽表模型,反向分析,所属区域,OD路径字段,异常行驶信息,收费站,车道,收费方式,车辆信息信息,收费信息字段,绿色通道字段,分账信息字段,结算费用字段,通行卡字段,计重信息字段,标识路径字段,自由组合条件,定义条件关系及值,可任意选择宽表字段,条件和值之间可以用=in等连接;条件和条件之间可用orand之间连接,可编辑结果的显示列,用户根据自身需求,灵活的选择查询条件,系统根据用户的选择
12、生成相应的统计报表,广州市品高软件开发有限公司,24,数据应用之数据挖掘,数据挖掘:从大量的数据中自动搜索隐藏于其中的有着特殊关系性(属于Association rule learning)的信息的过程,常见数据挖掘方法:,关联分析:发现一个事务中不同操作相关性的概率,例如一条开户记录为一个事务,用户号为其标示,申请短信为一个操作,申请呼叫转移为另外一个操作,通过挖掘,发现申请短信的人80%必定申请呼叫转移,申请呼叫转移的人不一定申请短信。在这种情况下,可以推出将呼叫转移打包在短信服务中,可以提高用户的服务质量2.回归分析:了解两个或多个变量间是否相关、相关方向与强度,并建立数学模型以便观察特
13、定变量来预测研究者感兴趣的变量,如话务预测3.人工统计学分群分析:根据记录中最频繁出现的特征,将相关记录进行分类,如客户分群4.决策树分析:根据用户的性质和其它消费行为,分析产生某项结果的原因,如可以根据用户的性质、消费状况和缴费情况,分析用户流失的原因。比如,发现消费额度小于30元的用现金缴费的女性,80%可能会流失,广州市品高软件开发有限公司,25,数据管控,数据管控主要包括元数据管理、数据质量管理、数据安全管理,全面提升数据管控能力,元数据管理工具,Webservice接口、JMI接口、XMI接口,元数据获取,元数据存储,元数据管理工具,数据源,ETL,数据中心,数据服务,展示视图,技术
14、元数据,业务元数据,管理元数据,自动获取,手工导入,Webservice接口、JMI接口、XMI接口,实体差异分析,元数据使用情况,指标库,实体关联度分析,主机拓扑图分析,元数据统计,血缘分析,过程查询,元数据工具功能,元数据管理工具可加强数据的管控力度,增强系统自身管理能力,提升系统易用性,数据质量关系到系统建设的成败,技术类,数据创建延迟,数据校验规则不当,文件传输出错.,信息类,元数据描述错误,变化频度不恰当,计算口径错误.,管理类,责任心、责任人,反馈渠道,培训计划,流程类,错误的数据维护流程,人为调整数据流程,数据稽核流程,决策是否正确,系统建设成败,系统保障,管理措施,28,数据质
15、量管理工具,监控,检查,报告,处理,总结,数据源,数据源,ETL工具,轻度汇总层,高度汇总层,外部应用,外部应用,数据服务总线,抽取,转换,装载,汇总,汇总,抽取,抽取,监控点,监控数据,质量规则元数据,规则匹配计算,质量报告,质量报告主要包括报告时间、报告标题、报告类型、告警类型、严重级别、报告内容等,质量问题工单,质量维护流程,质量维护流程,质量总结功能,质量月报表,质量日报表,接口质量评估,数据质量管理措施,职责,文档,数据质量管理小组,流程,制定数据质量检测规则标准 制定数据质量管理、保障、控制和维护流程 监控数据质量问题处理的整 个流程并进行结果评估.,源系统数据质量状况月报,数据中
16、心数据质量状况月报,数据质量影响报告,数据质量评估报告,.,数据需求变更控制流程数据质量事件处理流程数据质量报告管理流程数据源接口评估流程.,数据质量管理工具,质量异常监控,30,质量异常处理,质量情况月度报表,议程,数据仓库概念及由来基本概念产生背景数据仓库搭建数据整合数据建模数据管控3.Oracle数据仓库产品介绍,广州市品高软件开发有限公司,32,Oracle 商务智能架构,其它,Oracle Data Integrator,Oracle DB 10gOracle Essbase,OracleBIEE+,广州市品高软件开发有限公司,33,Oracle BIEE Architecture,广州市品高软件开发有限公司,34,BIEE的缓存机制,BIEE的表示服务,表示层,物理层,语义对象层,用户角色、偏好简化视图逻辑SQL接口,维度层次结构度量计算聚合规则时间序列,映射物理数据连接模式,跨任何数据源,一次建模,随处部署,一致的业务度量、指标、计算定义,基于角色的信息视图,数据仓库,OLAP数据库,广州市品高软件开发有限公司,36,思考&FAQ,我们系统的数据库设计是星型还是范式?我们系统的数据质量管理现状怎样,后续有哪些优化的空间?为什么即席查询要构建宽表?数据仓库与当前的热门技术-大数据有什么联系和异同?关系型数据库的缺点是什么,