《元数据及数据质量介绍ppt课件.pptx》由会员分享,可在线阅读,更多相关《元数据及数据质量介绍ppt课件.pptx(39页珍藏版)》请在三一办公上搜索。
1、元数据及数据质量介绍,20160303,议程内容,数据管控元数据数据质量问题与讨论,2 11/17/2022,Confidential,随着数据仓库的不断成长,你能回答下面的问题吗?,3 11/17/2022,源系统发生变化后数据仓库到底需要修改多少程序?发生了多少次变化?从年初到现在哪些系统变化最频繁?某个ETL加工程序到底经过多少开发人员的修改?每次改动的内容是什么?哪个源系统的数据质量最好?哪个小组开发质量最高?哪些字段采用了公共代码?代码映射规则是什么?哪些字段是需要做变形的敏感字段?在不同环境下同步的变形策略是什么?,企业级信息管控体系,企业级信息管控战略性和策略性管理,项目所有权和
2、优先次序设定数据管理界定日常持续创建、使用和废止数据的职责元数据管理用来描述如何、何时和由谁来负责数据的接收、创建、访问、修改和格式的数据数据标准数据的业务、技术规范性文档数据质量数据满足特定使用的适用度,包括完整性和业务规则遵从性数据整合对各主题进行数据清理、转换、整合和丰富的流程数据安全与隐私各业务主题对安全性和保密性的要求,包括审计能力主数据管理数据资产以及定义企业运营的关系,人员、流程和技术,企业级信息管控,数据管理,主数据管理,数据质量,元数据管理,数据模型&业务视图,数据安全与隐私,数据整合,数据标准,4 11/17/2022,数据管控实施的三个方向,5 11/17/2022,Co
3、nfidential,平台:数据管控团队的工作必须建立在自动化的高效的信息平台。接口:企业的信息系统之间应按照数据管控接口规范进行交互。模板:信息系统向数据管控平台提交数据可以通过标准模板。,技术,流程:根据管控要求建立可执行工作流程,并严格执行工作流程。规范:企业的各工作岗位有数据管控团队制订的工作规范。制度:企业须建立数据管控的制度。,流程,组织: 建立企业级的数据管控团队是数据管控的基础。角色:团队中按照管控的内容进行岗位的设置,即角色。职责:不同的角色拥有详细的工作职责。,组织,数据管控特点,企业的分析型应用发展到一定的成熟度,就能发现数据管控的价值。数据管控是跨系统、跨部门的管理。数
4、据管控必须有先进的管理方法论支持。数据管控是需要长期的、渐进式的工作。数据仓库是执行数据管控理想的平台。,6 11/17/2022,Confidential,企业数据管控成熟度,7 11/17/2022,Confidential,成熟度1:未知级,成熟度2:被动级,成熟度3:主动级,成熟度4:预测级,数据管控成熟度模型,我们建立了企业数据管控成熟度模型,该模型能够使企业识别和量化数据管控的成熟度,为企业的下一步数据管控提供指导。你的企业处在哪一级?Unaware:未知的Reactive:被动的Proactive:能动的Predictive:预测的,8 11/17/2022,Confidenti
5、al,回报,人员、流程、技术的整合程度,风险,数据管控平台架构,Database,数据管控知识库,Metadata,DQ,DS,ETL,数据管控平台 B/S应用,DDL,Excel,XML,Source Data,SQL,登录,浏览,搜索,管理,下载,分析,管理,安全,Mart,PDM,Stage,DBA,Admin,Application Platform (TAP),业务单元,MVC,独立单元,系统管理,数据标准,元数据,数据质量,需求管理,数据安全,灵活查询,数据管控平台 C/S应用,ETL,DBC,Perl,开发,应用,需求开发,SDM,信息调研,版本控制,测试,ETL开发,工作模板,
6、控制,批量,加工,数据管控平台应用,10 11/17/2022,Confidential,议程内容,数据管控元数据数据质量问题与讨论,11 11/17/2022,Confidential,什么是元数据,定义官方定义(CWM):描述数据的信息。Metadata is structured information that describes the characteristics/attributes of a data element. 数据分析界定义:分散在企业中的关键数据描述。Metadata describes critical elements of data scattered ac
7、ross the organization.通俗的说:如果数据仓库是一座城市的话,元数据就是城市的地图。,12 11/17/2022,Confidential,数据仓库,元数据,元数据的国际标准CWM,公共仓库元模型(CWM: Common Warehouse Metamodel) 是为数据仓库及商业智能环境间方便地交换元数据而制定的一个标准,其主要目的是在异构环境下,帮助不同的数据仓库工具、平台和元数据知识库进行元数据交换。CWM模型为数据仓库和商业智能(BI)工具之间共享元数据,制定了一整套关于语法和语义的规范。它主要包含以下四个方面的规范:CWM元模型(Metamodel):描述数据仓库
8、系统的模型; CWM XML:CWM元模型的XML表示; CWM DTD:DW/BI共享元数据的交换格式;CWM IDL:DW/BI共享元数据的应用程序访问接口(API)。,13 11/17/2022,Confidential,CWM标准涉及到的元数据模型结构,数据仓库为什么需要元数据管理,普通应用系统为什么不需要元数据管理?表的数量少数据加工简单数据来源单一访问方式单一交钥匙的应用数据仓库为什么必须元数据管理?上下游系统多,变更频繁数据加工复杂用户访问方式复杂维护周期长某银行的DW数据举例:上游系统60个,下游系统20多个,仓库内部的表12000多个,运行的ETL任务6000多个,每个月都有
9、新版本上线,14 11/17/2022,Confidential,元数据架构,功能清单元数据,16 11/17/2022,Confidential,元数据,浏览,元数据地图浏览元数据统计信息浏览全局版本比对DW来源系统元数据DW集市元数据DW/PDM元数据LDM元数据ETL、映射信息元数据数据文件元数据用户查询样例元数据对象版本查看与比对影响分析血缘分析元数据质量分析孤立对象分析全局检索用户注释元数据下载,批量元数据加载元数据缓冲区管理元数据版本回滚业务元数据管理源系统元数据管理DW集市元数据管理DW/PDM元数据管理LDM元数据管理ETL元数据管理数据文件元数据管理查询样例管理元数据上传元数
10、据模板管理元数据桥接器管理版本管理,管理,执行,元数据自动更新模块ETL相关数据同步SQL解析处理模块,元数据浏览的灵活性,元数据对象关系呈立体网状看本体查看对象本身定义,例如表的名称、注释等信息。向上看查看对象所属对象的定义,例如表所归属的数据库。向下看查看对象包含的对象的定义,例如表所包含的字段、索引等。向前看查看对象的上游信息对象,例如该表的数据的来源表。向后看查看对象的下游信息对象,例如该表的数据的目标表。看历史查看对象的历史变更信息。例如该表在上一个版本中的内容。看友邻查看与对象有关系的其他对象,例如涉及该表的脚本等信息。,17 11/17/2022,Confidential,历史对
11、象,所属对象,包含对象,目标对象,来源对象,本体对象,核心价值:元数据分析功能,18 11/17/2022,Confidential,影响分析向下分析一个元数据对象对下游对象的影响。血缘分析与影响分析的方向相反,向上追溯一个对象的数据来源。全链分析从某对象出发,向上下游双方向进行分析。活力分析分析一个数据库对象被访问的频度。孤立对象分析分析数据准备区(SData)、物理模型区(PData)中的孤立元数据对象。一致性分析定期分析元模型中的元数据是否与实际情况一致。版本比对选择任意两个时点的版本进行比对。质量分析分析数据仓库中的元数据的质量。,彻底解决影响/血缘分析放大的问题,由于DW的LDM大多
12、采用三范式建模,因此LDM的核心表会有大量的来源与目标,一旦做影响分析,结果就会扩散放大。最终导致分析结果无法使用。采用智能SQL解析器模块,能分析数据的真实来源与目标。此项技术是业界领先的。,19 11/17/2022,Confidential,非精细化解析结果,精细化解析结果,系统简要介绍元数据,20 11/17/2022,Confidential,选择的元数据管理的10个理由,完美结合数据库的产品,充分利用数据库性能。完美结合的数据仓库实施方法论,贴合项目实际。是CWM规范制定者之一,符合业界标准的元数据产品。能快速动态生成全域元数据地图,DW信息一目了然。彻底解决影响/血缘分析放大的问
13、题。能够直接导入LDM,并以图形化显示。是企业级数据管控架构的基础。元数据驱动数据仓库开发过程,支持模型设计、ETL开发。可扩展性好,能够无缝实现企业级元数据管理。功能强大,性能卓越,性价比高。,21 11/17/2022,Confidential,议程内容,数据管控元数据数据质量问题与讨论,22 11/17/2022,Confidential,中国金融行业数据质量管理的发展历程,23 11/17/2022,Confidential,2003,2006,2008,2010,1.简单的检查脚本。2.少量的技术和业务检查规则。3.没有专门的数据质量检查团队,包含在ETL工作中。4.被动式检查,救火
14、队式工作。,1.第一次开发出数据质量检查管理系统,并且在建行DW部署。2.大量的技术检查,少量的业务检查。3.有了专门的质量小组。,1.数据管理平台开发完成,数据质量与元数据、数据标准等集成在一起,并在建行、工行部署。2.大量的技术和业务检查规则。3. 主动的技术检查;被动的业务检查。,1.完善数据管理平台。2.抽象出规范化的金融行业的业务检查规则。3:推动质量检查的闭环工作。4:实现主动式的业务检查。,数据质量管理的指标,我们需要什么样的数据完整的所需求的数据是否都已经获得一致的从不同应用获得数据能否保持一致有效的数据是否容易理解而不被曲解准确的数据是否在任何时间点都反应了数据的真实情况相关
15、的有关联的数据之间的关系是否准确有效及时的从信息产生到数据可用需要多长时间,24 11/17/2022,Confidential,数据质量问题成因鱼骨图分析,数据质量问题来源广泛、复杂,25 11/17/2022,Confidential,数据质量问题,技术,人,流程,信息,培训,管理,激励,上岗培训,进修,目标,责任心,优先级,反馈,奖励,元数据,模型,定义,加工,完整性,精确性,度量,有效性,数据传递,及时性,漏传,基础设施,OS,网络,硬件,实施,复查,产品,性能,缺陷,测试,配置,覆盖率,数据,变化频度,流程,设计,优化,架构,设计,工具,数据质量问题气泡图分析,26 11/17/20
16、22,Confidential,项目组,数据管理团队,企业,客户,可控 范围 不可控,技术 质量性质 业务,唯一性,完整性,管理,客户信息,源系统,系统调研,样本数据,开发,测试,外键,主键,架构,值域,业务规则,模型,有效性,相关性,沟通,及时性,数据质量改进流程 PDCA,PDCA环简称Deming Cycle,由质量大师戴明发明P计划 D执行 C检查 A行动没有形成这个闭环,就不会有质量的改进根据PDCA原理,设计出适合企业的质量提升流程,27 11/17/2022,Confidential,计划,PDCA环,执行,检查,行动,PDCA例子P:在众多的质量问题中选择某一个问题准备改进。D
17、:在部分分支机构执行质量改进方案。C:通过DW反馈评估质量改进效果。A:制定数据质量改进指引,下发全部机构,并监督改进情况。,戴明名言: 质量无须惊人之举。每个人都有客户,如果他不知道自己的客户是谁,也不知道客户需要的是什么,那么他还没有了解自己的工作。质量提高不是来自于检验而是来源于过程的改进。企业买不到高质量的方法。,质量以满足客户的需求为原则,数据流转概述:核心系统的数据文件通过文件传输平台传输到数据仓库,数据仓库加工数据后传送给数据集市。问题:数据集市报告数据仓库传送的数据有错误,但是据数据仓库的技术人员反馈,以前出过类似情况,这可能是核心系统下数错误,也不排除文件传输平台漏数的情况,
18、因此,数据集市应该就这个质量问题找谁?,28 11/17/2022,Confidential,核心系统,文件传输平台,数据仓库,数据集市,A:找数据仓库B:找文件传输平台C:找核心系统D:按顺序全找,正确答案:A企业要建立起下游即用户,用户永远是第一的原则,任何系统都要接受下游投诉并妥善处理的原则。,完善开发管理流程,DW相关应用开发遵守软件开发管理流程建立三套隔离环境:开发及SIT测试、UAT测试、生产,29 11/17/2022,Confidential,数据管控的数据质量组织角色与职责,数据质量组组长(1)数据质量组个人工作计划收集,制定中长期工作计划定期向项目经理汇报数据质量治理情况协
19、调本组与数据仓库各小组之间的工作数据质量专家顾问(1)为数据质量工作制定中长期的建设规划熟悉模型建设,应用开发,为数据质量组工作提供指导审核数据质量组组间的工作联系单和检核脚本质量问题外部联络与追踪人员(1)数据质量组与源系统工作联系单的收集与跟踪数据仓库运维过程中事故记录与日常问题的整理数据质量知识库的维护日常检查人员(1-2)每日数据记录,代码检查,主键重复等日常检查的结果查看与报告数据质量运行平台系统的维护专项检查人员(1-2)处理临时性的协同工单数据质量问题检查专项的数据质量问题治理检查数据仓库的数据治理与改进,30 11/17/2022,Confidential,数据管控的数据质量问
20、题治理流程,31 11/17/2022,Confidential,数据管理平台数据质量管理子系统架构,32 11/17/2022,Confidential,数据质量管理的手段与工具,数据质量手段分类数据收集手段数据分析手段文档技术手段结果展现手段问题与改进手段QA控制手段,33 11/17/2022,Confidential,数据质量技术与工具数据质量指标积分卡数据质量管理平台(含元数据、数据标准)用户调查表、沟通成本分析、问题起源分析、时间行动分析评估与选择、头脑风暴、优先级技术过程文档、项目管理图表(清单、柱图、原因效果矩阵图、帕累托图、数据流程图)质量回顾、质量循环知识库、论坛培训,数据
21、质量指标积分卡,34 11/17/2022,Confidential,- Summary Scorecard Example -,功能清单数据质量,35 11/17/2022,Confidential,数据质量,浏览,检查任务运行情况日期汇总检查任务运行情况类型汇总单个检查任务执行情况图表我关注的检查任务ETL错误浏览数据质量清洁度指标浏览检查类型清单与明细浏览检查任务清单与明细浏览检查任务与元数据关系浏览检查任务执行结果浏览错误数据浏览与下载质量登记簿浏览全局检索用户注释,检查类型管理检查任务管理数据质量清洁度指标管理检查任务批量加载检查任务脚本在线测试质量登记簿管理关注任务管理检查任务批量
22、参数设置元数据变更影响分析ETL错误与质量登记簿关联检查任务执行结果与质量登记簿关联,管理,执行,ETL嵌入模块批量运行模块离线检查模块应用服务器定时执行模块自动报表,系统简要介绍数据质量,36 11/17/2022,Confidential,某金融客户的部分质量检查规则,37 11/17/2022,Confidential,选择的数据质量管理的10个理由,完美结合数据库的产品,充分利用数据库性能。完美结合的数据仓库实施方法论,贴合项目实际。在多个行业,多个客户,有多年的数据质量治理经验。不是简单的一个工具,而是一整套方法论。丰富的技术检查指标,能够快速批量部署。完整的业务检查模板,数据质量治理流程。是企业级数据管控平台的重要组成部分。数据质量管理已经集成在数据仓库开发过程之中。可扩展性好,能够无缝实现企业级数据质量管理。功能强大,性能卓越,性价比高。,38 11/17/2022,Confidential,问题与回答,39 11/17/2022,Confidential,