数据质量中心的设计与实现课件.pptx

上传人:小飞机 文档编号:3644532 上传时间:2023-03-14 格式:PPTX 页数:32 大小:1.88MB
返回 下载 相关 举报
数据质量中心的设计与实现课件.pptx_第1页
第1页 / 共32页
数据质量中心的设计与实现课件.pptx_第2页
第2页 / 共32页
数据质量中心的设计与实现课件.pptx_第3页
第3页 / 共32页
数据质量中心的设计与实现课件.pptx_第4页
第4页 / 共32页
数据质量中心的设计与实现课件.pptx_第5页
第5页 / 共32页
点击查看更多>>
资源描述

《数据质量中心的设计与实现课件.pptx》由会员分享,可在线阅读,更多相关《数据质量中心的设计与实现课件.pptx(32页珍藏版)》请在三一办公上搜索。

1、大数据时代的数据质量保障-数据质量中心的设计与实现,阿里巴巴-CDO数据平台事业部 雨玟,主要内容,大数据时代的质量难题数据质量中心架构设计数据质量中心的实践,阿里的数据中心CDO,大数据时代的质量难题,质量难题,在数据处理流程中在那一部分数据出问题,不知道?,不同系统间数据流通,是否有损失?,表记录数据波动,与上期同比波动或与固定数据一致性比较是否正常?,字段平均值,字段最大值,字段最小值,字段汇总值,字段空值个数,字段重复值个数,离散值,带业务过滤条件的数据波动,精确监控难,数据校验方法多样性难,平均值?方差?周期性?固定值?,字段的唯一值个数,质量保证历程,数据质量中心架构设计,数据质量

2、中心-Data Quality Center(DQC),产品介绍,整体设计核心内容,交互产品,GATEWAYS,数据传输通道/离线处理 平台,DQC HOOK,DQC EXECUTOR,数据质量WEB服务,DQC 规则/模板配置,DQC项目级管理,DQC 报告展现,任务及质量展现,离线处理 调度系统,整体设计架构示图,整体设计报警分级,整体设计规则分级,整体设计阻塞逻辑,Hive,HDFS,其他离线处理平台,多种数据传输通道,多种数据库存储,Shell,MR,应用之前,Hive,HDFS,Shell,MR,DQC,应用之后,其他离线处理平台,多种数据传输通道,多种数据库存储,DQC在数据生态链

3、中的位置,整体设计Y轴,DB1,DB2,DB3,S1,DW,S2,OLAP,OLAP,S3,report,数据传输,实时传输,business,business,S4,数据传输,整体设计X轴,DW,数据传输,DB1,数据质量中心的实践,示例举例1,某应用源数据s*表,发现“当日旺旺在线时长”有24小时的情况,示例举例2,某应用订单交易明细表的订单总金额相比昨天波动-98.6%,Sum(amount),RULE,DataRun,Get ODPSData,Data Results,Check,Historical samples,示例举例3,某日志统计r*表,发现存在 pv=0 而 uv0 的数据,方法1:如举例1图方法2:如举例3图,应用情况,应用情况,应用优点,DQC,后续发展,支付宝,ICBU,淘宝,天猫,一淘,阿里金融,阿里云,CBU,CDO,聚划算,Hive,HDFS,Shell,MR,DQC,后续发展,其他离线处理平台,多种数据传输通道,多种数据库存储,后续发展,智能阈值算法体系可热插拔的规则与校验服务默认监控监控前移,Q and A,Q and A?,Thanks!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号