ETL数据抽取课件.ppt

上传人:牧羊曲112 文档编号:1455668 上传时间:2022-11-27 格式:PPT 页数:22 大小:979KB
返回 下载 相关 举报
ETL数据抽取课件.ppt_第1页
第1页 / 共22页
ETL数据抽取课件.ppt_第2页
第2页 / 共22页
ETL数据抽取课件.ppt_第3页
第3页 / 共22页
ETL数据抽取课件.ppt_第4页
第4页 / 共22页
ETL数据抽取课件.ppt_第5页
第5页 / 共22页
点击查看更多>>
资源描述

《ETL数据抽取课件.ppt》由会员分享,可在线阅读,更多相关《ETL数据抽取课件.ppt(22页珍藏版)》请在三一办公上搜索。

1、数据抽取2015年9月2 日,数据分析事业部 舒礼明,2022/11/27,1,目录:ETL定义ETL过程问题分析现状分析,培训目的:掌握ETL基本概念了解ETL的问题以及现状,2,目录:ETL定义ETL过程问题分析现状分析,3,ETL定义,ETL定义涉及以下内容:ETL 定义ETL定义:数据的抽取(extract)、转换(transform)、装载(Load)的过程。ETL 前提 确认ETL范围:通过对目标表信息的收集 选择ETL工具:a.考虑资金 b.运行的平台、对源和目标的支持程度、数据抽取管理监控功能、对异常情况处理。 确认解决方案:抽取分析、变化数据的捕获、目标表的刷新策略、数据的转

2、换以及数据验证ETL 原则 1.尽量对数据进行预处理。保证数据的安全性、集成与加载的高效性。 2.ETL的过程是主动的“拉取”,而不是从内部“推送”,起可控性将大为增加。 3.流程化的配置管理 4.数据质量的保证 :正确性、一致性、完成性、有效性、可获取性,4,目录:ETL定义ETL过程问题分析现状分析,5,数据抽取数据清洗数据转换数据加载,ETL过程,6,ETL过程,7,ETL过程.数据抽取,8,ETL过程.数据抽取,数据来源文件系统、业务系统抽取方式根据具体业务进行全量或者增量抽取抽取效率将数据按照一定的规则拆分成几部分进行并行处理抽取策略根据具体的业务制定抽取的时间、频度,以及抽取的流程

3、,9,ETL过程.数据清洗,10,ETL过程.数据清洗,数据不缺对空数据、缺失数据进行数据不缺操作,无法处理的作标记数据替换对无效数据进行数据替换格式规范化将源数据抽取的数据格式转换成为便于进入仓库处理的目标数据格式主外键约束通过建立主外键约束,对非法数据进行替换或者导出到错误文件重新处理,11,ETL过程.数据转换,12,ETL过程.转换规则,数据合并多用表关联实现,大小表关联使用嵌套,大大表关联用join数据拆分按一定规则进行数据拆分行列互换排序、修改序号去除重复记录数据验证:sum、count、查询维度表实现方式A. 在ETL引擎中进行(SQL无法实现的)B. 在数据库中进行(SQL 可

4、以实现),13,ETL过程.数据加载,14,ETL过程.数据加载,15,目录:ETL定义ETL过程问题分析现状分析,16,问题分析,数据异常将错误的信息单独输出,继续执行ETL,错误数据修改后再单独加载中断ETL,修改后重新执行ETL原则:最大限度接收数据环境异常对于网络中断等外部原因造成的异常,设定尝试次数或者尝试时间,超数或超时后,由外部人员手工干预其他异常例如源数据结构改变、接口改变等异常情况,应进行同步后,再装载数据,17,ETL设计规范.开发,ETL开发首先要确定的是流程的执行顺序以及条;其次是具体表映射关系的定义,在数据库性能允许的情况下,尽可能使用sql语句进行处理。对于具体映射

5、和流程的命名,应该以维护方便为前提:映射:以目标表名命名流程:以流程要实现的功能命名不允许使用临时的SQL语句操作数据库,必须编写好的SQL脚本或存储过程限定手工干预只能运行某个流程,不允许运行单个过程每一项手工操作必须留下记录,18,ETL设计规范.设计,SQL语句应书写规范,关键字全部大写,同时应增加注释。对于自定义咧,需要按照公司规范来命名,eg,19,常见问题的分析,字符集问题缓慢变化维度处理增量、实时同步的处理错误数据的检测变换数据的捕获抽取异常中止的处理,20,ETL 工具厂商,目前ETL工具来源:数据库厂商自带的ETL工具,如OWB等第三方工具提供商,如informatic等开源ETL工具,如kettle,21,谢谢观看!,22,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号