Pentaho Data Inegration 5.0.3 使用教程初阶0328.ppt

上传人:laozhun 文档编号:2361767 上传时间:2023-02-15 格式:PPT 页数:79 大小:4.73MB
返回 下载 相关 举报
Pentaho Data Inegration 5.0.3 使用教程初阶0328.ppt_第1页
第1页 / 共79页
Pentaho Data Inegration 5.0.3 使用教程初阶0328.ppt_第2页
第2页 / 共79页
Pentaho Data Inegration 5.0.3 使用教程初阶0328.ppt_第3页
第3页 / 共79页
Pentaho Data Inegration 5.0.3 使用教程初阶0328.ppt_第4页
第4页 / 共79页
Pentaho Data Inegration 5.0.3 使用教程初阶0328.ppt_第5页
第5页 / 共79页
点击查看更多>>
资源描述

《Pentaho Data Inegration 5.0.3 使用教程初阶0328.ppt》由会员分享,可在线阅读,更多相关《Pentaho Data Inegration 5.0.3 使用教程初阶0328.ppt(79页珍藏版)》请在三一办公上搜索。

1、Kettle使用教程初阶德昂信息技术(北京)有限公司,Kettle 简介,Kettle能做什么,Kettle实例Demo,提纲,参考资料,Kettle是什么,Kettle是一个开源的ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)项目。项目名很有意思,水壶。按项目负责人Matt的说法:把各种数据放到一个壶里,然后呢,以一种你希望的格式流出。,最新版已经被整合进Pentaho Open Source BI EE,改名Pentaho Data Integration。下载地址:http:/最新版5.0.4,Kettle安装与设定,首先要安装JDK并设定环境

2、变量path包含JDK_Path/bin。,运行安装文件,安装kettle到指定目录,例如:C:Program Filespentahodesign-toolsdata-integration。,三个可执行文件:Spoon 启动Kettle GUI Kitchen 命令行执行Kettle 作业 Pan 命令行执行Kettle 转换,单击安装后的桌面图标,将运行Spoon,启动Kettle GUI,Kettle简介,Kettle能做什么,Kettle实例Demo,提纲,参考资料,Kettle的主要功能,1.转换 Transformation.ktrETL的所有操作2.作业 Job.kjb定时执行

3、,可以包含多个转换3.模型 Model数据 建模,便于交流,Kettle的其他功能,Instaview用于从混合大数据集中发掘想法.,转换 Transformation 概览,DB 连接Steps(步骤)Hops(节点连接)数据库分区 schemas子服务器Kettle集群schemas,转换 Transformation 详细,Hops(节点连接):result 或 false,Transformation 核心对象,输入 Input,转换与应用,流程,脚本,查询,连接,数据仓库,检验,统计及Data Mining,Big Data,Agile,加密,Palo,OpenERP及作业,映射,批

4、量 加载,内联,实验,不推荐的及历史,作业Job,DB 连接,作业项目(转换),子服务器,Job 核心对象,文件管理及条件,脚本,批量加载,XML和Big Data,应用,资源库,文件传输及文件加密,其他,Kettle简介,Kettle能做什么,Kettle实例Demo,提纲,参考资料,Kettle实例Demo,Demo 1:数据库数据复制Demo 2:数据库数据转换输出到txtDemo 3:txt 文件输入到数据库Demo 4:设定Job定时执行Demo 5:整合Salesforce数据Demo 6:整合AWS S3 文件数据,Kettle实例Demo 1:准备工作,安装SQL Server

5、 2008 R2创建数据库 TestA-建立一个测试的用户表create table usersA(id int not null,userid varchar(50)not null,username varchar(200)null)-插入3条记录insert into usersA values(1,lisi,李四);insert into usersA values(2,zhangsan,张三);insert into usersA values(3,lisi,李四);,创建数据库TestB-建立一个测试的用户表create table usersB(id int not null,u

6、serid varchar(50)not null,username varchar(200)null)实例Demo 1 完成的功能是将数据从TestA数据库的usersA表以插入/更新的方式复制到TestB数据库的usersB表。,Demo 1:浏览数据库连接,新建转换,内置AgileBI的DB连接,Steps和Hops为空,在AgileBI上单击右键,数据库浏览,可以查看数据库中的对象,并进行操作,Demo 1:创建数据库连接,在DB连接上右键选择新建,直接打开数据库连接属性设置,或新建数据库连接向导,打开向导,一步一步填写属性,Demo 1:填写数据库属性,Demo 1:测试数据库连接,

7、Demo 1:创建表输入,核心对象输入中,选择表输入,鼠标拖至编辑区,编辑属性,Demo 1:创建插入/更新,核心对象输出中,选择插入/更新,鼠标拖至编辑区,编辑属性,Demo 1:连接表输入与插入/更新,在【表输入】上同时按住shift键和鼠标左键滑向【插入/更新】,这样建立两个步骤之间的连接,单击运行按钮,设置参数后,启动这个转换:,Demo 1:保存转换文件,转换执行前,如果有改变,会提示保存转换到文件,ktr或xml格式:,Demo 1:执行结果,如果出现错误,请检查相应步骤。可以点击执行历史,性能图,Metrics及Preview data查看其它数据。,Demo 1:创建Job,新

8、建Job,DB连接包含缺省DB,作业项目为空。,从核心对象通用中拖出Start到编辑区,可以设定此Job运行的属性。,Demo 1:加入转换(也可以加入作业),从核心对象通用中拖出转换到编辑区,将start和转换连接起来。,双击转换,可以选择保存的转换文件,并有高级,设置日志,位置参数,命名参数等多项属性设定。,Demo 1:选择转换,选择前面保存的ktr 转换文件:,Demo 1:执行Job,单击运行按钮,启动执行作业,填写相应参数后,点击执行:,Demo 1:保存Job,Job执行前,如果有改变,会提示保存Job到文件,kjb或xml格式:,保存的Job文件,可以在创建Job时以加入作业的

9、形式引入,形成Job的嵌套调用。,Demo 1:Job 执行结果,如果出现错误,请检查相应步骤。可以点击历史,Metrics查看其它数据。,Demo 2和Demo3:准备工作,创建或恢复SQL Server数据库etltest,包含如下源表及目标表:,Demo 2 功能:根据客户,帐户,交易表中的数据,生成对应的数据文件Demo 3 功能:将数据文件可以导入到对应表中,Demo 2:转换概览,可以从这里下载etltest的数据库备份文件以及这个转换的ktr文件:http:/,备注:直接导入的ktr文件如果无法运行,报错的话,重新创建一遍后就可以了。,Demo 2:表输入及表查询,Demo 2:

10、过滤记录,根据条件,执行后续不同的Step,Demo 2:根据过滤条件增加常量,根据条件,定义变量custype_cn,对其赋值,并将值传递给常量Value。True或FalseStep同理。,Demo 2:输出到文件,Demo 2:运行,输出到文本文件:,Demo 3:概览,两个步骤:文本文件输入表输出,Demo 3:文本输入,Demo 3:表输出,设定从文本字段到数据库表字段的映射。,Demo 3:运行,Demo 4:Job 概览,Demo 2实现了对数据库数据的处理,并输出到文本文件;Demo 3实现了从文本文件输入到数据库表。Demo 4建立一个Job把前面两个转换合并到一起执行。,D

11、emo 4:运行,Demo 4:创建windows Bat,echo off if%1=h goto begin mshta vbscript:createobject(wscript.shell).run(E:ETL%nx0 h,0)(window.close)&exit:begincd C:Program Filespentahodesign-toolsdata-integrationC:kitchen/file=E:ETLETLTest.kjb/level=Basic/logfile=E:ETLMyTest.log,备注:Begin 以前的代码用于隐藏自动运行时的黑窗口 ETLTest.

12、kjb是Demo4 保存的Kettle job 文件。,Demo 4:Kitchen 运行参数(版本差异),Demo 4:设定windows Schedule Job,上面为Windows 7系统下的设定,其他系统请做相应改变。,Demo 5:注册Salesforce账户,注册30天免费试用Salesforce账户https:/,Demo 5:Reset Security Token,注册成功后的Salesforce账户,只能用于网站登录。如果需要使用API调用,需要Security Token。新注册用户没有Security Token,所以需要重置。系统会将Token发到账户名邮箱。,登录

13、Salesforce,选择My Settings:,单击Personal Information,Reset My Security Token,Demo 5:创建Salesforce数据,登录到Salesforce,快速创建三个Account数据,用于测试。,Quick Create数据完成后,还可以编辑,增加更多栏位。,Demo 5:创建SQL Server数据表,CREATE TABLE dbo.SalesforceAccount(AccountID nvarchar(50)NOT NULL,AccountName nvarchar(100)NULL,WebSite nvarchar(1

14、00)NULL,Phone nvarchar(50)NULL,Address nvarchar(250)NULL,Rating int NULL)ON PRIMARY,在ETLTest 数据库上创建SalesforceAccount表:,Demo 5:创建转换,增加数据库连接,创建一个SFTransfer的转换,加入到ETLTest的数据库连接DW:,Demo 5:建立转换,这个转换分四步,首先从Salesforce抓取Account数据,然后对Rating进行值映射,之后存入数据库,最后输出到文本。,Demo 5:Salesforce 输入连接,从核心对象输入中拖出Salesforce输入,

15、加入转换,设置其连接属性:,输入Salesforce的用户名,密码中输入password和security token,然后测试连接ok。,Demo 5:Salesforce 输入栏位选择,在Fields 属性页,单击GetField,获取所有栏位,选择需要输入的栏位:,Demo 5:配置值映射,由于Salesforce的Account数据中,Account Rating 是枚举字符串Hot,Warm,Cold,而我们的数据库表定义的Rating为整型,所以需要做值映射。从核心对象转换中,拖出值映射,设定属性:,Demo 5:配置表输出,在核心对象输出中拖出表输出,设置其属性,勾选指定数据库字

16、段,设置栏位映射:,Demo 5:文本文件输出设定,从核心对象输出中拖出文本文件输出,设置文件属性及字段映射:,Demo 5:运行,Demo 6:注册AWS Account,注册亚马逊账户,从亚马逊网站,sign in进入,首先提供一个电子邮箱,然后选择 I am a new customer,Sign in,输入相关信息,创建账户:,Demo 6:开通S3应用,并上传文件,注册AWS Account必须提供信用卡账户,然后必须提供电话激活。感觉挺麻烦的。账户激活后登录进去,首先要创建Access Key和Secret Key,后面程序访问时会用到。然后激活S3 service服务,创建一个C

17、loudTesting的bucket,上传两个csv文件:,Demo 6:创建ETLTest数据表,创建两张表,Trade_all2和前面demo中用到的trade_all结构一样,用于存储上传到AWS S3的前面Demo 2输出的文本文件。创建表 dictionary用于存放上传到AWS S3的dictionary.csv文件的数据。CREATE TABLE dbo.dictionary(field varchar(50)NULL,type varchar(50)NULL,description varchar(50)NULL,domain varchar(50)NULL,object va

18、rchar(50)NULL)ON PRIMARY,Demo 6:转换概览,这两个转换都很简单,包括一个S3文件的输入,和一个表输出。,Demo 6:配置S3文件输入,从核心对象输入中拖出S3 CSV输入,设定属性:,输入Access Key和Secret Key,选择Bucket,浏览选择文件,下面会显示字段列表(缺省第一行为header),Demo 6:配置表输出,同Demo 5 添加到etltest的database连接DW。从核心对象输出中拖出表输出,勾选指定数据库字段,配置数据库字段映射:,Demo 6:运行,由于水平有限,所以S3 CSV的数据整合出现中乱码,尚有待解决。,Kettl

19、e是什么,Kettle能做什么,Kettle实例Demo,提纲,参考资料,部分名词解释,Arff Attribute-Relation File Format,Weka文件格式Avro 一种Json数据格式Cassandra 一套开源分布式NoSQL数据库系统CouchDB 一个开源NoSQL多主复制数据库ESRI Shapefile Environmental Systems Research Institute 地理信息文件格式Hbase 一个开源的非关系型分布式数据库(NoSQL),Hadoop 一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架HL7 MLL

20、P Health Level Seven Minimal Lower Layer Protocol 卫生信息交换标准LucidDB 一个为数据仓库目的建造的开源数据库Mondrian is an OLAP(online analytical processing)engine written in JavaMongoDB 一种文件导向数据库管理系统,由C+撰写而成LDIF LDAP Data Interchange Format Palo 一种开源的OLAP数据库Splunk hadoop日志检测工具SSH SSH2 Security Shell 用于远程登录unix,linuxS3 Simp

21、le Storage Service Amazon Web Service 文件格式Talend 一种开源数据管理平台Weka 一种开源的Data Mining 工具Xbase XBase family(for example,dBase III/IV,Foxpro,Clipper,and more)DBF files.Yaml 一种直观的能够被电脑识别的的数据序列化格式,Reference,一、ETL利器Kettle实战应用解析系列一【Kettle使用介绍】二、ETL利器Kettle实战应用解析系列二【应用场景和实战DEMO下载】三、ETL利器Kettle实战应用解析系列三【ETL后台进程执行配置方式】,德昂信息技术(北京)有限公司欢迎垂询010-82145320,010-,聚焦企业管理专注BI应用,本PPT中引用了多位德昂同仁及来自网络的资源,在此谨致以诚挚的感谢!,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 建筑/施工/环境 > 项目建议


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号