《Informatica完全快速学习手册.docx》由会员分享,可在线阅读,更多相关《Informatica完全快速学习手册.docx(29页珍藏版)》请在三一办公上搜索。
1、iNFORMATICA1 Informatica 概述32 安装 Informatica8.6.1 32.1 服务端安装32.2 客户端安装73 配置管理服务器93.1 创建知识库和集成服务93.2 客户端到集成服务端的连接124 PowerCenter Designer 学习134.1 概念和基本定义134.2 Mapping设计和组件的使用154.2.1 实例一:聚合抽取.154.2.2 实例二:取TOP前三条记录164.2.3 实例三:抽取XML源.94.3 WorkFlow的设计和使用204.3.1 创建 Session204.3.2 设计 WorkFlow224.4 Reposito
2、ry Manager231 Informatica 概述Informatica 一直致力于为客户提供具有强大的元数据管理、数据集成和个性化分析递送功 能的世界通行标准的统一数据服务平台。Informatica的基础设施产品以可伸缩的、可扩展 的企业级数据集成平台为特点,并广泛支持来自Informatica和其他的领先商务智能提供商 的数据仓库基础设施和分析型应用软件的开发和管理,提供元数据管理解决方案,帮助企业 集成、优化、审核信息资产以提高运营效率,增加客户收益,取得竞争优势。DInfoxnjat icd详见文档:,H:2 安装Informatica861渗 pcS6L_cl ient_wi
3、 n 3 2_xS6.zip 渗 pcS6L_H otFix8_Cli enl.zi p 渗 pcS6L_H otFix8_win32_xB6.zip渗 pcS6L_wi n 3 2_i86.zi p这里以 Informatica8.6.1 为例:2-1服务端安装找到安装目录 pc861_win32_x86.zipServerWindowsDisk1InstDataVM 下 inE-tsll.exe点击安装选择安装语言,这里以中文版为例点击下一步,并选择安装PowerCenter8.6.1必须选择事先准备好的安装密匙选择安装路径iNFORMATICA送择安装目录:H Informatica P
4、owerCenter 8.6.1安装目录液安许安/ # # /安装目录卜pm现宣宾装前摘理节国瘴0宾装后摘翌C: Mnformati caPcwerCenterS. 6. 1- 恢复默认值淞. 取消(C)帮助(H)上一步(P)HTTPS配置,配置管理控制台与配置管理器的安全通信(如果没有使用该端口就采用默认)配置好Informatica域并进行下一步,取掉为特定用户启动Informatica Services,点击完成安装选择安装设置安装路径安装完成后可以看到包含的所有工具31创建知识库和集成服务接下来我们主要是配置知识库管理服务器,PowerCenter数据整合引擎是基于元数据 驱动的,提供
5、了基于元数据驱动的元数据知识库(Repository),知识库是PowerCenter 的核心。在Informatica Services启动的的情况下,我们可以通过管理控制台来操作。Informstica PowerCenter 3.6.1Client.S-ervices_ 【nfcrnn日tic日 Orchestration Serj PowerCenier Administration (从控制台里我们可以看到很多选项,我们主要是创建存储库服务(Repository)和集成服务, 存储库服务(Repository)存储所有的ETL元数据,包括:源、目标表的物理和逻辑元数 据,ETL转换规
6、则,知识库用户权限,ETL任务运行历史信息等元数据。十痈苹炯陪忘:Dtnkain_lihaiLian-PC关间樨述,春翼门丈管,* Metadata Manager K#S Ret&rence Table Manager &AP BW服静黔 Web Services Hull=?库临首先我们创建一个用于测试学习的存储服务器,事先在Oracle中建好要用到的数据库此处如果无法创建成功有以下可能:1. 需要设置环境变量,将C:InformaticaPowerCenter8.6.1Serverbin;C:InformaticaPowerCenter8.6.1RepositoryServerbin;移
7、到 Path 最前边2. 代码页一定要如下选择MSSimplified Chinestj 知口取争就 GB 23i2-SOh 凯cochw 3.设置知库链接用的数据库用户要有DBA角色权限连接字符串设置为当前的Oracle服务名节点nodeO l_lihaiyuan-PC正在运行令关国if霍存储库腿舞以F顶的犊作状态创建内咨:质功 D D第1页,共70 M 保存 美国 存陆库服务在以独占握诚运行,话重Bf启动存儒犀服务以更改为普通模式。创建内容操作(在存储库学习测式用例库上)开始于05/06/2010 14:ig:09oDROP TABLE OPB_REPOSITDROP TABLE OPBS
8、UBJECTDROP TABLE OPB_PICDSCDROP TABLE OPB_SRC_FLDDROP TABLE OPB_SCHEMADROP TABLE OPB_SRCDROP TABLE OPB_SELINFODROP TABLE OPB_TARGDROP TABLE OPB_TARG_FLDDROP TABLE OPbZfLDLINKDROP TABLE OPB_TARGINDEXDROP TABLE OPB_TARGINDEXFLDDROP TABLE OPB_RTSEQDROP TABLE OPB_DBDDROP TABLE OPB_LOAD_SES5IONDROP TABLE
9、 OPB_LOAD_FILESDROP TABLE OPB_BATCH_SESSIONDROP TABLE OPBLOADjBATCH接下来创建集成服务,因为集成服务是依赖于知识库的,注意关联的存储库服务选择刚建好 的学习测试存储库,存储库默认要设置用户名和密码为:Administrator至次我们完成了服务端的基本配置,服务端可以对知识库备份和恢复等很多功能,也可以建 立其相应的服务,这里不再多述!3.2客户端到集成服务端的连接我们开发ETL要使用到PowerCenter Designer工具,详细的介绍在概述中有,接下我们配置好Designer与集成服务的连接:从客户端工具中打开 Powe
10、rCenter Repository Manager母 nforimatica PowerCenttrN-anajer从菜单上选择存储库配置域如下:这样就连接上集成测试用例库,选择学习测试用例库,从文件夹选项目创建文件夹,相当于在集成库下的一层子目录in iHum iLi m rilcfiui y- L-r 显片!J*存储库(母编辑查悬M 文件夫旧版本控制N 安全性分析:毒翱号启囹嘻llmlsl存储库导航器:I 存辟库学习测式用例库I asI-已瓣组白p基本组件用例学习”5枝迎置至此,打开PowerCenter Designer就可开发使用了Informatica学习快速入门文档4 Power
11、Center Designer学习4.1概念和基本定义最基本的ETL包括源的定义,目标定义,和映射,另外我们还可以创建可以重用的Mappleto 使用到的工具如下源分析器:毯*牛归国导蹑目标设计器:,注竺a段眇鹿映射设计:M边g必M 口 土传输件设计:涂b鼠剧蹒Mapplet 组件设计: 1:二 一 言/源分析器是用来定义源的结构,这里的源虽然是从某个数据库导出进来的表结构也可以是某 个XSD定义的XML结构等等,但是仅仅绑定了数据库类型,并不是指定了链接要从那个 数据库里抽取数据。这里我们从菜单可以导入表结构,Informatica提供了 ODBC的方式链 接多种数据源我们以一个DW事实表为
12、例:!, r- r- .5(Qi 耻姑;键名称数据类型长.:;:FEIBT_IOCUMEHT_CODEvarcharZ20;;:SHDULD_FAY _BOC UTflENT_CaDEvarcharE20i;:REPORT_MaNTH_IDrniiTiber (p _.6=:;:DUSSIHISSJARTNIR.IIrpjuibei- (p., s_)15:,:COHTRACT_AjcCOinn,_iDrnaiiiber l.p, sJIS;:;:COHTKACT_ID丘烦击巨F (p,. eIS;:TRADE_IDrmniber (p_.15:;:DErARTNEHT_IDmjnib e r
13、 (p,. fl15:;:COBSWZ_KINI)_IDrpjuiber (p., s)15:COHSUNI-TYPEJDrnuiiljer pf sJIS:;:READER_IDmaiTil: e r l.p , e J152::ENTER_M:C0 UKT_MOWT H_IDmjnibur (p_. zJ6:i : aWE_CHAEGEmjniber (p, z16:;:FA7MEirr_aWE_IDrniiTiber (p. sJ15:;;:CRTATE_DkTEdate19I3_j / /X /X /X/ X X J- / J X J- / J X J- / J X J- / J X
14、X / X X /jv jv jv jv jv jv jv jv / / / / / /Z同样我们可以定义目标结构,常规也是导入表结构,我们也可以在Mapping设计中自动创 建目标表结构,源定义和目标定义中,我们可以对导进来的表名以及表的结构进行修改以满足我们的设计需求,但是我们在WorkFlow中实现数据抽取中对应的源和目标要和此结构相 同,如果要满足变化的源和目标,可以通过Visio设计来转换为Mapping来实现。4.2 Mapping设计和组件的使用PowerCenter Designer通过Mapping来完成从源到目标的转换,Mapping设计器中包含了大量的转换组件尽句哪伽学程
15、江产P词碧FoF.3AL.UMsX-h- uM s 1=1关于组件详尽的说明,可以打开文档具体学习:口 .1 rtuisi uxukA t ior/itMiigirt档件详解.d用说明-rlwoc转换组件一般包含,转换、端口、属性、以及元数据扩展转换:可以对该转换更改名称和附加具体说明。端口:转换组件大都包含转换输入端口和输出端口以及特定的操作或表达式。属性:该转换组件的特定设置元数据扩展:下边以两个实例来讲解组件的使用4.2.1实例一:聚合抽取从源到目标,我们中间用聚合召组件,对OWE_CHARGE进行SUM并按几个维组来聚合,如下图:3_S3E1CPAE3fT_0WESpjice- Qua
16、lifier?A.HiZT_*3LClia)strinc-FEDfT_BLCUNm_CDII3 SHOm.PAZJJDCl.WEWT.CODE Hr in匚 FIPOJJJIOHTM-dccinal&V55Llffs_fAaTHER_LIileminalaJWTRACrjUZDDVKTJH如 m dmny_n rEAflI_ZD-dfiNnalDEPMrfNEMTJIDdrcmdraHsiflE_mro_iD亦航仇心OT!EUWITZP2lDdwmalREMERjD dec Indms_jUTDinrr_ffimi_iD DYE_CKAfM - dwinalPm_0lVEJHdecinalIT
17、REtrE_DkTEdfltv/tin迥皿T_MM . TRADE DEPAETNEWTJH CDHSUire_KI . CDHSUlNE_rT. READE 侦D E5i_理臼_uh 口雁-匚 jwSgeREnmjns.TBJlDE_IBMPMlFjSHTJDCaiEUMEJTW.miEWEJITF-.READEELID cun CDrejZJtt.是是是是是呈. EEFQRr_NLiMT.皿遇 GTRkHE_niinnTwlEFKaTMEUT IBnuiler i:iCDMSlfflEJCli.imher hCDKUHE_rTP.mnher IjMOEK_ID皿总(M.CHAEJjZmmb
18、erj从下图我们可以看到该组件端口中字段属包含:I、O、V、表达式、GroupBy等属性,对于 OWE_CHARGE字段我们仅设置输入,创建自定义属性端口 SUM_OWE_CHARGE,其表 达式为SUM(OWE_CHARGE),对于维度键勾选GroupBy,这样实现了细粒度到粗粒度的聚 合每种组件都有自己特定的属性和特定的端口属性,我们通过属性设置或表达式来实现组件的特性,不同组件的搭配来完成整个Mapping的设计4.2.2实例二:取TOP前三条记录源表数据ID1ID2SCORE!SCORE21312343245753455775q55ST77555373765551577551231B6
19、31234目标:取Scorel TOP前3条记录、和Score2 TOP前3条记录实现:对源表分别用两个Rank组件,Rank组件有分组排序取前N或后N条记录的功能,如下图. EaiLklnikx a1CDF bZ . EmiklTidtM-名称idlid2:C02fal-3cnieEKsnk_ijurc-fi -iC-ificlb) Swjtce Definition列夬M里一:idEmber & 5)i-52iLWibiEr (p, sj1Al(p, cj2 scoredmnber 0 5:3-idid*,iitsdi舀旧# k 噌1hS CDF b21 CDF *41. id】:iSKL
20、KanKUFC*HITSniiTije &jnlif icT名称 idl idZECUT4甘歙墨 de tsi&l daciialdecmlHH FM_1*tmu1_Tc?d3pH-1hf-j;村站.:KAMHEiEE.!idtidlLdiL 此bscore LS:orL!ecctqZscoraZ7irn,rmbtf Cp, s3 ritnlet* &. s) 。) mnb.E* r h rmbtf G. T;:k_Tara;*t_STCiiJp3 :二*3efic.it 13L口tub勺tr Qp , s) nuthdr 0 s) muiter W s J rixuber 5 端口属性如下:
21、Rankindex为自动产生的Rownum,score1后的R表示以此排序组件属性设置如下:Informatica学习快速入门文档top/bottom :取前或后Number Of Ranks :取多少位转换|端口 属性|元数握扩展迭择转换 :展 画画ZE画幽转换类蛰:国厂|转映属性值Cache DiiectOTySraCEcheDirt-cobex -of FaziksCase Sensitive StziriE C-ziparisontzTracing LevelNcxiuslERank De.t ia a;he SiaeRank Indez Cache Size-Tr eliis f c
22、xzaat i m SccpeAll InputCa.che Directory篷存的等级值的目录确定 I 取:肖 II 帮助 I抽取结果:ID1ID2SC0KE1SCOEEZLAUKEBDEK卜15587771245ST75235551573455STT715455TT52655515734.2.3实例三:抽取XML源雇员DTD定义:设计如下:导入XML源结构为源,通过SQ分别将雇员信息分解为雇员表,雇员电话,雇员邮件,雇员薪水,具体设计如下图:皿-Mdoy配&皿T-_|S-o-ur Cefiu.it isn,Ln-athJra ENPLDffiEil 酬PLQTEEi(JpDEmii./m
23、miD *1OLASTKAMCETELEE7KD.OCTT7J sE/m - r ilKiFIT , F 心倾.- 面肝节 WJE cm 园FNTTS-厂讪LhlH.JXDEZM. . fftei DAIEOFHI. rEMPBlWl 、ra PHDHEa_PHOHE)| 手淀KJMDHE,frnnn JZ闰 zmiWL序迥虹L、PEJIP.卜OENAIL底ml SALARYII SALAmJPE_Sk .-|FE EH? .,?SMkR.r *、SQ_JiML_iTrp 1-c-y s-s-z S&ur 口 = uali fiierXFGhmiMW m-| KJNrLOrEE习IPK WL.
24、 BEPflD f 南 W1ETDF OiAsrwffi 、 FIRSTHANE , OSTREETAT. 0 icm fiSWE OHF SiflPLSTAI1 OB.KT0DEKIKE 22r X_HfflJE TgflPKJHOH 上 窸FK-囱PLOTEE _ OFMOWE 川 X_EHAIL LnSBIPK.EMA1L 亩FK_EMFLO. 一 3瑞匝Im x_5Amr _irKALAfiT 林 FK_函FD1. z OSJiAEY./eiiEPTID q ./OEnriD ,心国雌 ,./nUSTE h ./ADDRESS. . . .JAMKESS. . . .y1 ADDRES
25、S. . .H .JAM疝55., ./mpium. ./efjpih. . Jj_hIA、V :?x 3W-PI.JV :捉fHFUL牡二 :W.f翅楫二ZEtitijjnber (?FKJWPIJOEE F浦NEitijjnbear Ij varchss-1TLijjnbcar (fvarcbar4.3 WorkFlow的设计和使用4.3.1 创建 Session在做完Mapping设计之后,我们要抽取数据,接下来的任务就是WorkFlow的设计,在 WorkFlow设计器中,数据抽取的基本组件是Session,Session是映射的一个具体实例, 在创建一个Session时必须指定一个映
26、射,并由这个Session决定了数据抽取的默认源和 目标。我们打开WorkFlow设计工具,从工具上选择,这样我们就可以创建Session,从库中选择已经设计好的Mapping,确定 1映射清选择要与会话相关联的映射;确定职消帮助(H)双击已经创建好的Session,设置默认的映射,源,以及目标实例,例如在设计源的时候, 我们的源是Oracle表结构,在这里相应的设置数据库连接即可,如果源是文件,则要指定 路径和文件名,我们将源的Tracing Level设置为Normal, Tracing Level为数据抽取监控 日志的级别,巨如禹土 点k元如底 L法轻任旁后):=f_v_T4nk_4Sp
27、reitoT_tt=t任若类型.叵1重用)=Q 妹报IHr任目页屈、 始接TT时 起连同交源9 命 n富 iVKnrwjs PMCTRAIBFMWIT OWE - SrarEe QntilifiexInformatica学习快速入门文档4.3.2 设计WorkFlow- Workflou在完成Session创建后,点击 w 口肿聊设计工作流,工作流是对Session在抽取流程 上的定制,通过事件、变量、定时器、判断等一系列组件来实现。间|圈聘留|点国CDH乍冒思|二|聘回如下图,我们创建一个工作流,其中由启动连接到实例一中映射所实例的Session,这样就实现了工作流yrWlow Dslgnv
28、r=sf_w_rank_A Wrkkth/列Mcipsr 疥V 口商接下来我们启动该WorkFlow重信启动工际冷启届性相关性查着永久直, 刷新映知从WorkFlow Monitor上可以看到动行状况并查看日志,持续时间5: OOpm4:00pm5:00pm蠢存储巨U 学克删工;用例库Q峪集或加.田开左E十基本沮.牛用例字习HA 书已连培00 0D:5C成由IIaixk_4gp-t gator_i e s t学习示例T00:00:4811小时罕41岳| i西瓯i 考IIBIIIIlilWorklM slgnr至此,我们完成典型WorkFlow的开发,在WorkFlow中,对于可重用的部分,我们
29、可以在中定义,关于更多的WorkFlow组件使用这里就不在细述。4.4 Repository ManagerRepository Manager工具可以方便我们对知识库的导入和平台转移,例如我们从Windows 平台可以导知识库轻松转移到Linux平台,同时Repository Manager可以对库进行历史 版本的控制。从下图首先可以连接知识库,然后我们可以对映射和工作流等导入和导出,以XML中间结构转储瓯斯玲室CD)耽肖目涯耕m3卷 IEH 1障习导 1ijiAxJE.导Am,由-(p工偷i 耸 IBs存储库(町牌电直着文件夫田版本控制(叫崟全白D目标白会话名稼如果我们在安装Informatica时,选择了启用历史版本功能,则可以像下图,设置知识库的版本矽00.申由田亩.亩: - - -.总而言之,Repository为我们协作开发和统一管理提供了有效的手段。iNFORMATiCAiNFORMATiCA