《DataStage与Informatic对比.ppt》由会员分享,可在线阅读,更多相关《DataStage与Informatic对比.ppt(27页珍藏版)》请在三一办公上搜索。
1、一 关于DataStage与Informatica PowerCenter,DataStage概述:DataStag是一个广泛使用的快速,简便建立和维护数据仓库和数据集市的工具。它提供工具用来建立,管理和扩展他们。DataStage可以为访问数据和报表提供快速的解决方案。,可以使用DataStage进行:,a.设计Job用来抽取,整合,聚合,加载和转换数据仓库或数据集市中的 数据。b.创建和再使用元数据和Job的构成。c.对设计的Job,进行运行,监控和调度。d.管理开发和系统运行的环境。,DataStage的构成:,Adminstrator 在服务器端管理DataStage的项目和服务器的操
2、作。Designer 建立DataStage的Job并且编译执行的程序。Director 运行和监控DataStage的Job。Manager 允许查看和编辑在DataStage中存储的内容。,DataStage的特点:,数据源连接能力:数据整合工具的数据源连接能力是非常重要的,这将直接决定它能够应用的范围。DataStage 能够直接连接非常多的数据源,包括:1、文本文件2、XML 文件3、企业应用程序,比如 SAP、PeopleSoft、Siebel、Oracle Application4、几乎所有的数据库系统,比如 DB2、Oracle、SQL Server、Sybase ASE/IQ、
3、Teradata、Informix等以及可通过ODBC连接的数据库5、Web Services6、SAS、WebSphere MQ,多国语言支持(NLS):DataStage能够支持几乎所有编码,以及多种扩展编码,可以添加编码的支持,DataStage内部为UTF8编码。,并行运行能力:ETL Job的控件大多数都支持并行运行,此外DataStage企业版还可以在多台装有DataStage Server的机器上并行执行,这也是传统的手工编码方式难以做到的。这样,DataStage就可以充分利用硬件资源。而且,当你的硬件资源升级的时候也不用修改已经开发好的ETL Job,只需要修改一个描述硬件资
4、源的文件即可。并行执行能力是DataStage所能处理数据的速度可以得到趋近于线性的扩展,轻松处理大量数据。,运行环境:DataStage Client 只能安装在 Windows 平台上面。而 DataStage Server 则支持多种平台,比如 Windows、Solaris、Redhat Linux、AIX、HP-UNIX。,使用:虽然是图形界面,可使用起来一点也不容易,在数据库的配置上很容易出错。并且,没有批量修改Job的功能,当批量修改Job的时候很麻烦。另外,DataStage是使用ODBC来连接的。,DataStage中的关键概念:,Porject 是指比Job更高一层的管理概
5、念。Job 是我们要设计的主要部分,也是工作的主要主体。Link 在设计Job时,各部分的连接。元数据(MetaData)是关于数据仓库的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息,所有这些信息都应当妥善保存,并很好地管理。,2.Informatica PowerCenter 概述:Informatica PowerCenter 是一个可以使大的企业或组织能够按其复杂的业务信息需求,读取、转换和集成遗留系统、关系型ERP,CRM,消息信息和电子商务数据的数据集成平台。,Informatica PowerCent
6、er的构成:,Designer 涉及到的工作区主要包括有Source Analyzer、Warehouse Designer、Transformation Designer、Mapplet Designer和Mapping Designer。Repository Manager 主要用于进行一个Reposity库的管理,当用户使用Client工具登录一个Reposity服务器之后,进行文件夹权限的创建,用户权限、密码的管理等。,Repository Server Administration Console 主要进行Reposity的管理,包括Reposity Server的start,shu
7、tdown操作。进行Reposity 库的backup、restore等操作,进行Reposity库级别的管理,级别较高。Workflow Monitor 主要进行流程运行、及任务运行时的流程运行情况跟踪。可以跟踪日志。包括Session日志和Workflow日志,可以设置生成日志的循环个数。分析session运行是对源数据库的数据抽出信息和对目标数据库的更新信息。,Workflow Manager 主要用于流程任务(workflow Task)的设计。进行任务流程的设计、每一个Tast针对一个Session,一个session针对一个mapping,其中workflow中的Folder和De
8、signer中的folder相对应的关系。一版来说,用户都是建立自己的Folder。,Informatica PowerCenter的特点:,1)图形化设计,无需编码,快速开发和部署。PowerCenter提供了一个可视化的、拥有丰富转换库的设计工具,这个转换库使数据转换变成一个简单的“拖拽”过程。使用PowerCenter,转换组件能够被合并到mapping对象中,独立于他们的数据源和目标,有近20种数据转换组件和近百个函数可以调用,同时可以调用外部的过程和程序,实现复杂的转化逻辑,2)积极、开放的元数据,跟标准兼容(CWM/XMI)。3)对广泛数据源的支持和通用的数据连通性。PowerCe
9、nter显著的连通性提供统一的入口,访问一组系统,当简化集成管理和维护时,能使企业非常容易地应对经常变换的基础架构的集成挑战4)对实时数据源的支持。5)先进的会话管理、工作流机制。支持Workflow机制,通过多种工作流调度方法,可以将ETL Session、外部命令、Email,以及数据库脚本等任务有机地结合在一起,从而定制复杂的工作流。,6)高性能和负载均衡(多服务器、并发、分区、Server Grid等)。支持并行处理充分利用多处理器;支持多线程的流式处理,可以分区(多线程)处理读取/传递/写入进程,从而实现对数据的高效抽取、传输和分发。7)可扩展及分布式的体系结构。,8)国际化支持,可
10、处理任何字符集。9)对数据质量和数据清洗的支持。10)支持各种平台。11)开放性,提供APIs和SDK。,Informatica PowerCenter中的关键概念:,Mapping 相当于DataStage中图形设计的部分,但它是静态的,不能直接运行。Session 只有设计完mapping之后放入session中才可以运行,也就是运行时部分,并且是监控的主体。Repository 知识库,用于存放PowerCenter产生的设计上的源代码。,二 关于ETL,ETL包括Extract、Transform、Cleaning和Load,它是用于从生产库中提取数据到数据仓库中,再由具体的报表、统计
11、、分析工具对数据仓库的内容进行分析,分析出自己所需要的数据。,ETL分别在DataStage和PowerCenter中的简单实现,1.在Datastage中:1)设置ODBC 2)进入Administrator 中设置 3)进入Designer先建立一个工程,在工程中添加Job,在Job中拖拽源数据库,一个转换器,一个接收目的地,用Link连接。4)对源数据库进行设置,选择你要的表。设置转换器中定制你所要的转换规则,然后在接收目的地中定制要想要的结果类型。,5)保存,编译,运行。6)用Director来监控运行过程。7)结束。,2.在Informatica PowerCenter中:1)在OD
12、BC中配置一个数据库,用于给PowerCenter存储源码。2)使用Repository server Administration Console工具创建知识库。(依赖于一个数据库)3)使用Designer设计Mapping并保存。,4)将mapping放入session中,保存并运行。5)使用WorkFlow Monitor来监控运行。,三 DataStage与PowerCenter的比较:,1.在设置方面:DataStage主要用到ODBC来获得数据源的连接,并且可以直接抽取,但PowerCegenter必须依赖一个库,虽然不用到ODBC,但是,他依赖一个数据库的目的并不是马上用于数据的
13、抽取,而是用于存放mapping的源代码(知识库)。而这一步在DataStage中是自动处理的。,2.在运行方面:DataStage在设计完Job之后(或许还要设计一个Job的队列),保存编译,可以直接运行。而PowerCenter,设计完mapping,还要在将mapping放入session中才能运行。(我理解为mapping是静态的,而session是动态的),3.在具体实现上看:Datastage通过Job实现一个ETL过程,运行时可以通过指定不同参数运行多个实例。Powercenter通过Mapping表示一个ETL过程,运行时为Session,绑定了具体的物理数据文件或表。在修改维护上,这两个工具都是提供图形化界面。这样的好处是直观、傻瓜式的;不好的地方就是改动还是比较费事的。,4。在定制开发方面:两者都提供抽取、转换插件的定制,但我认为,Datastage的定制开发性要比Powercenter强那么一点点。因为Datastage至少还内嵌一种类BASIC语言,可以写一段批处理程序来增加灵活性,而Powercenter似乎还缺乏这类机制。,