DataStage培训经典.ppt

上传人:牧羊曲112 文档编号:5426960 上传时间:2023-07-05 格式:PPT 页数:133 大小:2.29MB
返回 下载 相关 举报
DataStage培训经典.ppt_第1页
第1页 / 共133页
DataStage培训经典.ppt_第2页
第2页 / 共133页
DataStage培训经典.ppt_第3页
第3页 / 共133页
DataStage培训经典.ppt_第4页
第4页 / 共133页
DataStage培训经典.ppt_第5页
第5页 / 共133页
点击查看更多>>
资源描述

《DataStage培训经典.ppt》由会员分享,可在线阅读,更多相关《DataStage培训经典.ppt(133页珍藏版)》请在三一办公上搜索。

1、DATASTAGE 培训,内容提要:,一、datastage 介绍二、如何安装datastage三、配置datastage 工程四、设计并运行datastage的job五、操作元数据六、操作关联数据七、操作约束条件及数据来源八、定义查找使用的哈希文件九、聚合数据十、job的运行及调试十一、创建Basic表达式,一,datastage的介绍,本章主要讲解ETL的概念,datastage的介绍、组成及主要功能。,ETL概要,ETL包括数据抽取(Extract)、数据转换(Transform)以及数据加载(Load)3个阶段。一般而言,这三个过程中有二次落地(生成中间文件)。,Ascential D

2、ataStage 是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集市或数据仓库目标数据库的集成工具。DataStage 能够处理多种数据源的数据,包括主机系统的大型数据库、开放系统上的关系数据库和普通的文件系统。包括Oracle,Sybase,DB2,SQL Server,Teradata,FTP文件系统,文本文件等等。数据清洗、转换、加载都可以在图形化工具里完成,同样可以灵活的被外部系统调度,提供专门的设计工具来设计转换规则和清洗规则等,实现了增量抽取、任务调度等多种复杂而实用的功能。,DS介绍:,Datastage的组成:,Datastage的服务器端

3、和客户端,Datastage是C/S软件,服务器端存储所有的ds项目和元数据,由关系型数据库(RDBMS)组成。客户端具有同服务端一样的软件接口。客户端运行于windows95或更高版本,服务端可运行于windowsNT4.0或windows2000 版本,datastage的很多版本都支持unix。,DS Administrator 在服务端管理ds的项目和服务端操作。主要用于工程的参数调整,变量设置,及command操作。DS Designer 建立ds的job并且编译执行的程序。主要用于job的开发及编译。DS Director运行和监控ds的job。主要用于job调试。DS Manag

4、er允许编辑和查看在ds中存储的内容。主要用于项目管理或job的导入、导出、备份。,DataStage中的Administrator,默认使用Administator来指定常规的服务端,用来增加或删除DataStage工程,并且可以设置工程的属性。Administator也对于总库提供命令接口。使用Administator的Project Propertities 工程属性的窗口,可以进行 1、在General页框中,设置Job监控的一些限制信息和Director中的其他信息。2、在Permission页框中,设置并分配开发人员组的权限。3、在Tracing 页框中,设置或取消服务端进行跟踪。

5、4、在Schedule 页框中,设置调度时运行Job所用到的用户名和口令。5、在Tunables页框中,指定Hash文件Stage的读写的缓存大小。在DataStage中的Administrator设置常用服务器的默认值:1、改变Licence信息。2、设置服务端连接超时时间。,DataStage中的Manager,使用DataStage中的Manager来存储和管理Job的元数据,使之可以在DataStage中的Designer中再度被使用。元数据包括表单和文件结构和导出数据的Routines的转换等等。Manager是DataStage存储的一个重要的部分,可以用来加入表单和文件的结构,在

6、左侧分支树中显示Routines、Transforms和Jobs。自定义的Routines和Transforms也在DataStage中的Manager里创建。,DataStage中的Designer,DataStage中的Designer允许使用熟练地拖拽图标和连线的方式来表示数据抽取、清洗、转换、整合和加载的过程,并将数据导入数据仓库的表单之中。Designer提供一个数据流程的模式,轻松将设置和Job的设计有机的组成。使用Designer,可以:1、指定数据如何抽取。2、指定数据的转换规则和进行转换。3、使用参考性质的LookUp到数据集市中编辑数据。a)例如,如果销售的记录集包括Cus

7、tomerID,可以在CustomerMaster表中使用LookUp查找到Customer的名称。b)当需要连接数据集市并使用查询,可以快速的进行访问。4、对数据进行整合。5、在定义的约束条件中将基础数据分割成为多个输出的连接。在Tools菜单中可以轻松的于Director,Designer和Manager之间切换。,DataStage中的Director,使用Datastage的Director可以对设计的job进行验证、运行、任务调度和监控的工作。也 可以针对job 的运行查看运行的聚合统计情况。,在Datastage中进行开发,在Administrator中定义全局的和项目属性。在Da

8、tastage中的Manager里导入定义源的元数据和目标的元数据。在Datastage中的Designer中验证和编译job。在Datastage中的Director中验证、运行、和监控job。,1、定义工程的属性在Administrator中。2、打开工程。3、导入元数据,在job中定义格式、读入或写入在Manager中。4、设计job在Designer中。a)定义数据的抽取(读取)。b)定义数据流程。c)定义数据的集合。d)定义数据的转换。e)定义数据的约束条件。f)定义数据的加载(写入)。g)定义数据的聚合。5、编译和调试job在Designer中。6、运行和监控job在Directo

9、r中。,Datastage的工程管理,所有的工作都在一个工程中。在安装过后,需要建立一个工程,这是安装必选的项目。在使用它工作之前,要登录这个工程。可以在工程间进行导入和导出Datastage的项目内容。多个用户可以在同一时间使用同一工程,但是不能同时编辑同一个项目。,所有的工作都在Datastage的工程里进行。在做任何事之前,那些具有同样管理权限的人,都要先打开一个工程,即进行登录。在安装过程中,工程就要求创建,这是必须做的事情。可以在安装之后,在Administrator中的Project页框中另增加其它工程。一个工程关联着一个目录,这个工程目录用来存储jobs、Datastage项目和

10、元数据。在做任何操作前都要先打开这个工程,即登录这个工程。工程是自包含的很多的工程可以在同一时间被打开,在各自单独的环境打开。可以在它们之间导入或导出项目。多用户可以在同一时间使用一个工程中工作,但是Datastage禁止在同一时间由多个用户访问同一个job。,Datastage测试,问题一:Datastage的Designer是用来建立和编译job、用来进行数据的抽取、转换和加载即ETL。(Yes/No)答案一:Yes,Designer使用拖拽的方式将设计元素(习惯上叫stage)拖拽到设计区域中,经过建立和编译,Job就可以执行,用来进行数据的抽取、转换和加载。问题二:Datastage的

11、Manager用来执行编译通过的Jobs。(Yes/No)答案二:No,Datastage的Manager是用来管理元数据的,如表单结构,内置和自定义Routines等的,使Datastage用来管理资源存储的。,问题三:Datastage的Director用来执行编译通过的Jobs。(Yes/No)答案三:Yes,使用Director来对编译通过的job进行验证或者运行,也可以在jobs运行过程中对其进行监控。问题四:Datastage的Administrator是用来定义全局变量和设置工程属性的。(Yes/No)答案四:Yes,可以在Administrator中设置工程中使用的全局变量和必

12、要属性,如连接数据库超时,登录者权限等等。,第二章 如何安装Datastage,下面的讲解中,将可以了解到:在Windows系统中安装Datastage服务端。建立一个Datastage的工程。安装Datastage的客户端。,Datastage 的服务端要首先安装,之后才可以安装Datastage 客户端,服务端能都安装在WinNT、Windows2000或者UNIX系统中,这个模块将介绍在Windows环境下进行安装。系统的具体配置依赖于所要安装的Datastage 版本,在安装盘上找到最接近的系统需求配置。安装Datastage 服务端需要有哪些安装盘和服务端的许可,这个许可包含以下信息

13、:,1,注册号(序列号)。2,工程数量。在Datastage服务端可以建立的最大工程数量。包括新建的工程,也包括对先前建立的工程进行加上升级。3,到期时间。4,授权代码。在许可信息中,这个信息必须被正确输入的。,安装向导会指导通过以下步骤进行:,1,输入许可信息。2,指定服务器的路径。3,选择程序的文件夹。4,创建一个新的工程或升级已经存在的工程。,安装Datastage,首先安装Datastage Server端,鼠标点击 软件会自动安装,安装过程中系统提示使用者选择安装路径和输入产品序列号。在Datastage Server安装的过程中会提示用户建立一个工程。在安装Datastage Se

14、rver端以后,需要安装Datastage Client端,鼠标点击软件会自动进行安装,安装过程中系统提示使用者选择安装路径和输入产品序列号。,Datastage的服务端,安装有Datastage服务端的机器,必须运行着。需要运行Datastage的客户端。打开Datastage的控制面板,来停止或启动服务端。当再次安装Datastage的时候,会停止服务端。,为了保证Datastage客户端程序的正常运行,必须保证Datastage的服务器保持运行状态。在Windows2000的控制面板中打开Datastage的控制面板,可以启动或停止全部的Datastage服务。点击可以启动全部的服务或者

15、停止全部的服务。在安装或重新安装Datastage的时候,这些服务一定要全部停止。,安装Datastage客户端,在安装Datastage服务端之后。可以安装在WinNT,Windows2000以及WinXP上。Datastage产品的许可用于安装Datastage的客户端。Datastage的操作许可只能用于安装Director和Administrator。,Datastage的客户端必须在Datastage的服务端安装过后才可以进行安装,客户端能够安装在Windows95、Windows98、WindowsNT、Windows2000以及WindowsXP操作系统上。这里有俩个版本的Dat

16、astage:1,开发版本的Datastage,包含了解所有的客户端应用程序。2,操作员版本的Datastage只包含了需要用到的运行和监控Job的应用程序,即Director和Administrator。,安装开发版本的Datastage,需要有Datastage开发版的许可。安装操作员版本的Datastage,需要有Datastage的Director的许可。,许可包括以下几个信息:1,序列号2,用户限制3,到期时间4,授权认可代码 这些信息必须是正确的数据。,第三章 配置 Datastage 工程,下面的讲解中,将可以了解到。在Datastage的 Administrator中设置工程属

17、性。在Datastage的Administrator中设置用户的权限。,Datastage工程属性,建立或者删除Datastage工程。设置Datastage工程的默认属性。修改Datastage工程属性的方法。登录Datastage的Administrator。选择要修改属性的工程。,Datastage中所有的开发工作都在一个Datastage的工程中,在安装Datastage服务端时,默认就已经建立了一个工程,可以使用Administrator进行工程的控制。每个工程都有其关联的目录,目录存储了在工程中建立的项目,如Jobs、元数据、自定义的Routines等等。在一个工程中工作之前,必须

18、要先打开它(即进行登录)。在使用Datastage的Administrator时,可以设置默认的工程属性。,设置Datastage工程属性,选择要进行修改的工程,点击“Properties”,工程属性的“General”页框,点击Datastage的Administrator的“Properties”按钮,打开工程属性的窗口,这里有5个页框(“Mainframe”页框只有在许可支持大型机的Jobs的时候可用),默认打开的“General”页框。如果选择“Enable job administrator in Director”的选择项,那么在不打开Administrator的情况下在Datas

19、tage的Director中可以运行一些管理级别的函数。,在Director中运行一个Job的时候,事件被写入Jobs的运行的日志,例如:记录了何时开始运行Jobs,何时停止,何时终止。日志记录的事件增长量很大,“Auto-purpe of job log”选择框可以让指定用什么条件来筛选这些事件。可以限制记录时间的每天的数量或者运行Jobs运行的数量。,工程属性的“Permissions”页框,使用这个页框可以设置访问和使用Datastage的用户组权限。所有的Datastage用户中,在登录Datastage之前,都必须拥有一个公认的,属于自己的用户角色,使之用来进行登录,这样可以用来防止

20、匿名的方式使用Datastage工程。这里有三种Datastage用户角色:1,Datastage Developer,可以访问Datastage工程 全部的范围。2,Datastage Operator,可以运行、释放、Datastage的Jobs。3,Datastage Production Manager,可以管理Datastage 产品组件。,工程属性的“Tracing”页框,在这个页面设置是否在Datastage服务端进行跟踪处理。Datastage服务端进行跟踪处理默认是无效的。当使其有效,Datastage客户端运行项目的时候,所有的记录信息都要在Datastage服务端进行监控

21、,并写入监控文件。使用这些底层系统知识可以帮助找到Datastage客户端的问题所在,如果跟踪设置为有效,当调用一个Datastage的客户端的时候,用户会收到一些警告的信息。警告:跟踪会消耗Datastage服务器大量的系统资源,除非用户需要诊断重大的问题,一般不建议设置跟踪有效。,工程属性的“Schedule”页框,使用“Schedule”页框,来指定在选择的项目中运行计划任务的jobs的用户名和口令,如果没有指定,Jobs会在当前系统的计划任务的用户名下运行。,工程属性的“Tunables”页框,在“Tunable”页框中,可以指定当用来读取Hash文件记录时的缓存的大小,Hash文件大

22、多数用于查找操作,这部分介绍会在下面的介绍中进行。,第四章 设计并运行Datastage的Job,下面的讲解中,将可以了解到:描述什么是Datastage的Job。一步步讲述如何建立Datastage Job。描述Link和Stage。识别不同类型的Stage。设计一个简单抽取和加载的Job。编译、验证和运行Job。监控Job的执行。,什么是Job,一个Job就是一个Datastage的运行程序。在Datastage中,可以设计并运行Jobs,执行一些有用的数据仓库,包括数据的抽取、转换、聚合和数据加载等等。Datastage的Job是:1、在Designer中设计和编译。2、在Directo

23、r中进行任务预定,调度和监控 Jobs。3、全部在Datastage的控制下执行。,Job开发的浏览,在Manager导入数据源和目标数据库的数据结构定义。在Designer加入Stage定义数据的抽取和加载。加入Transformer和其它的Stage来定义转换。从源数据到目的数据,加入Link来定义数据的流向。编译Job。在Director中,验证、运行和监控Job。,在这个讲解中,将通过一个单一Job的过程第一步,着手定义元数据。,Designer的工作区域,中间偏右是Datastage的设计区域,可以将Stage和Link从工具的板块上拖动过来放在上面,左边是“Repository”(

24、存储)窗口,显示的是Manager中的分支。Manager中的分支,就像Jobs和表定义一样可以直接拖拽到设计区域,点击“ViewRepository”来显示“Repository”窗口。点击“ViewProperty Browser”来显示“Property Browser”窗口,显示在设计区选择的项目的属性。,Designer的工具栏,工具栏中的一些图标可以快捷的调用一些Datastage的内部函数,更加方便进行Jobs的设计工作。,Designer的Stage工具面板,工具面板中包含描述的图标,可以将其加入到Jobs设计当中。,当安装Datastage的时候,很多的Stage都会自动地进

25、行安装,也可以根据特定的目的安装另外的Stage,这些被叫做插件。例如,那个叫做“Sort”的插件就是用来对数据排序的。插件的介绍将在以后的讲解来介绍。,下面将部分的Stage进行简单的说明(有些Stage在普通应用中并不常用):,被动Stage和主动Stage,被动Stage的定义是用来读写数据源的Stage。被动Stage包括:Sequential,Odbc,Hash文件的Stage。主动Stage的定义是用来数据的筛选和转换部分的Stage。主动Stage包括:Transformer、Aggregator和Sort的插件。,这里有俩种类型的Stage:被动Stage,是用来读写数据源的数

26、据的,包括Sequential、Odbc、Hash文件的Stage,等等。主动Stage:是用来筛选和转换部分的Stage,包括Transformer、Aggregator和Sort的插件,等等。Datastage测试:问题一:Sequential Stage是一个主动地Stage。(Yes/No)答案一:No,由于Sequential Stage可以用于读取数据源和写入数据,但是又不能对数据进行转换,所以不是主动的Stage,而是被动的Stage。,Sequential Stage,导出数据或加载数据到一个Sequential文件。为Sequential指定完整的路径。指定文件的格式:定义宽

27、度或者分隔符。指定列的定义。指定写的形式:覆盖、追加。,Sequential文件时用来从一个Sequential文件导出或者加载到一个Sequential文件中。,在修改Sequential文件的时候需要指定一下内容:1、文件的路径和名称。2、文件的格式。3、列的定义。4、如果Sequential Stage被用作一个目标的话,指定写入动作时选择:覆盖已存在的文件或者在文件基础上进行追加。,编辑目标端的一个Sequential文件Stage,定义一个Sequential的目标Stage类似于定义一个源的Sequential Stage。在输入的Link中,定义数据导入到Stage的数据格式。从

28、“Input Box”中输入Link的列表进行选择。定义一个文件的Job,定义文件被写入,如果文件不存在,Datastage将会自动建立,在“Update action”中指定数据文件是否覆盖或者追加。“General”页框中的“FilterCommand”,可以指定一个过滤程序,可以使用其在抽取数据的过程中进行数据的过滤。举例,在读取数据之前要有一个解压缩的过程。从中选择类型或者浏览从过滤程序中,在输入框中指定命令行,只有在“General”页框中的Stage页面中选择了“Stage uses filter commands”的选择框,这个输入框变为可用,如果指定了过滤命令,数据浏览没有定义

29、,那么“ViewData”按钮不可用。,在“Format”页框中,指定不同格式的目标文件,同指定源文件相同。如果目标文件不存在,在Jobs运行之后,才可以浏览数据。如果这时点击了“ViewData”按钮,Datastage将会返回一个“Failed to Open.”的错误。在源数据的Stage里定义输出数据的列定义,同时定义目标Stage中的相应的输入Link。可以将Link想象成为一个通道,从一头流到另外一头,所以输入和输出的格式要保持一致。,Transformer Stage,很关键的主动Stage。使用Transformer Stage可以定义条件、来源和字段的对应关系。输入的列和输出

30、的列进行对应。在这个讲解中,我们将定义列的对应。,Transformer Stage是一个重要的主动Stage,其它主动地Stage执行很多指定类型的转换。在Transformer Stage中可以指定:1、列的对应。2、数据的来源。3、过滤条件。字段对应是指输入字段和输出字段进行对应,从输入列到输出列数值直接通过。数据来源的值经过计算写入到输出的列,以输入列为基础。在引入的行将被写入到输出的列,约束指定的条件将有效。,Transformer Stage元素,Transformer 有以下元素:在上方,左边的区域显示输入Link的列信息,如果有很多的输入Link,就会有许多的列显示。在上方,右

31、边的区域显示的输出Link的内容,我们不能在这里定义字段,如果有很多的输出Link,就会有很多的列显示。现在,忽略右上方的“Stage Variables”窗口,我们将在以后的讲解进行讲述。下方显示元数据的列定义,输入和输出的Link。如果有很多的输入和输出的Link,那么将出现很多的页框。,Annotation Stage,使用它来在Job上增加文本注释。输入框有不同格式的设置。当Job打印的时候显示。描述注释的Stage将在下一节介绍。,增加一个或多个“Annotation”的Stage就像一个文本数据框一样进行设置,可以通过在工具栏上的设置要求其是否进行显示。这里有俩个“Annotati

32、on”的Stage,“”Description Annotation Stage”将在下面一个讲解中进行讲述。,编辑Annotation Stage,输入框内输入的是文本类型,指定的设置有:1、文本的字体和颜色。2、输入框的颜色。3、文字的横纵位置。,编译Job,在运行Jobs之前,必须要对其进行编译,在服务端的机器上产生可以运行的编码,对于编译Jobs,点击“FileCompile”或者在工具栏上点击“Compile”按钮,编译Jobs的窗口显示Jobs编译的情况。编译如果发生错误:点击“Show error”来定位错误的位置。点击“More”来返回关于错误更多的信息。,运行Job,从Dat

33、astage的Designer切换到Director。在Director的列表中,选择要运行的Job点击运行。选择运行的属性。验证这个Job。运行Job,并在日志浏览中监控Job运行的过程。,就像知道的那样,在Datastage的Director中运行Job,可以从Designer中的“Tools”菜单中启动,Datastage的Director。可以通过这个方法在Director、Manager和Designer之间进行切换。这里有俩种方法运行一个Job:1、直接运行。(可以在Designer运行,也可以切换 到Director中运行)2、在以后的时间或日期里调用计划任务执行。对于直接运行的

34、Job:1、在列表中选择需要运行的Job,这个Job必须是经过 编译的。2、点击Job菜单中的运行,或者点击工具栏中的运 行。这是Job运行时的设置窗口会显示出来。,Datastage Director,在Director中显示Jobs状况的列表,运行一个Job,选择一个而后点击Job菜单中的运行。其它查看内容:1、Job的日志从Job运行产生的数量。2、计划任务预览在计划的时间或日期运行Job。,运行参数设置,Director 的日志浏览,在工具栏上点击Log按钮来查看Job的日志,Jobs日志集合了Jobs执行期间的所有事件信息。这些事件,包括:控制事件,如:开始、结束和中止、报告信息、警

35、告信息、错误信息、和程序发生信息。,当点击Job菜单中运行的时候,Job运行设置的窗口会显示出来。这个窗口允许用户在以下情况下停止Job的运行。1、指定行数。2、指定警告消息的数量。在运行Job之前可以将其验证,验证是保证Job运行成功地关键。包括:1、验证 Link的数据源是否准备好。2、验证文件是否被打开。3、验证SQL是否可以查询数据。经过验证后点击Run运行Job,在Job运行时列的状况会显示出来。,第五章 操作元数据,下面的讲解中,将可以了解到:介绍DataStage的Manager的构成和功能。导入和导出Datastage的项目。从Sequential文件中导入元数据。加载元数据到

36、Sequential Stage中。,什么是元数据,Datastage和Manager是一个图形化管理Datastage项目存储的工具,包括元数据和Datastage的其它构成,如Jobs和Routines等等。元数据是数据源和目标数据的描述的标准化。它包括诸如记录列和分割的通用信息,分割标志,还包括指定列的定义,等等。,左边的包括工程的树。分了八大分支,但是可以在其下创建下一级文件夹,在工程树下选择一个文件夹显示它的组成。在这个例子中,在工程里一个命名为”WHBI”的文件夹下创建很多Job。“DataElements”分支:列出内置的和自定义的数据元素。(数据元素是数据类型的扩展,将在下面讲

37、述)“Jobs”分支,显示在当前工程的Jobs列表。“Routines”分支:先是内置和自定义的Routines,Routines是Datastage Basic代码的一部分,可以引入到一个Job中。,“ShareContainers”分支:共享容器就是Datastage的一个单独的Satage的组成。“StageType”分支:列出在一个Jobs中可用的Stage的类型。内置的Stage包括在Designer中的结果部分和转换部分的Stage。“TableDefinitions”分支:显示加载到一个Job的有效的表结构定义。“Transformer”分支:先是内置和自定义的Transform

38、er。Transformer是可以用于Job的数据转换函数。,Manager内容,数据源和目标数据的元数据描述。Datastage项目。Jobs。Routines。表单。,Datastage的Manager管理俩个不同类型的项目:数据源和目标数据的元数据描述。在Manager中叫做表单定义。Datastage表单定义用于描述各种类型源的列定义的格式:结果、有关的、Hash文件等等。可以在Manager或者Designer中创建表单的定义,可以从源或者目的导入其结构。,Datastage的构成 在Datastage中任何一个项目(Jobs,Routines,表定义,等等)在Datastage中存

39、储Manager是接口用来存储。Datastage组成包括整个项目,都可以从导出的文件中导入到Manager中。,Import 和Export,Manager中的所有项目,都可以导出成为一个文件。导出整个工程。用于备份用于版本控制。用于Datastage的项目从一个工程到其它工程的移动。对于其它开发者,用于共享Datastage的Job和项目。,Datastage中的项目包括整个工程,全部都在Manager进行存储,可以将其导出成为一个文件。这个导出的文件能够重新导入回Datastage。导入和导出能用作很多的目的,包括:备份Jobs和工程。维持不同Jobs或者工程的版本。从一个工程到另外一个

40、工程,Datastage项目的移动。将导出的项目,移动到其它的工程,将其重新导入到新的工程里。在开发者之间共享Jobs和工程。导出的文件,当被压缩以后,变得很小,很容易从一个开发者到其他人之间传递。,导出过程,在Manager中,点击“ExportDatastage Components”。选择Datastage需要到导出的项目。指定导出的类型:dsx,xml。在客户端机器上指定导出文件的路径。,在Manager中点击“ExportDatastage Components”开始导出的过程。在Manager中任何的项目都可以将其导出成为一个文件。使用这个程序可以对工作进行备份或者将项目从一个工程

41、移动到另一个工程中。选择导出文件的类型,可以选择整个工程或者在一个工程中的一部分项目。指定导出文件的类型,默认的,项目被导成一个文本格式的文件,默认的导出文件是“Dsx”格式的。也可以将项目导出成为“XML”格式的文档。导出的文件目录是在Datastage的客户端,而不是在服务器。,Datastage测试问题一:可以将Datastage工程中的Jobs导出来,但是却不能将元数据导出,所以不能将元数据的定义导出成为一个文本。(Yes/No)答案一:No,元数据的定义的结构,都存在于“Table Definitions”中,而表单的定义是可以通过导入导出流通于各个工程之间。问题二:Datastag

42、e工程导出的目的是存放在客户端,而不是存放在服务器。(Yes/No)答案二:Yes。,导出Datastage的项目,在Datastage的Manager的菜单上点击“ExportDatastage Components”。选择“Whole Project”或根据需要进行选择,而后进行导出。,导入Datastage工程,在Manager中,点击“ImportDatastage Components”。选择要导入的Datastage项目文件。选择要导入的文件,点击“Import All”开始导入或者“Import Select”从浏览的项目中选择一个导入。选择“Overwrite Withnot

43、Query”按钮来覆盖那些同名但没有警告的项目。,导入元数据,从Sequential文件中导入格式和列的定义。导入关联表的列的定义。导入Hash文件的列的定义。导入的信息在“Table Definitions”。在Job中Stage可以将表定义进行加载进来。,表格定义对于一些变化的数据文件和表单进行格式的定义。这些定义可以重复的是用于设计的Jobs,来指定数据的格式。举例,可以导入“Customers.txt”文件的格式和列的定义,可以将其加载到源的“Sequential Stage”中,表示Job是从“Customers.txt”中抽取数据。,可以加载这些相同的元数据到其它的Stage中,用

44、来访问同样格式的数据。可以感觉到,元数据是可以再度使用的,它可以被用于格式相同的文件和数据上。如果需要的列定义很相似,可以编辑定义并将其保存在一个新的名字下面。也可以使用不同类型的数据相同的表单定义使用同样的格式。举例,可以导入一个表单定义从一个“Sequential”文件,并使其指定一个ODBC的表单的格式。可以清楚地看到元数据在格式定义上是宽松灵活的。可以导入和定义几个不同类型的表单定义,包括:“Sequential”文件、ODBC数据源、Hash文件和全部的表单。,Sequential文件导入过程,在Datastage Manager中,点击“ImportTable Definition

45、sSequential File Definistions”选择指定的“Sequential”文件的目录和名称。选择Manager的分类。检查格式和列定义和编辑必要的信息。,要开始导入,点击“ImportTable DefinitionsSequential File Definitions”,“Import Meta Data(Sequential)”窗体会出现。选择目录中包含的Sequential文件,在文件的列表中选择需要导入的文件。选择文件进行导入。选择指定的类别(即文件夹)进行导入 1、格式为:(类别/子类别)。2、是在Table Definitions下的第一级子目录。3、是在目录

46、下的另外一层。,在Manager中定义结构,在Manager中,选择“Table Definition”的包含的类别。在“Table Definition”上双击,打开“Table Definition”的窗口。单击“Columns”的页框浏览和编辑列的定义,选择“Format”页框来编辑文件的格式说明。,导入Sequential元数据过程,加载表结构定义,在导入了Sequential元数据结构后,可以将元数据的结构加载到“Sequential Stage”中。,第六章 操作关联数据,下面的讲解中,将可以了解到:设置ODBC连接来关联数据库。导入关联的元数据。从关联表中抽取数据。加载数据到关联

47、表。,操作关联数据,在关联的源数据表单中抽取,过滤、转换数据。加载数据到关联表单中。通过ODBC Stage来进行连接。支持用户定义SQL。,可以对关系型数据执行就像对Sequential数据那样的任务。可以对关系型数据表进行抽取、过滤、转换数据,也可以向关系型表单中加载数据。虽然可以通过本机得到驱动来操作一些关系型数据库,但Oracle等,也可以使用ODBC来访问这些关系型数据库。使用ODBC Stage,既可以指定在一个或多个表的关联查询,也可以定义查询,还可以粘贴已经存在的查询。,设置一个ODBC连接,在通过ODBC来访问数据之前,一定要先定义一个ODBC 的数据源。在Windows中,

48、在控制面板中定义并使用32位的ODBC数据源。ODBC数据源控制,有好几个页框。对于DataStage,我们需要将数据源定义在系统DSN中,而不是用户DSN中。可以从dataStage安装盘中,安装更多的通用的关系型数据库系统的驱动。点击添加来定义一个数据源。点击添加后,会显示出一系列的驱动列表。选择适当的驱动而点击完成。不同关系型数据库有不同的意图,在这个例子中,定义一个Microdoft Access作为数据源:1.在数据源名称输入框中定义数据源的名称。2.点击选择选择一个存在的数据库,定义一个连接。3.点击创建,针对这个数据库定义一个连接。,导入ODBC元数据,从ODBC数据中导入表单定

49、义,类似于从Sequntial 文件中导入结构定义。在Manager中点击菜单Import-Table Definitions-ODBC Table Definitions,开始进行导入。DSN列表显示出DataStage服务端定义的数据源。选择需要导入的数据源,如果需要,需要数据用户名和口令。这时Import Metadata 窗口显示出来。列表显示出数据库中所有可以用到的表单,可供导入。选择一个或多个表单核导入的列别,点击OK即可。,抽取关系型数据,从关系型数据库表单中抽取数据,类似于从一个Sequential文件中抽取数据,除了使用ODBC的Stage代替了Sequential的Stag

50、e。在这个例子里,从一个关系型数据表单中抽取数据,加载到一个Sequential文件中。,设置ODBC的Stage,在ODBC Stage 的General 页框中,在Data Source Name 输入框中指定ODBC数据源名称,或输入变量。可以点击Get SQL Info按钮,重新从ODBC数据库中获得标志和分割符。,显示表单列表,在Outputs 页框中的General 页框中,指定表单的名称。选择General Query 来定义SQL 的声明,在Columns 和Selection 页框中选择User-defined SQLQuery来写自定义的SQL 来连接数据库。,加载列定义,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号