当前位置:首页 > DataStage V7.5 学习总结
一、
DataStage简介
Websphere DataStage 是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集市或数据中心(数据仓库)目标数据库的集成工具。
DataStage能够处理多种数据源的数据,包括主机系统上的大型数据库、开放系统上的关系型数据库和普通的文件系统等。
常见的主要数据源有:
? 大型主机系统的数据库:IMS、DB2、ADABAS、VSAM等。 ? 开发系统的关系型数据库:Informix、Oracle、Sybase、DB2、Microsoft SQL Server
等。
? ERP系统:SAP/R3、PeopleSoft等。
? 普通文件和复杂文件系统,FTP文件系统,XML等。 ? IIS、Netscape、Apache等Web服务器系统。 ? Outlook等Email系统。
DataStage 可以从多个不同的业务系统中,从多个平台的数据源中抽取数据,完成转换和清洗,装载到各种系统里面。其中每步都可以在图形化工具里完成,同样可以灵活的被外部系统调度,提供专门的设计工具来设计转换规则和清洗规则等,实现了增量抽取、任务调度等多种复杂而实用的功能。其中简单的数据转换可以通过在界面上拖拉操作和调用一些 DataStage 预定义转换函数来实现,复杂转换可以通过编写脚本或结合其他语言的扩展来实现,并且 DataStage 提供调试环境,可以极大提高开发和调试抽取、转换程序的效率。 二、 DataStage工作原理
DataStage XEArchitecture OverviewIMSDB2ADABASVSAM【Data Quality Assurance】OracleDB2SybaseInformixSQL ServerXMLPeopleSoftEMCFisrtLogicTrilliumComplexFlat FilesFTPIISApacheNetscapeOutlookDWDataStageServer1A1DMReportingData MiningQueryAnaiyticApplicationsManagerDesignerClientBWMeta Data Managerment DataStage的设计是基于数据流的概念。一个完整的数据流图(DataStage作业),从一个永久存储的数据源开始,并且执行一系列的增值转换和其他处理操作,最后加载数据到一个永久的存储。
数据集(Data Set)就是对通过数据流程的记录的收集。一个数据集可以是屋里放置在磁盘上,也可以是虚拟放置在内存中。数据在数据流中的Stage中移动使用的是虚拟的数据集,这样可以大大提高性能;分区(在后面介绍)是在Stage的属性中设置的。 三、 DataStage运行程序(工具)介绍
1. DataStage服务
安装完成DataStage后会在系统中注册三个DataStage服务: ? Datastage Engine Resource Service ? Datastage Telnet Service ? DSRPC Service
2. DataStage Administrator程序
DataStage Administrator程序用于执行管理任务,如建立DataStage用户、
建立和删除工程、建立清洗标准。
Host system表示服务器地址,如果是本地请使用localhost,如果是使用127.0.0.1则需要在DataStage安装目录配置映射关系文件。而用户名和密码一般与系统用户和密码一致。
登录后有三中操作选项,其中General用于版本的控制;Projects用于设置工程项目的属性;Licensing。
3. DataStage Manager程序
DataStage Manager程序用来编辑和管理用户工程的DataStage的资料库。
包括工程的导入和导出等操作。 4. DataStage Version Control程序
DataStage Version Control程序用于版本控制管理。 5. DataStage Director程序
DataStage Director是一个Job的管理、调试、log追踪的综合管理工具。
用来验证、时序安排、运行和监测企业版作业。 6. DataStage Designer程序
DataStage Designer是整个开发的环境。用来编辑DataStage的作业和表
的定义。
四、 DataStage中的 Stage介绍
按照新建的Job不同,所内置的Stage也不同。内嵌的Stage包括高性能访问(加载和读)关系型数据库的强大组件,包括并行的关系型数据库。
DataStage中的JOB分类: ? Job Sequence:Job工作序 ? Mianframe Job:主应用Job ? Parallel Job:并行执行Job
? Parallel Shared Container:并行共享容器
? Server Job:标准Server Job,在Windows下可以创建的Job ? Server Shared Container:Server共享容器 (以下三个是新建Job时的选项) ? New Data Migration Job: ? New Job from Template: ? New Template from job: ? Palltte选项列表
1) General(常规)栏解释: 图例 名称 Annotation Description Annotation Link 注释 注释描述 带箭头的连接线,表示有源?目标的过程 容器,可以包含该Job的所有组件 Container Input Container Output Container 输入容器 输出容器 描述 2) Database(数据库)栏解释: 图例 名称 描述 IBM DB2数据库USD访问: 1. 从DB2数据库读取数据或将数据写入DB2数据库 2. 顺序执行或并行执行 3. 支持DB2的Hash分区 4. 支持Load、Upsert和Write写入方法 5. 支持Table、自动产生SQL或用户定义SQL读取方法 Oracle数据库访问: 1. 从Oracle数据库读取数据或将数据写入Oracle数据库 2. 顺序执行或并行执行 3. 支持Load和Upsert写入方法 4. 支持Table和Query读取方法 DB2/USD API DB2/USD Load Oracle OCI Oracle Express Oracle OCI Load Informix CLI Informix XPS Load Informix Load Ms SQL Server数据库访问 MS SQL Server Load 使用ODBC访问数据库 ODBC Dynamic数据库访问 Dynamic RDBMS MS的OLEDB数据访问 MS OLEDB RedBrick数据库访问 RedBrick Load Stored Procedure数据访问 Stored Procedure Sybase数据库访问 Sybase BCP Load Sybase IQ Load Sybase OC Teradata API Teradata 数据库访问 1. 支持从 Teradata 数据库读取数据和将数据写入Teradata 数据库 Informix 数据库访问 1. 从 Informix数据库读取数据或将数据写入Informix数据库 2. 顺序执行或并行执行
共分享92篇相关文档