当前位置:首页 > ETL开发指南(DataStage EE)V2.0
DataStage EE开发指南
2. 产品概述
DataStage企业版是原Ascential Software公司所有企业整合系列产品中关键产品。企业版支持大容量数据的收集、整合和转换,数据从简单结构到很复杂的结构。基于高可扩展性的软件架购,企业版使得企业能够通过高性能来解决大部分业务问题,并行处理大容量数据。强大的企业元数据管理能力使得可以在数据整合生命周期中在所有工具中共享和使用工具。
DataStage企业版发布了四个核心功能来成功实施企业数据整合:先进的开发和简单化的维护;企业级别的开发、监测和管理;在吞吐量和性能方面提供了无限制的高扩展的体系架构;端对端的企业级元数据管理。
DataStage企业版提供了全面的功能去最优化用户在建立、升级和管理数据整合架构时的速度、灵活性和效率。DataStage企业版增强的功能减少了学习的周期、简单化了管理和优化了开发资源的使用,减少了数据整合应用的开发和维护周期。结果,DataStage企业版使得企业能够花更少的时间开发他们的整合应用,更多的时间是不断的从中受益。
DataStage企业版使用了Client-server架构,如下所示。
图一、DataState企业版Client-Server架构
用户通过各个客户端工具访问DataStage企业版的开发、配置和维护功能。这些工具包括:
DataStage EE开发指南
Designer:用来建立和编辑DataStage作业和表的定义。Designer
中的“Job Sequencer”控制作业的执行,其他作业成功完成(或失败,等)的条件。
Administrator:用来执行管理任务,如建立DataStage用户、建
立和删除工程并且建立清洗标准。
Manager:用来编辑管理用户工程的DataStage资料库。
Director:用来验证、时序安排、运行和监测企业版作业。
如图一所示,DataSage企业版的服务器组件运行在一系列的流行服务器上,如Unix、Windows等。
3. 常规应用
3.1 常用组件使用方法
3.1.1 Sequential file
功能特点:
适用于一般顺序文件(定长或不定长),可识别文本文件或IBM大机ebcdic文件。 使用要点:
? 按照命名规范命名
? 点住文件,双击鼠标,在general说明此文件内容,格式,存储目录等
DataStage EE开发指南
? 修改文件属性,文件名称,reject方式等到
常用选项(Options): ? First Line is Column Names
当此选项为True时,对于输入文件,忽略第一行数据(系统认为第一行数据为列
DataStage EE开发指南
名称);对于输出文件,把列名称写入第一行.
? Keep File Partitions
设为True,保持所读文件的分区信息.
? Missing File Mode
找不到File项所指定的文件时的处理方式. - Error 找不到文件时停止运行JOB. - OK 跳过此文件
- Depends 默认为Error,但当文件名中含有前缀*的时候,跳过此文件.
? Reject Mode
- Continue 抛弃所有rejected rows. - Fail 一旦出现rejected row,中止JOB.
- Output 通过reject link把rejected rows输出至文件或数据库.
? Schema File
Sequential File Stage默认使用Format和Columns中的列定义来处理文件中的数据,不过也可以在此选项指定schema文件用做数据的列定义.
? Report Progess
是否以日志形式记录处理进度.
? Cleanup On Failure
JOB失败时是否清除中间数据.
? 修改文件格式,比如记录结束符是什么,字段分隔符,字符串是用什么
区别等
共分享92篇相关文档