当前位置:首页 > DataStage 工作笔记
1. 安装与配置 参考文档:《Planning, Installation, and Configuration Guide.pdf》 1.1 服务端与客户端的安装 1.1.1 安装拓扑
采用简单的两层部署进行安装,安装拓扑如下图所示:
Host1环境如下: (1)硬件环境
CPU:Inetel Core Duo P8600 内存:4GB (2)软件环境
操作系统:Windows Server 2003 EE SP2
C++编译器:Microsoft Visual Studio .NET 2008 Express Edition C++
1.1.2 安装 参考文档:《Planning, Installation, and Configuration Guide.pdf》[pages 198-200]
1.1.3 C++编译器配置 参考链接:
http://publib.boulder.ibm.com/infocenter/iisinfsv/v8r5/index.jsp?topic=/com.ibm.swg.im.iis.productization.iisinfsv.install.doc/topics/wsisinst_set_envars_cpp.html (1)支持的C++编译器,见如下链接的系统要求说明:
http://www.ibm.com/support/docview.wss?rs=14&uid=swg27016382 (2)配置,在环境变量里配置如下两个User Defined变量: 变量名 变量值 备注 LIB C:\\Program Files\\Microsoft C++ SDK 库的SDKs\\Windows\\v6.0A\\Lib 路径 INCLUDE C:\\Program Files\\Microsoft C++ SDK 库的SDKs\\Windows\\v6.0A\\Include Include路径 注:Windows环境下在系统变量里新增即可。
1.1.4 登陆与安装语言选择
登陆(会话)语言选择中文,DataStage安装语言选择英文,结果Designer里同时有中文和英文,而DB2和WAS都是中文版,如何安装纯英文版的? 解决方法1:
登陆语言选择和安装语言全部选择英文即可安装上纯英文版。 解决方法2:
通过控制面板->区域和语言选项,将语言设置为英语,安装完成后将语言再修改为中文即可。
1.1.5 新建用户与凭证(Credentials) 参考文档:《Day 1 Exercise-DS.doc》[Exercise 1: Administration Console] (1)通过Web浏览器登陆Web Console for IBM Information Server,地址如下(localhost为server端主机名):
http://localhost:9080/ibm/iis/console/loginForm.jsp?displayForm=true (2)新建两个用户dsadmin和dsuser,如下图:
权限设置如下:
dsadmin:Suite User、DataStage and QualityStage Administrator/User dsadmin:Suite User、DataStage and QualityStage User
dsadmin 可以正常使用,但dsuser 只能登陆 Administrator,登陆Designer
和Director会报错:
The current user does not have the required DataStage roles set up. 为什么? 解决方法1:
直接给dsuser同时授予Suite User、DataStage and QualityStage Administrator/User权限。 解决方法2:
以dsadmin登陆Administrator中,在Properties->Permissions中将dsuser新增进来,并将其 User Role 设置为 Developer 即可。
1.1.6 使用客户端连接服务端
在host文件(C:\\WINDOWS\\system32\\drivers\\etc下)里新增服务端主机的IP地址和主机名:
hostip hostname
如:10.66.0.41 jactop
1.2 环境变量(Environment Variable)与作业参数(Job Parameter) 1.2.1 如何设置环境变量 参考文档:《DS SE - DS Overview.ppt》 [pages 21-25]
1.2.2 参数及参数集(Parameter Set) (1)创建参数集(Parameter Set) New->Other-> Parameter Set (2)可以引用环境变量。
(3)参数集可以导入导出,而且参数集中参数值更新后,相应的Job中引用值会自动更新。
1.2.3 Parallel Job中如何使用 Project 的 Environment Variable (1)在 Project Properties 中 设定 Environment Variables;
(2)在 Job Properties 的 Parameters 选项卡 中 Add Environment Variable 即可。也可以先新建Parameter Set,在Parameter Set定义中引用Environment Variable,然后Job引用Parameter Set。
注意:当在Project中修改了Environment Variable的类型/默认值,引用该Environment Variable的参数(集)中的相应参数的类型/默认值不会随之改变,只能重新引用该Environment Variable。
1.2.4 Tips and Problems
(1)User Defined 类型只能是 String 和 Encrypted(用于存储密码等保密信息)。
(2)APT_DUMP_SCORE环境变量,可以在Project或Job属性里设置,不一致时,以Job里的设置为准。
(3)如何在使用当前日期、当前时间等变量值,便于其他Parallel Job执行时调用? 解决方法:
调用DS Macro或者使用Transformer中的Date&Time Functions
Description Note 引擎主机名 作业名 作业开始日期,即当前
DSJobStartDate 格式:YYYY-MM-DD
日期
作业开始时间,即当前格式:HH:MM:SS
DSJobStartTime
时间 24H
作业开始时间戳,即当格式:YYYY-MM-DD
DSJobStartTimestamp
前时间戳 HH:MM:SS
DSJobWaveNo DSProjectName 工程名
(4)全局参数尽量使用Parameter Set来实现,因为Parameter Set支持导入导出。
2. Parallel Processing
DS Macro Name DSHostName
DSJobController DSJobInvocationId DSJobName
2.1 Partitioning & Collecting Data 参考文档:《DS SE - DS Course.ppt》 [pages 77-89] 数据分区(分发)/收集类型
2.1.1 Round Robin
以逐条循环分配的形式将所有数据平均分发给每个node,每个node只得到部分数据。
保证每个节点处理数量相当的数据,从而使得每个节点负载均衡。
共分享92篇相关文档