当前位置:首页 > slurm简明使用手册
Slurm简明使用手册 | 并行科技股份有限公司
Slurm简明使用手册
0
Slurm简明使用手册 | 并行科技股份有限公司
目录
Slurm作业管理系统 .................................................................................................................................................................................................................... 2
1 sinfo查看系统资源 .................................................................................................................................................................................................. 2 2 squeue查看作业状态 ............................................................................................................................................................................................. 3 3 srun交互式提交作业 ............................................................................................................................................................................................... 4 4 sbatch 后台提交作业 .............................................................................................................................................................................................. 5 5 salloc 分配模式作业提交 ........................................................................................................................................................................................ 6 6 scancel 取消已提交的作业 .................................................................................................................................................................................... 6 7 scontrol 查看正在运行的作业信息 ....................................................................................................................................................................... 7 8 sacct 查看历史作业信息 ......................................................................................................................................................................................... 7
1
Slurm简明使用手册 | 并行科技股份有限公司
Slurm作业管理系统
使用Slurm作业管理系统,当前debug作业队列设置为节点可以共享,但作业独占CPU core/GPU资源。多个用户可以提交作业到同一个节点上,但是节点上CPU core/GPU资源只能被单一作业占有使用。 作业管理系统常用命令如下:
命令 功能介绍 显示系统资源使用情况 显示作业状态 用于交互式作业提交 用于批处理作业提交 用于分配模式作业提交 用于取消已提交的作业 用于查询节点信息或正在运行的作业信息 常用命令例子 sinfo squeue srun -N 2 -n 48 -p debug A.exe sbatch -N 2 -n 48 job.sh salloc -p debug scancel JOBID scontrol show job JOBID sacct -u pp100 -S 03/01/17 -E 03/31/17 sinfo squeue srun sbatch salloc scancel scontrol sacct 用于查看历史作业信息 --field=jobid,partition,jobname,user,nnodes,start,end,elapsed,state
1 sinfo查看系统资源
sinfo得到的结果是当前账号可使用的队列资源信息,如下图所示:
其中,
第一列PARTITION是队列名,默认能使用的队列名为debug。
第二列AVAIL是队列可用情况,如果显示up则是可用状态;如果是inact则是不可用状态。 第三列TIMELIMIT是作业运行时间限制,默认是infinite没有限制。 第四列NODES是节点数。
第五列STATE是节点状态,idle是空闲节点,alloc是已被占用节点,comp是正在释放资源的节点,其他状态的节点都不可用,mix是该节点有作业在运行或有程序占用cpu导致的。 第六列NODELIST是节点列表。
2
Slurm简明使用手册 | 并行科技股份有限公司
sinfo的常用命令选项:
命令示例 sinfo -n gm26 sinfo -p debug 其他选项可以通过sinfo --help查询
功能 指定显示节点gm26的使用情况 指定显示队列debug情况 2 squeue查看作业状态
squeue得到的结果是当前账号正在运行作业的状态,如果squeue没有作业信息,说明作业已退出。
其中,
第一列JOBID是作业号,作业号是唯一的。 第二列PARTITION是作业运行使用的队列名。 第三列NAME是作业名。 第四列USER是超算账号名。
第五列ST是作业状态,R表示正常运行,PD表示在排队,CG表示正在退出,S是管理员暂时挂起,只有R状态会计费。
第六列TIME是作业运行时间。 第七列NODES是作业使用的节点数。
第八列NODELIST(REASON)对于运行作业(R状态)显示作业使用的节点列表;对于排队作业(PD状态),显示排队的原因。
squeue的 常用命令选项:
命令示例 squeue -j 396 squeue -u hutengteng squeue -p debug 功能 查看作业号为396的作业信息 查看集群账号为hutengteng的作业信息 查看提交到debug队列的作业信息 3
共分享92篇相关文档