bsub -gpu

  提交作业时使用 -gpu 选项申请所需的GPU资源,计算进程只可见作业调度系统分配的GPU。CPU核自动按照申请节点GPU的比例分配,如一节点8个GPU和40个CPU核,申请2个GPU则分配10个CPU核。

-gpu的各个参数用:分隔,常用参数如下

  • num=number:每台主机需要GPU的数量
  • mode=shared | exclusive_process:GPU运行模式,shared对应NVIDIA DEFAULT、exclusive_process对应NVIDIA EXCLUSIVE_PROCESS
  • aff=yes | no:是否进行GPU-CPU亲和性绑定

例:提交一个需要1个GPU的作业到e5v4p100ib队列

bsub -q e5v4p100ib -gpu num=1 ./gpu_app

例:提交一个需要4个GPU的作业到62v100ib队列,进行GPU-CPU绑定

bsub -q 62v100ib -gpu "num=4:aff=yes" ./gpu_app

查看GPU

查看节点GPU配置和拓扑结构:lshosts -gpu

查看节点GPU整体负载:lsload -gpu
查看节点每个GPU负载:lsload -gpuload