在介绍新的系统前,让我们首先回顾一下已有的两套监控系统:

  1. Cacti(https://mon.nju.edu.cn/cacti)提供作业调度系统各个队列使用情况、交换机端口流量和机房温度,对于用户来说其中的各个队列使用情况最为有用,可以帮助选择合适的队列;
  2. Gangila(https://mon.nju.edu.cn/ganglia/)提供每个节点详细的监控信息,用户可以从中挖掘作业对计算机各类资源的使用情况进行分析。

  这次新增的 Prometheus + Grafana 是近些年比较流行的监控平台,功能上和Ganglia基本一致,但有更美观的界面并对移动设备屏幕友好。使用浏览器打开 https://mon.nju.edu.cn/grafana ,点击左上角的“e-Science Center”会展开已经发布的仪表盘(dashboard),当前发布的四个经过我的修改都可以显示InfiniBand/Omni-Path的RDMA流量,下面分别介绍一下:

 

  HPC Node Exporter Full v2 分类展示单个节点的详细监控信息,这是所有仪表盘中对节点各类监控指标展示最详细的,但是不包含GPU。每个仪表盘的左上角可以选择节点,右上角可以选择时间区间和自动刷新间隔。

 

  HPC GPU Nodes v2 主要展示单个节点的GPU监控信息,这也是所有仪表盘中唯一支持GPU监控的。

 

  HPC Node Exporter Server Metrics v2 同时展示1-6个节点的主要监控信息,适合多节点比对。左上角的节点是可以多选,超过6个显示有重叠。

 

  HPC Node Exporter Server Simple Metrics v2 同时展示1-6个节点的四项主要监控信息(CPU、Memory、Ethernet、InfiniBand/Omni-Path),适合多节点比对。

 

提示:Network Traffic 中不包含RDMA流量,InfiniBand Traffic 中包含InfiniBand和Omni-Path的RDMA和非RDMA流量。