实时监控

 

  中心服务科研,自建设之初所有监控数据均开放访问,因硬件故障和系统变迁早期数据已无法查看。

  集群负载可查看各个队列的使用情况,包括正在运行和排队的作业,有助于选择合适的队列;计算过程中或结束后,通过节点监控分析作业对CPU、RAM、GPU、Network等系统资源使用情况,寻找优化空间或出错原因;网络负载着重列出核心以太网和InfiniBand交换机每个端口流量;机房环境记录设备所处的环境温度。