运行监控

 

  中心服务科研,自建设之初所有监控数据均开放访问,因硬件故障和系统变迁早期数据已无法查看。

  集群负载可查看各个队列的使用情况,包括正在运行和排队的作业核数和个数,有助于选择合适的队列。计算过程中或结束后,通过节点监控查看CPU、RAM、Network等资源使用情况,通过GPU监控查看GPU卡上资源的使用情况,通过文件系统查看并行文件系统的读写情况,分析作业的负载情况,从中寻找优化空间或出错原因;网络负载则列出以太网和InfiniBand交换机每个端口流量;机房环境记录设备所处的环境温度。