集群GPU监控已经重构升级,包含有gpu/memory利用率和温度,GPU Tensor等内部使用率,nvlink/pcie流量等信息