集群会不断对动力环境进行监控,遇市电中断或温度过高,将会自动终止所有作业,按照安全顺序进行关机操作。
关机时会在/fs00/reports/bjobs/目录下会自动保存一份作业列表备查。文件/fs00/reports/bjobs/bjobs.20130728070457表明2013年07月28日07点04分57秒时刻所有作业的状态(bjobs -uall -w的输出),同时也说明这个时间点开始自动关机。
如果温度未触及高点,但已明显增高,为了防止温度继续增高,集群会停止派发新作业,并且关闭空闲节点。