2月22日15:38,ibsw04 Mellanox SB7800 突发故障,所有端口黄灯,console输出乱码,远程管理无法连接,与其直连服务器的IB端口 State: Down,Physical state: Polling。

此次故障导致文件系统bbfs的IO节点bb01~bb04和计算队列6140ib的所有节点IB网络掉线,计算队列62v100ib 6226rib 7702ib 722080tiib 72rtxib的所有节点IB网络与集群主IB网络通讯中断且无子网管理器,整个集群的并行文件系统因RDAM网络异常而变得异常缓慢。

现通过重启计算队列6140ib 62v100ib 6226rib 7702ib 722080tiib 72rtxib的所有节点和文件系统bbfs的IO节点bb01~bb04,集群已基本恢复正常,计算队列中受影响的作业附后。

此ibsw04交换机重启后故障依旧,需要等待售后维修。在此IB交换机不可用期间,集群有如下性能影响:

  1. 计算队列6140ib的IB网络不可用,跨节点并行作业的效率大幅降低;
  2. 计算队列62v100ib 6226rib 7702ib 722080tiib 72rtxib的节点只能通过以太网挂载并行文件系统,IO性能降低;
  3. 整个集群只能通过以太网挂载文件系统bbfs,bbfs性能严重降低;

当ibsw04交换机重新上线时,计算队列62v100ib 6226rib 7702ib 722080tiib 72rtxib的所有节点需要重启,bbfs文件系统需要重新挂载。

 

6140ib队列受影响的作业:31777272 31777273 31777276 31777286
7702ib队列受影响的作业:31775390 31775392 31775395 31775403 31775404 31775412 31776931
72rtxib队列受影响的作业:31776355
6226rib!队列受影响的作业:31775266 31669149 31669153 31726102 31726104 31726105 31726106 31726110 31726111 31726115 31726116 31726117 31726119 31726120 31726121 31726122 31726123 31726124 31726125 31726126 31669158 31669159 31754879 31726127 31726128 31726129 31726130 31726131 31726132 31726133 31726134 31726135 31726136 31726137 31726138 31726139 31726140 31726141 31726142 31726143 31726144 31726145 31726146 31726147 31726148 31726149 31726150 31726151 31726152 31726153 31726154 31726155 31726156 31726157 31726158 31726159 31726160 31726161 31726162 31726163 31726164 31726165 31726166 31726167 31726168 31726169 31726170 31726171 31726172 31726173 31726174 31754880 31754881 31754882 31754883 31754884 31754885 31754886 31754887 31754888 31754889 31760380 31760381 31760388 31760389 31760395 31760396 31760397 31760398 31774713 31774714 31774715 31774716 31774717 31774718 31774719 31774720 31774725 31774726 31774727