华为OceanStor 2200V3存储控制器出现故障及解决方法

华为(HUAWEI)OceanStor 2200 V3存储系统 磁盘阵列 存储

问题描述

存储前面板有红灯告警信息,故障控制器无红灯告警信息且无法登录,登录正常的控制器,发现故障控制器(B控制器)有无法监控及通信异常告警信息,无法通过FRU工具进行更换,最终通过分析采用直接更换解决B控制器故障。

告警信息

1、控制框(ID CTE0)中控制器(A)与(B)通信异常

2、控制器(控制框 CTE0,控制器B)无法监控

处理过程

1、登陆B控制器DeviceManager管理界面,输入用户名及密码后,无法登录并提示系统开工失败,提示信息如下图:

2、把管理网线连接A控制器,可以正常登录DeviceManager管理界面,发现有如下告警:

(1)控制框(ID CTE0)中控制器(A)与(B)通信异常

(2)控制器(控制框 CTE0,控制器B)无法监控

 

3、对2200V3存储设备进行巡检,发现不通过项有:
B控制器状态无法监控、BBU个数不足(BBU在控制器中,所以无法监控)、所有硬盘链路是单链路、系统存在告警

通过分析得知,所有不通过项都是因为B控制器故障导致的,无其他问题,所以可以更换B控制器。

4、使用FRU工具进行更换,因无法识别故障控制器,所以无法通过FRU工具选择故障控制器进行更换;

5、通过Device Manager管理界面,查看控制器后面板视图,发现B控制器是空的,表示没有插入控制器。查看所有LUN归属控制器及工作控制器,有个Lun归属控制器是B控制器,但工作控制器是A控制器,表示故障已经切换完成。

6、已经确认B控制器已经完全离线,直接拔出B控制器,然后插入新的备件控制器,等待大约50分钟左右,告警全部消失,说明问题基本解决。

7、对存储设备再次进行巡检,所有检查项都通过,无任何不通过项,可以确定问题完全解决。

根因

B控制器故障

解决方案

更换B控制器

建议与总结

故障处理思路:设备有告警信息,首先通过登录管理界面查看告警信息,当一个控制器无法登录,可以通过另外一个控制器进行登录尝试。查看告警信息后一般即可得知那个组件故障,发现故障组件后可以通过FRU工具进行更换,当无法使用FRU工具进行更换,需要分析当前业务运行情况,如当前环境,B控制器故障,通过查看LUN归属及工作控制器及控制框后视图得知B控制器无业务,业务已经切换到正常A控制器,可以直接通过拔出故障B控制器进行更换。更换完成后需要进行巡检,确保更换完成后无任何问题。