6.1 诊断原则
注意:
- 所有操作务必获得客户书面授权。
- 所有操作需保证业务数据不会丢失或已经备份。
在进行故障诊断时,请遵循以下基本原则:
- 先诊断外部,后诊断内部。诊断故障时,应先排除外部的可能因素,如电源中断、对接设备故障等。
- 先诊断网络,后诊断网元。根据网络拓扑图,分析网络环境是否正常、互连设备是否发生故障,尽可能准确定位出是网络中哪个网元发生故障。
- 先高速部分,后低速部分。从告警信号流中可以看出,高速信号的告警经常会引起低速信号的告警。因此在故障诊断时,应先排除高速部分的故障。
- 先分析高级别告警,后分析低级别告警。分析告警时,首先分析高级别的告警,如紧急告警、严重告警,然后再分析低级别的告警,如轻微告警。
6.2 使用诊断工具诊断故障
注意:
FusionServer Tools Toolkit工具必须在停止服务器业务后使用,请告知客户先迁走服务器上的业务。
FusionServer Tools Toolkit工具提供以下功能:
- 获取硬件信息;
- 快速诊断;
- CPU、硬盘和内存的专项测试;
- 提供配置和部署常用的参考工具和脚本;
- 制作可启动U盘,方便使用U盘运维;
- 针对渠道的自动配置诊断功能。
详细操作请参见《FusionServer Tools Toolkit 用户指南》。
6.3 根据告警处理故障
根据服务器的管理系统检查告警并进行诊断。请在各服务告警处理手册中检索告警码,查询对应的告警处理方法,具体各服务器告警处理手册获取方法请见表6-1的表格。
表6-1 告警故障处理
服务器系列类型 | 参考资料 |
---|---|
E9000 | 请参考E9000 服务器 V100R001 告警处理。
其中,交换模块在以太网交换平面的CLI执行以下命令查看告警:
说明: 登录交换模块的以太网交换平面请参见9.13 使用PuTTY登录服务器(网口方式)、9.14 使用PuTTY登录服务器(串口方式)和9.15 通过SOL登录计算节点/直通模块/交换模块。 |
E6000 | 请参考E6000 服务器 V100R002 告警参考。 |
机架服务器 | 请参考华为机架服务器 告警处理 (iBMC)。 |
X6000 | 请参考X6000 服务器 告警处理 (iBMC)或X6000 服务器 告警处理 (iMana 200)。 |
X8000 | 请参考X8000服务器 V100R001 告警参考。 |
X6800 | 请参考X6800 服务器 V100R003 告警处理。 |
G2500 | 请参考FusionServer G2500服务器 告警处理(iBMC)。 |
FusionServer G5500 | 请参考FusionServer G5500 服务器 1.0.0 告警处理。 |
6.4 根据指示灯定位故障
指示灯位置请参见各服务器用户指南的外观章节。
操作流程
检查指示灯的操作流程如图6-1所示。
图6-1 指示灯检查流程图
适用于所有服务器的指示灯
- 检查设备的总体健康状态指示灯。表6-2 总体健康状态指示灯
模块指示灯 指示灯状态 含义 处理步骤及说明 健康状态指示灯(HLY) 绿色常亮 表示设备运转正常 无需任何操作。 红色闪烁 表示有异常告警 - 登录iMana 200/iBMC Web界面查看具体告警事件。
- (可选)查看前面板“故障诊断数码”确认具体故障码。
电源开关指示灯(PWR) 绿色常亮 表示设备已正常上电 无需任何操作。 ***闪烁 表示iMana 200/iBMC管理系统正在启动,此时按电源开关按钮无法开关机 ***常亮 表示设备处于待上电状态 按PWR键开机,如果无法正常开机,请登录iMana 200/iBMC Web界面排查相关告警。 灭 表示设备未上电 UID指示灯 蓝色常亮 表示服务器被定位 说明: UID按钮/指示灯可方便地定位待操作的服务器,通过手动按UID按钮或者通过iMana 200/iBMC命令远程控制使灯灭或灯亮。
长按定位按钮4~6秒钟,复位服务器的iMana 200/iBMC管理系统。
灭 表示服务器未被定位或未上电 - 根据具体iMana 200/iBMC系统事件日志进行故障定位。
- 各子部件的指示灯状态含义。表6-3 硬盘状态指示灯
硬盘Active指示灯 硬盘Fault指示灯 含义 处理步骤及说明 绿色常亮 灭 表示硬盘工作正常 无需任何操作。 绿色闪烁 表示硬盘正在读写数据 绿色常亮 ***闪烁 表示硬盘被定位或RAID重构 绿色闪烁 绿色常亮/绿色闪烁/灭 ***常亮 表示硬盘故障 登录iMana 200/iBMC且使用FusionServer Tools Toolkit工具检查硬盘是否存在故障。 灭 灭 表示硬盘不在位或硬盘故障 请检查硬盘是否完全接触正常或登录iMana 200/iBMC且使用FusionServer Tools Toolkit工具检查硬盘是否存在故障。 表6-4 NVMe PCIe 固态硬盘指示灯
NVMe硬盘Active指示灯 NVMe硬盘Fault指示灯 含义 处理步骤及说明 绿色常亮 灭 NVMe PCIe 固态硬盘在位且无故障。 无需任何操作。 绿色闪烁(2Hz) NVMe PCIe 固态硬盘正在进行读写操作。 灭 NVMe PCIe 固态硬盘不在位。 绿色常亮/灭 ***常亮 NVMe PCIe 固态硬盘故障。 重新插拔后若问题仍未解决则更换NVMe PCIe 固态硬盘。 灭 ***闪烁(2Hz) NVMe PCIe 固态硬盘正处于热插过程中。 无需任何操作。 ***闪烁(0.5Hz) NVMe PCIe 固态硬盘已走完热拔出流程,允许拔出。 拔出NVMe PCIe 固态硬盘。 说明:
若NVMe PCIe 固态硬盘插入后Fault指示灯***闪烁(0.5Hz),请重新插拔。
表6-6 网络端口指示灯
模块指示灯 指示灯状态 含义 处理步骤及说明 GE网口连接状态指示灯 绿色常亮 表示网口连接正常 无需任何操作。 灭 表示网口未使用或连接异常 - 交叉检查交换机和网线是否正常。
- 检查网卡状态是否正常。
GE网口数据传输指示灯 橙色闪烁 表示当前有数据正在传输 无需任何操作。 灭 表示当前无数据传输 10GE电口速率指示灯 绿色(常亮) 表示当前Link链路速率为10G 若链路速率与对接交换机速率一致,无需任何操作;否则,执行以下步骤: - 检查网口内针脚是否正常。
- 检查网线是否正常。
- 检查对端设备是否正常。
***(常亮) 表示当前Link链路速率为1G 灭 表示当前Link链路速率为10/100M 10GE电口连接状态指示灯/数据传输状态指示灯 绿色(常亮) 表示网络连接正常 无需任何操作。 绿色(闪烁) 表示当前有数据正在传输 灭 表示当前无数据传输或网络未连接 - 交叉检查交换机、光纤、光模块(类型、速率是否匹配)是否正常。
- 检查操作系统网卡状态是否正常。
- 检查交换机和网卡端口是否UP。
10GE光口连接状态指示灯 绿色常亮 表示接口连接正常 无需任何操作。 灭 表示接口连接异常 - 交叉检查交换机、光纤、光模块(类型、速率是否匹配)是否正常。
- 检查操作系统网卡状态是否正常。
- 检查交换机和网卡端口是否UP。
10GE光口数据传输状态指示灯 橙色闪烁 表示接口正在发送或接收数据 无需任何操作。 灭 表示接口无数据传输 CX912 8G FC光口连接诊断状态指示灯 橙色常亮 表示交换模块与对端设备的端口不同步 检查网线是否连接正常,检查光模块和网卡是否存在故障。 橙色闪烁(2秒1次) 表示端口关闭 橙色闪烁(1秒2次) 表示端口故障 灭 连接状态指示灯同时灭,表示光模块没有插入或接收光异常。 CX912 8G FC光口连接状态指示灯 绿色常亮 表示端口正常,链路已连接 无需任何操作。 绿色闪烁(2秒1次) 表示端口正常但被隔离,未建立链路连接 如果对端是交换机,请检查交换机之间的工作模式是否匹配,具体可参见《E9000 服务器 V100R001 开局指导书》。如果对端是存储设备,请检查存储端口。 绿色闪烁(1秒2次) 表示端口内环回(诊断模式) 无需任何操作。 绿色闪烁(1秒4次) 表示链路已连接且有数据传输 灭 诊断状态指示灯同时灭,表示光模块没有插入或接收光异常 请检查光模块是否插入或故障,光纤是否故障。 CX911 8G FC光口数据传输状态指示灯 橙色闪烁(1秒2次) 连接状态指示灯同时绿色闪烁,表示超温告警 查看iMana 200/iBMC事件告警日志,检查是否有高温告警。 橙色闪烁(>1秒2次) 表示端口正在发送或接收数据 无需任何操作。 灭 表示端口无数据传输 CX911 8G FC光口连接状态指示灯 绿色常亮 表示链路连接正常 无需任何操作。 绿色闪烁(1秒1次) 表示设备正在注册或端口处于诊断状态 绿色闪烁(1秒2次) 表示链路连接异常或端口故障;如果数据传输状态指示灯为橙色灯同时2闪/秒,表示超温告警 请检查端口、光模块和光纤是否故障。 灭 表示光模块没有插入或接收光异常 请检查光模块和光纤是否故障。 IB光口状态指示灯 绿色常亮 表示端口连接正常 无需任何操作。 绿色闪烁 表示端口正在发送或接收数据 灭 表示端口未连接 说明: 其它标准PCIe插卡的状态指示灯说明请参考对应厂家的官网链接资料。
- 表6-5 电源模块状态指示灯
模块指示灯 指示灯状态 含义 处理步骤及说明 电源模块运行状态指示灯(460W/750W/800W/1200W) 绿色常亮 表示电源输入正常 无需任何操作。 灭 表示无电源输入,或者系统处于Standby状态或异常状态 请检查电源线是否连接正常或电源模块是否存在故障。 电源模块运行状态指示灯(2000W/2500W/3000W) 绿色常亮 表示电源模块运行正常 无需任何操作。 绿色闪烁(2秒1次) 表示电源模块处于休眠状态或电源未插稳 请检查服务器是否启动休眠设置(仅限E9000产品),否则检查电源是否插稳。 红色常亮 表示电源模块运行异常 - 检查电源是否故障。
- 否则检查外部供电是否正常。
灭 表示无电源输入或处于异常状态 请检查电源线是否连接正常。 电源模块运行状态指示灯(500W/900W/1500W) 绿色常亮 表示电源模块运行正常 无需任何操作。 绿色闪烁(1秒1次) - 表示电源输入正常
- 输入电压过高或过低
说明: 禁止对电源模块进行插拔等操作。
检查外部供电是否正常。
绿色闪烁(1秒4次) 表示电源模块在线升级过程中 无需任何操作。 橙色常亮 表示输入正常,电源过温保护、电源输出过流/短路、输出过压、短路保护以及器件失效(不包括所有的器件失效)等导致电源无输出 将电源模块拔出,重新安装,检查问题是否解决,若仍橙色常亮,请更换电源模块。 灭 表示无电源输入或处于异常状态 - 检查电源是否故障。
- 否则检查外部供电是否正常。
- 说明:仅高密服务器、机架服务器的RH1288 V3、RH2288 V3、RH2288H V3、RH5288 V3、RH5885 V3、RH5885H V3和RH8100 V3、刀片服务器E9000的CH225 V3计算节点涉及NVMe PCIe 固态硬盘指示灯。
仅RH5885 V2、RH5885 V3和RH5885H V3涉及的指示灯
表6-7 模块指示灯(适用于RH5885 V2、RH5885 V3和RH5885H V3)
模块指示灯 | 指示灯状态 | 含义 | 处理步骤及说明 |
---|---|---|---|
内存模块电源指示灯 | 绿色常亮 | 表示内存模块已上电 | 无需任何操作。 |
灭 | 表示内存模块未上电 | ||
内存模块故障指示灯 | 红色常亮 | 表示内存模块上存在内存故障。 | 根据内存条故障指示灯,更换对应的故障内存条。 |
灭 | 表示内存模块上内存正常 | 无需任何操作。 | |
内存条故障定位指示灯 | 红色常亮 | 表示对应内存故障 | 拆下内存模块,长按此内存故障定位按钮,此时,存在故障的内存对应的指示灯变亮。 |
灭 | 表示对应内存正常 | 无需任何操作。 | |
内存模块镜像指示灯(仅限RH5885H V3产品) | 绿色常亮 | 表示内存模块已配置内存镜像 | 无需任何操作。 |
灭 | 表示内存模块未配置内存镜像 | ||
热插拔PCIe卡状态指示灯 | ***常亮 | 表示PCIe卡异常或设备处于POST阶段 | 如非POST阶段显示***常亮告警,建议检查更换PCIe卡。 |
灭 | 表示PCIe卡正常运行 | 无需任何操作。 | |
热插拔PCIe卡电源指示灯 | 绿色常亮 | 表示PCIe卡电源正常 | 无需任何操作。 |
绿色闪烁 | 表示PCIe卡处于上电或下电过程中 | ||
灭 | 表示PCIe卡已下电 | ||
RH5885 V2服务器诊断面板 | 绿色常亮 | 表示对应部件有异常告警 | 具体请参见《RH5885 V2 服务器 (8路) V100R001C02 用户指南》 2.5.1 前面板组件和2.5.2 指示灯和按钮 章节。 |
灭 | 表示对应部件正常 | 无需任何操作。 | |
RH5885 V3服务器故障诊断面板 | 红色常亮 | 表示对应部件有异常告警 | 具体请参见《RH5885 V3 服务器 V100R003 用户指南》 2.4 指示灯和按钮 章节。 |
灭 | 表示对应部件正常 | 无需任何操作。 |
仅RH8100和X6800涉及的指示灯
表6-8 模块指示灯(适用于RH8100和X6800)
模块指示灯 | 指示灯状态 | 含义 | 处理步骤及说明 |
---|---|---|---|
RH8100 V3风扇指示灯 | 绿色常亮 | 表示风扇框单板/模块硬件故障或者风扇模块软件处于在线升级状态(在线升级大约需要3分钟) | 检查软件是否正在升级或风扇框单板/模块硬件是否故障。 |
绿色闪烁(2秒1次) | 表示风扇模块与iBMC通信正常 | 无需任何操作。 | |
绿色闪烁(1秒4次) | 表示风扇模块与iBMC通信丢失 | 登录iBMC查看iBMC软件是否正常。
|
|
红色常亮 | 表示风扇框单板/模块硬件故障 | 重新插拔风扇模块,若告警未消除,请更换风扇模块。 | |
红色闪烁 | 表示风扇模块有告警或风扇框单板/模块硬件可能故障 | 重新插拔风扇模块,若告警未消除,请更换风扇模块。 | |
灭 | 表示风扇模块未上电 | 无需任何操作。 | |
X6800风扇模块运行状态指示灯 | 绿色常亮 | 表示风扇模块工作正常 | 无需任何操作。 |
红色常亮 | 表示风扇模块存在故障 | 请更换对应告警风扇模块。 | |
灭 | 表示风扇模块无电源输入 | 检查风扇模块是否插好。 | |
内存模块按钮/状态指示灯 | 绿色常亮 | 表示内存模块工作正常 | 无需任何操作。 |
绿色闪烁 | 表示内存模块热插拔的一个中间状态 | ||
红色闪烁(1秒1次) | 表示内存模块工作故障 | 查看iBMC事件告警日志,检查内存模块是否故障。 | |
红色闪烁(1秒5次) | 表示内存模块未插稳 | 检查内存模块是否插好。 | |
灭 | 表示内存模块未上电 | ||
内存模块ATTN指示灯 | ***常亮 | 表示操作热添加或者热移除的操作失败 | 首先确认客户业务是否能够迁移业务或停机。待停机后,对服务器进行先下电再上电操作。
|
***闪烁 | 在内存模块热添加过程中,用闪烁来提示用户是否需要取消当前操作,如果取消则需要在5s内再按一次内存模块按钮 | 无需任何操作。 | |
灭 | 表示操作正常 | ||
内存模块备用指示灯 | 绿色常亮 | 表示该内存模块处于空闲状态 | 无需任何操作。 |
灭 | 该内存模块没有处于空闲状态 | ||
内存模块镜像指示灯 | 绿色常亮 | 表示内存模块已配置内存镜像 | 无需任何操作。 |
灭 | 表示内存模块未配置内存镜像 | ||
计算模块状态指示灯 | 绿色常亮 | 表示计算模块工作正常 | 无需任何操作。 |
红色闪烁(1秒1次) | 表示计算模块故障 | 查看iBMC事件告警日志,检查计算模块是否故障。 | |
红色闪烁(1秒5次) | 表示计算模块未插稳 | 检查计算模块是否插好。 | |
灭 | 计算模块未上电 |
仅E9000涉及的指示灯
表6-9 模块指示灯(适用于E9000)
模块指示灯 | 指示灯状态 | 含义 | 处理步骤及说明 |
---|---|---|---|
MM910管理模块电源指示灯(PWR) | 绿色常亮 | 表示MM910已上电 | 无需任何操作。 |
绿色闪烁 | 表示MM910正在上电 | ||
灭 | 表示MM910未上电 | 请检查MM910是否插好。 | |
MM910管理模块健康状态指示灯(HLY) | 绿色常亮 | 表示机箱各部件均工作正常 | 无需任何操作。 |
红色闪烁(1秒1次) | 表示机箱某部件产生严重告警,此时主、备MM910均亮红灯 | 请检查MM910是否插好,登录HMM Web界面查看告警。 | |
红色闪烁(1秒4次) | 表示机箱某部件产生致命告警,此时主、备MM910均亮红灯 | ||
红色闪烁(1秒5次) | 表示MM910松动 | ||
灭 | 表示MM910未上电或正在上电 | 无需任何操作。 | |
MM910管理模块主备状态指示灯(ACT) | 绿色常亮 | 表示该MM910为主用状态 | 无需任何操作。 |
灭 | 表示该MM910为备用状态 | ||
E9000交换模块堆叠状态指示灯(STAT) | 绿色常亮 | 对于支持堆叠的交换模块:表示交换模块工作在堆叠主用状态或者未堆叠,且工作正常 | 无需任何操作。 |
对于不支持堆叠的交换模块:表示交换模块工作正常 | |||
绿色闪烁 | 对于支持堆叠的交换模块:表示交换模块工作在堆叠备用或者堆叠从状态,且工作正常 | ||
对于不支持堆叠的交换模块:表示交换模块正在上电 | |||
灭 | 表示交换模块未上电 | ||
E9000交换模块健康状态指示灯(HLY) | 绿色常亮 | 表示交换模块工作正常 | 无需任何操作。 |
红色闪烁 | 表示交换模块产生异常告警或者未插稳 | 登录HMM Web界面检查事件告警日志,检查交换模块是否插稳或是否存在故障。 | |
灭 | 表示交换模块未上电 | 无需任何操作。 | |
E9000风扇模块运行状态指示灯 | 绿色闪烁(2秒1次) | 表示风扇模块工作正常 | 无需任何操作。 |
绿色闪烁(1秒4次) | 表示风扇模块与MM910通信异常,无风扇告警。 | 交叉对换风扇模块,排查风扇模块是否故障或槽位异常。 | |
红色闪烁(2秒1次) | 表示风扇模块存在告警 |
|
|
灭 | 表示风扇模块无电源输入 | 检查风扇模块是否插好或风扇模块的控制线路是否故障。 |
6.5 根据故障诊断数码定位故障
目前,支持故障诊断数码管的服务器包括:RH1288 V3、RH2288 V3、RH2288H V3、RH5885 V3、5288 V3、1288H V5、2288H V5、2488 V5,故障诊断数码管的显示状态及含义如表6-10所示。以RH1288 V3为例,其故障诊断数码管的位置如图6-2所示,请根据故障诊断数码管上显示的故障码,在对应的告警处理手册中查询对应的故障处理方法。
表6-10 故障诊断数码
模块名称 | 显示状态 | 含义 | 处理步骤及说明 |
---|---|---|---|
故障诊断数码管 | 显示“---” | 表示服务器正常 | 无需任何操作。 |
显示故障码 | 表示服务器有部件故障 | 故障码的详细信息请参见《华为机架服务器 告警处理(iBMC)》的“故障码处理”章节。 |
图6-2 故障诊断数码管位置示意图
6.6 根据现象处理故障
各产品最小化配置说明如下:
表6-11 各产品最小化配置说明
产品型号 | 最小化配置 | 最小化测试说明 |
---|---|---|
RH1288 V3、RH2288 V3、RH2288H V3、5288 V3 | CPU:1个,安装在CPU1槽位 | 无 |
内存:1个,安装在DIMM000(A)槽位 | ||
RH8100 V3(8P) | CPU:1个,安装在CPU1槽位 | 双系统模式(电源1个,安装在任意槽位) |
内存板:1个,安装在solt1槽位 | ||
内存:1条,安装在DIMM000槽位 | ||
HFC板:1块,安装在HFC2槽位 | ||
RH8100 V3(双系统主4P) | CPU:1个,安装在CPU1槽位 | 双系统,主4P(电源1个,安装在任意槽位) |
内存板:1个,安装在solt1槽位 | ||
内存:1条,安装在DIMM000槽位 | ||
HFC板:1块,安装在HFC2槽位 | ||
RH8100 V3(双系统从4P) | CPU:1个,安装在CPU5槽位 | 双系统,从4P(电源1个,安装在任意槽位) |
内存板:1个,安装在solt9槽位 | ||
内存:1条,安装在DIMM000槽位 | ||
HFC板:1块,安装在HFC1槽位 | ||
RH5885 V3 | CPU:2个,安装在CPU1、CPU2槽位 | 电源1个,安装在任意槽位 |
内存:1个,安装在DIMM000槽位 | ||
RH5885H V3 | CPU:2个,安装在CPU1、CPU2槽位 | 电源1个,安装在任意槽位 |
内存:1个,第一个内存板的DIMM A1槽位 | ||
CH121 V5、CH242 V5、CH121L V5 | CPU:1个,安装在CPU1槽位 | 无 |
内存:1个,安装在DIMM000槽位 |
6.6.1 电源问题
设备状态术语说明如下:
- 通电:设备加电,电源按钮指示灯亮。
- 待机:设备加电,电源按钮指示灯***常亮。
- 上电:设备加电,电源按钮指示灯绿色常亮。
- POST:上电自检。
请根据以下故障现象进行诊断。
故障现象 | 处理步骤 | 快速恢复方法 |
---|---|---|
单电源模块故障(无输出,健康状态指示灯红色闪烁) |
|
|
机架设备不通电(指示灯全灭) |
|
根据处理步骤进行排查,更换故障模块。 |
刀片服务器和高密服务器:机箱不通电 |
|
根据处理步骤进行排查,更换故障模块。 |
刀片服务器和高密服务器:机箱通电但某个计算节点/服务器节点不通电 |
6.6.2 KVM登录问题
请根据以下故障现象进行诊断。
故障现象 | 处理步骤 | 快速恢复方法 |
---|---|---|
KVM链接无法打开 |
|
|
KVM提示异常 |
|
|
KVM可登录,但使用有异常 |
|
6.6.3 POST阶段异常
请根据以下故障现象进行诊断。
故障现象 | 处理步骤 | 快速恢复方法 |
---|---|---|
通电不能进入待机状态(电源按钮指示灯***闪烁持续5分钟以上) |
|
对于机架服务器,请按照以下方法处理:
对于E9000服务器,请按照以下方法处理:
|
待机不能上电(电源按钮指示灯***常亮) |
|
说明: 若客户要求紧急进行恢复,可直接更换整机。 |
上电即掉电 |
|
|
上电即no signal |
说明: 若客户要求紧急进行恢复,可直接更换整机。 |
|
反复上下电 |
说明: 对于E9000服务器,建议通过MM910一键收集日志信息。 |
|
POST随机界面卡住 |
|
|
RAID自检卡住 |
|
|
网卡PXE失败 |
|
根据处理步骤处理。 |
6.6.4 内存错误问题
内存错误相关的故障,请根据以下情况进行诊断。
故障现象 | 处理步骤 | 快速恢复方法 |
---|---|---|
系统内存少于安装的物理内存 |
|
|
出现内存不可纠正的告警 |
说明: 验证问题是否解决可以使用FusionServer Tools Tookit工具对内存进行加压测试。 |
|
6.6.5 硬盘IO问题
硬盘IO相关的故障,请根据以下情况进行诊断。
故障现象 | 处理步骤 | 快速恢复方法 |
---|---|---|
iMana 200/iBMC上报Disk Fault硬盘告警事件 |
|
|
单个或部分硬盘在RAID卡中识别不到 |
|
|
全部硬盘在RAID卡中都识别不到 |
|
保持硬盘顺序不变,根据处理步骤进行排查,更换故障模块。 |
备注:对于RH2288A V2服务器,如果出现以上现象,请同步检查主板连接电源转接板的细线缆是否插稳。如图6-3所示为该线缆连接示意图。
图6-3 线缆连接示意图 |
6.6.6 以太网控制器问题
请根据以下故障现象进行诊断。
故障现象 | 处理步骤 | 快速恢复方法 |
---|---|---|
网口不可见 |
|
|
网口不通 |
|
|
网口丢包/错包 |
|
|
网口性能不达标 |
|
6.6.7 FC控制器问题
FC控制器常见故障现象及处理步骤
请根据以下故障现象进行诊断。
故障现象 | 处理步骤 |
---|---|
存储无法识别主机WWPN |
|
存储已经识别HBA卡WWPN但无法映射LUN | |
存储LUN多路径链路 部分丢失 | |
LUN读写性能慢 |
FC控制器快速恢复场景
FC控制器常见快速恢复场景以及处理手段如表6-12所示。
表6-12 FC控制器快速恢复场景和手段
故障现象 | 快速恢复手段 |
---|---|
HBA卡均断链 | |
存储业务受影响但HBA无断链 | |
存储LUN性能问题 |
|
6.6.8 交换模块问题
交换模块快速恢复方法
请根据以下故障现象进行对应的快速处理。
故障现象 | 快速恢复方法 |
---|---|
启动交换模块失败,通过SOL串口登录交换模块,界面打印“Can not get config file from smm. Begin reboot …”的提示信息。 |
|
交换模块启动失败,通过SOL串口登录交换模块,界面打印“Ensure that the optical fibers or cables are inserted on the same ports on the panel after the board replacement. During system startup, do not power off or remove the board. To continue the startup, press Y:”的提示信息。 |
|
通过SOL串口登录交换模块,界面提示输出包含“Critical Error!”信息,且使用display interface命令只能查到meth端口。 | 根据SOL登录后的提示信息,升级指定或最新的软件版本。 |
产生网络风暴(接口的“Mulcast”和“Broadcast”的计数器异常)。 | 请任选以下一个操作进行快速汇入:
|
端口可以Up但流量不通。 |
|
接口产生错包(使用display interface命令查看“Input”中的“Total Error”项是否不为零且正在增长)。 | 使用display interface命令查看“CRC”和“Symbols”项:
|
6.6.9 OS问题
OS安装问题
OS安装相关的故障,请根据以下情况进行诊断。
诊断思路 | 诊断步骤 |
---|---|
可安装的OS选择问题 | 通过华为服务器 兼容性查询助手检查OS是否与服务器兼容。 |
OS安装方式问题 | 通过华为服务器 兼容性查询助手查询OS是否与服务器兼容以及对应OS的安装说明,OS安装说明也可参见《华为服务器操作系统安装指南》。 |
ServiceCD问题 |
|
OS安装过程中的问题 | |
硬盘识别问题 |
|
OS故障问题
界定OS故障问题之前,请排查是否是其他故障问题,再根据以下步骤进行诊断。
故障现象 | 诊断方法 | 诊断结论 |
---|---|---|
服务器挂起或重启 | 关闭BIOS中C、P、T、ASPM,服务器运行正常。 | OS版本不支持本平台CPU问题 |
系统挂起堆栈信息有对应挂起进程名称或者板卡厂家名称。(例如“FC_XX”是FC的挂起等。) | OS自带驱动兼容性问题 | |
排查是否是PCIe板卡兼容性问题:
|
PCIe板卡兼容性问题 | |
“CPUidle”出现在OS最后一屏信息中。
说明: G2500服务器暂不支持。 |
OS内核与硬件平台兼容性问题
说明: G2500服务器暂不支持。 |
|
通过iMana 200/iBMC查找硬件报错位置,例如内存位置,硬盘位置和主板部件。 | 硬件电路部件故障问题 | |
OS日志出现文件系统只读挂起,通过FusionServer Tools-Toolkit引导自检系统对硬盘打分,依据结果判断是否需要更换硬盘碟片。 | 硬盘碟片故障问题 | |
iMana 200出现“imana cat err”告警信息,通过iMana 200的fdm日志分析对应故障部件。 | 硬件部件故障问题 | |
Machine Check Exception问题。通过查看“/var/log/mce.log”和串口挂起堆栈信息错误码,找到对应故障点。 |
|
|
请先在现场收集以下信息:
通过前述信息咨询,再次确认是单机问题还是硬件问题,运行FusionServer Tools-Toolkit自检一轮,依据报告结果确认问题。 |
依据报告结果确认硬件故障点 | |
近期软件升级(包括客户业务软件、数据库、中间软件、内核、主机软件BIOS、HMM板、iMana 200/iBMC和存储软件变更等)开始出现规律性宕机。 |
|
|
“update_cpu_power”或“divide_error”、“timer_xx”出现在挂起最后一屏堆栈信息中。(周期性)
说明: G2500服务器暂不支持。 |
OS自身bug,内核设计缺陷问题。 | |
“gethostbyname”出现在挂起最后一屏堆栈信息中。(无周期性)
说明: G2500服务器暂不支持。 |
||
“CPUidle”出现在OS挂起最后一屏信息中。
说明: G2500服务器暂不支持。 |
OS内核与硬件平台兼容性问题 |
发表评论