华为服务器 故障处理–诊断&处理故障 报错信息及解决办法

华为(HUAWEI)FusionServer RH2288 V3机架服务器 E5-2600v3/v4系列处理器 标准2U 2路服务器

6.1 诊断原则

注意:

  • 所有操作务必获得客户书面授权。
  • 所有操作需保证业务数据不会丢失或已经备份。

在进行故障诊断时,请遵循以下基本原则:

  • 先诊断外部,后诊断内部。诊断故障时,应先排除外部的可能因素,如电源中断、对接设备故障等。
  • 先诊断网络,后诊断网元。根据网络拓扑图,分析网络环境是否正常、互连设备是否发生故障,尽可能准确定位出是网络中哪个网元发生故障。
  • 先高速部分,后低速部分。从告警信号流中可以看出,高速信号的告警经常会引起低速信号的告警。因此在故障诊断时,应先排除高速部分的故障。
  • 先分析高级别告警,后分析低级别告警。分析告警时,首先分析高级别的告警,如紧急告警、严重告警,然后再分析低级别的告警,如轻微告警。

6.2 使用诊断工具诊断故障

注意:

FusionServer Tools Toolkit工具必须在停止服务器业务后使用,请告知客户先迁走服务器上的业务。

FusionServer Tools Toolkit工具提供以下功能:

  • 获取硬件信息;
  • 快速诊断;
  • CPU、硬盘和内存的专项测试;
  • 提供配置和部署常用的参考工具和脚本;
  • 制作可启动U盘,方便使用U盘运维;
  • 针对渠道的自动配置诊断功能。

详细操作请参见《FusionServer Tools Toolkit 用户指南》。

6.3 根据告警处理故障

根据服务器的管理系统检查告警并进行诊断。请在各服务告警处理手册中检索告警码,查询对应的告警处理方法,具体各服务器告警处理手册获取方法请见表6-1的表格。

表6-1 告警故障处理

服务器系列类型 参考资料
E9000 请参考E9000 服务器 V100R001 告警处理。

其中,交换模块在以太网交换平面的CLI执行以下命令查看告警:

  • display trapbuffer
  • display alarm active
  • display alarm history

说明:

登录交换模块的以太网交换平面请参见9.13 使用PuTTY登录服务器(网口方式)、9.14 使用PuTTY登录服务器(串口方式)和9.15 通过SOL登录计算节点/直通模块/交换模块。

E6000 请参考E6000 服务器 V100R002 告警参考。
机架服务器 请参考华为机架服务器 告警处理 (iBMC)。
X6000 请参考X6000 服务器 告警处理 (iBMC)或X6000 服务器 告警处理 (iMana 200)。
X8000 请参考X8000服务器 V100R001 告警参考。
X6800 请参考X6800 服务器 V100R003 告警处理。
G2500 请参考FusionServer G2500服务器 告警处理(iBMC)。
FusionServer G5500 请参考FusionServer G5500 服务器 1.0.0 告警处理。

6.4 根据指示灯定位故障

指示灯位置请参见各服务器用户指南的外观章节。

操作流程

检查指示灯的操作流程如图6-1所示。

图6-1 指示灯检查流程图

适用于所有服务器的指示灯

  1. 检查设备的总体健康状态指示灯。表6-2 总体健康状态指示灯
    模块指示灯 指示灯状态 含义 处理步骤及说明
    健康状态指示灯(HLY) 绿色常亮 表示设备运转正常 无需任何操作。
    红色闪烁 表示有异常告警
    1. 登录iMana 200/iBMC Web界面查看具体告警事件。
    2. (可选)查看前面板“故障诊断数码”确认具体故障码。
    电源开关指示灯(PWR) 绿色常亮 表示设备已正常上电 无需任何操作。
    ***闪烁 表示iMana 200/iBMC管理系统正在启动,此时按电源开关按钮无法开关机
    ***常亮 表示设备处于待上电状态 按PWR键开机,如果无法正常开机,请登录iMana 200/iBMC Web界面排查相关告警。
    表示设备未上电
    1. 如果iMana 200/iBMC可登录,请查看是否有告警。
    2. 对于E9000服务器,如果iMana 200/iBMC无法登录,请检查机箱后面的电源模块指示灯和管理模块指示灯是否显示正常。如果正常,则说明机箱供电正常;如果不正常,则说明机箱供电异常,请检查外部电源供电情况。
    3. 对于E9000服务器,如果确认供电正常且电源模块无异常,说明计算节点已故障,请联系华为技术支持工程师更换计算节点。不可再插拔计算节点,及尝试整框上下电。
    UID指示灯 蓝色常亮 表示服务器被定位 说明:

    UID按钮/指示灯可方便地定位待操作的服务器,通过手动按UID按钮或者通过iMana 200/iBMC命令远程控制使灯灭或灯亮。

    长按定位按钮4~6秒钟,复位服务器的iMana 200/iBMC管理系统。

    表示服务器未被定位或未上电
  2. 根据具体iMana 200/iBMC系统事件日志进行故障定位。
  3. 各子部件的指示灯状态含义。表6-3 硬盘状态指示灯
    硬盘Active指示灯 硬盘Fault指示灯 含义 处理步骤及说明
    绿色常亮 表示硬盘工作正常 无需任何操作。
    绿色闪烁 表示硬盘正在读写数据
    绿色常亮 ***闪烁 表示硬盘被定位或RAID重构
    绿色闪烁
    绿色常亮/绿色闪烁/灭 ***常亮 表示硬盘故障 登录iMana 200/iBMC且使用FusionServer Tools Toolkit工具检查硬盘是否存在故障。
    表示硬盘不在位或硬盘故障 请检查硬盘是否完全接触正常或登录iMana 200/iBMC且使用FusionServer Tools Toolkit工具检查硬盘是否存在故障。

    表6-4 NVMe PCIe 固态硬盘指示灯

    NVMe硬盘Active指示灯 NVMe硬盘Fault指示灯 含义 处理步骤及说明
    绿色常亮 NVMe PCIe 固态硬盘在位且无故障。 无需任何操作。
    绿色闪烁(2Hz) NVMe PCIe 固态硬盘正在进行读写操作。
    NVMe PCIe 固态硬盘不在位。
    绿色常亮/灭 ***常亮 NVMe PCIe 固态硬盘故障。 重新插拔后若问题仍未解决则更换NVMe PCIe 固态硬盘。
    ***闪烁(2Hz) NVMe PCIe 固态硬盘正处于热插过程中。 无需任何操作。
    ***闪烁(0.5Hz) NVMe PCIe 固态硬盘已走完热拔出流程,允许拔出。 拔出NVMe PCIe 固态硬盘。

    说明:

    若NVMe PCIe 固态硬盘插入后Fault指示灯***闪烁(0.5Hz),请重新插拔。

    表6-6 网络端口指示灯

    模块指示灯 指示灯状态 含义 处理步骤及说明
    GE网口连接状态指示灯 绿色常亮 表示网口连接正常 无需任何操作。
    表示网口未使用或连接异常
    1. 交叉检查交换机和网线是否正常。
    2. 检查网卡状态是否正常。
    GE网口数据传输指示灯 橙色闪烁 表示当前有数据正在传输 无需任何操作。
    表示当前无数据传输
    10GE电口速率指示灯 绿色(常亮) 表示当前Link链路速率为10G 若链路速率与对接交换机速率一致,无需任何操作;否则,执行以下步骤:

    1. 检查网口内针脚是否正常。
    2. 检查网线是否正常。
    3. 检查对端设备是否正常。
    ***(常亮) 表示当前Link链路速率为1G
    表示当前Link链路速率为10/100M
    10GE电口连接状态指示灯/数据传输状态指示灯 绿色(常亮) 表示网络连接正常 无需任何操作。
    绿色(闪烁) 表示当前有数据正在传输
    表示当前无数据传输或网络未连接
    1. 交叉检查交换机、光纤、光模块(类型、速率是否匹配)是否正常。
    2. 检查操作系统网卡状态是否正常。
    3. 检查交换机和网卡端口是否UP。
    10GE光口连接状态指示灯 绿色常亮 表示接口连接正常 无需任何操作。
    表示接口连接异常
    1. 交叉检查交换机、光纤、光模块(类型、速率是否匹配)是否正常。
    2. 检查操作系统网卡状态是否正常。
    3. 检查交换机和网卡端口是否UP。
    10GE光口数据传输状态指示灯 橙色闪烁 表示接口正在发送或接收数据 无需任何操作。
    表示接口无数据传输
    CX912 8G FC光口连接诊断状态指示灯 橙色常亮 表示交换模块与对端设备的端口不同步 检查网线是否连接正常,检查光模块和网卡是否存在故障。
    橙色闪烁(2秒1次) 表示端口关闭
    橙色闪烁(1秒2次) 表示端口故障
    连接状态指示灯同时灭,表示光模块没有插入或接收光异常。
    CX912 8G FC光口连接状态指示灯 绿色常亮 表示端口正常,链路已连接 无需任何操作。
    绿色闪烁(2秒1次) 表示端口正常但被隔离,未建立链路连接 如果对端是交换机,请检查交换机之间的工作模式是否匹配,具体可参见《E9000 服务器 V100R001 开局指导书》。如果对端是存储设备,请检查存储端口。
    绿色闪烁(1秒2次) 表示端口内环回(诊断模式) 无需任何操作。
    绿色闪烁(1秒4次) 表示链路已连接且有数据传输
    诊断状态指示灯同时灭,表示光模块没有插入或接收光异常 请检查光模块是否插入或故障,光纤是否故障。
    CX911 8G FC光口数据传输状态指示灯 橙色闪烁(1秒2次) 连接状态指示灯同时绿色闪烁,表示超温告警 查看iMana 200/iBMC事件告警日志,检查是否有高温告警。
    橙色闪烁(>1秒2次) 表示端口正在发送或接收数据 无需任何操作。
    表示端口无数据传输
    CX911 8G FC光口连接状态指示灯 绿色常亮 表示链路连接正常 无需任何操作。
    绿色闪烁(1秒1次) 表示设备正在注册或端口处于诊断状态
    绿色闪烁(1秒2次) 表示链路连接异常或端口故障;如果数据传输状态指示灯为橙色灯同时2闪/秒,表示超温告警 请检查端口、光模块和光纤是否故障。
    表示光模块没有插入或接收光异常 请检查光模块和光纤是否故障。
    IB光口状态指示灯 绿色常亮 表示端口连接正常 无需任何操作。
    绿色闪烁 表示端口正在发送或接收数据
    表示端口未连接
    说明:

    其它标准PCIe插卡的状态指示灯说明请参考对应厂家的官网链接资料。

  4. 表6-5 电源模块状态指示灯
    模块指示灯 指示灯状态 含义 处理步骤及说明
    电源模块运行状态指示灯(460W/750W/800W/1200W) 绿色常亮 表示电源输入正常 无需任何操作。
    表示无电源输入,或者系统处于Standby状态或异常状态 请检查电源线是否连接正常或电源模块是否存在故障。
    电源模块运行状态指示灯(2000W/2500W/3000W) 绿色常亮 表示电源模块运行正常 无需任何操作。
    绿色闪烁(2秒1次) 表示电源模块处于休眠状态或电源未插稳 请检查服务器是否启动休眠设置(仅限E9000产品),否则检查电源是否插稳。
    红色常亮 表示电源模块运行异常
    1. 检查电源是否故障。
    2. 否则检查外部供电是否正常。
    表示无电源输入或处于异常状态 请检查电源线是否连接正常。
    电源模块运行状态指示灯(500W/900W/1500W) 绿色常亮 表示电源模块运行正常 无需任何操作。
    绿色闪烁(1秒1次)
    • 表示电源输入正常
    • 输入电压过高或过低
    说明:

    禁止对电源模块进行插拔等操作。

    检查外部供电是否正常。

    绿色闪烁(1秒4次) 表示电源模块在线升级过程中 无需任何操作。
    橙色常亮 表示输入正常,电源过温保护、电源输出过流/短路、输出过压、短路保护以及器件失效(不包括所有的器件失效)等导致电源无输出 将电源模块拔出,重新安装,检查问题是否解决,若仍橙色常亮,请更换电源模块。
    表示无电源输入或处于异常状态
    1. 检查电源是否故障。
    2. 否则检查外部供电是否正常。
  5. 说明:仅高密服务器、机架服务器的RH1288 V3、RH2288 V3、RH2288H V3、RH5288 V3、RH5885 V3、RH5885H V3和RH8100 V3、刀片服务器E9000的CH225 V3计算节点涉及NVMe PCIe 固态硬盘指示灯。

仅RH5885 V2、RH5885 V3和RH5885H V3涉及的指示灯

表6-7 模块指示灯(适用于RH5885 V2、RH5885 V3和RH5885H V3)

模块指示灯 指示灯状态 含义 处理步骤及说明
内存模块电源指示灯 绿色常亮 表示内存模块已上电 无需任何操作。
表示内存模块未上电
内存模块故障指示灯 红色常亮 表示内存模块上存在内存故障。 根据内存条故障指示灯,更换对应的故障内存条。
表示内存模块上内存正常 无需任何操作。
内存条故障定位指示灯 红色常亮 表示对应内存故障 拆下内存模块,长按此内存故障定位按钮,此时,存在故障的内存对应的指示灯变亮。
表示对应内存正常 无需任何操作。
内存模块镜像指示灯(仅限RH5885H V3产品) 绿色常亮 表示内存模块已配置内存镜像 无需任何操作。
表示内存模块未配置内存镜像
热插拔PCIe卡状态指示灯 ***常亮 表示PCIe卡异常或设备处于POST阶段 如非POST阶段显示***常亮告警,建议检查更换PCIe卡。
表示PCIe卡正常运行 无需任何操作。
热插拔PCIe卡电源指示灯 绿色常亮 表示PCIe卡电源正常 无需任何操作。
绿色闪烁 表示PCIe卡处于上电或下电过程中
表示PCIe卡已下电
RH5885 V2服务器诊断面板 绿色常亮 表示对应部件有异常告警 具体请参见《RH5885 V2 服务器 (8路) V100R001C02 用户指南》 2.5.1 前面板组件和2.5.2 指示灯和按钮 章节。
表示对应部件正常 无需任何操作。
RH5885 V3服务器故障诊断面板 红色常亮 表示对应部件有异常告警 具体请参见《RH5885 V3 服务器 V100R003 用户指南》 2.4 指示灯和按钮 章节。
表示对应部件正常 无需任何操作。

仅RH8100和X6800涉及的指示灯

表6-8 模块指示灯(适用于RH8100和X6800)

模块指示灯 指示灯状态 含义 处理步骤及说明
RH8100 V3风扇指示灯 绿色常亮 表示风扇框单板/模块硬件故障或者风扇模块软件处于在线升级状态(在线升级大约需要3分钟) 检查软件是否正在升级或风扇框单板/模块硬件是否故障。
绿色闪烁(2秒1次) 表示风扇模块与iBMC通信正常 无需任何操作。
绿色闪烁(1秒4次) 表示风扇模块与iBMC通信丢失 登录iBMC查看iBMC软件是否正常。

  • 如果iBMC软件异常,升级iBMC软件或者更换HFC,具体升级软件包下载请参见7 升级。
  • 如果iBMC软件正常,重新插拔风扇模块,若告警未恢复,请更换风扇模块。
红色常亮 表示风扇框单板/模块硬件故障 重新插拔风扇模块,若告警未消除,请更换风扇模块。
红色闪烁 表示风扇模块有告警或风扇框单板/模块硬件可能故障 重新插拔风扇模块,若告警未消除,请更换风扇模块。
表示风扇模块未上电 无需任何操作。
X6800风扇模块运行状态指示灯 绿色常亮 表示风扇模块工作正常 无需任何操作。
红色常亮 表示风扇模块存在故障 请更换对应告警风扇模块。
表示风扇模块无电源输入 检查风扇模块是否插好。
内存模块按钮/状态指示灯 绿色常亮 表示内存模块工作正常 无需任何操作。
绿色闪烁 表示内存模块热插拔的一个中间状态
红色闪烁(1秒1次) 表示内存模块工作故障 查看iBMC事件告警日志,检查内存模块是否故障。
红色闪烁(1秒5次) 表示内存模块未插稳 检查内存模块是否插好。
表示内存模块未上电
内存模块ATTN指示灯 ***常亮 表示操作热添加或者热移除的操作失败 首先确认客户业务是否能够迁移业务或停机。待停机后,对服务器进行先下电再上电操作。

  • 如果指示灯正常,再次尝试热迁移,若热迁移失败,请更换内存模块和内存条。
  • 如果指示灯仍***常亮,请直接更换内存模块和内存条。
***闪烁 在内存模块热添加过程中,用闪烁来提示用户是否需要取消当前操作,如果取消则需要在5s内再按一次内存模块按钮 无需任何操作。
表示操作正常
内存模块备用指示灯 绿色常亮 表示该内存模块处于空闲状态 无需任何操作。
该内存模块没有处于空闲状态
内存模块镜像指示灯 绿色常亮 表示内存模块已配置内存镜像 无需任何操作。
表示内存模块未配置内存镜像
计算模块状态指示灯 绿色常亮 表示计算模块工作正常 无需任何操作。
红色闪烁(1秒1次) 表示计算模块故障 查看iBMC事件告警日志,检查计算模块是否故障。
红色闪烁(1秒5次) 表示计算模块未插稳 检查计算模块是否插好。
计算模块未上电

仅E9000涉及的指示灯

表6-9 模块指示灯(适用于E9000)

模块指示灯 指示灯状态 含义 处理步骤及说明
MM910管理模块电源指示灯(PWR) 绿色常亮 表示MM910已上电 无需任何操作。
绿色闪烁 表示MM910正在上电
表示MM910未上电 请检查MM910是否插好。
MM910管理模块健康状态指示灯(HLY) 绿色常亮 表示机箱各部件均工作正常 无需任何操作。
红色闪烁(1秒1次) 表示机箱某部件产生严重告警,此时主、备MM910均亮红灯 请检查MM910是否插好,登录HMM Web界面查看告警。
红色闪烁(1秒4次) 表示机箱某部件产生致命告警,此时主、备MM910均亮红灯
红色闪烁(1秒5次) 表示MM910松动
表示MM910未上电或正在上电 无需任何操作。
MM910管理模块主备状态指示灯(ACT) 绿色常亮 表示该MM910为主用状态 无需任何操作。
表示该MM910为备用状态
E9000交换模块堆叠状态指示灯(STAT) 绿色常亮 对于支持堆叠的交换模块:表示交换模块工作在堆叠主用状态或者未堆叠,且工作正常 无需任何操作。
对于不支持堆叠的交换模块:表示交换模块工作正常
绿色闪烁 对于支持堆叠的交换模块:表示交换模块工作在堆叠备用或者堆叠从状态,且工作正常
对于不支持堆叠的交换模块:表示交换模块正在上电
表示交换模块未上电
E9000交换模块健康状态指示灯(HLY) 绿色常亮 表示交换模块工作正常 无需任何操作。
红色闪烁 表示交换模块产生异常告警或者未插稳 登录HMM Web界面检查事件告警日志,检查交换模块是否插稳或是否存在故障。
表示交换模块未上电 无需任何操作。
E9000风扇模块运行状态指示灯 绿色闪烁(2秒1次) 表示风扇模块工作正常 无需任何操作。
绿色闪烁(1秒4次) 表示风扇模块与MM910通信异常,无风扇告警。 交叉对换风扇模块,排查风扇模块是否故障或槽位异常。
红色闪烁(2秒1次) 表示风扇模块存在告警
  1. 登录HMM Web界面,查看风扇告警信息。
  2. 检查风扇模块电源接口是否接好或更换风扇模块。
表示风扇模块无电源输入 检查风扇模块是否插好或风扇模块的控制线路是否故障。

6.5 根据故障诊断数码定位故障

目前,支持故障诊断数码管的服务器包括:RH1288 V3、RH2288 V3、RH2288H V3、RH5885 V3、5288 V3、1288H V5、2288H V5、2488 V5,故障诊断数码管的显示状态及含义如表6-10所示。以RH1288 V3为例,其故障诊断数码管的位置如图6-2所示,请根据故障诊断数码管上显示的故障码,在对应的告警处理手册中查询对应的故障处理方法。

表6-10 故障诊断数码

模块名称 显示状态 含义 处理步骤及说明
故障诊断数码管 显示“---” 表示服务器正常 无需任何操作。
显示故障码 表示服务器有部件故障 故障码的详细信息请参见《华为机架服务器 告警处理(iBMC)》的“故障码处理”章节。

图6-2 故障诊断数码管位置示意图

6.6 根据现象处理故障

各产品最小化配置说明如下:

表6-11 各产品最小化配置说明

产品型号 最小化配置 最小化测试说明
RH1288 V3、RH2288 V3、RH2288H V3、5288 V3 CPU:1个,安装在CPU1槽位
内存:1个,安装在DIMM000(A)槽位
RH8100 V3(8P) CPU:1个,安装在CPU1槽位 双系统模式(电源1个,安装在任意槽位)
内存板:1个,安装在solt1槽位
内存:1条,安装在DIMM000槽位
HFC板:1块,安装在HFC2槽位
RH8100 V3(双系统主4P) CPU:1个,安装在CPU1槽位 双系统,主4P(电源1个,安装在任意槽位)
内存板:1个,安装在solt1槽位
内存:1条,安装在DIMM000槽位
HFC板:1块,安装在HFC2槽位
RH8100 V3(双系统从4P) CPU:1个,安装在CPU5槽位 双系统,从4P(电源1个,安装在任意槽位)
内存板:1个,安装在solt9槽位
内存:1条,安装在DIMM000槽位
HFC板:1块,安装在HFC1槽位
RH5885 V3 CPU:2个,安装在CPU1、CPU2槽位 电源1个,安装在任意槽位
内存:1个,安装在DIMM000槽位
RH5885H V3 CPU:2个,安装在CPU1、CPU2槽位 电源1个,安装在任意槽位
内存:1个,第一个内存板的DIMM A1槽位
CH121 V5、CH242 V5、CH121L V5 CPU:1个,安装在CPU1槽位
内存:1个,安装在DIMM000槽位

6.6.1 电源问题

设备状态术语说明如下:

  • 通电:设备加电,电源按钮指示灯亮。
  • 待机:设备加电,电源按钮指示灯***常亮。
  • 上电:设备加电,电源按钮指示灯绿色常亮。
  • POST:上电自检。

请根据以下故障现象进行诊断。

故障现象 处理步骤 快速恢复方法
单电源模块故障(无输出,健康状态指示灯红色闪烁)
  1. 检查电源模块指示灯状态并记录iMana 200或iBMC告警信息。指示灯状态具体请参见6.4 根据指示灯定位故障指示灯。说明:对于E9000服务器,请记录MM910上的告警信息。
  2. 查看是否存在AC lost告警。
    • 是,检查电源线是否插稳,PDU是否有电。
    • 否,执行3。
  3. 更换备件电源,查看故障是否解决。
    • 是,处理完毕。
    • 否,执行4。
  4. 更换电源背板。无电源背板产品请更换主板,查看故障是否解决。
    • 是,处理完毕。
    • 否,请联系华为技术支持工程师处理。
  1. 检查当前设备配置和功率是否满足供电冗余。
    • 是,说明当前故障不影响业务。
    • 否,请联系华为技术支持工程师处理。
  2. 拔出故障电源模块,且禁止再次插入设备,待备件到货后进行更换。
机架设备不通电(指示灯全灭)
  1. 检查外部供电是否正常。
    • 是,执行2。
    • 否,解决外部供电问题。
  2. 交叉验证电源模块,即更换正常的电源模块,查看故障是否解决。
    • 是,处理完毕。
    • 否,执行3。
  3. 更换主板和电源背板,查看故障是否解决。
    • 是,处理完毕。
    • 否,请联系华为技术支持工程师处理。
根据处理步骤进行排查,更换故障模块。
刀片服务器和高密服务器:机箱不通电
  1. 检查外部供电是否正常,并核算功率是否存在过载情况。
  2. 拔出刀片、交换模块、管理模块和风扇,并标示槽位号,检查电源连接器是否正常。
  3. 拔出所有电源模块,按槽位顺序依次在每个电源槽位插入原电源模块验证是否可以通电(保证每次只有一个电源模块在位),如果都不能通电,则更换机箱。
  4. 如果某个电源模块无法通电,则更换电源模块。
  5. 通过以上步骤验证机箱和电源模块正常的情况下,仅保留一个电源模块,按槽位顺序依次插入风扇、管理模块、交换模块、刀片验证是否可以通电(保证每次只有一个模块在位)。
  6. 故障修复后,请将刀片、交换模块、管理模块和风扇插回原槽位。
根据处理步骤进行排查,更换故障模块。
刀片服务器和高密服务器:机箱通电但某个计算节点/服务器节点不通电
  1. 拔出计算节点/服务器节点,检查电源连接器外观是否损伤。
    • 是,更换计算节点/服务器节点主板或机箱。
    • 否,执行2。
  2. 请尽量避免再次插回该计算节点/服务器节点,待备件到货后进行更换。
  1. 拔出故障计算节点/服务器节点(尽量避免再次插回),检查其他计算节点/服务器节点是否正常工作。
    • 是,说明当前故障不影响业务。
    • 否,请联系华为技术支持工程师处理。
  2. 根据处理步骤进行排查,更换故障模块。

6.6.2 KVM登录问题

请根据以下故障现象进行诊断。

故障现象 处理步骤 快速恢复方法
KVM链接无法打开
  1. 使用PuTTY等第三方工具执行telnet IP地址:8208(默认端口号为8208,可通过登录iMana 200/iBMC界面查看服务配置中VMM端口设置获取)命令检查KVM端口是否正常;如果Telnet无法连接,请通过PC直连iMana 200/iBMC排查。
  2. 清理浏览器及Java缓存,并关掉所有浏览器;重新打开iMana 200/iBMC。
  3. 调节Java安全级别为中或以下,或将KVM地址添加到Java例外站点。
  4. 检查客户端OS、Java和浏览器版本,详细参考iMana 200/iBMC帮助文档的运行环境要求;推荐使用firefox 23.0版本。
  1. 根据处理步骤进行排查,更换故障模块。
  2. 重新启动iMana 200/iBMC,更换客户端PC。
  3. 将管理网口不经过交换网络,直接连接客户端PC。
KVM提示异常
  • 登录用户超出最大数:确认是否有其他用户正在使用,通过重启iMana 200/iBMC强制清理其它用户。
  • 非法用户:清理浏览器及Java缓存,并关掉所有浏览器,重启iMana 200/iBMC。
  • 输入信号超出范围:检查操作系统分辨率是否超出KVM最大范围1280*1024。
KVM可登录,但使用有异常
  • 键盘鼠标不能使用但业务正常:复位USB,检查问题是否解决。
    • 是,处理完毕。
    • 否,重启业务系统,清除CMOS,配套升级iMana 200/iBMC和BIOS。
  • 挂载虚拟光驱报错:Telnet远程登录检查虚拟光驱端口是否正常,使用FusionServer Tools Toolkit V102工具挂载引导以确定是否镜像源问题,检查升级HMM/iMana 200/iBMC和BIOS版本。

6.6.3 POST阶段异常

请根据以下故障现象进行诊断。

故障现象 处理步骤 快速恢复方法
通电不能进入待机状态(电源按钮指示灯***闪烁持续5分钟以上)
  1. 通过查看串口输出确认iMana 200/iBMC系统是否反复复位。当串口日志反复打印如下信息,表示iMana 200/iBMC系统反复复位。### JFFS2 load complete: 1107083 bytes loaded to 0x8b000000 ## Booting kernel from Legacy Image at 8a000000 ... Image Name: linux-2.6.34 Image Type: ARM Linux Kernel Image (uncompressed) Data Size: 1511292 Bytes = 1.4 MiB Load Address: 86008000 Entry Point: 86008000 Verifying Checksum ... OK ## Loading init Ramdisk from Legacy Image at 8b000000 ... Image Name: Ramdisk Image Image Type: ARM Linux RAMDisk Image (uncompressed) Data Size: 1107019 Bytes = 1.1 MiB Load Address: 00000000 Entry Point: 00000000 Verifying Checksum ... OK Loading Kernel Image ... OK OK Starting kernel ...说明:
    • E9000的CH140和CH140 V3计算节点无串口引出,请直接ping iMana 200/iBMC的IP地址,若一直ping不通或时通时不通,请执行快速恢复方法。若仍无法解决,请联系华为技术支持工程师。
    • 默认情况下,iMana 200/iBMC启动阶段,iMana 200/iBMC使用串口,启动完成后,切回系统串口。
  2. 联系华为技术支持工程师查询相关案例或更换主板。
对于机架服务器,请按照以下方法处理:

  1. 拔掉电源线后,重新插入电源线,上电服务器,确认iMana 200/iBMC是否可以恢复正常。
    • 是,更新iMana 200/iBMC原版本或者升级到更高的版本。
    • 否,若iMana 200/iBMC版本为1.91及以上,执行2;否则,执行3。
  2. 在已经拔掉电源线的前提下,将跳线帽加在主板上丝印为Clear_BMC_PW的针脚上(尝试恢复iMana 200/iBMC出厂默认配置),重新连接电源线。
  3. 更换主板或BMC板。

对于E9000服务器,请按照以下方法处理:

  1. 请拔掉计算节点后,重新插入计算节点,确认iMana 200/iBMC是否可以恢复正常。
    • 是,更新iMana 200/iBMC原版本或者升级到更高的版本。
    • 否,若iMana 200/iBMC版本为1.91及以上,执行2;否则,执行3。
  2. 在已经拔掉计算节点的前提下,将跳线帽加在主板上丝印为Clear_BMC_PW的针脚上(尝试恢复iMana 200/iBMC出厂默认配置),重新插入计算节点。
  3. 更换主板或BMC板。
待机不能上电(电源按钮指示灯***常亮)
  1. 收集iMana 200/iBMC日志,查询CPLD寄存器确认是否电源故障。
  2. 排查主板、CPU和内存是否安装正确。
  1. 拆除PCIe卡、HBA卡等外部设备。查看故障是否解决。
    • 是,处理完毕。
    • 否,执行2。
  2. 仅保留服务器最小化配置,即仅保留CPU、主板和内存。查看故障是否解决。
    • 是,处理完毕。
    • 否,执行3。
  3. 排查CPU、主板和内存是否故障,确认故障部件后进行更换。

说明:

若客户要求紧急进行恢复,可直接更换整机。

上电即掉电
  1. 收集iMana 200/iBMC日志,查询CPLD寄存器确认是否电源故障。说明:对于E9000服务器,建议通过MM910一键收集日志信息。
  2. 排查电源背板和主板是否存在故障。
  1. 检查外部供电环境是否正常,包括PDU或电源插排、电源模块和电源线。更换故障部件,查看故障是否解决。
    • 是,处理完毕。
    • 否,执行2。
  2. 更换主板或电源背板。
上电即no signal
  1. 收集iMana 200/iBMC日志,查询CPLD寄存器确认是否电源故障。说明:对于E9000服务器,建议通过MM910一键收集日志信息。
  2. 通过iMana 200/iBMC命令行开启BIOS全打印,重启服务器,保存系统串口打印日志,故障复现后收集iMana 200/iBMC日志、下载BIOS的BIN文件。
  1. 执行ipmcset -d clearcmos命令,清除CMOS,查看故障是否解决。
    • 是,处理完毕。
    • 否,执行2。
  2. 升级iMana 200/iBMC和BIOS。查看故障是否解决。
    • 是,处理完毕。
    • 否,执行3。
  3. 拆除PCIe卡、HBA卡等外部设备。查看故障是否解决。
    • 是,处理完毕。
    • 否,执行4。
  4. 仅保留服务器最小化配置,即仅保留CPU、主板和内存。查看故障是否解决。
    • 是,处理完毕。
    • 否,执行5。
  5. 排查CPU、主板和内存是否故障,确认故障部件后进行更换。

说明:

若客户要求紧急进行恢复,可直接更换整机。

反复上下电
  1. 开启iMana 200/iBMC录屏。
  2. 通过iMana 200/iBMC命令行开启BIOS全打印,重启服务器,保存系统串口打印日志,故障复现后收集iMana 200/iBMC日志、下载BIOS的BIN文件。
  3. 恢复BIOS默认值,查看是否正常运行。
    • 如果恢复BIOS默认值后恢复正常,业务侧根据实际应用修改BIOS相关参数。
    • 如果恢复BIOS默认值后无效,则收集iMana 200/iBMC日志、下载BIOS的BIN文件,具体请参见技术支持 > 软件下载 > IT > 服务器

说明:

对于E9000服务器,建议通过MM910一键收集日志信息。

POST随机界面卡住
  1. 截图当前屏幕。
  2. 收集iMana 200/iBMC日志,查询CPLD寄存器,确认是否电源故障。
  3. 通过iMana 200/iBMC命令行开启BIOS全打印。
  4. 开启iMana 200/iBMC录屏,重启服务器,保存系统串口打印日志,故障复现后收集iMana 200/iBMC日志、下载BIOS的BIN文件。
  5. 排查USB外设、CPU、硬盘、内存、PCIe设备。
RAID自检卡住
  1. 截图当前iMana 200/iBMC的KVM或本地KVM。
  2. 收集iMana 200/iBMC日志。
  1. 如果存在RAID卡固件错误,更换RAID卡或BBU电池/超级电容。查看故障是否解决。
    • 是,处理完毕。
    • 否,执行2。
  2. 排查硬盘、硬盘背板或SAS线缆是否故障。
    • 是,更换故障部件。
    • 否,执行3。
  3. 如果RAID组离线,则重新导入RAID组。查看故障是否解决。
    • 是,处理完毕。
    • 否,执行4。
  4. 如果BBU电池或超级电容电量为空,则根据界面提示,按相关按键使系统保持运行状态,上电约30分钟后观察BBU电池或超级电容状态。若BBU电池或超级电容显示异常,请更换BBU电池或超级电容。
网卡PXE失败
  1. 确认网卡是否支持PXE。
  2. 查看BIOS PXE配置、网卡PXE(Ctrl+S)和网卡UMC功能是否启用。
  3. 排查网卡是否故障。
  4. 业务侧排查PXE网络环境。
根据处理步骤处理。

6.6.4 内存错误问题

内存错误相关的故障,请根据以下情况进行诊断。

故障现象 处理步骤 快速恢复方法
系统内存少于安装的物理内存
  1. 检查内存是否包含在服务器兼容性列表里。
    • 是,执行2。
    • 否,将内存更换为服务器兼容性列表里包含的部件。
  2. 检查BIOS是否已设置成memory mirror模式。
    • 是,设置memory mirror后,可用内存减少一半。进入BIOS,关闭memory mirror模式,若问题仍未解决,执行3。
    • 否,执行3。
  3. 检查内存安装位置是否满足配置规则。
    • 是,执行4。
    • 否,则按照配置规则重新安装内存。
  4. 检查iBMC是否产生“DIMM configuration error紧急告警”。
    • 是,替换故障内存条,具体操作请参见参考6.3 根据告警处理故障。
    • 否,执行5。
  5. 检查内存条插槽是否异常,如果异常,更换主板。
  1. 如果iBMC产生“DIMMxxx Configuration Error”,请更换产生告警的内存。
  2. 如果iBMC、OS显示的在位内存情况与实际物理内存情况对应关系有异常(包括无法识别内存,显示内存故障)。则更换显示有异常的内存。
  3. 如果BIOS已经设置memory mirror模式或者memory rank sparing模式,则操作系统中可用内存总容量会少于配置的物理总内存容量。
  4. 如果内存不满足内存配置规则,请根据华为服务器产品内存配置助手重新安装内存。
  5. 如果内存安装插槽有异常,请更换主板。
出现内存不可纠正的告警
  1. 安装故障内存条到不同的通道上,使用测试工具验证。
    • 如果故障现象跟随内存条出现,更换内存条。
    • 如果故障发生在相同内存插槽,检查内存连接器,若有明显的损伤,更换主板或内存板。
  2. 取下与故障内存条通道连接的处理器,检查处理器插槽插针是否损伤。
    • 是,则更换主板。
    • 否,执行3。
  3. 替换与故障DIMM通道连接的CPU。

说明:

验证问题是否解决可以使用FusionServer Tools Tookit工具对内存进行加压测试。

  1. 将故障内存与正常内存进行互换验证。
    • 如果问题跟随内存条出现,则更换内存条。
    • 如果问题跟随内存槽出现,则互换处理器进行验证。如果问题跟随处理器出现,则更换处理器,否则更换主板或内存板。
  2. 如果以上步骤都无复现问题,请使用Toolkit工具进行内存压力测试,如能复现故障现象,请根据1排查,否则联系华为技术支持工程师。

6.6.5 硬盘IO问题

硬盘IO相关的故障,请根据以下情况进行诊断。

故障现象 处理步骤 快速恢复方法
iMana 200/iBMC上报Disk Fault硬盘告警事件
  1. 如果告警硬盘在RAID组中,可先确认RAID组状态是否正常并尝试恢复。
  2. 如果在停机情况下,可使用Toolkit工具对硬件进行检测,否则对告警硬盘尝试更换新硬盘解决。
  3. 如果问题依旧,交叉验证硬盘槽位是否异常。
  1. 如果故障硬盘未配置RAID,则该硬盘无法使用,更换故障硬盘处理。建议在部署业务前所有硬盘配置RAID并部署业务冗余。
  2. 备份冗余RAID组当中的数据,避免数据丢失。
  3. 根据处理步骤进行排查,更换故障模块。
单个或部分硬盘在RAID卡中识别不到
  1. 对该识别不到的硬盘与其它硬盘进行对调插拔,交叉验证确定问题是否在硬盘上。
    • 如果问题跟着硬盘走,建议更换硬盘解决。
    • 如果问题跟着槽位走,检查硬盘背板所有SAS端口是否都正常连接SAS线缆,可参考用户指南。
    • 否则,执行2。
  2. 依次更换RAID卡、SAS线缆、硬盘背板解决。
  1. 如果冗余RAID失效,或者未配置RAID组,则相应硬盘分区无法使用。
  2. 把未识别硬盘或其所在的RAID组所有硬盘按照原来顺序依次移到备机上,尝试备份数据。
  3. 根据处理步骤进行排查,更换故障模块。
全部硬盘在RAID卡中都识别不到
  1. 检查硬盘Active指示灯是否点亮。确认供电线缆和硬盘是否安装正常。
  2. 检查SAS线缆、点灯信号线是否连接正确,可参考用户指南。
  3. 否则依次更换RAID卡、SAS线缆、硬盘背板解决。
保持硬盘顺序不变,根据处理步骤进行排查,更换故障模块。
备注:对于RH2288A V2服务器,如果出现以上现象,请同步检查主板连接电源转接板的细线缆是否插稳。如图6-3所示为该线缆连接示意图。

图6-3 线缆连接示意图

6.6.6 以太网控制器问题

请根据以下故障现象进行诊断。

故障现象 处理步骤 快速恢复方法
网口不可见
  1. 排查网卡类型/驱动与OS/计算节点(BIOS/iMana 200/iBMC)是否符合兼容性要求:
    • 如果使用非兼容性列表中的系统,请联系具体OS研发解决。

    说明:建议使用兼容性列表中的系统。

    • 如果网卡版本不配套,请先升级。
  2. 收集日志。
  3. 在Linux系统中执行以下命令:lspci | grep -i eth*(请根据实际操作系统操作排查),排查网卡PCI硬件设备是否可见。
    • 如果PCI设备可见,参考5。
    • 如果PCI设备不可见,参考4。
  4. 如果PCI设备不可见,执行以下步骤:
    1. 查看网卡逻辑关系,如果没有CPU,对应CPU下PCI扣卡不可见。
    2. iMana 200/iBMC先下电再上电,确认问题是否必现。
    3. 对换不同槽位网卡,判断是否与具体网卡或网卡槽位相关。
  5. 如果PCI设备可见,但网口不可见,驱动加载失败导致,执行以下步骤:
    1. 在Linux系统中执行以下命令:ifconfig ethN up(请根据实际操作系统操作排查),排查网口配置文件和物理网口是否一致,是否up端口。
    2. 如果以编译方式安装驱动报错,请排查系统是否已正确安装GCC和C/C++。
    3. 排查光模块类型,Intel网卡配非Intel光模块时网口会加载失败,无法看到网口。
    4. 重新安装驱动,排查驱动安装过程是否有明显报错,系统日志是否有驱动加载失败打印。
  1. 服务器正常运行过程中,原来可见的网口突然不可见,如果业务允许停机,则先下电后上电进行观察,若问题仍存在,执行2。
  2. 将网卡更换到其他PCIe卡槽位进行观察。
  • 如果问题跟随网卡,则更换网卡。
  • 如果问题跟随PCI插槽,则更换主板。
网口不通
  1. 排查网线是否连接正常。
  2. 排查网卡类型/驱动与服务器单板(BIOS/iMana 200/iBMC)是否符合兼容性要求;网卡版本不配套,请先升级配套。
  3. 收集日志。
  4. 在Linux系统中执行以下命令:ifconfig ethN up,ethtool ethN(请根据实际操作系统操作排查),排查网卡是否up,且状态正常link,IP是否设置正确网口上。
  5. 在Linux系统中执行以下命令:ethtool -p(请根据实际操作系统操作排查),排查机架服务器网口配置文件和物理网口是否一致,网口状态灯亮,对端交换机网口up。
  6. 参考E9000刀片服务器 MEZZ卡-交换模块 组网助手排查交换板网口配置,两边网口需要up。
  7. 排查IP,网关,VLAN,bonding及上行交换机网口设置。
  1. 将异常服务器ping同网段其他IP,并检查同网段其他服务器是否存在网络异常:
    • 如果同网段多台服务器有问题,则检查外部交换网络是否异常。
    • 如果同网段只有一台服务器有问题,执行2检查网卡。
  2. 检查网卡网口状态(状态指示灯是否常亮),如果网口状态是link down(状态指示灯灭),将异常网口对应的光模块、光纤和上行交换机端口与正常网口对应部件进行互换,验证是否正常,根据实际情况更换或调整部件。
  3. 如果问题跟随网卡出现,请在业务允许停机的情况下重启网络服务,观察是否恢复正常;如果没有恢复正常,请先下电后上电观察是否解决,否则更换网卡。
网口丢包/错包
  1. 排查网卡类型/驱动与服务器单板(BIOS/iMana 200/iBMC)是否符合兼容性要求;如果网卡版本不配套,请先升级至配套版本。
  2. 收集日志。
  3. 排查网口丢包/错包统计是否持续增长,非持续增长的统计可不关注。
  4. 对换不同槽位网卡,排查是否与具体网卡或槽位相关。
  5. 排查机架服务器:不同服务器网口对调网线测试,是否和网线相关。
  6. 切换业务流量到其它单板网口,排查是否和流量有关。
  7. 在Linux系统中执行以下命令:ethtool -S ethN(请根据实际操作系统操作排查),排查网口丢包/错包具体项,根据对应项进一步排查。
  1. 排查是否单台服务器网卡丢包,执行ethtool -S命令查询丢包类型,执行top命令检查系统资源情况(如软中断、CPU和内存占用情况),检查网卡流量。
  2. 在业务允许停机的情况下,首先用PC直连网口,测试是否丢包;再和其他正常网口进行交叉验证,排查光模块、光纤线、上行交换机端口,根据实际情况更换或调整部件。
  3. 如果问题跟随网卡出现,请在业务允许停机的情况下重启网络服务,观察是否恢复正常;如果没有恢复正常,请先下电后上电观察是否解决,否则更换网卡。
网口性能不达标
  1. 排查网卡类型/驱动与服务器单板(BIOS/iMana 200/iBMC)是否符合兼容性要求;网卡版本不配套,请先升级配套。
  2. 收集日志。
  3. 排查物理网口是否达到性能要求。
  4. 排查是否修改过网口中断与CPU队列绑定关系。
  5. 在Linux系统中执行以下命令:ethtool -k ethN(请根据实际操作系统操作排查),排查是否修改过网口TSO,GSO设置。
  6. 在Linux系统中执行以下命令:ethtool -g ethN(请根据实际操作系统操作排查),排查是否修改过网口buffer。

6.6.7 FC控制器问题

FC控制器常见故障现象及处理步骤

请根据以下故障现象进行诊断。

故障现象 处理步骤
存储无法识别主机WWPN
  1. 登录交换机查看端口连接状态(brocade:switchshow)。
  2. 根据端口连接状态,诊断HBA卡是否无法注册到交换机(switchshow查询到交换机无法识别主机WWPN),请通过以下方法排查故障。
    1. 确认硬件是否在位:排查HBA卡、对应的pcie总线的CPU是否在位。
    2. 确认HBA卡与交换板槽位对应关系(仅适用于E9000和E6000)。
    3. 检查HBA到交换机FC链路(仅适用于E9000:HBA卡工作模式是否匹配),主要查看光模块光功率、光纤。
    4. 确认是否安装华为兼容性配套发布lpfc驱动和firmware(E9000对驱动和firmware有配套要求)。
    5. 对于多交换机连接的场景,检查交换机连接的模式(AG、TR)等是否正确。
    6. 收集OS的Message日志,查找lpfc驱动打印信息。
    7. 收集交换机日志。
  3. 根据端口连接状态,HBA卡已经注册到交换机但存储无法识别主机WWPN(switchshow查询到交换机已经识别主机WWPN),通过以下方法排查故障。
    1. 检查存储是否注册到交换机:排查交换机到存储的FC链路(光模块、光纤)。
    2. 检查HBA与存储端口是否在同一个zone。
    3. 对于同厂家多交换机级联场景,检查zone的配置是否一致。
    4. 收集OS的Message日志,查找lpfc驱动打印信息。
    5. 收集交换机日志。
存储已经识别HBA卡WWPN但无法映射LUN
  1. 确认是否安装华为兼容性配套发布的lpfc驱动和firmware(E9000对驱动和firmware有要求)。
  2. 检查OS的Message日志,查找lpfc驱动打印信息。
  3. 检查交换机日志。
  4. 如果以上步骤均无问题,说明FC的协议已经正常交互,主机侧是正常的,问题聚焦在存储侧或者OS SCSI应用层,请联系存储厂家分析或OS厂家分析。
存储LUN多路径链路 部分丢失
  1. 确认是否安装华为兼容性配套发布lpfc驱动和firmware(E9000对驱动和firmware有要求)。
  2. 排查HBA到存储的FC链路误码。
  3. 检查OS的Message日志,查找lpfc驱动打印信息和多路径驱动信息。
  4. 检查交换机日志。
  5. 联系OS多路径驱动厂家或存储厂家分析。
LUN读写性能慢
  1. 确认是否安装华为兼容性配套发布lpfc驱动和firmware(E9000对驱动和firmware有要求)。
  2. 排查HBA到存储的FC链路误码。
  3. 分析主机的iostat输出,检查io时延和io并发数。
  4. 检查OS的Message日志,查找lpfc驱动打印信息,检查HBA卡驱动io队列深度配置。
  5. 从HBA到存储控制器前端的硬盘性能测试是否正常(100G大文件读写和100M小文件读写)。
  6. 联系存储分析工程师。

FC控制器快速恢复场景

FC控制器常见快速恢复场景以及处理手段如表6-12所示。

表6-12 FC控制器快速恢复场景和手段

故障现象 快速恢复手段
HBA卡均断链
  1. 确认当前多路径情况。
    • 若存在链路冗余,则复位与故障HBA卡连接的交换机端口,执行2。
    • 如果链路不存在冗余,执行3。
  2. 复位后,查看与故障HBA卡连接的交换机端口是否恢复。
    • 是,检查问题是否解决。
    • 否,将所有业务进行迁移后,将服务器进行安全下电,拔插计算节点,尝试上电服务器进行恢复,如果故障仍然存在,则申请HBA卡备件进行更换。
  3. 建议先迁移业务,然后收集交换模块日志、操作系统日志、LLD组网信息和各设备时间差后联系华为技术支持工程师。
存储业务受影响但HBA无断链
  1. 将所有业务进行迁移后,将服务器进行安全下电,拔插计算节点,尝试上电服务器进行恢复,查看故障是否解决。
    • 是,无需任何操作。
    • 否,建议联系存储厂家进行快速恢复处理。
  2. 建议先迁移业务,然后收集交换模块日志、操作系统日志、LLD组网信息和各设备时间差后联系华为技术支持工程师。
存储LUN性能问题
  1. 在FC交换模块上检查FC链路误码情况。如果存在误码,执行porterrshow命令,根据端口对应关系确认问题点:
    • 如果是交换模块与交换机之间的链路问题,若现场有光纤和光模块备件,则更换链路两侧的光纤和光模块,否则,插拔光纤和光模块。
    • 如果是HBA卡和交换模块之间的链路问题,请进行交叉验证,将计算节点换至另一正常槽位,确认是HBA卡问题还是交换模块问题或背板问题。根据实际情况更换故障模块。
  2. 清除历史误码计算,观察10分钟查看误码情况并验证性能,同时联系存储厂家进行快速恢复处理。

6.6.8 交换模块问题

交换模块快速恢复方法

请根据以下故障现象进行对应的快速处理。

故障现象 快速恢复方法
启动交换模块失败,通过SOL串口登录交换模块,界面打印“Can not get config file from smm. Begin reboot …”的提示信息。
  1. 主备切换MM910管理模块,检查是否恢复正常。
    • 是,处理完毕。
    • 否,执行2。
  2. 重启交换模块BMC,检查是否恢复正常。
    • 是,处理完毕。
    • 否,执行3。
  3. 升级交换模块软件到最新版本,具体请参见《E9000 服务器 V100R001 升级指导书》中“常用操作-(可选)U-Boot菜单升级软件”章节。
交换模块启动失败,通过SOL串口登录交换模块,界面打印“Ensure that the optical fibers or cables are inserted on the same ports on the panel after the board replacement. During system startup, do not power off or remove the board. To continue the startup, press Y:”的提示信息。
  1. 如果业务正在运行,请先根据现网配置插好线缆或者光纤后,再输入“Y”继续启动交换模块。
  2. 如果业务未运行,则直接输入“Y”继续启动交换模块。
通过SOL串口登录交换模块,界面提示输出包含“Critical Error!”信息,且使用display interface命令只能查到meth端口。 根据SOL登录后的提示信息,升级指定或最新的软件版本。
产生网络风暴(接口的“Mulcast”和“Broadcast”的计数器异常)。 请任选以下一个操作进行快速汇入:

  • 使用shutdown命令关闭异常流量端口,如下所示:[~HUAWEI]interface 10ge 1/17/1
  • [~HUAWEI-10ge 1/17/1]shutdown
  • 拔除产生异常流量接口连接的光纤或网线。
端口可以Up但流量不通。
  1. 在接口视图下执行restart命令后,检查问题是否解决。[~HUAWEI]interface 10ge 1/17/1
    • 是,处理完毕。
    • 否,执行2。
  2. [~HUAWEI-10ge 1/17/1]restart
  3. 执行reboot命令重启交换模块。
接口产生错包(使用display interface命令查看“Input”中的“Total Error”项是否不为零且正在增长)。 使用display interface命令查看“CRC”和“Symbols”项:

  1. 如果“CRC”和“Symbols”项不为零,则按照如下步骤进行检查:
    • 检查本设备或直连设备光纤是否插好;
    • 检查光纤是否损坏;
    • 检查本设备或直连设备光模块是否失效;
    • 如果设备之间存在传输设备,请在传输设备网关上查看传输设备是否产生告警。
  2. 如果“CRC”和“Symbols”项为零,则交换模块存在异常,请执行reboot命令重启交换模块。

6.6.9 OS问题

OS安装问题

OS安装相关的故障,请根据以下情况进行诊断。

诊断思路 诊断步骤
可安装的OS选择问题 通过华为服务器 兼容性查询助手检查OS是否与服务器兼容。
OS安装方式问题 通过华为服务器 兼容性查询助手查询OS是否与服务器兼容以及对应OS的安装说明,OS安装说明也可参见华为服务器操作系统安装指南》。
ServiceCD问题
  1. 通过华为服务器 兼容性查询助手确认该OS是否需要ServiceCD引导。
  2. 检查使用的ServiceCD版本是否合适。
  3. 检查使用的ServiceCD的安装模式是否合适。
OS安装过程中的问题
  1. 请参考华为服务器操作系统安装指南,检查OS安装步骤是否正确。
  2. 检查OS是否对安装介质有特定要求,比如是否要求必须使用物理光驱。
  3. 检查OS是否要求对OS安装盘有特定要求,比如是否要求必须合入某些驱动。
  4. 检查OS安装盘是否是原厂光盘,是否有第三方做过修改。
  5. 检查是否有外部存储空间,如果有,请尝试断开外部存储
  6. 检查BIOS配置是否经过修改,如果有,请尝试恢复BIOS默认值。
  7. 向OS厂商获取标准的安装支持。
硬盘识别问题
  1. 检查RAID控制卡下是否可识别到目标硬盘,通过华为服务器 兼容性查询助手查询目标硬盘是否兼容;检查BIOS中是否可以识别到目标存储设备(包括SATADOM、SD卡、内置U盘等)。
  2. 检查RAID控制卡型号,确认是否需要配置RAID(LSI SAS1078扣卡、LSI SAS2108扣卡、LSI SAS2208扣卡、LSI SAS3008卡、LSI SAS2308扣卡、LSI SAS3108卡、Avago SAS 3408卡、Avago SAS 3416iMR卡、Avago SAS 3416IT卡、Avago SAS 3508卡、软件RAID配置)。说明:V5服务器支持将OS安装在RAID标卡下的硬盘。
  3. 检查RAID控制卡配置,确认启动盘与目标盘是否为同一硬盘或者RAID组。
  4. 检查硬盘是否超过2TB,如果是,请将BIOS设置成UEFI模式。说明:V1和V3单板不支持UEFI模式。
  5. 检查硬盘是否是4K盘。
  6. 检查RAID控制卡型号,确认是否正确加载RAID控制卡驱动。
  7. 检查硬盘上是否有残留数据影响安装,可以尝试把硬盘格式化,或者重新配置RAID组。

OS故障问题

界定OS故障问题之前,请排查是否是其他故障问题,再根据以下步骤进行诊断。

故障现象 诊断方法 诊断结论
服务器挂起或重启 关闭BIOS中C、P、T、ASPM,服务器运行正常。 OS版本不支持本平台CPU问题
系统挂起堆栈信息有对应挂起进程名称或者板卡厂家名称。(例如“FC_XX”是FC的挂起等。) OS自带驱动兼容性问题
排查是否是PCIe板卡兼容性问题:

  • 一个板卡供电问题(有时iMana 200/iBMC出现“cat err”)
  • PCIe协议不支持
  • 驱动问题
PCIe板卡兼容性问题
“CPUidle”出现在OS最后一屏信息中。

说明:

G2500服务器暂不支持。

OS内核与硬件平台兼容性问题

说明:

G2500服务器暂不支持。

通过iMana 200/iBMC查找硬件报错位置,例如内存位置,硬盘位置和主板部件。 硬件电路部件故障问题
OS日志出现文件系统只读挂起,通过FusionServer Tools-Toolkit引导自检系统对硬盘打分,依据结果判断是否需要更换硬盘碟片。 硬盘碟片故障问题
iMana 200出现“imana cat err”告警信息,通过iMana 200的fdm日志分析对应故障部件。 硬件部件故障问题
Machine Check Exception问题。通过查看“/var/log/mce.log”和串口挂起堆栈信息错误码,找到对应故障点。
  • 硬件故障问题
  • 软硬件接口设置问题
请先在现场收集以下信息:

  • 如果是新交付的服务器,确认出现问题的服务器比例,检查异常服务器和正常服务器的配置是否一致。
  • 如果是已经上线一段时间的服务器,确认出现问题的服务器数量,查看问题出现是否具有规律性。
  • 检查iMana 200/iBMC是否存在硬件告警。

通过前述信息咨询,再次确认是单机问题还是硬件问题,运行FusionServer Tools-Toolkit自检一轮,依据报告结果确认问题。

依据报告结果确认硬件故障点
近期软件升级(包括客户业务软件、数据库、中间软件、内核、主机软件BIOS、HMM板、iMana 200/iBMC和存储软件变更等)开始出现规律性宕机。
  • 新版本软件bug问题
  • 裁剪原有接口,导致异常
“update_cpu_power”或“divide_error”、“timer_xx”出现在挂起最后一屏堆栈信息中。(周期性)

说明:

G2500服务器暂不支持。

OS自身bug,内核设计缺陷问题。
“gethostbyname”出现在挂起最后一屏堆栈信息中。(无周期性)

说明:

G2500服务器暂不支持。

“CPUidle”出现在OS挂起最后一屏信息中。

说明:

G2500服务器暂不支持。

OS内核与硬件平台兼容性问题