华为服务器硬盘故障及处理方法

硬盘故障

问题描述

服务器出现如下现象时,说明硬盘故障。

  • 硬盘故障指示灯常亮。
  • 服务器开机状态下,硬盘指示灯不亮。
  • 服务器上报硬盘故障告警。

处理方法

  1. 确认故障硬盘槽位。

    JBOD模式下的硬盘为UBAD状态时,硬盘Fault指示灯会被点亮,同时iBMC会对其进行告警。

    • 通过硬盘故障指示灯处于橙色常亮状态确认故障硬盘槽位,请参考各型号服务器用户指南硬盘编号章节。
    • 通过管理软件iMana/iBMC硬盘告警信息确认故障硬盘槽位,请参考iMana/iBMC告警参考。
    • 通过RAID卡GUI界面确认故障硬盘槽位信息,参考PD Mgmt或Drive Management。
    • 通过RAID卡命令行工具确认故障硬盘槽位信息,参考查询RAID卡/RAID组/物理硬盘信息。

     

  2. 判断硬盘故障后,删除服务器可能存在的Preserved Cache数据。

    • 若存在Preserved Cache数据的RAID组已失效(即RAID组中已故障硬盘数量超过RAID组支持的最大故障硬盘数量),删除PreservedCache数据时该RAID组也会被删除。
    • 如硬盘故障为人为在线插拔RAID组中的硬盘导致,可将硬盘拔出后再删除Preserved Cache数据,避免删除RAID组。
    • 通过GUI方式清除Preserved Cache数据,参考如下步骤:

      VD Mgmt页签,将光标移到“SAS3108(Bus 0x01,Dev 0x00)”一行并按“F2”

      • 如果“Manage Preserved Cache”为可选项,则表示存在 Preserved Cache数据,如图1所示,此时请参考删除Preserved Cache删除Preserved Cache数据;
        图1 查看是否存在Preserved Cache
      • 如果“Manage Preserved Cache”为不可选项,则表示不存在Preserved Cache数据,此时可直接执行3。
    • 通过命令行方式清除Preserved Cache数据,参考如下步骤:
      1. 通过storcli64 /c0 show preservedCache命令查询是否存在preserved cache。

        如下图所示编号为0的控制器管理的VD 0存在preserved cache数据。

      2. 通过storcli64 /call/vall delete preservedCache force命令清除preserved cache。

     

  3. 更换新硬盘。

    • 更换硬盘前,为避免拔错硬盘导致RAID组失效,请务必提前确认好硬盘槽位,参考1。如硬盘故障为人为在线插拔RAID组中的硬盘导致,则可以将硬盘设置为Unconfig Good后,参考导入/清空外部配置章节恢复RAID组,无需更换硬盘。
    • 若故障硬盘属于直通盘或非冗余RAID组(即RAID0),则硬盘数据不可恢复。
    • 若故障硬盘属于冗余RAID组且已故障硬盘数量未超过RAID组支持的最大故障硬盘数量时,则RAID组数据不会丢失;否则RAID组数据会丢失。请在表1查看RAID组支持的最大故障硬盘数量。
    • 更换硬盘时,故障硬盘在脱离硬盘背板后,需要等待30秒后再完全拔出,插入新硬盘。此时硬盘告警依然存在,待RAID组重构完成后告警消除。为避免新硬盘二次离线告警,请避免反复高频率在线插拔硬盘。
    • 新插入的硬盘不能带有RAID信息,若插入的硬盘存在RAID信息,则需要在原RAID创建时使用的同型号RAID控制器下删除RAID信息或者进行硬盘低格,具体请参考各型号RAID卡删除RAID信息或硬盘低格章节。

    拔出故障硬盘,在故障硬盘槽位插入新硬盘,新硬盘根据原故障硬盘的RAID配置情况有如下恢复方式:

    • 若故障硬盘所属RAID组已配置热备盘,新插入的硬盘在热备盘重构完成后会进行回拷动作。新硬盘回拷完成后,原热备盘恢复热备状态。
    • 若故障硬盘所属RAID组为冗余RAID且未配置热备盘,新插入的硬盘自动执行rebuild操作重构故障硬盘数据,操作完成;如RAID组中故障硬盘数量超过1块,则需要按照硬盘故障时间由远及近的顺序逐一更换,且需要在已更换硬盘重构完成后再依次更换其他故障硬盘。
    • 若故障硬盘为直通盘,则直接更换即可。
    • 若故障硬盘属于非冗余RAID组(即RAID0),则需要重新创建RAID0。
      • Legacy模式下创建RAID0的方法请参见创建RAID 0。
      • UEFI模式下创建RAID0的方法请参见创建RAID 0。
      • 通过命令行方式创建RAID0的方法请参见创建和删除RAID。