web-dev-qa-db-ja.com

HP Smart Array P400iは、正常なドライブを故障としてマークします。どうすればよいですか?

SmartArray P400iRAIDコントローラーを搭載したHPProLiant DL360G5サーバーがあります。サーバー自体はかなり古いですが、それでも正常に動作します。唯一の問題はRAIDコントローラーであり、これは正常なドライブを故障としてマークします。それはかなり頻繁に、ほぼ毎日起こります。 ssacliユーティリティの一般的な出力は次のとおりです。

# ssacli ctrl all show config
...
   Array A (SATA, Unused Space: 0  MB)

      logicaldrive 1 (931.5 GB, RAID 1, Interim Recovery Mode)

      physicaldrive 1I:1:1 (port 1I:box 1:bay 1, SATA HDD, 1 TB, OK)
      physicaldrive 1I:1:2 (port 1I:box 1:bay 2, SATA HDD, 1 TB, Failed)

詳細な情報:

# ssacli ctrl slot=0 pd 1I:1:2 show detail

Smart Array P400i in Slot 0 (Embedded)

   Array A

      physicaldrive 1I:1:2
         Port: 1I
         Box: 1
         Bay: 2
         Status: Failed
         Last Failure Reason: Not ready bad sense
         Drive Type: Data Drive
         Interface Type: SATA
         Size: 1 TB
         Drive exposed to OS: False
         Logical/Physical Block Size: 512/512
         Firmware Revision: SN03
         Serial Number: ...
         WWID: ...
         Model: ATA     ST91000640NS
         SATA NCQ Capable: True
         SATA NCQ Enabled: True
         PHY Count: 1
         PHY Transfer Rate: 1.5Gbps
         Sanitize Erase Supported: False
         Shingled Magnetic Recording Support: None

サーバーが再起動された後、RAIDコントローラーはドライブを再度検出し、OKとしてマークし、アレイを再構築します。アレイは、次の障害が発生するまで正常に機能します。なぜこれが起こっているのか私にはわかりません。新しいRAIDまたはHBAコントローラーを購入せずにこの問題を解決する方法はありますか? SoftRAIDは許容されます。現在、次のオプションが表示されます。

  1. 2つのRAID0論理ドライブを使用してJBODのようなセットアップを行い、それぞれに1つの物理ドライブが含まれていますが、それが役立つかどうかはわかりません。
  2. 故障したドライブをアレイから除外しないようにRAIDコントローラーを調整しますが、これを行う方法がわかりません。
1
h31

ドライブが悪いと思います。これは、このドライブのSMART属性で確認できます。

RAIDコントローラは、ドライブで読み取り/書き込み/検証エラーを検出すると、このドライブをFAILEDとしてマークします。この時点で、ドライブはこのエラーを検出し、セクターの交換手順を開始します。現在の保留中のセクターカウンターを増やし、不良セクターを正常に読み取ろうとします。不良セクタからのデータの読み取りが成功した後、ディスクは1つを事前に割り当てられたセクタに書き込み、現在の保留中のセクタカウンタを減らし、再割り当てされたセクタカウンタを増やします。これらのSMARTカウンターのゼロ以外の値は、ディスクに問題があることを示しています。

セクターの再割り当て手順が成功した後、RAIDコントローラーはディスクアレイを正常に再構築できます。

また、ディスクにはSMART属性があり、インターフェイスケーブルを介したデータ転送でエラーが発生します。ケーブルが不良の場合、RAIDコントローラの動作と同じ症状が発生する可能性があります。ただし、ディスクの問題はケーブルの問題よりも頻繁に発生します。

読んでください ウィキペディアのSMART

1
Mikhail Khirgiy

私は解決策を見つけたようです。現在、私のサーバーの稼働時間は4か月で、問題はありません。これが私がしたことです:

  1. Linuxカーネルをバージョン4.15に更新しました。これには、RAIDコントローラー用の新しいhpsaカーネルドライバーが含まれています。
  2. ハードドライブを完全に満たしていないパーティションを作成しました。つまり、1 TB HDDで300GBのサイズです。これらのRAIDコントローラーは小さなドライブで問題がないためです( <500 GB)。
  3. 背景表面スキャンを無効にしました。 ssacli ctrl slot=0 modify surfacescanmode=?コマンドを使用して現在の設定を照会します。 idleの場合は、disableユーティリティを使用してssacliに切り替える必要があります(申し訳ありませんが、コマンドを忘れてしまいました)。
0
h31