web-dev-qa-db-ja.com

DL180 G6-ESXI6.0-P410-ボリュームへのアクセスが失われる問題

P410RAIDカードを備えたDL180G6サーバーがあります。サーバーには、次の3つのRAIDアレイがあります。

4x2TB-RAID 10

4x2TB-RAID 10

2x2TB-RAID 1

2x2TB HDは、3つのアレイのホットスペアとして構成されています。

以下は、ESXCLIからの関連する出力です。

スロット1のスマートアレイP410

Bus Interface: PCI
Slot: 1
Serial Number: PACCR9VYJKGQ
Cache Serial Number: PAAVP9VYJCYN
RAID 6 (ADG) Status: Enabled
Controller Status: OK
Hardware Revision: C
Firmware Version: 2.72
Rebuild Priority: Medium
Expand Priority: Medium
Surface Scan Delay: 15 secs
Surface Scan Mode: Idle
Parallel Surface Scan Supported: No
Queue Depth: Automatic
Monitor and Performance Delay: 60  min
Elevator Sort: Enabled
Degraded Performance Optimization: Disabled
Inconsistency Repair Policy: Disabled
Wait for Cache Room: Disabled
Surface Analysis Inconsistency Notification: Disabled
Post Prompt Timeout: 0 secs
Cache Board Present: True
Cache Status: OK
Cache Ratio: 25% Read / 75% Write
Drive Write Cache: Disabled
Total Cache Size: 512 MB
Total Cache Memory Available: 400 MB
No-Battery Write Cache: Disabled
Cache Backup Power Source: Batteries
Battery/Capacitor Count: 1
Battery/Capacitor Status: OK
SATA NCQ Supported: True
Number of Ports: 2 Internal only
Driver Name: HP HPSA
Driver Version: 6.0.0
PCI Address (Domain:Bus:Device.Function): 0000:06:00.0
Host Serial Number: USE626N2XD
Sanitize Erase Supported: False
Primary Boot Volume: None
Secondary Boot Volume: None
Secondary Boot Volume: None

アレイA(SATA、未使用スペース:0 MB)

  logicaldrive 1 (3.6 TB, RAID 1+0, OK)

  physicaldrive 1I:1:9 (port 1I:box 1:bay 9, SATA, 2 TB, OK)
  physicaldrive 1I:1:10 (port 1I:box 1:bay 10, SATA, 2 TB, OK)
  physicaldrive 1I:1:11 (port 1I:box 1:bay 11, SATA, 2 TB, OK)
  physicaldrive 1I:1:12 (port 1I:box 1:bay 12, SATA, 2 TB, OK)
  physicaldrive 1I:1:5 (port 1I:box 1:bay 5, SATA, 2 TB, OK, spare)
  physicaldrive 1I:1:6 (port 1I:box 1:bay 6, SATA, 2 TB, OK, spare)

アレイB(SATA、未使用スペース:0 MB)

  logicaldrive 2 (3.6 TB, RAID 1+0, OK)

  physicaldrive 1I:1:1 (port 1I:box 1:bay 1, SATA, 2 TB, OK)
  physicaldrive 1I:1:2 (port 1I:box 1:bay 2, SATA, 2 TB, OK)
  physicaldrive 1I:1:3 (port 1I:box 1:bay 3, SATA, 2 TB, OK)
  physicaldrive 1I:1:4 (port 1I:box 1:bay 4, SATA, 2 TB, OK)
  physicaldrive 1I:1:5 (port 1I:box 1:bay 5, SATA, 2 TB, OK, spare)
  physicaldrive 1I:1:6 (port 1I:box 1:bay 6, SATA, 2 TB, OK, spare)

アレイC(SATA、未使用スペース:0 MB)

  logicaldrive 3 (1.8 TB, RAID 1, OK)

  physicaldrive 1I:1:7 (port 1I:box 1:bay 7, SATA, 2 TB, OK)
  physicaldrive 1I:1:8 (port 1I:box 1:bay 8, SATA, 2 TB, OK)
  physicaldrive 1I:1:5 (port 1I:box 1:bay 5, SATA, 2 TB, OK, spare)
  physicaldrive 1I:1:6 (port 1I:box 1:bay 6, SATA, 2 TB, OK, spare)

現在ESXIでは、次のエラーが発生することがあります。

接続の問題により、ボリューム5456cb3e-4fbdb59c-a37a- d8d385644ec0(datastore2)へのアクセスが失われました。回復の試みが進行中です

同じ正確な時間で、いくつかの3つの配列すべてに影響していることに注意してください3つのアレイすべてが回復する秒。理解しているように、すべてのドライブはP410RAIDカードの1つのポートに接続されています。両方のポートを使用すると、パフォーマンスが向上し、この繰り返し発生する問題が解消される可能性があると思いますか?

この時点で、ファームウェアの更新(6.64に更新)を含むすべてのソフトウェアソリューションを試しました。他のオプションは何ですか?

更新1

2つのスペアドライブは、上記のように3つのアレイすべてのスペアとして構成されました。すべてのアレイからスペアを約15分間取り外したところ、エラーは停止しました。これで、最初のアレイ用に最初のスペアを構成し、2番目のアレイ用に2番目のスペアを構成して、エラーが再び表示されるかどうかを確認しました。

アップデート2

スペアを再接続するとエラーが返され、3つのアレイすべてに影響します。そのため、この問題をさらにトラブルシューティングするために、スペアを1つずつ削除しています。これはおそらくここで説明されている既知の問題です: http://community.hpe.com/t5/ProLiant-Servers-ML-DL-SL/ESXi5x-HPSA-P410i-WARNING-LinScsi-SCSILinuxAbortCommands-1843/td -p/6818369 。成功を祈っている。

3
Nasoo

質問に投稿された2つの更新とさらなるトラブルシューティングにより、問題に対する真の答えが得られます。これは、P410RAIDカードのESXIのドライバーに関連していることがわかりました。 http://h20564.www2.hpe.com/hpsc/swd/public/detail?swItemId=MTX_d18033ac346f468c92062ce127 から入手可能なドライバーのバージョン.60にダウングレードし、問題は解決しました。

バージョン.114、.116、および最近リリースされた.118を含め、最近のドライバーはいずれも機能しないことに注意してください。したがって、ユーザー@ewwhiteが説明しているように、問題がハードウェアに関連している場合を除き、これがこの問題に対する唯一のソフトウェアソリューションです。

この問題は、DL180G6サーバーでP410カードを備えたスペアドライブを使用している場合にのみ発生することに注意してください。また、他のHPサーバーでも発生するという投稿を確認したので、それらのサーバーで.60バージョンのドライバーを試して、問題が解決するかどうかを確認してください。

この問題に直面している間、サーバーに対応する読み取り/書き込み負荷がない場合、ディスク待ち時間が定期的に急増することもありますが、これは次の図で詳しく説明されています。

Periodic Latency Spikes

上の写真では、赤い点はスペアが取り付けられている間の周期的なスパイクを示しています。緑の点は、スペアが取り外されていた期間を示します。

上の図でわかるように、レイテンシスパイクは、対応する読み取り/書き込みロードに関連付けられておらず、定期的でした。私たちの場合、これらはちょうど5分間隔で発生していました。スペアが取り外されるとすぐに、スパイクは停止しました。

ドライバーの.60バージョンにダウングレードするには、VMを正常にシャットダウンした後、マシンをメンテナンスモードにして、次のコマンドを発行してください。

cd /tmp
wget http://ftp.hp.com/pub/softlib2/software1/pubsw-linux/p964549618/v97400/scsi-hpsa-5.5.0.60-1OEM.550.0.0.1331820.x86_64.vib
esxcli software vib install -v /tmp/scsi-hpsa-5.5.0.60-1OEM.550.0.0.1331820.x86_64.vib

その後、サーバーを再起動します。これが誰かを助けることを願っています。 HPがP410用のHPSAドライバーの安定バージョンをリリースしたときにこの回答を更新します。これにより、スペアドライブでこの問題が発生することはありません。

2
Nasoo

これはおそらくバックプレーンまたはバックプレーンエクスパンダの問題です。ケーブルである可能性がわずかにあります。そしておそらく RAIDコントローラー。

使用しているDL180G6は、おそらく12ベイ3.5インチユニットであり、1本の4レーンSAS SFF-8087ケーブルを介してSmartArrayP410に接続されています。

ファームウェアのアップグレードは、最初にすべきことでした。コントローラのファームウェアを更新してから同じ問題が発生しましたか?十分な対策として、ディスクのファームウェアも実行することをお勧めします。

ただし、このサーバーの設計はSASバックプレーンに完全に依存しており、すべてのディスクが同時に影響を受けるという事実から、サービスまたは置換。

1
ewwhite