web-dev-qa-db-ja.com

ハードウェアRAIDコントローラーのキャッシュバッテリー障害の頻度/寿命?

Adaptec および LSI MegaRAID ハードウェアRAIDコントローラーを装備した Supermicro サーバーが多数含まれる環境にいます。これらのコントローラーには、バッテリーバックアップ式キャッシュモジュールが含まれており、書き込みパフォーマンスを向上させ、転送中のデータを保護します。

頻繁にサポートされる問題は、RAIDコントローラーのバッテリー障害です。これにより、配列がwrite-backからwrite-throughモードに移行します。システムは書き込み速度が低下して実行されるため、明らかにパフォーマンスに悪影響があります。これは、システムの電源を切り、バッテリーを交換するためのダウンタイムウィンドウが確立されるまで続きます。

これは非常に日常的な操作です。ほぼ毎週数千の物理サーバーにまたがって...充電サイクルなしで交換できるように、交換用バッテリーを準備するための充電ステーションもあります。

おそらく、私はHP ProLiantサーバーと Smart Array RAIDコントローラー の長い歴史に甘んじていますが、HPシステムのバッテリー寿命は通常4〜6年です。最終的には2009年頃にRAIDバッテリーの使用を廃止しました。これらはスーパーキャパシタバックアップメモリ​​モジュール(フラッシュバックアップライトキャッシュ、またはFBWC)に交換され、交換、廃棄、または長い初期充電サイクルは必要ありません。

未満 12か月間使用されているシステムでAdaptecおよびLSIコントローラーのバッテリー障害が発生することがあるので、これが他の環境で一般的かどうか疑問に思います。

これが一般的である場合、他の大規模サーバー環境はこれをどのように処理しますか?

  • RAIDバッテリーの交換を処理するためのヒントやコツはありますか?
  • 役立つ設定パラメータはありますか?
  • これはyour環境での運用にどの程度影響を及ぼしますか?
  • シャーシの冷却と温度の低下が要因となる可能性はありますか?
  • 私たちは何か間違ったことをしていますか?
  • Dell PERCコントローラはLSIによって製造されています。デルの環境でも同じように短いバッテリ寿命が発生しますか?

使用期間が1年を超える新世代バッテリーの概要を説明したLSI製品の資料。 enter image description here

稼働時間が1000日以上でRAIDバッテリーが正常なHP ProLiant DL585 G2サーバー...

# uptime 
 05:38:08 up 1031 days, 44 min, 31 users,  load average: 0.49, 0.64, 0.99

# hpacucli
   Cache Board Present: True
   Cache Status: OK
   Accelerator Ratio: 50% Read / 50% Write
   Total Cache Size: 512 MB
   Battery Pack Count: 1
   Battery Status: OK
14
ewwhite

Supermicrosが何らかの方法で破損していると思います-バッテリーパックが過熱している可能性があります。最新のLSIはMegaCLIを介して温度を報告します。交換が必要なサーバーでこの値を監視したい場合があります。

root@Host:~/SOLARIS# ./MegaCli -AdpBbuCmd -GetBbuStatus -aALL

BBU status for Adapter: 0

BatteryType: BBU
[...]
Temperature: 41 C

私は、LSI BBUコントローラを備えたDellおよびFujitsuシステムをいくつか見ましたが、それらのいずれも、年間のバッテリーパック交換はありませんでした(ディープディスチャージによってパックがねじ込まれている場合を除く)。典型的な寿命は約3〜5年です。

9
the-wabbit

数百回のインストールに渡るIBMプラットフォームのLSIプラットフォームでの私の経験では、平均バッテリーは2年間でわずかになり、スーパーキャップはそれ以上ではありません。その一部はファームウェアのアップデートで修正できますが、LSIにはそれがありません。正しい。最初の2年間で約75%のスーパーキャップ障害が発生しました。

1
Mark

バッテリーの平均寿命は3〜5年です。また、フラッシュベースのFBWCも失敗することを忘れないでください。理由と方法はわかりませんが、HPサーバーで定期的に交換しています。バッテリーよりも長持ちするはずですが、サーバーごとの統計はありません。

バッテリーの故障やバッテリーの学習による影響を防ぐための標準的な方法は、複数のバッテリーを用意することです。これがHPストレージ(HP EVAのような)の仕組みです。ホットプラグ対応バッテリーが2つあり、1つが充電されていないか交換されている間、コントローラーは残りの1つで動作します。 SmartArrayに複数のバッテリーを接続できるかどうかはわかりませんが、hpacuclidiagの出力では、サポートされている必要があります。

Battery 1 firmware is up to date.
Battery 2 not present.
Battery 3 not present.

Battery Status:    Battery 1      Battery 2      Battery 3
---------------    ---------      ---------      ---------
Present:              YES             NO             NO
Responding:           YES            N/A            N/A
PIC Revision:          52              .              .         
Status:              0x80              .              .         
Extra Status:        0x01              .              .         
   Enabled:         FALSE              .              .         
   Charging:        FALSE              .              .         
   Good:             TRUE              .              .         
   Open:            FALSE              .              .         
   Shorted:         FALSE              .              .         
   Sample Err:      FALSE              .              .         
Control:             0x00              .              .         
Load Current: (0x70) 24.6mA            .              .    
   Per Memory Chip:  4920uA            .              .         
Voltage:      (0xae) 5640mV            .              .         
Capacity:             100%             .              .         
Depletion count:     0x00              .              .         
1
Marki555