web-dev-qa-db-ja.com

オンラインスペアメモリをインストールするのは理にかなっていますか?

HPを使用しています DL360p 第8世代。かなり信頼性の高いサーバーが必要なので、予備のドライブを備えたRAID 1を使用し、電源も追加しました。しかし、オンラインスペアメモリをインストールする必要がありますか?それともお金を無駄にしているだけですか?

6
javapowered

それはそれだけの価値はありません。 ECC RAMと実行中のHP管理エージェントを使用すると、不良メモリを非常に簡単に検出できます。通常、操作に影響する大きな問題が発生する前に、介入するためのいくつかの手順があります。標準サポートでは、RAMの交換は翌営業日であるため、予備のDIMMを追加してRAMの配置を複雑にする必要はありません。

私がシステムで抱えていた最悪のHPProLiantメモリの問題は、1週間の間にいくつかのECCアラートが発生した後、最終的にサーバーをクラッシュさせました。エラーが発生し、サーバーはASRを介して再起動し、マシンは不良DIMMを無効にして復旧しました。これは HP ProLiant DL580 G4 システムであり、エラーログは次のとおりでした...

0004 Repaired       22:21  12/01/2008 22:21  12/01/2008 0001
LOG: Corrected Memory Error threshold exceeded (Slot 1, Memory Module 1)

0005 Repaired       20:41  12/06/2008 20:43  12/06/2008 0002
LOG: POST Error: 201-Memory Error Single-bit error occured during memory initialization, Board 1, DIMM 1. Bank 
containing DIMM(s) has been disabled.

当時、私はRAID5スタイルのメモリアレイを備えた多くの HP ProLiant DL740サーバー をインストールしました。したがって、16GB RAMサーバーには、実際には8つのDIMMのホットスワップ可能なバンクに20GBがインストールされていました。私が5年以上展開して実行した数十台のサーバーでは、DIMMモジュールが1つだけ故障していました。フィギュア...

編集:
これを高頻度取引環境で使用することを計画しています。このようなサーバーでのスペアRAMの遅延について質問しました。通常、待ち時間の短いアプリケーションでは、ホストシステムのメモリの障害前チェックを無効にします。これは、低遅延アプリケーション用のHP ProLiantサーバーBIOSの構成ホワイトペーパーの7ページにあるHPからの推奨事項です。それは監視とリスクの問題です。 DIMMが故障することはめったにありません。スピードや弾力性をもっと気にしますか?ハードウェアレベルで両方を取得することはできません...

5
ewwhite

これはお金を無駄にしているだけだと思います。メモリにはすでにECCがあります。そうは言っても、サーバーが24時間年中無休で使用され、決してダウンタイムが発生する可能性がある場合、これは理にかなっている可能性があります。これをハイパーバイザーに使用している場合は、すべてのVMをオフにし、システムの電源を切り、不良メモリチップを交換するのは簡単です。

私の経験では、ハイエンドサーバーのメモリチップは時々故障し、交換する必要があります。

4
jftuga

オンラインスペアモードまたはロックステップモードを有効にするのにどれくらいの費用がかかり、サーバーの存続期間中にメモリベースのサービス損失の影響がどれだけかかるかを検討するのは非常に簡単です。

Oracle RAC、vSphereなどの既存のフェールオーバークラスターの一部にあるサーバーでは、これらの方法のいずれも使用しませんが、サーバーを実用的/経済的な方法でクラスター化できない場合は使用してください。

コスト/メリットに基づいて決定できるのはあなただけですが、テクノロジーは機能します。過去2。5年間に、サーバーの1つで2回の完全なシステム停止を回避し、投資する価値があったことを知っています。走行距離は異なる場合があります。

4
Chopper3