web-dev-qa-db-ja.com

HP ProLiant DL360 G7が[Power and Thermal Calibration]画面でハングする

新しい HP ProLiant DL360 G7 システムで、再現が難しい問題が発生しています。 POSTプロセス の間に、サーバーが " Power and Thermal Calibration in Progress ... "画面でランダムにハングします。これは通常、インストールされたオペレーティングシステムからのウォームブート/再起動に続きます。

enter image description here

この時点で、システムは無期限に停止します。 ILO 3電源制御を介してリセットまたはコールドスタートを発行すると、システムは問題なく正常に起動します。

システムがこの状態にある場合、ILO 3インターフェイスは完全にアクセス可能であり、すべてのシステムヘルスインジケーターは正常です(すべて緑色)。サーバーは、PDUへの電源接続を備えた温度管理されたデータセンターにあります。周囲温度は64°F/17°Cです。システムは、導入前に24時間のコンポーネントテストループに配置され、障害は発生しませんでした。

このサーバーの主要なオペレーティングシステムはVMWare ESXi 5です。最初に5.0以降の5.1ビルドを試しました。どちらもPXEブートとキックスタートを介してデプロイされました。さらに、ベアメタルWindowsおよびRed Hat Linuxインストールでテストしています。

HP ProLiantシステムには、包括的なBIOSオプションのセットがあります。静的高性能プロファイルに加えて、デフォルト設定を試しました。起動を無効にしました スプラッシュスクリーン で、上のスクリーンショットではなく、その時点でカーソルが点滅します。また、VMWare BIOSの「ベストプラクティス」 configも試しました。 同様の問題の概要を示していると思われるHPのアドバイザリ を確認しましたが、特定の問題は修正されませんでした。

ハードウェアの問題の疑いで、私はベンダーに同じシステムを同じ日に配達するように送らせました。新しいサーバーは、ディスクを除いて完全に同一のビルドでした。古いサーバーから新しいサーバーにディスクを移動しました。交換用ハードウェアで同じランダムブートの問題が発生しました。

現在、両方のサーバーを並行して実行しています。この問題は、ウォームブートでランダムに発生します。コールドブーツには問題がないようです。 Turbo Boostの無効化や電力調整機能の完全な無効化など、より難解なBIOS設定のいくつかを調べています。私はこれらを試すことができますが、それらは必要ではありません。

何かご意見は?

-編集-

システムの詳細:

  • DL360 G7-2 x X5670 Hex-Core CPU
  • 96GBのRAM(12 x 8GB低電圧DIMM)
  • 2 x 146GB 15k SASハードドライブ
  • 2 x 750W冗長電源

最新のHP Service Pack for ProLiant DVDリリース時点で最新のすべてのファームウェア。

HPに電話してinterwebzをトローリングすると、ILO 3の不適切な相互作用についての言及がありましたが、これは物理コンソール上のサーバーでも発生します。 HPも電源を提案しましたが、これは他の本番システムに正常に電力を供給するデータセンターラックにあります。

これが低電圧DIMMと750W電源装置の間の相互作用が不十分である可能性はありますか?このサーバーはサポートされている構成である必要があります

44
ewwhite

したがって、サードシステムを混在させ、同じ問題が発生した後、環境について質問し始めました。 HP ProLiant Servers Troubleshooting Guide のコピーを掘り下げたところ、POST以下に示す問題のフローチャートが見つかりました。

enter image description here

グラフの手順を注意深く実行すると、すべてのサーバーにわたる1つの定数が、データセンターのクラッシュカートに接続されたKVMスイッチ)であることがわかりました。これは、コンシューマクラスのUSB対応でした。 KVM。フローチャートで強調表示されたノードに従って、適切なKVMを知っていますか?、I決定的に答えることができませんでした。

そのため、KVMスイッチからサーバーを取り外し、自動ブートsleep 300; rebootシーケンスをrc.localで実行しました。サーバーは、通常の状態に関係なく、これに関する問題はありませんでした。 DIMM、低電圧DIMM、PSUワット数など.

これはすべて、USB KVM=スイッチとの不適切なやり取りの結果です。これがコンソールであったため、探していた場合は確実にエラーが表示されました。自己実現...

47
ewwhite