HPサーバーの自動ハードウェアテスト？

Question

サーバーのプロビジョニングの一環として、HPのInsight Diagnosticsを実行してハードウェアをテストします。これは手動プロセスです。 Insight Diagnosticsの実行を自動化する方法はありますか？

オプション「-rd：」「すべての診断可能なデバイスの診断を実行」を備えたhpdiagsソフトウェアがあります。私のテストでは、これはあまり効果がありません（ディスクからSMART情報を読み取るだけです）。

ハードウェア：HP ProLiant BL460cブレードを備えたBladeCenter c7000、DL360。

OS：ESXiおよびUbuntu。

ewwhite · Answer

それで、私は別の質問をします：

プロビジョニングの前にサーバーでHP Insightハードウェア診断を実行する必要があるのはなぜですか？

上記のコメントで、大規模なHP ProLiant環境で先制的にこれを行うことで得るものはほとんどないことを示しました。私はそれについて私の考えを明確にする必要があります...

頻度の高い順に、通常発生する問題の種類を見てみましょう。

ストレージアレイとディスク：RAIDコントローラーはOS、ログ、SNMP、電子メール、ILOにレポートしますかなりのライトを点灯します =健康状態を示します。
[〜＃〜] ram [〜＃〜]：POSTプロセスはRAMステータス、およびOS、ログ、SNMP、電子メール、ILOへのシステムレポート、およびフロントパネルのLEDインジケーターの点灯 Systems Insight Display（SID）。これらのシステムのエラー検出はすでに堅牢であるため、 RAMバーンインプロセスのファンではありません。
温度とファン：サーバーの温度とファンの速度は、ILOによって調整されます。これらのシステムには30以上の温度センサーがありますなので、冷却システムは非常に効率的です。これは、OS、ログ、SNMP、電子メール、およびSIDに引き続き報告されます。
Power Supply：PSUステータスは、OS、ログ、SNMP、電子メール、およびSIDで報告され、実際の電源の実際のインジケーターライト供給ユニット。
全体的なヘルス：これは、内部ヘルスLEDと外部ヘルスLEDに加えて、SIDディスプレイで一目で簡単に評価できます。これは、サーバーのログ、SNMP、電子メール、およびILOにも報告されます。

enter image description here

実行時またはOSのインストール後に報告されない、または報告されなかった、展開前に見つかる条件は考えられません。

診断ループは、通常、明確な以前の問題がないシステムで実行しても何も検出しません。これは主に、サーバーがPOSTで、ユーティリティを実行するためにユーティリティまたはIntelligent Provisioningファームウェアを起動する必要があるためです。

つまり、サーバーにとって深刻な「SPOF」となる項目は、システムが自己診断を実行するのを妨げる可能性があります。

最も一般的な障害項目はまだかなり堅牢です。ディスクはRAIDである必要があり、ホットスワップ可能です。ファンと電源もホットスワップ可能です。 RAMにはECCしきい値があり、ほとんどのProLiantプラットフォームにはオンラインスペアオプションがあります。診断を実行してこれらのコンポーネントに障害を引き起こすためにできることは何もありません。内部冗長性があるHP C7000ブレードエンクロージャを使用すると、障害の発生率はかなり低くなります。