RHEL5からこれらのサーバーのコンポーネント障害を監視するためにHPが提供するツール以外のツールはありますか?
HPASMツールとSNMPOIDは、主に一般的なコンポーネントの監視に使用するものです。
または、 smartmontools を使用してディスクドライブを監視することもできます。ほとんどのセンサーは lm_sensors に表示されます。
HPのハードウェアフックはそれ自体が独自のものですが、SNMP/WMI/WBEMなどの多くの「オープン」メソッドを介してインストルメンテーションを公開します。したがって、SIM/SMHPを使用する必要はありません。
HPの完全なツール、hpasm/hprsmパッケージなどをインストールする必要があります。これらは、文字通り、私が今まで見た中で最もインストールが難しいパッケージです。展開のしやすさを気にしない人が書いたようです。これらは、手動で実行できるシェルスクリプトを提供します。最初は、そのスクリプトをハックする方法、ラッパーを作成する方法、RPMを個別にインストールする方法、またはベンダーが合理的に動作する方法を理解するまで、これを使用します。
これらのツールからのエラーについてsyslogを監視する必要があります。
Hpasmcli(show server、show dimm)およびhpacucli(controller all show、次に各コントローラーslot = X pd all show)の出力を解析して、障害を特定する必要があります。 Syslogレポートに依存している場合、障害を見逃し、恥ずかしい災害が発生します。
Hplog出力も解析し、チェック後に出力をクリアして、この出力をどこかにアーカイブする必要があります。これは、hpasmcli/hpacucliチェックの冗長チェックと見なしてください。
Hponcfgを使用してILOが構成されていることを確認し、それに接続して実際に応答することを確認する必要があります。
ファームウェアをアップグレードできることを確認し、定期的にアップグレードしてください。 HPは、重要なファームウェアアップグレードをリリースします。たとえば、不良DIMMを特定せずに、マイナーメモリエラーからクラッシュをフォールトライトに変えます。 HPは、絶対に必要ではない場合にファームウェアをアップグレードすることについての私の意見を変更しました。 (まあ、それは絶対に必要です、あなたはあなたにそう言う人がいないだけです)。
SNMPのものをあきらめます。やるべきことはたくさんありますが、これは必要な機能をすべて提供できない追加の作業であるため、他の作業を行う必要があります。
HPサーバーは、ハードウェアの問題の報告/管理に関して、依然として最高のIntelサーバーです。彼らは特定の非常に厄介な問題を抱えています。おそらく、すべての顧客が少なくとも1回は不満を言うと、展開が容易になります。これには言い訳はありません。
RHEL5を実行するDL3 [68] 0 G5と、常に監視されるHP管理ツール、およびディスクとメモリの時折のストレステストは、市場で最も信頼性の高いIntelソリューションになります。あなたがあなたのお金の価値を確実に得るようにあなたの勤勉をするだけです。 HPはツールを提供しますが、ツールを必要以上に使いやすくしているわけではありません。
HPRAMのみを使用してください。それ以外の場合は、問題を起こすだけの価値はありません。 DIMMのフォールトライトが点灯しているときに、ベンダーがお互いに指を向ける必要はありません。
障害ライトのデータセンターウォークスルーを定期的に実行し、これを使用して監視スクリプトの障害を修正します。このようにして、syslogはほとんど役に立たず、hpasmcli/hpacucliを定期的にチェックする必要があることを学びました。