Sun GridEngineを10ノードと1つの仮想マスターホストにインストールしました。
現在、本番環境にリリースする前にすべてのリソースを監視する必要がありますが、どちらが最善の方法かわかりません。 xml-qstatを使用してみましたが、不安定なようです。
ヒントや提案はありますか?
誰もがこれを経験しましたか?
ありがとう。
Ganglia を使用できます。 Holland Computing Center で数千のノードを持つGangliaを使用しており、特に履歴グラフを探している場合は、ほとんどの場合、かなりうまく機能しているようです。 Nagiosはアクティブな監視に使用されます。
念のために言っておきますが、Munin( http://munin-monitoring.org/ )もとても素敵です。
稼働時間や可用性よりも指標に関心があるようです。 Circonus( http://circonus.com/ )はここにぴったりです。 Resmon XML DTDを介してインポートできる、事実上すべてのメトリックを相互に関連付けることができます。