クラウドとスケーリングボックスで自動的に操作する場合、特定の監視の問題が発生します。 10個のボックスを監視している場合もあれば、100個のボックスを監視している場合もあります。マシンは需要に基づいてスケールアップおよびスケールダウンします。
今のところ、これに対する最善の解決策は、APIの呼び出しを介してターゲットをインスタンス化する監視ソリューションを選択することだと思います。しかし、これは本当に最高ですか?私は動的検出のアイデアが好きですが、ターゲットがすべて同じサブネットにあるわけではないことを考えると、それはクラウドの問題でもあります。
このようなスケーリング環境を可能にする監視ソリューションは何ですか? Zabbixには現在 ドラフトAPI がありますが、Nagios用の同様のAPIに資金を提供することができませんでした。 Nagios用の同様のAPIはありますか?
NagiosとZabbix以外に別の提案がありますか?
Farmville は、週に数百台のサーバーを追加すると主張しており、 Puppet 、 Nagios 、および Munin を使用して処理します彼らのスケーラブルな監視システム。彼らはおそらくPuppetファクトを使用してNagios構成ファイルにデータを入力したりセットアップしたりします [〜#〜] nrpe [〜#〜] 。その多くのサーバーでは、Puppetのような構成管理ツールが実際に必要です。
「puppetnagios」の検索で見つかったいくつかの例:
http://blog.gurski.org/index.php/2010/01/28/automatic-monitoring-with-puppet-and-nagios/
http://projects.puppetlabs.com/projects/puppet/wiki/Nagios_Patterns
Zabbixを使用します。彼らの次の2.0リリースには、このようなもののための多くの新機能があります。現在のバージョン1.8には自動登録があります。
新機能のドキュメントでは、この機能について説明しています。
4.2.2アクティブエージェントの自動登録
Zabbix 1.8では完全に新しいため、アクティブなZabbixエージェントの自動登録を許可することができます。その後、サーバーはそれらの監視を開始できます。これにより、個々のホストごとに手動でサーバーを構成しなくても、監視用の新しいホストを追加できます。
この機能は、新しいクラウドノードの自動監視に非常に便利な場合があります。クラウドに新しいノードがあるとすぐに、Zabbixはホストのパフォーマンスと可用性のデータの収集を自動的に開始します。
提案はありませんが、ロジックは適切です。ホストが起動したときに説明するような動的な環境では、ホストの存在を知る必要があるもの(監視システムなど)に登録する必要があり、シャットダウンしたときに必要です。それがなくなることを知る必要があるものに登録を解除する。
私が尋ねる質問は、「主力」サーバーを監視する必要があるかどうかです。それらがコンピューティングノードなどであり、構成が安定していて、スピンアップしたときに「正常に機能」することがわかっている場合は、クラウド自体(実行中のインスタンスの数)を監視することは、個々のマシンを追跡するのと同じくらい良いかもしれません。クラウドプロバイダーを使用すると、このような統計に簡単にアクセスできます。
zabbix apiには、コマンドラインツールzabcon( http://trac.red-Tux.net/wiki/zbx_api/interactive )があります。まだ完全には機能していませんが、いくつかの基本的なホストとアイテムの操作をサポートする必要があります-おそらくそこから作業できます。
Zabbixの使用経験はありませんが、Nagiosは、箱から出して言うまでもなく、管理者の介入なしにこれを行うことはできないと確信しています。問題は、(ホストを追加するために)構成ファイルを作成するとき、またはファイルを編集/削除するときに、Nagiosを再起動する必要があることです。再起動すると、そのホスト上のサービスの最初のチェックを実行するのに数分かかります(設定によって異なります)(ホスト自体が起動しているかどうかのチェックには数秒しかかかりません)。これらのマシンが1日に数回追加または削除される場合、これが最初の問題であると予想されます。
システムを使用して検出を行うことができます。Nagiosにはこれを行うプラグインがあると思いますが、マシンで生成されたcfgファイルは手動で作成するほど優れているとは言えません。実際、これらの自動化された構成のほとんどは、すべて1つ、またはおそらく少数のファイルに含まれています。これは管理するのにPITAになります...
ただし、Nagiosはオープンソースであり、必要な知識があれば、独自のシステムをコーディングして実装できると確信しています。起動する(または停止する)マシンはVMであり、NSClientまたは使用することを決定したエージェントがプリインストールされていると思われます。つまり、マシンが起動または停止するたびにスクリプトを実行できる場合は、.cfgまたは.cfgという名前の構成ファイルを作成または削除してから、Nagiosをリロードできます。問題のホストのホスト名とIPを編集するスクリプトを入手すれば、完了です。つまり、もちろん、私が最初に述べた点があなたにとって重要でない場合は...
幸運を
「cfg_dir」を使用して構成ファイルのディレクトリをロードするようにnagiosを設定した場合、ノードが追加または削除されたときにcfgファイルを追加または削除し、nagiosを再起動できます。 APIは実際には必要ありません。いくつかの小さなシェルスクリプトと、キーファイルを使用したSSHを使用して設定できます。
Zabbixの使用経験はありませんが、構成、実行、カスタマイズが非常に簡単なNagiosをお勧めします。
Zenoss で遊んでから久しぶりですが、お探しの方かもしれませんね。