ご挨拶、
分散監視システムについての意見や見解をまとめて聞きたいのですが、何を使用していて、どれが私のボックスをチェックする可能性があるかを知っていますか?
要件は非常に複雑です。
単一障害点はありません。本当に。私は真剣に死んでいます! 「マスター」と「ワーカー」の両方の単一/複数ノードの障害に耐えられる必要があり、監視場所(「サイト」)に複数のノードがないか、同じネットワーク上にあると想定する場合があります。したがって、これはおそらくDRBDやキープアライブなどの従来のHA技術を除外します。
分散ロジック、複数のネットワーク、複数のデータセンター内、および複数の大陸に5つ以上のノードを展開したいと思います。顧客の視点からネットワークとアプリケーションの「鳥瞰図」ビューを表示したいのですが、50以上のノード、さらには500以上のノードがある場合でも、監視ロジックのボーナスポイントが滞ることはありません。
野球場の数値では、1500〜2500のホストとホストあたり30のサービスを想定しているため、かなり妥当な数のホスト/サービスチェックを処理できる必要があります。監視ノードを追加することで、比較的直線的に拡張できるようになれば、本当に素晴らしいでしょう。おそらく5年後には、ホストごとに5000のホストと40のサービスを監視することを検討しているかもしれません。上記の「分散ロジック」に関するメモに加えて、次のように言っておくとよいでしょう。
グラフと管理しやすい機能。 SLAを追跡する必要があり、「高可用性」アプリケーションが24時間365日稼働しているかどうかを知ることはある程度役に立ちます。理想的には、提案されたソリューションは、最小限の手間で「箱から出して」レポートを作成する必要があります。
オーダーメイドのチェックを開発するための堅牢なAPIまたはプラグインシステムが必要です。
アラートについて賢明である必要があります。 one監視ノードがコアルーターがダウンしていると見なしていることを(SMS経由で午前3時に!)必ずしも知りたくありません。私doそれらの定義されたパーセンテージが同意する何かファンキーなことが起こっているかどうか知りたい;)本質的にここで話しているのは「クォーラム」ロジック、または分散狂気への正気の適用!
私は商用とオープンソースの両方のオプションを検討したいと思っていますが、何百万ポンドもかかるソフトウェアを避けたいと思っています:-)また、これらすべてのボックスをチェックするものは何もないかもしれないことを受け入れたいと思いますが、集団にそれを聞きたかった。
ノードとその配置の監視について考えるとき、これらのほとんどはランダムISPネットワーク上の専用サーバーであるため、私の制御範囲から大きく外れていることに注意してください。 BGPフィードやその他の複雑なネットワーキングの策略に依存するソリューションはおそらく適さないでしょう。
Nagios、Zabbix、友人など、過去にほとんどのオープンソースフレーバーを評価、展開、または頻繁に使用/カスタマイズしたことも指摘しておく必要があります。これらは実際には悪いツールではありませんが、全体的には横ばいです。」特に私の質問で説明したロジックと「インテリジェント」アラートに関しては、「分散」の側面。
必要なポイントを明確にしてください。乾杯男とギャル:-)
実際には答えではありませんが、いくつかの指針があります。
nagios @ goldman sachs についてのプレゼンテーションを間違いなく見てください。彼らはあなたが言及した問題に直面しました-冗長性、スケーラビリティ:何千ものホスト、また自動化された構成生成。
私は冗長なnagiosセットアップを持っていましたが、はるかに小規模で、80台のサーバー、合計で最大1,000のサービスです。 1つの専用マスターサーバー、1つのスレーブサーバーが1日に数回定期的にマスターから構成をプルします。両方のサーバーが同じマシンの監視をカバーし、相互にヘルスクロスチェックを行いました。私は主にカスタム製品固有のチェックを呼び出すためのフレームワークとしてnagiosを使用しました[「人工フロー制御」を実行するスクリプトを実行する一連のcronジョブ、SQLに記録された結果ウェア、過去x分間の実行の成功/失敗をチェックするnrpeプラグイン]。すべてが非常にうまく機能しました。
あなたのクォーラムロジックは良さそうです-私の「人工フロー」に少し似ています-基本的に続けて、あなたの自己を実装してください;-]。 nrpeに、ある種のフラグ[またはtimestamp-statusを指定したsqldb]をチェックさせます。
スケーリングする階層を構築することをお勧めします。他のノードの概要を収集するノードがいくつかあります。最初のポイントからプレゼンテーションを見てください。すべてのチェックに対するデフォルトのnagiosフォークは、監視対象サービスの数が多いとやり過ぎです。
いくつかの質問に答えるには:
あなたが求めていることは、シンケンがナギオスのためにしたこととよく似ています。
真剣はNagiosの書き直しです。
これは思考の糧となるはずです。
乾杯