これは一種の繰り返しの質問ですが、私が見つけた最も近い質問 7年前に尋ねられました 、それはかなり異なる時期でした。
私は中小企業を経営しており、複数の中小規模のクライアントWebサイトをホストしています(1Gデジタルオーシャンドロップレットを数個以上必要とするものはありません)。現在のソリューション(アドホックスクリプトと電子メール)は、特に現在の急速なビジネスの成長に伴い、限界を示し始めています。
ビジネス上の問題
したがって、新しいソリューションを構築する必要があります。一度に全部ではないかもしれませんが、私は確かにすべてをやり直したくありません。私が考えることができる要件:
- シンプル。シンプル。シンプル。私にはスタッフがいません、時間がありません、私はでたらめをうまく消化しません。必要なリソースを割り当てる準備はできていますが、それ以上は割り当てられません。
- SaaSはありません。過去数年間、私は多くのSaaSを使用してきましたが、最終的にはすべて高価になり、サービスを中止するか、購入してから完全に消えます。SaaSもう取りたくないリスクです。
- 最終的に、私は単純なことだけを気にします:
- 私のサイトはエラーなしで十分に速く応答していますか?
- 私のサイトは過負荷になっていますか?
- ディスクがいっぱいになっていますか?
- Ansibleに基づく自動展開システムがあり、各サイトの監視/アラートの構成を処理できる必要があります
- 担当者は、役に立つ場合に限り、可能な限り午前4時に起こしてほしい。
- すべてのインシデント/問題はどこかで追跡され、簡単に移動できる必要があります(JIRAボードのようなもの)
- 遅いページやエラーが発生しやすいページを見つけるなどの統計を作成できるようにしたいHTTPログを含め、すべてのデータは後で確認できるようにどこかに保存する必要があります。
- 私は数十の(Debian)サーバーを持っており、それらに関するすべての情報を一元化する必要があります
私が行った調査
それをするために、私はインターネットを掘り始めました、そしてあなたが望むならあなたが円でお互いに差し込むことができる基本的に無数のものを見つけました。
- ELKスタック(および「ビート」)。ログ/メトリックを収集して保存するのに最適のようです。きれいなダッシュボードを作成してデータを確認することはできますが、できることはそれだけです。
- X-Pack。 ELKと一緒に行くのに最適なもののようですが、素敵なでたらめなケーキの周りに厚い砂糖のコートが付いているようです。さらに、価格を発表しない「サブスクリプション」モデルは、おそらく高すぎることを意味します。
- 真剣/Nagios/Zabbixは元々の候補ですが、退屈で複雑であり、カスタムコードとバンドエイドが必要になります。 ELKで動作します。
- Riemannは、アラートをトリガーするための優れたフレームワークのように見えますが、後でアラートを管理することはできません。さらに、すべてを自分で書く必要があります。そして、どこに接続すればよいかわかりません(同じものを測定する複数のプローブが必要ではありません)。おそらく私には複雑すぎます。
- ElastAlertは良い考えかもしれませんが、アラートを管理する実際の方法が付属していないようです
- bosunElastAlertよりも少し成熟していて完全なように見えますが、同じ欠点があり、構成がより複雑になる可能性があります
- opendutyは興味深いものですが、明らかに未熟すぎて実行可能とは見なされません
- cabotは素晴らしい約束をし、ドキュメントを書くために人々を割り当てる会社によって作られ、使用されているので、おそらくそうはなりません死ぬ(少しかすかなですが)
- そしてもちろん、プロメテウス、グラファナ、グレーログ、Fluentdそしておそらく無数の他のもの。
それを解決するためにこれまでに取られたステップ
私の現在の状況の理解は、2つのツール(まあ、スタック)が必要だということです:
- ログとメトリックのクエリを収集、保存、許可するもの。それが、ビジネス統計、事後分析、デバッグの洞察などを私にもたらすものです。そのための完璧なランナーは[〜#〜] elk [〜#〜]のようです。
- 不規則性を見つけてアラートを起動するために、データを絶えず分析するもの。今ではそれははるかに明確ではありません。シンプルで拡張可能なCabotを選びます。
実際の質問
私の要件は理にかなっていますか?もしそうなら、私はそれらの2つのツール(1つはログの保存/アクセス用、もう1つはアラート管理用)を探す権利がありますか?もしそうなら、私の選択はその仕事に向いていますか、それとも何か他のものをお勧めしますか?
質問ではありません
私は、最良の監視ソリューションである薄い空気を求めているのではなく、単に問題と解決策を述べているだけであり、問題の確認または失敗した場所へのポインタが必要です。
みんな、ありがとう!
あなたはこれを過度に複雑にしており、上で詳述したオプションは単純さへの欲求に反しています。
NewRelic および Monit を使用します。
NewRelic 一般的なクラウドの監視、統計、履歴。サーバーでは無料です。
アプリケーションおよびサーバーレベルの問題には Monit を使用します。エスカレーションまたは電子メールからSMSへのアドレスを使用してアラートを処理します。
複数のMonit管理ホストで一元化されたレポートが必要な場合は、 M/Monit を使用します。
ホストごとのレベルで詳細な分析が必要な場合は、 NetData を調べてください。