Nagios、opennms、zenossについていくつか調査しましたが、探しているものが見つかったとは確信していません。
現在の私の主な原動力は、バックアップを監視できることです。これには、mysql、mssql、そして最終的にはいくつかのファイルシステムのバックアップが含まれます。
これらのさまざまなシステムのバックアッププロセスをラップし、統計を収集するツールがあります。したがって、次のようなアイテム:
A)ジョブがスケジュールに従って実行されていない場合に通知を受け取ることができるようにしたいB)通知をトリガーする統計にしきい値を設定できるようにするC)統計の傾向を把握してグラフ化できるようにしたい
この情報をHTTPPOSTを介して監視アプリケーションに送信することを計画しています。または、監視アプリケーションがログファイルからプルすることもできます。
ただし、他の「任意の」(監視システムの観点から)統計を使用して監視および傾向分析を行う他のプロセスがあるため、柔軟性が非常に重要です。
1つまたは複数のツールは、ネットワークインターフェイス、サーバー負荷などの一般的な監視と傾向分析も実行できる必要があります。バックアップ監視を実施したら、それらの項目も含める必要があります。
ありがとう。
フォローアップ:
私は与えられた順序で以下を試すことにしました:
私が決定したら投稿します、それが起こるまでそれはしばらくの間かもしれません。
これはzabbixでセットアップするのはかなり簡単なはずです。
カスタム(および非常に強力な)しきい値の設定は簡単です。任意の式を記述できるため、「これら5台のサーバーのうち3台以上でバックアップが成功しなかった場合は通知する」などの可能性があります。 6つの異なる重大度レベルとエスカレーションを使用して、柔軟な通知とアラートを実現することもできます。
zabbixには、データストレージと視覚化機能がバンドルされています。すべてのデータはデータベースに保存されます。単一のメトリックをグラフ化するために構成は必要ありません。「無料」でグラフを取得できます。長期保管およびトレンドの場合、1時間の平均が計算されます。
バックアップに関するデータをzabbixに取り込むことに関しては、複数の可能性があります。ファイルから読み取ったり、カスタムコマンドを起動したり、コマンドラインユーティリティzabbix_senderを使用して監視対象のマシンからプッシュしたりできます。さらにいくつかの可能なアプローチがあります。
拡張は簡単です。データを返すカスタムコマンドを使用して、そのデータを収集、保存、視覚化できます。
もちろん、オペレーティングシステム、アプリケーション、snmpおよびipmiデバイスなどの一般的な監視は可能です。
独自の監視ソリューションを作成するのではなく、既存のツールを使用して、すべての基本的な監視およびアラート機能がすでに実装されていることを強くお勧めします。 Nagiosを選択すると、サーバーとネットワークリソースの基本的な監視を無料で利用できます。次のプラグインは、必要な残りのほとんどを提供します。
check_file_ages_in_dirs バックアップファイルが存在するかどうかを示します。ここに ブログ投稿 私はいくつかの基本的な例で書いた。
check_file (正規表現を使用して)ファイルのサイズと内容を監視できるため、バックアップ統計をファイルに出力して監視できます。
Nagiosから得られないことの1つは、トレンドとグラフ化です。セットアップが簡単で、Nagiosと同様に、提供されたプラグインのスタックがあるため、 Munin を確認することをお勧めします。
実行
バックアップは backupninja によって調整されます。私はそれをbashスクリプトの単なるラッパーとして使用しています-単一のバックアップログを持つためです。各スクリプトはで始まります
function handle {
echo Error
error problem occured
}
set -e
trap handle ERR
そのため、コマンド[mysqldumpやrsyncなど]のいずれかが失敗するたびにログにエラーが表示されます。
すべてのバックアップは rdiff リポジトリに格納されるため、n日間の増分があります。
すべてのバックアップは、rsyncを使用して中央ストレージサーバーに送信されます。
ストレージサーバーでは、すべてのバックアップが毎日検証され、ローカルディスク上のデータの検証が成功すると、外部USBドライブにコピーされます。
検証
すべてのサーバーのbackupninja.logはnagiosによって監視されています。 DEBUGメッセージとINFOメッセージのみが含まれているかどうかを確認します。それ以外のものはアラートをトリガーします。
すべてのバックアップはテストファイルに「触れ」、その存在と鮮度はnagiosを備えた中央バックアップリポジトリサーバーで監視されます。
さらに、より重要なSQLダンプは、サイズ(鮮度だけでなく)と完全性(たとえば、mysqlダンプの最後に、
-ダンプは2010-04-2223:21:02に完了しました
すべてのrdiffアーカイブは、データがUSBドライブに同期される前に毎日検証され、同期された後に再度検証されます。そのため、夜間の転送が中断された場合でも、USBディスク上に一貫したリポジトリがあります。チェックの結果は、nagiosによってチェックされたコンテンツと鮮度がファイルに記録されます。
uSBディスクは毎週ローテーションされ、万が一の場合に備えてオフラインで保存されます。これは大量のデータにはやり過ぎかもしれませんが、300GBまでのゆっくりと変化するファイル/ダンプには問題なく機能します。
トレンド
単純なカスタム munin プラグインを使用して、各rdiffリポジトリのdiff/dataのサイズをプロットします。
実行にかかる時間はbackupninjaログで確認できますが、今のところ気にしません。
nagiosはトレンド分析を行うことができますが、プラグインにperfdata( http://nagios.sourceforge.net/docs/1_0/perfdata.html )を出力する必要があります。 pnp4nagios http://docs.pnp4nagios.org/pnp-0.4/start を使用すると、すべてがグラフ化されます。
Opsview http://www.opsview.org/ を使用すると、nagiosやpnp4nagiosを構成するよりもはるかに簡単であることがわかりました。特にあなたが仕事で唯一のLinuxに精通した管理者である場合。 Opsviewは、Webブラウザからのほぼすべてのアクションを可能にする優れたwebuiを備えたnagiosです。 nagiosなので、これまで使ってきたnagiosプラグインをすべて使えます。素晴らしいツール。
OpenNMS をお勧めします。このパッケージは完全にオープンソースであり、積極的にサポートされ、定期的に強化されています。参考までに、私は彼らのwiki構成情報で Symantec Backup Execを監視 を見つけました。
彼らのウェブサイトから..
OpenNMSは、オープンソースモデルの下で開発された世界初のエンタープライズグレードのネットワーク管理プラットフォームです。これは、コミュニティがサポートするオープンソースプロジェクトと、商用サービス、トレーニング、およびサポート組織で構成されています。
開示:私はここで商業的関心はありませんが、 OpenNMSグループ の所有者である上記の「商業サービス、トレーニング、サポート組織」は私の友人です。
これはCirconus( http://circonus.com/ )で簡単に行うことができます。 Resmon XML DTDを使用して、このようなメトリックを定期的にインポートします。