すべてのLinuxベースのデータセンターで時間ドリフトを検出するための戦略は何ですか?これは、最初に思われるよりも難しい問題です。
時間ドリフトは特定のアプリケーションに深刻な問題を引き起こす可能性があり、多くの場合、NTPがインストールされている場合でも)次の(およびその他の)理由で失敗する可能性があります。
個々のサーバーがすべて正しいかどうかを検出する方法を教えてください。テストスクリプト/アプリケーションを備えたサーバーが正しくない場合があることに注意してください。
これは簡単に制御できます。構成管理が重要です...
Ntpサービスが実行および構成されていることを確認してください...
たとえば、 Monit を使用してntpd
が実行されていることを確認し、失敗した場合は再起動します。簡単なアプローチ...その種のチェックにcronやその他の必須デーモンを追加することは理にかなっています。
別のオプションは、 構成管理Puppet のようなツールを使用して同じntpd.confをサーバーに強制し、ntpdがインストール、構成、実行されていることを確認することです。
NTPプロトコルに十分な冗長性があり、到達できないタイムサーバーのインスタンスを処理します。複数のソースを指定してください。
nagios 用のさまざまなcheck_ntpプラグインがあります。
ここに一つあります:
http://nagiosplugins.org/man/check_ntp
このチェックをnagiosホストに追加し、問題が発生した場合にアラートを取得します。