web-dev-qa-db-ja.com

NTPDの問題-同期してからゆっくりと地面を失う

RHEL5ワークステーション。何年も順調に稼働しています。私は最近「子犬」をし、続いてニースのクレンジングリブートを行いました。その後、システムにいくつかの起動の問題が発生しました。つまり、MySQLが起動を拒否しました。別のブートを実行してそのステップをスキップする前に、5〜10分間「....」になりました(「インタラクティブ」を使用)。これは、正常に起動しなかった唯一のサービスでした。

システムが起動したので、NTPマスターとの同期を維持したくないことがわかり、48時間後にroot以外のSSHを拒否しています。

NTPD:このサービスは正常に開始され、4台のサーバーでロックされます。ほぼすぐに地面を失い始め、今(3日後)はほぼ40時間遅れています。サービスを停止/開始すると、サービスはロックを取得し、システムクロックをリセットして、再び地面を失い始めます。 'hwclock'は適切に設定され、その時間を維持します。

ログイン:ntpサーバーを(再)起動すると、通常どおりログインできます。この問題は、LDAPとの同期が失われたことが原因だと思います。これは、/ var/log/messagesのLDAPエラーによって確認されているようです。

どこを見るべきかについての提案?

補遺:「ドリフト」ファイルを削除しようとしました。少しすると、0.000で再作成されます。

/ var/log/messagesから:

Jan 17 06:54:01 aeolus ntpdate[5084]: step time server 129.95.96.10 offset 30.139216 sec
Jan 17 06:54:01 aeolus ntpd[5086]: ntpd [email protected] Tue Oct 25 12:54:17 UTC 2011 (1)
Jan 17 06:54:01 aeolus ntpd[5087]: precision = 1.000 usec
Jan 17 06:54:01 aeolus ntpd[5087]: Listening on interface wildcard, 0.0.0.0#123 Disabled
Jan 17 06:54:01 aeolus ntpd[5087]: Listening on interface wildcard, ::#123 Disabled
Jan 17 06:54:01 aeolus ntpd[5087]: Listening on interface lo, ::1#123 Enabled
Jan 17 06:54:01 aeolus ntpd[5087]: Listening on interface eth0, fe80::213:72ff:fe20:4080#123 Enabled
Jan 17 06:54:01 aeolus ntpd[5087]: Listening on interface lo, 127.0.0.1#123 Enabled
Jan 17 06:54:01 aeolus ntpd[5087]: Listening on interface eth0, 10.127.24.81#123 Enabled
Jan 17 06:54:01 aeolus ntpd[5087]: kernel time sync status 0040
Jan 17 06:54:02 aeolus ntpd[5087]: frequency initialized 0.000 PPM from /var/lib/ntp/drift
Jan 17 06:54:02 aeolus ntpd[5087]: system event 'event_restart' (0x01) status 'sync_alarm, sync_unspec, 1 event, event_unspec' (0xc010)

30秒のオフセットが表示されます。これは約1分の操作の後だった。

2
ethrbunny

ドリフトファイルを削除し、NTPデーモンを停止してから、サービスを開始する前にntpdateを実行することをお勧めします。ハードウェアクロックに問題があることを理解しています。

2
Peter

ご存知かもしれませんが、ntpdは、内部ハードウェアクロックのドリフトを測定し、それに応じてシステムのクロックを調整しようとします(サーバーに接続できない場合、および過度の同期を防ぐため)。ドリフトの値はファイルに保存されます。通常/etc/ntp/drift(ディストリビューションによって異なります)。どういうわけか間違った値がそこに記載されているようです。または、その他の変更されたパラメータ(消費電力など)がハードウェアの特性に影響を与え、この保存されたドリフト値が正しくなくなる可能性があります。

デーモンを停止し、ファイルの名前を変更/削除して(または単に空にして)、デーモンを再起動します。今後数日間のドリフトをゼロから測定し、それに応じて行動します。

LDAPとSSH(他のログインサービスの中でも)は、関連するシステムのシステムクロックの不一致があまりないことに依存しているため、40時間離れていると、すべてが混乱するのは当然のことです。 :)

1
Roman