データベースサーバーが応答しなくなることがあります。完全に更新されたUbuntu14.04LTSを実行します。その上で実行されている注目すべき非バニラソフトウェアは、ニンバス、TSM、およびオラクルです。
これまでのところ、バックアップなどの一連のメンテナンスタスクが実行される夜間は、1日に1回程度応答しなくなります。
応答しなくなった後は、このまま永遠に続くようです。 SSHで接続できず、データベース接続を受け入れません。
奇妙なことに、サーバーはpingに応答します。 telnetを使用してポート22(SSH)またはポート1521(Oracle)を開くと、サーバーから応答が返されます。ポート22には、「これはOpenSSHです」のようなものもあります。しかし、実際にsshクライアントを使用したり、データベース接続を開いたりすると、ハングします。
私はログファイルを調べていましたが、まったく何も見つかりませんでした(dmesg、syslog、auth.logなど)。また、応答がない期間中は、ログファイル内のアクティビティが疑わしいほど少ないようです。サーバーを再起動すると、再び機能します。
私の即時の反応は、apt-getupdateとapt-getdist-upgradeを実行し、ファイル記述子の最大制限に達していることを監視することでした。ただし、Oracleのハード制限はファイルシステムの最大値からはほど遠いため、その場合は奇妙に思えます。他の誰かがこれを引き起こす可能性のあるアイデアを持っていますか?
編集:CPU、メモリ、ディスク容量が100%に達するにはほど遠いことを忘れました。 (それらはすでに監視されており、これが発生した後、開いているファイル記述子の監視も開始しましたが、まだ発生していません)。また、正確な問題を誰かが指摘することは期待していませんが、監視する追加事項についてのアイデアをいただければ幸いです。
すべての変数は非常に正常に見えました。ただし、日付/時刻とファイル記述子を毎分出力するcronジョブを作成したところ、ファイル記述子が通常の値の範囲内であることがわかりました。しかし、午前3時に、サーバーの時計が突然2時間前に戻り(ログファイルからそのことに気付くのにしばらく時間がかかりました)、その後、ログにエラーが発生することなく停止しました。
それはホスティング/ WMWareレベルで問題であることが判明しました(これは私の懸念ではありません)。とりわけ、WMWareホストには完全にオフの時間がありました。インフラストラクチャ会社がWMWareプラットフォームを修正した後、それは再び正常に機能しました。