web-dev-qa-db-ja.com

Debian Linuxサーバーがロックされています-ログに手がかりはありませんか?

今朝、サーバーをロックしました。コンソールからのスクリーンショットは次のとおりです。

enter image description here

スクリーンショットからのメッセージはどれも私には何の意味もありません。おそらく重要なものがコンソールからスクロールアウトしたような気がします。クラッシュ時にsyslog、メッセージ、dmesg、デバッグログ、またはログに記録されたものに、上記のスクリーンキャプチャからのメッセージがまったく見つかりません。このようなものはログに記録されるべきではありませんか?

これはProxmoxを実行しているDebianボックスです。 uname出力:

2.6.32-4-pve#1 SMP Mon May 9 12:59:57 CEST 2011 x86_64 GNU/Linux

サーバーは約1年間オンラインであり、他のクラッシュは発生せず、正常に再起動しました。

今後再発を防ぐために、何が問題だったのかを把握したいと思います。しかし、これまでの証拠から、これがハードウェアの問題なのかソフトウェアの問題なのかさえわかりません。アイデア?

3
Curtis

正確にどのDebianカーネルリリースを実行していますか? 「dpkg-l | grep linux-image」を実行すると、完全なバージョン番号とリビジョン番号を確認できます。

かなり 一般的なバグ に何度もストライキが発生しているようです:3.2メインラインより前、 2.6.32.50安定版 より前、Debianの-より前のカーネル 2.6.32-45 (2.6.32.50安定版に基づく)、約208日の稼働時間の後に発生するクロックオーバーフローがあり、これによりポテンシャルクラッシュの。その後、何がクラッシュを引き起こす可能性があるのか​​正確にはわかりません。パッチ自体は かなりあいまいです あまりにも:

Although we may still have enough bits to store the value of ns,
in some cases, we may not have enough bits to store cycles * cyc2ns_scale,
leading to an incorrect result.

この問題が原因で原因が特定され、パッチが展開される前に、この問題が原因で100件以上のクラッシュが発生しました。

バグは 詳細に説明 2011年末のlkmlにありました。 このゼロ除算バグ へのリンクの可能性がありますが、結論は見つかりませんでした。 。

TL; DR:おそらく修正は、Debianのlinux-imageバージョン2.6.32-45以降にアップグレードすることです。

5
svenx

これはカーネルパニックのスクリーンショットです。トレースバックは裏返しに出力されるため、最終的にカーネルを強制終了した関数は画面の上部に表示されませんが、上部から開始すると、divide_error()hpet_msi_next_event()divide_error()が呼び出されます。はカーネルで FPE_INTDIV のトラップとして定義されているため、hpet_msi_next_event()の何かがゼロ除算を試みました。

残念ながら、その原因は、ハードウェア、ソフトウェア、または一時的なビットフリップエラーのいずれかである可能性があります。 (ECC RAMを使用していますか?)

3
DerfK