LInux：「ランダムな」ハングと自発的な再起動の原因を診断/分離するにはどうすればよいですか？

Question

（元々 serverfault ）に投稿されました

それで、原因が何であるかを推測するのではなく（私のお金はnvidiaドライバーにあります）、いくつかの事実を突き止めるためにどこから始めますか？

私は何度か/ var/logを使用しましたが、そこにはたくさんのものがあり、重要なビットを（まだ）見つけることができません。

背景：ショートバージョン

WinXPからUbuntu Karmicが利用可能になった直後に移動しました。

それ以来、私は一連のらしいランダムクラッシュのいずれかとして現れました：

自発的な再起動
uSBキーボードとマウスが反応しなくなって完全にロックアップしました（LEDがすべてオフになるまで）。また、これが発生すると、通常はボックスにSSH接続できなくなります。

私はたくさんの検索を行いましたが、Nvidiaが最も疑わしい容疑者のようですが、私は本当の原因が何であるかを解明するためにどこから始めればよいのか分かりません。

ServerfaultユーザーがRAMをMemtextX86 +で確認しました。エラーは見つかりませんでした。ビデオカードの温度を監視することも提案されています。

ほかに、誰か提案はありますか？

背景：長いバージョン

時々、私はクラッシュすることなく1週間丸ごと行くことができ、その後2日のうち5日を過ごすことができます。

可能性のある容疑者を排除したいという欲求に動機付けられ、私は時間をかけていくつかの変更を加えましたが、役に立ちませんでした：

元々は仮想化にKVM=を使用していましたが、現在はVirtualBox OSEを使用しています
カーネルでNFSを実行していましたが、現在Sambaを使用しています
私はCompizを使用していましたが、その後オフにしました
私は64ビットKarmicから32ビットにロールバックしました（他の理由でも）
私はUbuntu、Kubuntu、Xubuntuを試しました。毎回同じ問題（最近ではXFCEよりもGnomeの方が頻繁に発生するようです）。
Nvidiaドライバーをバージョン185からバージョン96にロールバックしました（NVIDIA Linux x86カーネルモジュール96.43.13 Thu Jun 25 18:42:21 PDT 2009）。これはエラーの頻度を減らしたようです。

その時点で何が実行されているかという点では、これは異なる場合があります。以下は一般的ですが、すべてのクラッシュで必ずしも実行されるとは限りません。

Firefox 3.5
Windowsが1つまたは2つのVirtualBox OSE XP VM
スカイプ
RhythmboxまたはExaile

私のハードウェアは2〜3年前のものです。

Core 2 Duo 6300
4GB RAM
そのヴィンテージのIntelマザーボードの品種
nvdia GeForce 7300 GSチップセットを備えたAsusデュアルヘッドビデオカード
2 x SATA HDD
デュアルモニター（したがって、私は独自のnvidiaドライバーに依存しています）

システムアップデートを常に最新の状態に保っています。

うまくいけば、上記のデータが、調査する価値がある特定のタイプのログまたは構成を提案するように誰かに促すかもしれません。

更新1

ちょうどスピーカーが狂ったクラッシュがありました。いくつかグーグルしました、そしてPulseAudioは過去にいくつかの問題があったようです。これが適切かどうかはまだわかりませんが、クラッシュが発生するたびにPulseAudioが実行されていました。

更新2

@CarlFのDebian Sysadmin Guideへのリンクをたどると、魔法のsysrqキーにたどり着き、次のクラッシュ時に試してみることにします。これが原因について多くの手掛かりを与えるわけではありませんが、少なくともうまくいけば正常にシャットダウンできると思います。

更新3

lm-sensorsは、私のGPUがほぼ70C/158Fで実行されていると報告しています-興味深いです。推測しなければならないのであれば、これは重要な手がかりだと思います。

更新4

私の最後のアップデートの直後にエアダスターでシステムの内部を叩いてください-最終結果：それ以来クラッシュは1回だけです。これを熱の問題と呼びます。

CarlF · Accepted Answer

こちらのDebian管理者ガイドからの良いアドバイスがあります： http://www.debian-administration.org/articles/492

John T · Answer

起動中にハードウェアの問題があるかどうかを最初に確認したい場合があります。起動プロセスは、カーネルリングバッファから/var/log/boot.logにデータを記録します。システムが起動すると、新しいメッセージがこのバッファーにフラッシュされ、dmesgコマンドで現在の状態を確認できます。また、調査したい重要なログは/var/log/messagesです。これには、タイムスタンプ、ファシリティ、エラーの優先順位、およびそれらを生成したアプリケーションが含まれます。エラーをデバッグする場合、タイムスタンプを利用できることは貴重な資産です。

ランダムなロックアップは確かに関連するハードウェアに聞こえます。マザーボード上のすべてのハードウェアを取り付け直して、 memtest86 + を実行してみてください。

Nerdfest · Answer

メモリ、プロセッサ、その他のチップを取り付け直してみましたか？また、別のOS（FreeDOS）を実行して、いくつかの可能性を排除することもできます。

ヒントとして、nvidiaドライバーを使用しなくても、Gnomeを介して2つのモニターを非常にうまく使用できるはずです。