(元々 serverfault )に投稿されました
それで、原因が何であるかを推測するのではなく(私のお金はnvidiaドライバーにあります)、いくつかの事実を突き止めるためにどこから始めますか?
私は何度か/ var/logを使用しましたが、そこにはたくさんのものがあり、重要なビットを(まだ)見つけることができません。
背景:ショートバージョン
WinXPからUbuntu Karmicが利用可能になった直後に移動しました。
それ以来、私は一連のらしいランダムクラッシュのいずれかとして現れました:
私はたくさんの検索を行いましたが、Nvidiaが最も疑わしい容疑者のようですが、私は本当の原因が何であるかを解明するためにどこから始めればよいのか分かりません。
ServerfaultユーザーがRAMをMemtextX86 +で確認しました。エラーは見つかりませんでした。ビデオカードの温度を監視することも提案されています。
ほかに、誰か提案はありますか?
背景:長いバージョン
時々、私はクラッシュすることなく1週間丸ごと行くことができ、その後2日のうち5日を過ごすことができます。
可能性のある容疑者を排除したいという欲求に動機付けられ、私は時間をかけていくつかの変更を加えましたが、役に立ちませんでした:
その時点で何が実行されているかという点では、これは異なる場合があります。以下は一般的ですが、すべてのクラッシュで必ずしも実行されるとは限りません。
私のハードウェアは2〜3年前のものです。
システムアップデートを常に最新の状態に保っています。
うまくいけば、上記のデータが、調査する価値がある特定のタイプのログまたは構成を提案するように誰かに促すかもしれません。
更新1
ちょうどスピーカーが狂ったクラッシュがありました。いくつかグーグルしました、そしてPulseAudioは過去にいくつかの問題があったようです。これが適切かどうかはまだわかりませんが、クラッシュが発生するたびにPulseAudioが実行されていました。
更新2
@CarlFのDebian Sysadmin Guideへのリンクをたどると、魔法のsysrqキーにたどり着き、次のクラッシュ時に試してみることにします。これが原因について多くの手掛かりを与えるわけではありませんが、少なくともうまくいけば正常にシャットダウンできると思います。
更新3
lm-sensorsは、私のGPUがほぼ70C/158Fで実行されていると報告しています-興味深いです。推測しなければならないのであれば、これは重要な手がかりだと思います。
更新4
私の最後のアップデートの直後にエアダスターでシステムの内部を叩いてください-最終結果:それ以来クラッシュは1回だけです。これを熱の問題と呼びます。
こちらのDebian管理者ガイドからの良いアドバイスがあります: http://www.debian-administration.org/articles/492
起動中にハードウェアの問題があるかどうかを最初に確認したい場合があります。起動プロセスは、カーネルリングバッファから/var/log/boot.log
にデータを記録します。システムが起動すると、新しいメッセージがこのバッファーにフラッシュされ、dmesg
コマンドで現在の状態を確認できます。また、調査したい重要なログは/var/log/messages
です。これには、タイムスタンプ、ファシリティ、エラーの優先順位、およびそれらを生成したアプリケーションが含まれます。エラーをデバッグする場合、タイムスタンプを利用できることは貴重な資産です。
ランダムなロックアップは確かに関連するハードウェアに聞こえます。マザーボード上のすべてのハードウェアを取り付け直して、 memtest86 + を実行してみてください。
メモリ、プロセッサ、その他のチップを取り付け直してみましたか?また、別のOS(FreeDOS)を実行して、いくつかの可能性を排除することもできます。
ヒントとして、nvidiaドライバーを使用しなくても、Gnomeを介して2つのモニターを非常にうまく使用できるはずです。