ハードウェアコンポーネントをテストして、どれが悪いかを見つけるにはどうすればよいですか？

Question

質問

詳細

私はsambaを使用してファイルサーバーとしてdebianを実行している古いマシンを持っています。先日、ファイルサーバーにログインできませんでした。私がDebianサーバーの画面を見たとき、これは私が見たものです：

enter image description here

ハードウェアエラーと表示されており、CPUが不良のようです。しかし、私は自分が何について話しているのか本当にわからないので、不足して新しいCPUを購入したくありません。

これが私がしたことです：

Memtest86 +を使用して66時間連続でメモリをテストしました。 65回合格し、エラーは0件でした。だから私は悪い記憶は問題外だと思います。ただし、システムに他のエラーが発生した場合に、66時間以内にクラッシュしなかったのはなぜか不思議でした。
Java Taintedなので、Javaの問題だと思いました。Javaを使用しているため、CrashPlan Backupサービスを無効にしました。サーバーは4日間正常に動作しました。（通常、15〜30分ごとにクラッシュしました）クラッシュプランをオフにしていたとき、2台のコンピューターをサーバーに接続し、50 GBのHDビデオを取得してエンコードし、サーバーのハードドライブに戻しました。問題はありませんでした。その後、1日後に再びクラッシュしました。

それが言及されているので、私はそれがCPUの問題であると仮定する必要がありますか？

ハードウェアコンポーネントをテストして、どれが悪いかを見つけるにはどうすればよいですか？

tripledes · Accepted Answer

ハードウェアがHPやDellなどの大手ベンダーのものである場合、それらには、探しているものに固有のツールがある可能性があります。私は以前HPで作業していましたが、HPには、不良ハードウェアを報告するためのツールがすでにあります。

そうでない場合は、（私の経験に基づいて）トリッキーになります。通常の障害点であったメモリのテストをすでに開始しています。

これで、CPUに疑問がある場合は、カーネルやlibreoffice、xorgなどの他の大きなソースのコンパイルなどの集中的なジョブにCPUをさらすことができます...複数のCPUがある場合は、CPUアフィニティを使用できます。

また、エラーメッセージは、「mcelog --ascii」を実行することを提案しています。これを実行して、メッセージを理解してみてください。以下の両方のリンクをお読みください。ハードウェアの問題に役立つことを願っています。

http://mcelog.org/faq.html#5

http://www.gentoo.org/doc/en/articles/hardware-stability-p1.xml

Josh · Answer

特に古いシステムでは、どのマシンでもハードウェアの問題を追跡するのが面倒な場合があります。

MCEまたはマシンチェック例外は、ハードウェアエラーが検出されたときに、CPU自体によって生成される人間が読めないエラーコードです。これには、RAM、プロセッサキャッシュ、またはシステムバス上の任意のデバイスのエラーが含まれる可能性があります。古いプロセッサで問題を見つけることは、通常、試行錯誤によってのみ可能です（または運が良ければテストを記憶してください）。

いくつかの新しいプロセッサはもう少しわかりやすいMCEを提供しますが、あなたのプロセッサはおそらく古いAMDのようです。 Mcelogは、最新のx86プロセッサ用のMCEをデコードできるLinuxデーモンであり、MCEを理解するための唯一の希望となるでしょう。

すでに投入した時間を考慮すると、マザーボード/ CPU /メモリを同じように古くて安価なセットアップに交換するのが最善の策ですが、それでも機能します。 :)