web-dev-qa-db-ja.com

Linuxのハードクラッシュを診断するにはどうすればよいですか?

私は、主にメールおよびWebサーバーとして機能する自家製のLinuxサーバー(Ubuntu 12.04.5 LTS、Intel i5-3570K、8GB RAM)を持っています。コンソールモードでのみ動作します(GUIはありません)。私は時々それにSSHで接続し、コンソールから操作することはほとんどありません。何日も、何週間も正常に動作する傾向がありますが、警告なしに激しくクラッシュすることもあります。そして、私が「激しくクラッシュする」と言うとき、私はPCが突然完全に応答しなくなることを意味します:

  • ログエントリを残しません
  • 「おっと」、カーネルパニックメッセージ、またはコアダンプを出力しません
  • 画面にメッセージは表示されません。
  • キーボードまたはマウスの入力に応答しません(NumLockライトもそのキーに応答しません)
  • SSHではアクセスできません
  • ケースのリセットスイッチは作動しません

唯一の解決策は、ケースの電源ボタンをオフにするまで押し続けてから、再起動することです。

もちろん、これは「ハードウェアの問題」を叫びますが、どのコンポーネントが最も可能性が高いですか? Memtest86 +はエラーを表示しないため、マザーボード、CPU、または電源の3つを残しているように見えます。 (PCはオーバークロックされておらず、センサーの最後のメッセージ(クラッシュ前)は過熱やファンの問題がないことを示しています)

  1. これらのコンポーネントのどれが問題になる可能性が高いかという統計的な可能性はありますか?

  2. 最後の基準は、私には珍しいと思われたので、上に太字で示しました。通常、ハードクラッシュが発生した場合でも、ケースのリセットスイッチを使用してPCを再起動できます。これは、PSUまたはマザーボードに問題があることを示唆していますか? (電源スイッチを4〜5秒押し続けてPCの電源を切りますしますそれでも機能します)

  3. 問題が解決したと確信するまで(数週間クラッシュしなかった後)、新しい部品を一度に1つずつ注文することなく、それらをテストする方法はありますか?

助けてくれる人に感謝します。

6
George Adams

私は誰もの使用を提案していないことに少し驚いています SysRq 魔法の鍵。

まず、電源スイッチの代わりに使用して再起動を強制する必要があります。これにより、プログラムは保存されていないデータをディスクに保存する機会が与えられます。そうしないと、再起動時にかなりの問題が発生する可能性があります(通常のfsckチェックを待たなければならないというクラッシュボアは言うまでもありません)。これは次のように行われます。 Alt そして SysRq 同時に押して、それぞれ数秒間隔で入力し、 reisub (英語で有名なニーモニックは象を育てるのはとても退屈です、私は好きです用事を実行するのはとても退屈です、可能であれば、より良いものを考え出すようにしてください)。

これとは別に、システムがフリーズすると AltSysRqX (Xは文字)を使用すると、いくつかの診断を実行できます。たとえば、X=d現在のすべてのロックを表示します。これは、ソフトウェアの問題の診断に役立つ場合があります。 X=j凍結されたファイルシステムを解凍します。 X=llはエルです)はスタックバックトレースを示します。 X=t現在のタスクのリストをコンソールに出力します。 X=wブロックされたタスクのリストを表示します。

あなたはより多くのコードを見つけることができます ウィキペディアで

これが決定的なステップになるとは言えませんが(これでも失敗する場合があります)、ソフトウェアまたはハードウェアの問題を指摘し、考えられる原因の範囲を制限するのに役立つ調査の次のステップです。

1
MariusMatutiae

1:あなたのUbuntuは安定していますか? Ubuntuの安定版をダウンロードしましたか?そうでない場合は、最新の安定したビルドにダウングレードしてみてください。

2:別の仮想/物理マシンで試しましたか? これは、仮想ボックスのようなVMでテストするスクリプトエラーである可能性が非常に高く、これらの手順をまだ試していなければ、ハードクラッシュを防ぐ可能性が高くなります。 OSをデバッグおよび監視できる環境

3:ラムの失敗? LinuxOSがRAMにロードされ、カーネルに接続できない場合は警告が表示されるため、ローカルSSD/HDD/SSHDである可能性はほとんどありません。クラッシュします。ただし、RAMが 障害/欠陥 であるためにロックアップする場合、オペレーティングシステムが完全にフリーズし、ログがないことを説明する可能性のあるエラーを投稿できません(または認識できません)。それが何か他のものである可能性は非常に高いです

4:フォーラムをご覧ください さて、私は世の中で最も効果的なLinuxユーザーではなく、同様のハードウェアとソフトウェアの問題があったことを本当に知らないことがたくさんありますが、自家醸造サーバーが何をしているのか本当にわかりませんだから、そこにある欠陥を特定するのは難しいですidブラウズ フォーラム

1
Shadowforce62

最善の方法は、ロックアップ時の近くのログを調べて、ロックアップを任意のタイプのシステムイベントと関連付けることができるかどうかを確認することです。それは難しいことであり、この方法で直接的な原因となる可能性のあるものを見つけることができない場合があります。

ハードウェアの問題を診断するためのいくつかのヒント:

排除する最も簡単なことは、ファームウェアの問題/設定です。

  • システムに製造元からの最新のファームウェア/ BIOSアップデートがあることを確認してください。

  • ストレージデバイスも最新のファームウェアに更新されていることを確認してください。

  • ファームウェア/ BIOSのCPUまたはその他の電源管理オプションを無効にしてみてください。

  • ファームウェアを使用しない場合は、ファームウェアの仮想化を無効にしてみてください。

RAMの問題は、メモリテストに表示されなくても、ハードロックアップを引き起こす可能性があります。非常に断続的なものである可能性があります。実際のサーバーにはECC RAM thatまれな/一時的なRAMエラーが問題を引き起こすのを防ぎますが、これが非サーバーPCの場合、これはありません。RAMできる。

壁の電力による電力の問題は、このような問題を引き起こす可能性があります。ホームサーバーの実行を真剣に考えている場合は、一時的な電力の問題も除外するバッテリーバックアップが必要です。

それでも問題が解決しない場合は、電源を交換するか、別の電源を使用してみてください。

その後、マザーボードが不安定であると想定し、交換を検討します。

0
LawrenceC