8GB RAMのSUSEボックスと、O/SおよびH/W関連の問題がなく4年以上スムーズに実行されているReiserfsファイルシステムがあります。データベース駆動型)低から中程度のトラフィックのサイトで、I/O、CPU、およびメモリの使用率が低くなります。
最近、マシンは10日間の間に3回ハングしました。これは不規則な時間に発生しました(たとえば、毎回00:00時ではありません)。 CPU、メモリ、HDは十分に活用されておらず、停止時にこれらも十分に活用されていないため、サイトは責任を負いません。
ボックスがハングするたびに、pingにのみ応答できますが、他のサービス(ssh、wwwなど)は使用できません。次に、ボックスを再起動すると、すべてが通常に戻ります(次の停止まで)。
3つのインシデントすべてで/var/log/boot.msg(おそらく停止前と停止中に発生)で見つけたのは、Filesystem is NOT clean
、次にReplaying journal
で、多くの作業を行っているようですが、 100%になることはありません:
Reiserfs super block in block 16 on 0xfd03 of format 3.6 with standard journal
Blocks (total/free): 786432/540858 by 4096 bytes
Filesystem is NOT clean
Replaying journal: Trans replayed: mountid 39, transid 12424272, desc 7381, len 9, commit 7391, next trans offset 7374
Replaying journal: | | 0.1% 1 trans
Trans replayed: mountid 39, transid 12424273, desc 7392, len 9, commit 7402, next trans offset 7385
Trans replayed: mountid 39, transid 12424274, desc 7403, len 9, commit 7413, next trans offset 7396
Trans replayed: mountid 39, transid 12424275, desc 7414, len 9, commit 7424, next trans offset 7407
Replaying journal: | / 0.5% 4 trans
Trans replayed: mountid 39, transid 12424276, desc 7425, len 8, commit 7434, next trans offset 7417
Trans replayed: mountid 39, transid 12424277, desc 7435, len 9, commit 7445, next trans offset 7428
Trans replayed: mountid 39, transid 12424278, desc 7446, len 9, commit 7456, next trans offset 7439
Replaying journal: | - 1.0% 7 trans
これは、最初のインシデントで33%、3番目のインシデントで58%になりました。
システムの停止はreiserfsに関連している可能性がありますか?
次にどこを見るべきかについてのアイデアはありますか?
どうもありがとう
ハードドライブが不良(またはそれ以上)になっているようです。通常の使用中にディスクに不良セクタが見つかった場合...システムはすぐにデータの回復を試み、ディスクを汚れたものとしてマークします。 4歳か-なので、ディスクに問題がある可能性があります。ほとんどのデスクトップフレーバーのディスクドライブには1年または3年の保証しかありません...そしてサーバーグレードのドライブには通常3〜5年の保証しかありません。また、問題をスキャンしてディスクを更新するというすばらしい仕事をするGRCのスピンライトのようなユーティリティの実行を検討することもできます。 (プラッターへの物理的な損傷の結果ではないすべてのディスクの問題を修正するのに驚くほど優れています)