Smartctlの使用でディスクに問題があるかどうかをどのように判断しますか?
ソフトウェアRAID1を使用しているUbuntu12.04サーバーがありますが、完全に応答しなくなりました。再起動すると、「/ tmpの準備ができていないか、存在しません」というメッセージが表示されて起動時にハングしたため、スキップして手動リカバリ端末を起動しました。 RAIDの再同期がひどく遅いことを除いて、すべてが正常に見えました。ただし、cat /proc/mdstat
は実際のRAID障害を示していません。
私は/proc/sys/dev/raid/speed_limit_min
を指示に従って上げました here が、それはあまり役に立ちませんでした。私の1TBアレイは30分間再同期していますが、0.3%しか完了していません。
そこで、smartmontools
をインストールし、以下を使用してディスクをチェックしました。
Sudo smartctl --all /dev/sda
Sudo smartctl --all /dev/sdb
どちらも「PASSED」ヘルスを報告しますが、sdbは次のようないくつかの行も表示しています。
Error 83 occurred at disk power-on lifetime: 15147 hours
Error 82 occurred at disk power-on lifetime: 15147 hours
Error 81 occurred at disk power-on lifetime: 15147 hours
Error 80 occurred at disk power-on lifetime: 15147 hours
それぞれにある種の16進ダンプとともに。
これは何を意味するのでしょうか?これらのエラーを、sdbディスクが停止していることを意味すると解釈する必要がありますか?これを確認するにはどうすればよいですか?
編集:また、クラッシュ以来、サーバーにSSHで接続できなくなりました。物理的な端末からでも問題なくアクセスでき、過度の負荷もないようです。ファイアウォールが無効になっていることを確認しましたが、サーバーにpingを実行できますが、ssh myuser@myserver
の結果は「接続がタイムアウトしました」になります。
バックアップについて-SMARTエラーまたは警告を待つのは遅すぎてバックアップを実行できません。ベストプラクティスには、テスト済みのバックアップ計画に加えて、予想されるハードウェア障害を処理するためのストレージサブシステムの十分な冗長性が含まれます。
ディスクの1つがRAIDから落ちた場合は、理由が考えられます。故障したディスク(sdbのような音)を交換し、代わりにそれに再構築します。スマートデータに移ります。
スマートデータ構造のsmartctl -a
出力には大きなセクションがあります。これは、特定のテストの現在のしきい値を示す単語と数字の大きなマトリックスです。あなたが気をつけたい大きなもののいくつかは次のとおりです。
これらはすべて、ディスクの表面の問題に関連しています(スピンドルモーターに関連するid 10を除く)。ディスクの表面は、ドライブ内のすべてのもので故障する可能性が最も高いです。これらのいずれかが異常に高い(数百または数千)場合、大きな問題があることは確かです。
下部のレジスタは次のようになります。
ER ST SC SN CL CH DH ---- --- ------ 40 51 00 ff ff ff 0fエラー:LBAでのUNC = 0x0fffffff = 268435455
この場合、ディスクにUNCエラー(修正不可能な読み取り/書き込みエラー)がありました。
私の意見は、あなたがこのようなものを見たら:
エラー518は、ディスクの電源投入時の有効期間で発生しました:16859時間
...都合のよいときにディスクを交換する必要があります。
SSHの問題はディスクに関連している可能性があります(破損した部分がSSHバイナリの下にある可能性があります)が、これは別の方法で調査する必要がある可能性があります。
SMART属性テーブルの属性の多くは、ドライブの障害の有用なインジケータです。'smartctl-data -A/dev/sdb 'の出力で投稿を更新できますか?属性テーブルはドライブに依存するため、「Reallocated_Sector_Ct」、「Offline_Uncorrectable」などのかなり一般的なものを除いて、関連するものをリストすることはできません。 [〜#〜] smart [〜# 〜] には、ほとんどの属性の説明が含まれています。
SMART quadruplebuckyも役立つことをセルフテストしますが、これらの属性カウンターは、ドライブに障害が発生したかどうかをすぐに知らせます。ドライブが全体的なSMART =健康上の警告ですが、明らかに途中です