SMART警告が表示されますが、信頼できません

Question

私は4台のSamsungハードドライブを搭載したサーバーを持っています。すべてのドライブは同じモデルであり、一緒に購入されています。ドライブは、ファームウェア1AA01113を搭載したSAMSUNGHE753LJです。

SMARTエラーが発生しますが、smartctlがハードドライブから取得した値を理解していないように感じます。

SMARTテストの結果は次のとおりです。

 asgard：〜＃smartctl -H /dev/sdb smartctl version 5.38 [i686-pc-linux-gnu] Copyright（C）2002-8 Bruce Allen ホームページはhttp://smartmontools.sourceforge.net/ ===読み取り開始SMARTデータセクション=== SMART全体-ヘルス自己評価テストの結果：FAILED！ 24時間以内にドライブの障害が発生する可能性があります。すべてのデータを保存してください。 3 Spin_Up_Time 0x0007 001 001011事前失敗常にFAILING_NOW60340

私はSMART理由：

すべてのディスクが24時間以内に故障しそうになるのは1年以上前のことです。まだ何も爆発していません。
Wikipedia は、「スピンアップ時間は、スピンドルのスピンアップの平均時間です（ゼロRPMから完全に動作する[ミリ秒]まで）。 "つまり、ドライブがウェイクアップするのに約1分かかるということですか？！

Smartctlのアドバイスに従い、これらのディスクを変更したいのですが、読んだ結果を信用していません。

これについてどう思う？あなたならどうしますか？

ご協力いただきありがとうございます。

Martin B&#248;gelund · Accepted Answer

すべてのドライブは同じモデルであり、一緒に購入されています。

これはカチカチ音をたてる爆弾です。

SMART）からのメッセージと上記の引用の両方に基づいて、ディスクをすぐに交換する必要があります。

ドライブは一緒に購入され、同じモデルであるため、おそらく同じ弱点があり、おそらくすべてが同じ条件下で同時に故障します...

RAIDの主な概念は、ディスクにさまざまな時間に障害が発生することです。これにより、一度に1つのディスクを交換し、データの損失を回避できます。

他の人は、RAID構成内の同一ディスクのアレイ全体が同時に障害を起こし、同じ本番バッチから発生し、同じ弱点にさらされていると報告しています。

私はこれを十分に強調することはできません：あなたはあなたのドライブを交換し始める必要があります！

Andy · Answer

まだ起動できるスペアドライブがありましたが、SMARTはすべての起動をチェックし、ソフトリセットが必要で、何年もかかりましたが、これは単なるダンプであり、システムディスクではありません。したがって、SMARTエラーは長期間続く可能性がありますが、リスクはコスト、時間、およびデータ整合性の利点を大幅に上回るため、本番環境では常に注意する必要があります。 Googleは100,00のディスクを調査し、発見しました：

SMARTデータ（自己監視、分析、およびレポートテクノロジ）は、ドライブに障害が発生するかどうかを判断するのに役立ちます。 SMARTエラーを示したドライブの最大30％が最終的に故障し、「エラーのある」ドライブが稼働している時間が長くなるほど、クラッシュの可能性はますます悪化します。そうは言っても、多くのドライブは、人生のある時点でSMARTエラーを示します。

したがって、それは必ずしも堅牢な指標ではありません。ただし、SMARTエラーは、最初の検出直後にディスクがクラッシュする可能性を大幅に高めます。

100,000台を超えるドライブでのGoogleでの作業では、全体としてS.M.A.R.T.ステータスの全体的な予測値はほとんど示されていませんが、一部のS.M.A.R.T.実装が追跡する情報の特定のサブカテゴリは、実際の故障率と相関していることが示唆されています。、ドライブでの最初のスキャンエラーから60日間で、ドライブは、そのようなエラーが発生しなかった場合よりも平均して39倍故障する可能性があります。

したがって、統計的には、ディスクは60日の制限をはるかに超えているため、おそらく問題ありません。

これらの強い相関関係にもかかわらず、SMARTパラメータのみに基づく障害予測モデルは、障害が発生したドライブの大部分がSMARTエラー信号を示さないことを考えると、予測精度が大幅に制限される可能性が高いことがわかります。何でも

しかし、あなたはリスクを冒し続ける気がありますか？早朝に起きなくても済むように、できるだけ早くディスクを交換します。

David Spillett · Answer

SMART overall-health self-assessment test result: FAILED!

その部分はsmartctlによって解釈されません（もちろん、私が正しく理解していると仮定します）-そのドライブは（何らかの理由で）現在の状態に満足していないことをsmartctlに伝え、smartctlはその警告をあなたにエコーしているだけです。スピンアップ時間の読みを誤解していても、「自己評価テスト」の読みを解釈しているとは思いません。

スピンアップの問題が現実のものであり、悪化する可能性がある場合に備えて、できれば次の電源を入れ直す前に、データをそのドライブからできるだけ早く移動することをお勧めします。

dyasny · Answer

ディスクでDSTを実行し、それに応じて交換します。

Fran&#231;ois Feugeas · Answer

あまり考えずにすぐにディスクを交換します。あなたは安全な側にいるでしょう、ディスクは汚れが安いです、そしてあなたはよりよく眠ります。ディスクの診断に費やした時間は、おそらくディスク自体よりも価値があります。

jeffatrackaid · Answer

OSに含まれているものだけでなく、スマートユーティリティの最新のコピーがあることを確認してください。スマートユーティリティは頻繁に更新され、特定のドライブから報告されるエラーの一部は解決されます。

Googleの調査は非常に有益でした。 SMARTエラーのあるディスクの30％は最終的に失敗します。これは、私が対処する確率ではありません。2つのディスクが失敗し、その時点でRAIDが破壊される可能性は9％です。

数年前、いくつかのSeagateドライブで同様の問題が発生しました。同時に約8枚のディスクを購入しましたが、それらはすべて同じロットのものでした。約3年で、1台のドライブが行きました。 18時間後に別のドライブが実行され、24時間後に3番目のドライブが実行されました。