web-dev-qa-db-ja.com

HDD SMARTデータの信頼性はどのくらいですか?

[〜#〜] smart [〜#〜] データに基づいて、ディスクの正常性を判断できます。たとえば、Sudo smartctl -H /dev/sda私のArchLinuxラップトップでは、ハードドライブがセルフテストに合格し、これに基づいて「正常」である必要があると表示されています。

私の質問は、この情報がどの程度信頼できるか、より具体的には次のとおりです。

  • SMARTデータによると、このディスクは正常である場合、ディスクが突然失敗する確率はにもかかわらずこれは何ですか?これは、障害がラップトップが床に落ちてドライブヘッドがディスクに当たるなど、予想外の予期せぬ事態が発生したためです。
  • SMARTデータがしないとディスクが良好な状態であると言う場合、一定の時間内にディスクが故障する確率はどれくらいですか?誤検知が発生する可能性はありますか?

もちろん、何があってもバックアップを保持します。私はたいてい興味があります。

8
andahlst

私の経験では(サーバーを操作して20年、扱ったすべてのサーバーで約5.000のディスクを処理した必要があります)SMARTは便利ですが、万能薬ではありません。

SMARTエラーが発生した場合は、できるだけ早くディスクを交換してください。4〜8週間でディスクに重大な問題が発生する可能性が非常に高くなります。この点に関して頻繁に言及されているGoogleの調査は、個人的体験。)
通常、ディスクに問題が発生するまでには1〜2週間かかります。

SMARTエラーがまったく表示されない場合でも、サーバーでは非常にまれですが、ディスクは何の警告もなく失敗する可能性があります。年に3〜4件のケースが発生する可能性があります。 SMARTエラーが原因で毎月約25回のエラーが発生したため、ドライブを交換します。
これは、サーバーディスクが通常RAIDアレイの一部であり、ディスク全体で連続した読み取り/書き込みパターンを確認する必要がある場合があります。これにより、ディスクのすべての部分が定期的に "実行"(およびチェック)されます。
サーバーが数か月/数年間連続して実行された後、しばらくの間サーバーの電源が切られた場合、ディスクが故障する最大の可能性は(以前の警告なしで)起動時です。

消費者向け機器(非サーバー、ラップトップ/デスクトップドライブ)で、Windowsがそれらのエラーをログに記録したにもかかわらず、SMART data)と表示されなかった読み取りエラーのあるディスクをたくさん見ましたイベントログ(SMARTはWindowsから完全なchkdskを実行した後にのみログを記録しました)。
これにより、多くの一般ユーザー向けドライブではSMART=しきい値がかなり低いと考えられます。これは、このカットでRMA番号を低く保つための(大きなIF)意図的なものである可能性があります喉のビジネス。
多くの消費者は、手遅れになるまで、とにかく時折発生する不良ブロックに気付かないでしょう。 (イベントログの場所を知っているコンシューマの数は?Windowsでディスクエラーを確認できるのはこの場所だけです。)
私の経験では、コンシューマディスクに問題がある場合(SMARTまたはその他)、そのデータをコピーし、すぐに交換します。それがそれらのエラーを与える時までに、それはすでに死んでいます。

10
Tonny

それはかなり信頼できますが、ドライブが持つことができる障害モードのタイプのすべてはカバーしていません。

何らかの形のRAIDを使用すると、より多くのシナリオでユーザーを保護するのに役立ちます。

私のサーバー全体で、ディスク障害の20%だけがS.M.A.R.T.データの結果であると言います。

HPサーバーがこの情報を提示する方法により、ディスクの正常性と障害のステータスを判断するために使用されるさまざまなメトリックがあるように見えます。

enter image description here

2
ewwhite

http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en//archiveから入手できる、Googleで使用されているHDDで行われた調査に関する記事があります/disk_failures.pdf これは本質的にそれを結論付けます

私たちの結果は、一部のSMARTパラメータがより高い障害の可能性とよく相関していることを示唆する以前の小規模な集団調査の結果を確認します。たとえば、最初のスキャンエラーの後で、は、そのようなエラーのないドライブよりも60日以内に39倍の確率で故障する可能性があります。再割り当て、通常の再割り当て、および比例カウントの最初のエラーは、高い故障確率と強く相関します。これらの強い相関にもかかわらず、故障予測モデルは、 SMARTパラメータだけでは、故障したドライブの大部分でSMARTエラー信号がまったく表示されないため、予測精度が大幅に制限される可能性があります。

SMARTデータは有用であるが、ドライブ障害の予測には限界があると結論付けている他の研究も行われています。

私の個人的な経験では、全体的なスマートステータスは、ドライブに不良のフラグを付ける前に、非常に多くのエラーを待ちます。個々のパラメーターは有用であり、いくつかは最初のエラーでの内在的な障害の悲惨な警告ですが、それらのすべてがドライブが不良またはすぐに不良になるという決定的な証拠ではありません。 http://en.wikipedia.org/wiki/S.M.A.R.T をお読みください。最も一般的な属性の説明については、.

全体的なSMART=ステータスが悪い場合、ディスクは間違いなく悪いです。

冗長ディスクを備えたRAIDで、2つの整合性チェックと修正を続けて実行し、2回目のパスでエラーが見つかった場合、そのHDDはもう使用せず、保証交換を試みます。私の推論では、1回目のパスで不整合が検出されて修正され、2回目のパスで問題がなくなるはずです。そうでない場合、HDDは数時間でもデータを保存できないことを意味します。

1
BeowulfNode42

監視SMART情報は、ディスクが「劣化」しているかどうかを確認するための良い方法ですが、ディスクが正常であることを確認するためには使用しません(レポートの詳細を表示します)。 SMARTは、過去にディスクに問題があった場合にのみ通知します。これは、ディスクが故障するかどうかを判断し、ディスクを交換できるようにするのに役立ちます。しきい値に達した場合。ディスクはその場で致命的な機械的障害を起こす可能性があり、以前の問題はありません。SMARTテストで問題が示されなかった(またはマークされた)したがって、問題が発生する前にプリエンプティブディスクスワップを行うために、ディスクの履歴への洞察としてSMARTテストを常に使用します。ディスクは良いです。

また、SMARTテストがどの程度「信頼できる」かを尋ねます:全体的なヘルススコアを使用すると、平均値が得られます。これは、テストと実行する必要のあるアクションを自分で決定します。たとえば、多くのディスクで正常なSMARTテストが返されましたが、さらに調べると、=に過度の熱トリガーがあったことがわかりますSMARTテスト、不良としてマークするのに十分ではありませんが、次のことを伝えるのに十分な情報:a)ディスクが過去に熱くなっているb)ディスクがまだ同じシステムにある場合、おそらく私はそれについて何かする必要があります。

重要なのは、「信頼できる」情報を提供するために自動化された平均化されたレポートに依存しているときはいつでも、悪い情報を入手する可能性を切り開いていることです。

0
Atari911