異なるメーカーが異なるS.M.A.R.T値を持っているのはなぜですか？

Question

まず第一に、私は誰もがハードドライブがメーカーが望んでいるよりもはるかに故障することを知っていると思います認める。 Googleは study を実行しました。これは、ハードドライブのS.M.A.R.Tステータスが報告する特定の未加工データ属性が、ドライブの将来の障害と強い相関関係を持つ可能性があることを示しています。

たとえば、最初のスキャンエラー後、ドライブは60日以内に、そのようなエラーのないドライブより39倍多く故障する可能性が高いことがわかりました。再割り当て、オフライン再割り当て、および試用カウントの最初のエラーも、より高い障害確率と強く相関しています。これらの強い相関関係にもかかわらず、SMARTパラメータのみに基づく障害予測モデルは、故障したドライブの大部分がSMARTエラー信号を示さなかったことを考えると、予測精度が大幅に制限される可能性が高いことがわかりますなんでも。

Seagateは、ドライブに関するこの情報を曖昧にしようとしているようですクレームソフトウェアだけがドライブの正確なステータスを正確に判断でき、ソフトウェアは、 SMART属性。 Western Digitalは私の知識にそのような主張をしていませんが、彼らのステータス報告ツールは生データ値も報告しないようです。

各属性の生データ値を収集するために、smartmontoolsのHDtuneとsmartctlを使用しています。私は確かにそれを見つけました...特定の属性に関しては、リンゴをオレンジと比較しています。たとえば、ほとんどのSeagateドライブは何百万もの読み取りエラーがあると報告しますが、Western Digitalの99％は読み取りエラーに対して0を示します。また、Seagateは何百万ものシークエラーを報告しますが、Western Digitalは常に0を報告するようです。

[〜＃〜] q [〜＃〜]：このデータを正規化するにはどうすればよいですか？ Seagateは何百万ものエラーを生成していますが、Western Digitalは何も生成していませんか？ウィキペディアの S.M.A.R.T ステータスに関する記事では、メーカーがこのデータを報告する方法はさまざまであると述べています。

ここに私の仮説があります：

データを正規化する方法を見つけたと思います（これは正しい用語ですか？）。

Seagateドライブには、Western Digitalドライブにはない追加の属性があります（ハードウェアECC回復）。 ECC回復カウントから読み取りエラー数を差し引くと、おそらく0になります。これは、Western Digitalが報告する「読み取りエラー」数と同等のようです。つまり、Western Digitalは、修正できない読み取りエラーのみを報告し、Seagateはすべての読み取りエラーをカウントし、修正できたエラーの数を通知します。

読み込みエラー数がECC回復数より少ないSeagateドライブを使用していて、ファイルの多くが破損していることに気付きました。これが私が私の仮説を思いついた方法です。 Seagateが生成する何百万ものシークエラーは、依然として私には謎です。

追加情報がある場合は、私の仮説を確認または修正してください。

これが私の西側のデジタルドライブのスマートステータスです。これで、私が話していることがわかります。

james@ubuntu:~$ Sudo smartctl -a /dev/sda smartctl version 5.38 [x86_64-unknown-linux-gnu] Copyright (C) 2002-8 Bruce Allen Home page is http://smartmontools.sourceforge.net/ === START OF INFORMATION SECTION === Device Model: WDC WD1001FALS-00E3A0 Serial Number: WD-WCATR0258512 Firmware Version: 05.01D05 User Capacity: 1,000,204,886,016 bytes Device is: Not in smartctl database [for details use: -P showall] ATA Version is: 8 ATA Standard is: Exact ATA specification draft version not indicated Local Time is: Thu Jun 10 19:52:28 2010 PDT SMART support is: Available - device has SMART capability. SMART support is: Enabled === START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED SMART Attributes Data Structure revision number: 16 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0 3 Spin_Up_Time 0x0027 179 175 021 Pre-fail Always - 4033 4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 270 5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0 7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0 9 Power_On_Hours 0x0032 098 098 000 Old_age Always - 1468 10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0 11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 262 192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 46 193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 223 194 Temperature_Celsius 0x0022 105 102 000 Old_age Always - 42 196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0 197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0 200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0

編集：データ破損を引き起こしていたと私が話していたSeagateドライブは次のとおりです。このデータはHDTuneからのものです。

HD Tune: ST3250623A Health ID Current Worst ThresholdData Status (01) Raw Read Error Rate 45 38 6 77882492 Ok (03) Spin Up Time 99 98 0 0 Ok (04) Start/Stop Count 100 100 20 640 Ok (05) Reallocated Sector Count 100 100 36 0 Ok (07) Seek Error Rate 85 60 30 359872048 Ok (09) Power On Hours Count 94 94 0 6028 Ok (0A) Spin Retry Count 100 100 97 0 Ok (0C) Power Cycle Count 100 100 20 689 Ok (C2) Temperature 25 55 0 25 Ok (C3) Hardware ECC Recovered 50 47 0 201555081 Ok (C5) Current Pending Sector 100 100 0 0 Ok (C6) Offline Uncorrectable 100 100 0 0 Ok (C7) Ultra DMA CRC Error Count 200 199 0 1 Ok (C8) Write Error Rate 100 253 0 0 Ok (CA) TA Counter Increased 100 253 0 0 Ok Power On Time : 6028 Health Status : Ok

回復したハードウェアECCがRaw Read Error Rateよりも大きいという事実は、私の考えでは直観に反しています。

これは私が「通常の」シーゲイトドライブであることがわかったもので、リカバリされたECCがRaw Read Error Rateと一致します。

HD Tune: ST380011A Health ID Current Worst ThresholdData Status (01) Raw Read Error Rate 62 46 6 79986164 Ok (03) Spin Up Time 98 98 0 0 Ok (04) Start/Stop Count 100 100 20 6 Ok (05) Reallocated Sector Count 100 100 36 0 Ok (07) Seek Error Rate 83 60 30 210309663 Ok (09) Power On Hours Count 93 93 0 6516 Ok (0A) Spin Retry Count 100 100 97 0 Ok (0C) Power Cycle Count 99 99 20 1325 Ok (C2) Temperature 25 52 0 25 Ok (C3) Hardware ECC Recovered 62 46 0 79986164 Ok (C5) Current Pending Sector 100 100 0 0 Ok (C6) Offline Uncorrectable 100 100 0 0 Ok (C7) Ultra DMA CRC Error Count 200 188 0 18 Ok (C8) Write Error Rate 100 253 0 0 Ok (CA) TA Counter Increased 100 253 0 0 Ok Power On Time : 6516 Health Status : Ok

編集：

Googleは一般的にS.M.A.R.Tは役に立たないと見なしていることを知っていることを明確にしたいと思います。誰もが自分のデータをバックアップする必要があることを知っています。しかし、私は他の人々のコンピューターを修理する仕事をしています。ほとんどの人はバックアップやRAIDを持っていません。企業がハードドライブのトラブルシューティングを行うことは費用効果が高くないため、死ぬまでRAIDで実行するだけです。私の仕事では、ハードドライブのSMARTステータスを確認すると便利です。 30秒くらいかかります。悪いドライブがスキャンエラーや再割り当てされたセクターなどの障害のヒントを表示できるほど幸運である場合、ドライブをそこから完全に取り除くことができます。そのようなヒントがない場合、ハードドライブが不良であることが最終的にわかるまで、速度とデータ破損のトラブルシューティングに何時間も費やすことになります。

私はこのプロセスを微調整しようとしています。

Jeff Atwood · Accepted Answer

ご覧のとおり、メーカーによってはSMARTの値が根本的に異なるものに使用されているようです here ：

ReadyNASのハードディスクで高いレポートが表示されますSMART Raw読み取りエラー率、シークエラー率、ハードウェアECCが回復しました。どうすればよいですか？

SeagateはこれらのSMARTフィールドを内部カウントに使用するため、これはSeagateディスクの既知の問題です。他のフィールド、特に再割り当てセクターカウントとATAエラーカウントで異常カウントを探します。

それであなたの実際の質問になると...

悪いドライブがスキャンエラーや再割り当てされたセクターなどの障害のヒントを表示できるほど幸運である場合、ドライブをそこから完全に取り除くことができます。そのようなヒントがない場合、ハードドライブが不良であることが最終的にわかるまで、速度とデータ破損のトラブルシューティングに何時間も費やすことになります。

経験則としては、SMARTの設定は、同じドライブの製造元、およびおそらく同じドライブのモデルでさえも同等であると期待できるだけです！）

したがって、これらのSMART=カウントの診断を検討しているときに注意してください...あるメーカーの「読み取りエラーの再試行回数」は、別のメーカーのそれとはまったく異なる何かを意味する場合があります。悲しいが本当です。：（

sml · Answer

さて、まず第一に私はあなたの前提に同意しません。

Googleは、ハードドライブのS.M.A.R.Tステータスが報告する特定の未加工データ属性が、ドライブの将来の障害と強い相関がある可能性があることを示す調査を行いました。

実際、彼らは反対を見つけました：

...故障したドライブの大部分がSMARTを示さなかった場合、SMARTパラメータのみに基づく故障予測モデルは、予測精度が大幅に制限される可能性が高いことがわかりましたエラーはすべての信号です。

第二に、SMARTしきい値は標準化されていません。ドライブ自体のファームウェアは、属性に「事前障害」のフラグを立てますが、生の値はユーザーには意味がありません。たとえば、 Seagateによると：

さまざまな属性が監視され、特定のしきい値制限に対して測定されます。いずれかの属性がしきい値を超えると、一般的なSMARTステータステストが合格から不合格に変わります。

サードパーティSMARTソフトウェアによって読み取られるSMART値は、Seagateハードドライブ内での値の使用方法に基づいていません。 Seagateは、個々のSMART属性およびしきい値を読み取ることを要求するソフトウェアプログラムのサポートを提供していません。古いドライブにはいくつかの歴史的な正しさがあるかもしれませんが、新しいドライブには、間違いなく、新しいソリューション、属性、およびしきい値が組み込まれています。

tl; dr概要：

Raw SMARTの値はほとんど意味がありません。メーカーによって使用方法が異なり、しきい値も異なるためです。ドライブのファームウェア自体は、「事前障害」の場合に通知します...またはそうでない場合があります、SMARTは実際にはあまり信頼できません。

定期的にバックアップしてください！

Evan Plaice · Answer

何を質問しているのか正確にはわかりません。質問と回答の全体が1つにまとめられているようですが...

ハードドライブのメトリックを SeaTools のメトリックと比較しましたか？

シーゲイトの標準ハードウェア診断ツールであり、最も一般的に使用されているHDD診断ツールであるAFAIKです。

ツールが競合他社について好ましくない結果を報告することに気付いても驚かないでください。ツールは一般的にすべてのメーカーのHDDで動作しますが、それはそれが彼らがそれをしている間に彼らの競争相手が見栄えをよくさせたという意味ではありません。

「もちろん、この統計を除いて、すべての統計の99.99％が正しい」という冗談を聞いたことはありませんか。

Jakob Bohm · Answer

ハードドライブ内部の物理的な現実では、100MBを超えるすべてのブランドのハードドライブには、多くの物理的な読み取りエラーがあります。それらのほとんどはECCによって安全に修正されますが、一部（おそらくごくわずか）がECCによって誤って修正され、残り（数が少ないが間違った修正よりも多い）は読み取り失敗としてコンピューターに報告され、ドライブがドライブを自動的に再配置するはずです不良セクター。

未加工の読み取りエラーを修正することに加えて、ECCはハードウェアが問題ないと考えた読み取りも修正しますが、返されたビットはわずかに間違っていました。したがって、修正されたECCは「生の読み取りは失敗したが、ECCによって修正された+生の読み取りは成功したが、誤りであり、ECCによって修正された」である可能性があります。

したがって、データの2つの解釈が可能であると思われます。

A. Seagate以外のドライブでは、ECC修正済みの読み取りエラーは「未処理読み取りエラー数」に含まれず、修正できないエラーのみが含まれます。

B.シーゲイトは、低レベル回路が気付かなかったとしても、ECCがデータに問題を見つけた場合、それを読み取りエラーと見なします。

正規化は、どちらの理論（AまたはB）が正しいかによって大きく異なります。