web-dev-qa-db-ja.com

異なるメーカーが異なるS.M.A.R.T値を持っているのはなぜですか?

まず第一に、私は誰もがハードドライブがメーカーが望んでいるよりもはるかに故障することを知っていると思います 認める 。 Googleは study を実行しました。これは、ハードドライブのS.M.A.R.Tステータスが報告する特定の未加工データ属性が、ドライブの将来の障害と強い相関関係を持つ可能性があることを示しています。

たとえば、最初のスキャンエラー後、ドライブは60日以内に、そのようなエラーのないドライブより39倍多く故障する可能性が高いことがわかりました。再割り当て、オフライン再割り当て、および試用カウントの最初のエラーも、より高い障害確率と強く相関しています。これらの強い相関関係にもかかわらず、SMARTパラメータのみに基づく障害予測モデルは、故障したドライブの大部分がSMARTエラー信号を示さなかったことを考えると、予測精度が大幅に制限される可能性が高いことがわかりますなんでも。

Seagateは、ドライブに関するこの情報を曖昧にしようとしているようです クレーム ソフトウェアだけがドライブの正確なステータスを正確に判断でき、ソフトウェアは、 SMART属性。 Western Digitalは私の知識にそのような主張をしていませんが、彼らのステータス報告ツールは生データ値も報告しないようです。

各属性の生データ値を収集するために、smartmontoolsのHDtuneとsmartctlを使用しています。私は確かにそれを見つけました...特定の属性に関しては、リンゴをオレンジと比較しています。たとえば、ほとんどのSeagateドライブは何百万もの読み取りエラーがあると報告しますが、Western Digitalの99%は読み取りエラーに対して0を示します。また、Seagateは何百万ものシークエラーを報告しますが、Western Digitalは常に0を報告するようです。

[〜#〜] q [〜#〜]:このデータを正規化するにはどうすればよいですか? Seagateは何百万ものエラーを生成していますが、Western Digitalは何も生成していませんか?ウィキペディアの S.M.A.R.T ステータスに関する記事では、メーカーがこのデータを報告する方法はさまざまであると述べています。

ここに私の仮説があります:

データを正規化する方法を見つけたと思います(これは正しい用語ですか?)。

Seagateドライブには、Western Digitalドライブにはない追加の属性があります(ハードウェアECC回復)。 ECC回復カウントから読み取りエラー数を差し引くと、おそらく0になります。これは、Western Digitalが報告する「読み取りエラー」数と同等のようです。つまり、Western Digitalは、修正できない読み取りエラーのみを報告し、Seagateはすべての読み取りエラーをカウントし、修正できたエラーの数を通知します。

読み込みエラー数がECC回復数より少ないSeagateドライブを使用していて、ファイルの多くが破損していることに気付きました。これが私が私の仮説を思いついた方法です。 Seagateが生成する何百万ものシークエラーは、依然として私には謎です。

追加情報がある場合は、私の仮説を確認または修正してください。

これが私の西側のデジタルドライブのスマートステータスです。これで、私が話していることがわかります。

james@ubuntu:~$ Sudo smartctl -a /dev/sda
smartctl version 5.38 [x86_64-unknown-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model:     WDC WD1001FALS-00E3A0
Serial Number:    WD-WCATR0258512
Firmware Version: 05.01D05
User Capacity:    1,000,204,886,016 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Thu Jun 10 19:52:28 2010 PDT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   179   175   021    Pre-fail  Always       -       4033
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       270
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   098   098   000    Old_age   Always       -       1468
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       262
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       46
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       223
194 Temperature_Celsius     0x0022   105   102   000    Old_age   Always       -       42
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

編集:データ破損を引き起こしていたと私が話していたSeagateドライブは次のとおりです。このデータはHDTuneからのものです。

HD Tune: ST3250623A Health

ID                               Current  Worst    ThresholdData       Status   
(01) Raw Read Error Rate         45       38       6        77882492   Ok       
(03) Spin Up Time                99       98       0        0          Ok       
(04) Start/Stop Count            100      100      20       640        Ok       
(05) Reallocated Sector Count    100      100      36       0          Ok       
(07) Seek Error Rate             85       60       30       359872048  Ok       
(09) Power On Hours Count        94       94       0        6028       Ok       
(0A) Spin Retry Count            100      100      97       0          Ok       
(0C) Power Cycle Count           100      100      20       689        Ok       
(C2) Temperature                 25       55       0        25         Ok       
(C3) Hardware ECC Recovered      50       47       0        201555081  Ok       
(C5) Current Pending Sector      100      100      0        0          Ok       
(C6) Offline Uncorrectable       100      100      0        0          Ok       
(C7) Ultra DMA CRC Error Count   200      199      0        1          Ok       
(C8) Write Error Rate            100      253      0        0          Ok       
(CA) TA Counter Increased        100      253      0        0          Ok       

Power On Time         : 6028
Health Status         : Ok

回復したハードウェアECCがRaw Read Error Rateよりも大きいという事実は、私の考えでは直観に反しています。

これは私が「通常の」シーゲイトドライブであることがわかったもので、リカバリされたECCがRaw Read Error Rateと一致します。

HD Tune: ST380011A Health

ID                               Current  Worst    ThresholdData       Status   
(01) Raw Read Error Rate         62       46       6        79986164   Ok       
(03) Spin Up Time                98       98       0        0          Ok       
(04) Start/Stop Count            100      100      20       6          Ok       
(05) Reallocated Sector Count    100      100      36       0          Ok       
(07) Seek Error Rate             83       60       30       210309663  Ok       
(09) Power On Hours Count        93       93       0        6516       Ok       
(0A) Spin Retry Count            100      100      97       0          Ok       
(0C) Power Cycle Count           99       99       20       1325       Ok       
(C2) Temperature                 25       52       0        25         Ok       
(C3) Hardware ECC Recovered      62       46       0        79986164   Ok       
(C5) Current Pending Sector      100      100      0        0          Ok       
(C6) Offline Uncorrectable       100      100      0        0          Ok       
(C7) Ultra DMA CRC Error Count   200      188      0        18         Ok       
(C8) Write Error Rate            100      253      0        0          Ok       
(CA) TA Counter Increased        100      253      0        0          Ok       

Power On Time         : 6516
Health Status         : Ok

編集:

Googleは一般的にS.M.A.R.Tは役に立たないと見なしていることを知っていることを明確にしたいと思います。誰もが自分のデータをバックアップする必要があることを知っています。しかし、私は他の人々のコンピューターを修理する仕事をしています。ほとんどの人はバックアップやRAIDを持っていません。企業がハードドライブのトラブルシューティングを行うことは費用効果が高くないため、死ぬまでRAIDで実行するだけです。私の仕事では、ハードドライブのSMARTステータスを確認すると便利です。 30秒くらいかかります。悪いドライブがスキャンエラーや再割り当てされたセクターなどの障害のヒントを表示できるほど幸運である場合、ドライブをそこから完全に取り除くことができます。そのようなヒントがない場合、ハードドライブが不良であることが最終的にわかるまで、速度とデータ破損のトラブルシューティングに何時間も費やすことになります。

私はこのプロセスを微調整しようとしています。

23
James T

ご覧のとおり、メーカーによってはSMARTの値が根本的に異なるものに使用されているようです here

ReadyNASのハードディスクで高いレポートが表示されますSMART Raw読み取りエラー率、シークエラー率、ハードウェアECCが回復しました。どうすればよいですか?

SeagateはこれらのSMARTフィールドを内部カウントに使用するため、これはSeagateディスクの既知の問題です。他のフィールド、特に再割り当てセクターカウントとATAエラーカウントで異常カウントを探します。

それであなたの実際の質問になると...

悪いドライブがスキャンエラーや再割り当てされたセクターなどの障害のヒントを表示できるほど幸運である場合、ドライブをそこから完全に取り除くことができます。そのようなヒントがない場合、ハードドライブが不良であることが最終的にわかるまで、速度とデータ破損のトラブルシューティングに何時間も費やすことになります。

経験則としては、SMARTの設定は、同じドライブの製造元、およびおそらく同じドライブのモデルでさえも同等であると期待できるだけです!)

したがって、これらのSMART=カウントの診断を検討しているときに注意してください...あるメーカーの「読み取りエラーの再試行回数」は、別のメーカーのそれとはまったく異なる何かを意味する場合があります。悲しいが本当です。: (

14
Jeff Atwood

さて、まず第一に私はあなたの前提に同意しません。

Googleは、ハードドライブのS.M.A.R.Tステータスが報告する特定の未加工データ属性が、ドライブの将来の障害と強い相関がある可能性があることを示す調査を行いました。

実際、彼らは反対を見つけました:

...故障したドライブの大部分がSMARTを示さなかった場合、SMARTパラメータのみに基づく故障予測モデルは、予測精度が大幅に制限される可能性が高いことがわかりましたエラーはすべての信号です。

第二に、SMARTしきい値は標準化されていません。ドライブ自体のファームウェアは、属性に「事前障害」のフラグを立てますが、生の値はユーザーには意味がありません。たとえば、 Seagateによると

さまざまな属性が監視され、特定のしきい値制限に対して測定されます。いずれかの属性がしきい値を超えると、一般的なSMARTステータステストが合格から不合格に変わります。

サードパーティSMARTソフトウェアによって読み取られるSMART値は、Seagateハードドライブ内での値の使用方法に基づいていません。 Seagateは、個々のSMART属性およびしきい値を読み取ることを要求するソフトウェアプログラムのサポートを提供していません。古いドライブにはいくつかの歴史的な正しさがあるかもしれませんが、新しいドライブには、間違いなく、新しいソリューション、属性、およびしきい値が組み込まれています。

tl; dr概要:

Raw SMARTの値はほとんど意味がありません。メーカーによって使用方法が異なり、しきい値も異なるためです。ドライブのファームウェア自体は、「事前障害」の場合に通知します...またはそうでない場合があります、SMARTは実際にはあまり信頼できません。

定期的にバックアップしてください!

14
sml

何を質問しているのか正確にはわかりません。質問と回答の全体が1つにまとめられているようですが...

ハードドライブのメトリックを SeaTools のメトリックと比較しましたか?

シーゲイトの標準ハードウェア診断ツールであり、最も一般的に使用されているHDD診断ツールであるAFAIKです。

ツールが競合他社について好ましくない結果を報告することに気付いても驚かないでください。ツールは一般的にすべてのメーカーのHDDで動作しますが、それはそれが彼らがそれをしている間に彼らの競争相手が見栄えをよくさせたという意味ではありません。

「もちろん、この統計を除いて、すべての統計の99.99%が正しい」という冗談を聞いたことはありませんか。

4
Evan Plaice

ハードドライブ内部の物理的な現実では、100MBを超えるすべてのブランドのハードドライブには、多くの物理的な読み取りエラーがあります。それらのほとんどはECCによって安全に修正されますが、一部(おそらくごくわずか)がECCによって誤って修正され、残り(数が少ないが間違った修正よりも多い)は読み取り失敗としてコンピューターに報告され、ドライブがドライブを自動的に再配置するはずです不良セクター。

未加工の読み取りエラーを修正することに加えて、ECCはハードウェアが問題ないと考えた読み取りも修正しますが、返されたビットはわずかに間違っていました。したがって、修正されたECCは「生の読み取りは失敗したが、ECCによって修正された+生の読み取りは成功したが、誤りであり、ECCによって修正された」である可能性があります。

したがって、データの2つの解釈が可能であると思われます。

A. Seagate以外のドライブでは、ECC修正済みの読み取りエラーは「未処理読み取りエラー数」に含まれず、修正できないエラーのみが含まれます。

B.シーゲイトは、低レベル回路が気付かなかったとしても、ECCがデータに問題を見つけた場合、それを読み取りエラーと見なします。

正規化は、どちらの理論(AまたはB)が正しいかによって大きく異なります。

2
Jakob Bohm