web-dev-qa-db-ja.com

高いSMART Hardware_ECC_Recovered値について心配する必要がありますか?

/var/log/messages


Jun 25 06:29:27 server.ru smartd[4477]: Device: /dev/sda, SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 46 to 47

#smartctl -a /dev/sda


smartctl version 5.38 [i686-redhat-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   110   088   006    Pre-fail  Always       -       28526210
  3 Spin_Up_Time            0x0003   093   093   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       24
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   087   060   030    Pre-fail  Always       -       471723621
  9 Power_On_Hours          0x0032   098   098   000    Old_age   Always       -       2520
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       41
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   068   052   045    Old_age   Always       -       32 (Lifetime Min/Max 31/35)
194 Temperature_Celsius     0x0022   032   048   000    Old_age   Always       -       32 (0 27 0 0)
195 Hardware_ECC_Recovered  0x001a   047   045   000    Old_age   Always       -       105036390
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0
202 TA_Increase_Count       0x0032   100   253   000    Old_age   Always       -       0

ディスクに障害が発生していて、交換する必要があるということですか? S.M.A.R.Tテスト結果の解釈についてどこで読むことができますか?

16
lexsys

Spinrite 名声のスティーブギブソンによると、SMART=値は、瞬時の読み取りではなく、時間の経過とともに取得する必要があります。つまり、47の値は必ずしも悪いわけではありません値が数か月間47だった場合。ただし、値が1時間前の42であり、その値が急激に上昇している場合、ドライブはデータの一部にアクセスできず、まもなくセクターをまったく読み取れなくなる可能性があります。そのドライブ上のデータの価値については、それを置き換えることができます。

13
Dave Cheney

この属性の高い値は実際にはかなり良いです:

ハードウェアECCリカバリS.M.A.R.T.パラメータは、ECC修正エラー間の時間を示します。

https://kb.acronis.com/content/9131

6
Robert Klemme

まず、lowerの値はSMARTの方が悪く、高い値ではありません(しきい値列が常に現在の値よりも低いことに注意してください)。したがって、値が増加しても心配する必要はありません。 (ただし、このルールは生の値には適用されません。)

SMART値は少し振動する傾向があります(たとえば、46から47の間のEdgeにある可能性があるため、小さな変更でも他の値にフリップする可能性があります)。

きみの smartctl -a出力は、この値が最低である45であることを示しているため、わずかに上で振動しているのは正常です。

詳細については、ウィキペディアをご覧ください: ATA S.M.A.R.T. attributes

4
CesarB

Googleが実施した広範な調査でさえ、SMARTエラーによってドライブの障害の多数が予測されないことがわかりました。表示されるものは完全に正常である可能性がありますが、各メーカーが異なるため、生の値をレポートされた値に変換するためのメトリックでは、ドライブで多くのエラーが発生しているかどうかを確認することは困難ですが、生の数値が大きいと奇妙に感じられます。

すべてのドライブ(新しいドライブにddまたはrsyncしている)を読んで、SMARTの値が進行するにつれて値を確認することをお勧めします。そのraw番号または報告された値が表示されている場合は、ドライブを交換するために探し始めた多くの変更。

3
jasonrm

何も問題はありません。

いつでも実行できます

smartctl -t long /dev/yourdrive

次に、数時間後にその結果をクエリします

smartctl -a /dev/yourdrive

念のために。

1
cstamas

回復されたIIRCハードウェアECCはディスク読み取り時のエラー訂正であり、ディスクでは珍しいことではなく、正確にこの理由でエラー訂正メカニズムでデータをエンコードします。一部のコントローラーは、ディスクセクターの冗長情報をサポートし、エラー訂正の別のレイヤーを追加します。

Dave Cheneyが述べているように、この数値は時間をかけて監視する必要があります。これらの統計の急激な変化は、ドライブの障害を示しています。また、拡大した欠陥リストにも注意してください。拡大した欠陥リストが拡大し始めた場合、またはSMART統計が大幅に変化し始めた場合は、予防的にドライブを交換する必要があります。