NAS=ボックスに6台のドライブがあります。そのうちの2台はSeagateで、エラーのために高いRAW_VALUESを返します。以下を参照してください。
私の他のドライブははるかに低い値を示しています。
これは警報の原因ですか?それともシーゲイツが報告する方法ですか?
見る Raw_Read_Error_Rate
およびSeek_Error_Rate
:
# smartctl -a /dev/ada1
=== START OF INFORMATION SECTION ===
Device Model: ST3000DM001-9YN166
Serial Number: W1F09S26
LU WWN Device Id: 5 000c50 0456076fc
Firmware Version: CC4C
User Capacity: 3,000,592,982,016 bytes [3.00 TB]
Sector Sizes: 512 bytes logical, 4096 bytes physical
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: 8
ATA Standard is: ATA-8-ACS revision 4
Local Time is: Sat Aug 18 17:34:24 2012 EDT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 249) Self-test routine in progress...
90% of test remaining.
Total time to complete Offline
data collection: ( 575) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 1) minutes.
Extended self-test routine
recommended polling time: ( 255) minutes.
Conveyance self-test routine
recommended polling time: ( 2) minutes.
SCT capabilities: (0x3085) SCT Status supported.
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 111 099 006 Pre-fail Always - 34053632
3 Spin_Up_Time 0x0003 093 092 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 32
5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 0
7 Seek_Error_Rate 0x000f 060 055 030 Pre-fail Always - 21480133713
9 Power_On_Hours 0x0032 097 097 000 Old_age Always - 2696
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 32
183 Runtime_Bad_Block 0x0032 100 100 000 Old_age Always - 0
184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0
188 Command_Timeout 0x0032 100 100 000 Old_age Always - 0
189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0022 064 061 045 Old_age Always - 36 (Min/Max 34/38)
191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Always - 0
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 28
193 Load_Cycle_Count 0x0032 100 100 000 Old_age Always - 63
194 Temperature_Celsius 0x0022 036 040 000 Old_age Always - 36 (0 19 0 0)
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
240 Head_Flying_Hours 0x0000 100 253 000 Old_age Offline - 43748536879750
241 Total_LBAs_Written 0x0000 100 253 000 Old_age Offline - 2867098636991
242 Total_LBAs_Read 0x0000 100 253 000 Old_age Offline - 17478042509157
SMART Error Log Version: 1
No Errors Logged
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Self-test routine in progress 90% 2696 -
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
SeagateはSER(Seek_Error_Rate)を使用して2つの異なるカウンターをコーディングします。シークエラーカウントには16の上位ビットが使用され、シークカウントには32の下位ビットが使用されます。これらの2つのカウンターの読み取りを容易にするために、16進表示をお勧めします(6ニブル= 2はエラーカウント+ 4はシークカウント)。
RRER(Raw_Read_Error_Rate)はインクリメンタルカウンターを表示しませんが、-10 log(エラーセクターの数/ディスク上の合計ビット数)などの結果です。最小値と最大値があることを説明しています。最大値の近くに滞在することをお勧めします。
これについての詳細な説明はこちら: http://www.users.on.net/~fzabkar/HDD/Seagate_SER_RRER_HEC.html
私が今まで見たすべてのSeagateドライブは、これら2つのフィールドの奇妙な生の値を報告します。
実行できることの1つは、ユーティリティ(およびドライブ)が内部的に行うのと同じことです。しきい値に対して正規化された値をチェックします。値がしきい値に下がると、属性は失敗(または失敗)として報告されます。
もう1つのことは、Seagateドライブをもう1つ購入しないことです。私はこのルートに行きました、そして彼らがファームウェアを書くことを学ぶまで、私は別のものを購入しません。
セルフテストの結果は非常に信頼できるものであり、結果は自明です(最後の1回の実行が失敗したか、成功したか)。
ベンダー固有のさまざまな属性はそれだけです。それらを解釈するための標準化された方法は実際にはありません(smartmonツールがこれらの値の解釈を含むドライブデータベースを維持するのはこのためです)。ここにフラグがあれば、多くの意味の説明を見つけることができます: http://en.wikipedia.org/wiki/S.M.A.R.T.#Known_ATA_S.M.A.R.T._attributes
この線 SMART overall-health self-assessment test result: PASSED
は、その下に印刷され、変換され、正規化され、ドライブデータベースによって指定されたしきい値から取得されます。
正規化された値の場合、通常は低い方が良いですが、すべてのフラグがそれ自体が機械的な障害の前兆となるものを示すわけではありません(しきい値のあるものはより可能性が高いです)。修正不可能な読み取りエラー、スピンアップの失敗などのようなものは、おそらく指標です。
これらの結果から、ドライブは良好な状態にあるように見えます。
私の箱のsmartctl
manページは、その作者の1人へのリンクを提供します Linux Journalの記事 ;特に、リスト3はsmartctl -a
の出力を説明しています。
それは10年以上前のものですが、読んでもまだ関連性があり、信頼できる説明を提供しています。
私が行うことは、読み取りhweccをチェックしてエラー率を探すことです。また、再配置または保留中のセクターが存在しないことを確認します。最初の3つの#を取得した後、ドライブとの間で大量のコピーを行い、#をもう一度確認します。彼らが大幅に上がらなければ、私はドライブに目を離さない。彼らが撃たれた場合、私はベンダーに電話し、rmaを取得するために何をしなければならないかを確認します。
私は23441590読み取りエラー206428348シークと27659067 eccの3歳のドライブを持っています。それは時間あたりに動力を与えられたそれ。私の5.5年前のドライブには0 0 687123415 eccがあります。スマートな故障は、恐ろしい早期警告システムですが、この数字はドライブを監視するために使用できます。発生する前にスマートな予測障害が発生するドライブはほとんどありません。また、私の3歳のドライブはシーゲイトであり、5年間はシーゲイトです。シーゲイトは熱くなっています。
もう1つのことは、ドライブのベンチマークを時々保存することです。 hdd tuneはWindowsの良い例です。スワップファイルがないドライブで実行したり、グラフから起動したりすると、読み取りに問題のある領域があるかどうかがわかります。最近のドライブでは、読み取り速度が50mb +から25mb程度まで階段状になっていることがよくあります。急激な落ち込みがある場合は、その領域に弱いセクターまたは不良セクターがある可能性があります。ドライブのベンチマークを毎月または3か月間維持している場合は、何かが突然起こった場合に良い考えを持つことができます。 D4xx緯度は良い例です。ドライブコントローラーが失敗し始めると、読み取り速度は5MB程度から始まり、時々10MBを超えて急上昇するため、それらのドライブが原因で常にドライブがrma'dされていました。ただし、テストするときは、他に何もドライブを使用していないことを確認するために、Bartpeディスクなどから起動する必要がある場合があります。
私はしばしばこれらの結果とhddチューンなどを使用して、ドライブが完全に死ぬ前にドライブにrmaを取得します。