ここ のように、ZFSストレージアレイで2回「故障」とマークされたIntel X-25Mドライブがあります。ただし、ドライブを取り外した後、他のコンピューター(Mac、PC、USBエンクロージャーなど)でマウント、読み取り、書き込みを行っているようです
ドライブの現在の状態を判断する良い方法はありますか? ZFSソリューションの以前の障害は、バグ、不良エラー報告、およびハードウェアの収束であったと思います。ただし、このドライブにはある程度の寿命があるようです。
ドライブの正常性をチェックするための優れた方法ですが、確実ではありませんが、SMART属性をチェックすることです。
smartctl v5.41を使用して取得したIntel X25-M G2 160GBディスクに設定されたSMART属性セットは以下のとおりです。 (バージョンは重要です。smartctlの以前のバージョンは異なる属性名マッピングがあり、実際にはこのドライブの特定のテーブルを正しく理解していませんでした)。
# ./smartctl -data -A /dev/sda
smartctl 5.41 2011-06-09 r3365 [x86_64-linux-2.6.18-194.32.1.el5] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net
=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 5
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
3 Spin_Up_Time 0x0020 100 100 000 Old_age Offline - 0
4 Start_Stop_Count 0x0030 100 100 000 Old_age Offline - 0
5 Reallocated_Sector_Ct 0x0032 100 100 000 Old_age Always - 1
9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 4076
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 67
192 Unsafe_Shutdown_Count 0x0032 100 100 000 Old_age Always - 30
225 Host_Writes_32MiB 0x0030 200 200 000 Old_age Offline - 148418
226 Workld_Media_Wear_Indic 0x0032 100 100 000 Old_age Always - 755
227 Workld_Host_Reads_Perc 0x0032 100 100 000 Old_age Always - 49
228 Workload_Minutes 0x0032 100 100 000 Old_age Always - 16956537
232 Available_Reservd_Space 0x0033 099 099 010 Pre-fail Always - 0
233 Media_Wearout_Indicator 0x0032 098 098 000 Old_age Always - 0
184 End-to-End_Error 0x0033 100 100 099 Pre-fail Always - 0
これは、ドライブに1つの再割り当てされたセクターがあり、使用可能な予約スペースの1%(属性232)と、予測されたプログラム/消去サイクル(属性233)の2%を使用したことを示しています。 148418 * 32MiB(属性225)が書き込まれています。
ドライブにかなりの数の再割り当てされたセクターが表示されている場合、おそらくフラッシュチップの障害を示しているため、これが問題の原因である可能性があります(通常、回転ディスク上のかなりの数の再割り当てされたセクターが表面エラーを指しているのと同じです) )。エンドツーエンドも悪い-いくつかのX25-M G2 160GBディスクが故障し、大きな(> 1000)エンドツーエンドエラーが報告されました。ただし、これらのディスクには2つの有用なエラー状態属性しかありません。通常のディスクのほとんどのSMART属性はSSDには適用されないためです。
ただし、SMARTは一般に100%信頼できるとは見なされていません。 disk failures に関するGoogleの調査では、さまざまなSMART早期警告インジケーターとドライブの障害の間の良好な相関関係は、個々のドライブの障害を予測するための有用なツールではありませんでした。このため、通常SMART =ドライブを証明する方法が悪いので(エラーが表示されている場合、おそらくすぐに失敗するでしょう)、ドライブを証明するのはまだ良いです。
「従来の」ハードドライブ用に作成されたものですが、「badblocks」ユーティリティは、ドライブ上のすべてのマップ可能なセクターを実行することを意図しているため、いくつかの利点があるかもしれません。 SSDの断片化防止と内部の再マッピングでは、ドライブが正常であるかどうかを確実に伝えることはできません。ただし、ドライブが不良であると表示された場合は、ドライブを完全に廃棄します。
HD Tune (および HD Tune Pro )は、SSDドライブの正常性とパフォーマンスを測定するための優れたツールです。無料版(HD Tune)の機能セットは非常に限られていますが、健康分析はそれに当てはまるため、運が良かったです。 Proバージョンには15日間の試用期間があります。試用することを強くお勧めします。これにより、SSDのパフォーマンスに関する優れた詳細な分析が得られます。
私にとっては、「Reallocated_Sector_Ct」がゼロ以外の場合、ディスクを交換します
Reallocated_Sector_Ctは、不良セクターを交換するためにディスクが予約するセクターのプールです。昔は、ディスクには常に1日目に不良セクターがいくつかあり、ディスクはそれらをスワップアウトして、100%の動作ディスクがありました。
最近のディスクはそれよりもはるかに複雑なので、通常、このスワップアウトは、ディスクが故障し始めたときにのみ開始されます。
これは大幅に単純化しすぎですが、状況はわかります。
別の戦略は、数を監視し、それが上がっていないことを確認することです。しかし、多くの場合、ディスクが不良になり始めると、致命的な障害が発生してすぐのことです。ですから、最近のディスクの価格を考えると、リスクを負うよりディスクを投げることを好みます
ディスク障害が原因でデータを失ったことはありません。