SSDドライブの正常性を判断する簡単な方法は？

Question

ここのように、ZFSストレージアレイで2回「故障」とマークされたIntel X-25Mドライブがあります。ただし、ドライブを取り外した後、他のコンピューター（Mac、PC、USBエンクロージャーなど）でマウント、読み取り、書き込みを行っているようです

ドライブの現在の状態を判断する良い方法はありますか？ ZFSソリューションの以前の障害は、バグ、不良エラー報告、およびハードウェアの収束であったと思います。ただし、このドライブにはある程度の寿命があるようです。

Daniel Lawson · Accepted Answer

ドライブの正常性をチェックするための優れた方法ですが、確実ではありませんが、SMART属性をチェックすることです。

smartctl v5.41を使用して取得したIntel X25-M G2 160GBディスクに設定されたSMART属性セットは以下のとおりです。（バージョンは重要です。smartctlの以前のバージョンは異なる属性名マッピングがあり、実際にはこのドライブの特定のテーブルを正しく理解していませんでした）。

# ./smartctl -data -A /dev/sda smartctl 5.41 2011-06-09 r3365 [x86_64-linux-2.6.18-194.32.1.el5] (local build) Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net === START OF READ SMART DATA SECTION === SMART Attributes Data Structure revision number: 5 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 3 Spin_Up_Time 0x0020 100 100 000 Old_age Offline - 0 4 Start_Stop_Count 0x0030 100 100 000 Old_age Offline - 0 5 Reallocated_Sector_Ct 0x0032 100 100 000 Old_age Always - 1 9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 4076 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 67 192 Unsafe_Shutdown_Count 0x0032 100 100 000 Old_age Always - 30 225 Host_Writes_32MiB 0x0030 200 200 000 Old_age Offline - 148418 226 Workld_Media_Wear_Indic 0x0032 100 100 000 Old_age Always - 755 227 Workld_Host_Reads_Perc 0x0032 100 100 000 Old_age Always - 49 228 Workload_Minutes 0x0032 100 100 000 Old_age Always - 16956537 232 Available_Reservd_Space 0x0033 099 099 010 Pre-fail Always - 0 233 Media_Wearout_Indicator 0x0032 098 098 000 Old_age Always - 0 184 End-to-End_Error 0x0033 100 100 099 Pre-fail Always - 0

これは、ドライブに1つの再割り当てされたセクターがあり、使用可能な予約スペースの1％（属性232）と、予測されたプログラム/消去サイクル（属性233）の2％を使用したことを示しています。 148418 * 32MiB（属性225）が書き込まれています。

ドライブにかなりの数の再割り当てされたセクターが表示されている場合、おそらくフラッシュチップの障害を示しているため、これが問題の原因である可能性があります（通常、回転ディスク上のかなりの数の再割り当てされたセクターが表面エラーを指しているのと同じです））。エンドツーエンドも悪い-いくつかのX25-M G2 160GBディスクが故障し、大きな（> 1000）エンドツーエンドエラーが報告されました。ただし、これらのディスクには2つの有用なエラー状態属性しかありません。通常のディスクのほとんどのSMART属性はSSDには適用されないためです。

ただし、SMARTは一般に100％信頼できるとは見なされていません。 disk failures に関するGoogleの調査では、さまざまなSMART早期警告インジケーターとドライブの障害の間の良好な相関関係は、個々のドライブの障害を予測するための有用なツールではありませんでした。このため、通常SMART =ドライブを証明する方法が悪いので（エラーが表示されている場合、おそらくすぐに失敗するでしょう）、ドライブを証明するのはまだ良いです。

bot403 · Answer

「従来の」ハードドライブ用に作成されたものですが、「badblocks」ユーティリティは、ドライブ上のすべてのマップ可能なセクターを実行することを意図しているため、いくつかの利点があるかもしれません。 SSDの断片化防止と内部の再マッピングでは、ドライブが正常であるかどうかを確実に伝えることはできません。ただし、ドライブが不良であると表示された場合は、ドライブを完全に廃棄します。

Andr&#225;s Szepesh&#225;zi · Answer

HD Tune （および HD Tune Pro ）は、SSDドライブの正常性とパフォーマンスを測定するための優れたツールです。無料版（HD Tune）の機能セットは非常に限られていますが、健康分析はそれに当てはまるため、運が良かったです。 Proバージョンには15日間の試用期間があります。試用することを強くお勧めします。これにより、SSDのパフォーマンスに関する優れた詳細な分析が得られます。

James Stevens · Answer

私にとっては、「Reallocated_Sector_Ct」がゼロ以外の場合、ディスクを交換します

Reallocated_Sector_Ctは、不良セクターを交換するためにディスクが予約するセクターのプールです。昔は、ディスクには常に1日目に不良セクターがいくつかあり、ディスクはそれらをスワップアウトして、100％の動作ディスクがありました。

最近のディスクはそれよりもはるかに複雑なので、通常、このスワップアウトは、ディスクが故障し始めたときにのみ開始されます。

これは大幅に単純化しすぎですが、状況はわかります。

別の戦略は、数を監視し、それが上がっていないことを確認することです。しかし、多くの場合、ディスクが不良になり始めると、致命的な障害が発生してすぐのことです。ですから、最近のディスクの価格を考えると、リスクを負うよりディスクを投げることを好みます

ディスク障害が原因でデータを失ったことはありません。