web-dev-qa-db-ja.com

SSDドライブの正常性を判断する簡単な方法は?

ここ のように、ZFSストレージアレイで2回「故障」とマークされたIntel X-25Mドライブがあります。ただし、ドライブを取り外した後、他のコンピューター(Mac、PC、USBエンクロージャーなど)でマウント、読み取り、書き込みを行っているようです

ドライブの現在の状態を判断する良い方法はありますか? ZFSソリューションの以前の障害は、バグ、不良エラー報告、およびハードウェアの収束であったと思います。ただし、このドライブにはある程度の寿命があるようです。

13
ewwhite

ドライブの正常性をチェックするための優れた方法ですが、確実ではありませんが、SMART属性をチェックすることです。

smartctl v5.41を使用して取得したIntel X25-M G2 160GBディスクに設定されたSMART属性セットは以下のとおりです。 (バージョンは重要です。smartctlの以前のバージョンは異なる属性名マッピングがあり、実際にはこのドライブの特定のテーブルを正しく理解していませんでした)。

# ./smartctl -data -A /dev/sda
smartctl 5.41 2011-06-09 r3365 [x86_64-linux-2.6.18-194.32.1.el5] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 5
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED     RAW_VALUE
  3 Spin_Up_Time            0x0020   100   100   000    Old_age   Offline      -       0
  4 Start_Stop_Count        0x0030   100   100   000    Old_age   Offline      -       0
  5 Reallocated_Sector_Ct   0x0032   100   100   000    Old_age   Always       -       1
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       4076
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       67
192 Unsafe_Shutdown_Count   0x0032   100   100   000    Old_age   Always       -       30
225 Host_Writes_32MiB       0x0030   200   200   000    Old_age   Offline      -       148418
226 Workld_Media_Wear_Indic 0x0032   100   100   000    Old_age   Always       -       755
227 Workld_Host_Reads_Perc  0x0032   100   100   000    Old_age   Always       -       49
228 Workload_Minutes        0x0032   100   100   000    Old_age   Always       -       16956537
232 Available_Reservd_Space 0x0033   099   099   010    Pre-fail  Always       -       0
233 Media_Wearout_Indicator 0x0032   098   098   000    Old_age   Always       -       0
184 End-to-End_Error        0x0033   100   100   099    Pre-fail  Always       -       0

これは、ドライブに1つの再割り当てされたセクターがあり、使用可能な予約スペースの1%(属性232)と、予測されたプログラム/消去サイクル(属性233)の2%を使用したことを示しています。 148418 * 32MiB(属性225)が書き込まれています。

ドライブにかなりの数の再割り当てされたセクターが表示されている場合、おそらくフラッシュチップの障害を示しているため、これが問題の原因である可能性があります(通常、回転ディスク上のかなりの数の再割り当てされたセクターが表面エラーを指しているのと同じです) )。エンドツーエンドも悪い-いくつかのX25-M G2 160GBディスクが故障し、大きな(> 1000)エンドツーエンドエラーが報告されました。ただし、これらのディスクには2つの有用なエラー状態属性しかありません。通常のディスクのほとんどのSMART属性はSSDには適用されないためです。

ただし、SMARTは一般に100%信頼できるとは見なされていません。 disk failures に関するGoogleの調査では、さまざまなSMART早期警告インジケーターとドライブの障害の間の良好な相関関係は、個々のドライブの障害を予測するための有用なツールではありませんでした。このため、通常SMART =ドライブを証明する方法が悪いので(エラーが表示されている場合、おそらくすぐに失敗するでしょう)、ドライブを証明するのはまだ良いです。

12
Daniel Lawson

「従来の」ハードドライブ用に作成されたものですが、「badblocks」ユーティリティは、ドライブ上のすべてのマップ可能なセクターを実行することを意図しているため、いくつかの利点があるかもしれません。 SSDの断片化防止と内部の再マッピングでは、ドライブが正常であるかどうかを確実に伝えることはできません。ただし、ドライブが不良であると表示された場合は、ドライブを完全に廃棄します。

2
bot403

HD Tune (および HD Tune Pro )は、SSDドライブの正常性とパフォーマンスを測定するための優れたツールです。無料版(HD Tune)の機能セットは非常に限られていますが、健康分析はそれに当てはまるため、運が良かったです。 Proバージョンには15日間の試用期間があります。試用することを強くお勧めします。これにより、SSDのパフォーマンスに関する優れた詳細な分析が得られます。

1

私にとっては、「Reallocated_Sector_Ct」がゼロ以外の場合、ディスクを交換します

Reallocated_Sector_Ctは、不良セクターを交換するためにディスクが予約するセクターのプールです。昔は、ディスクには常に1日目に不良セクターがいくつかあり、ディスクはそれらをスワップアウトして、100%の動作ディスクがありました。

最近のディスクはそれよりもはるかに複雑なので、通常、このスワップアウトは、ディスクが故障し始めたときにのみ開始されます。

これは大幅に単純化しすぎですが、状況はわかります。

別の戦略は、数を監視し、それが上がっていないことを確認することです。しかし、多くの場合、ディスクが不良になり始めると、致命的な障害が発生してすぐのことです。ですから、最近のディスクの価格を考えると、リスクを負うよりディスクを投げることを好みます

ディスク障害が原因でデータを失ったことはありません。

0
James Stevens