web-dev-qa-db-ja.com

いくつのSMARTセクターの再割り当てが問題を示していますか?

私はNAS 1か月以上前のアプライアンスです。ハードドライブから生成されたアラートをメールで送信するように設定されています。SMARTデータ。1日後、ハードドライブの1つが、セクターが不良になり再割り当てされたことを報告しました。最初の1週間で、その数は問題のハードドライブの合計6セクターに増加しました。1か月後、この数は9つの再割り当てセクターに達しています。間違いなく減速しているようです。

NASは、RAID-5構成の6台の1.5 TBドライブで構成されています。このような大容量ドライブでは、セクターが故障して、最初のいくつかのセクターが再配置されたとき、私は心配していませんでした。

再配置の割合、または再配置の総数で、ドライブの状態を心配する必要がありますか?これはドライブの容量に基づいて変化するでしょうか?

17
Jeremy

ほとんどのコンポーネントと同様に、ドライブにはバスタブ曲線の故障率があります。彼らは最初は多く失敗し、真ん中の失敗率は比較的低く、寿命が近づくと多く失敗します。

ドライブ全体がこの曲線に従うように、ディスクの特定の領域もこの曲線に従います。ドライブの使用を開始すると、多くのセクターの再割り当てが表示されますが、これは徐々に減少するはずです。ドライブが寿命の終わりに故障し始めると、ますます多くのセクターが失われ始めます。

6について心配する必要はありません(ドライブによって異なります-製造元に問い合わせてください)が、新しい各再割り当ての頻度を監視して確認する必要があります。劣化が加速したり、変わらない場合は、ご安心ください。それ以外の場合は、最初の慣らし期間の後で問題ないはずです。

-アダム

13
Adam Davis

この件についてのGoogleの論文「 大容量ディスクドライブの人口における失敗の傾向 」をもう一度読んで、Adamの答えが間違っていると私は間違いなく言えると思います。ドライブの非常に大規模な母集団の分析では、約9%にゼロ以外の再割り当てカウントがありました。言い伝えはこれです:

最初の再割り当て後、ドライブは60日以内に再割り当てカウントのないドライブよりも14倍以上故障する可能性が高く、このパラメーターのクリティカルしきい値も1になります。

実際に要求されたIO opsではなく、ドライブのバックグラウンドスクラブ中に検出された再割り当てである "オフライン再割り当て"を処理する場合は、さらに興味深いです。結論:

最初のオフライン再割り当て後、ドライブはオフライン再割り当てのないドライブよりも60日以内に21倍以上の障害の可能性があります。総再配置よりもさらに劇的な効果。

私の今後の方針は、再割り当てカウントがゼロ以外のドライブの交換がスケジュールされることです。

20
Insyte

ドライブが異なれば、パラメータも異なります。私が最後に確認したドライブは、あるベンダーの1TBエンタープライズシリーズディスクで、再割り当て用に2048の予約済みセクターがありました。

S.M.A.R.T.再割り当てされたセクターの数がゼロ以外のドライブに関するレポートで確認する予約済みセクターの数を見積もることができます。以下の故障したドライブに関するレポートを検討してください。

...
ID# ATTRIBUTE_NAME          VALUE WORST THRESH TYPE      WHEN_FAILED  RAW
...          
  5 Reallocated_Sector_Ct   005   005   036    Pre-fail  FAILING_NOW  1955

ここでは、1955セクターである予約済み容量の95%が使用されています。したがって、初期容量は約2057でした。実際には2048ですが、その違いは丸め誤差によるものです。

S.M.A.R.T.は、再割り当てされたセクターの数が特定のしきい値に達すると、ドライブを障害状態にします。問題のドライブでは、このしきい値は予約済み容量の64%に設定されています。これは約1310です。再マッピングされたセクター。

ただし、予約済みセクターは連続したスパンにありません。代わりに、それらはいくつかのグループに分割され、各グループはディスクの特定の部分からセクターを再マッピングするために使用されています。これは、データをディスク上の領域に対してローカルに保つために行われます。

ローカリティの欠点は、ディスクに多くの予約済みセクターがある可能性があることです。しかし、1つの領域が予約済み容量をすでに使い果たしている可能性があります。この場合、動作はファームウェアに依存します。 1つのドライブで、保護されていないパーツでエラーが発生すると、ドライブがFAILED状態になり、ブロックされることがわかりました。

3
Dmitri Chubarov

ドライブでサポートされている場合は、S.M.A.R.T.ロングセルフテストを実行することをお勧めします。これにより、ドライブのステータスに関する詳細情報が得られる場合があります。 NASでこれを行うことができず、ドライブを引き出すか、NASの電源を数時間切ることができる場合は、ハードディスクで長時間のセルフテストを実行できます別のマシンに接続しました。

2
Eddie

この新しいドライブがこのように動作する場合、ドライブはまったく信頼されません。

できるだけ早く返送して、交換用ドライブを入手してください。

メーカーによって、「許容損失」の数値が異なります(モニターや不良ピクセルと同じ考えです)。ドライブの製造元に確認して、その標準を確認してください。

しかし、それは悪い傾向のように見えます...

1
Brian Knoblauch