私はいくつかのストレージアレイを使用しており、25,000〜30,000時間(2.8〜3.4年)の間にかなりの数のドライブの電源がオンになっています。これらのドライブには他の問題やエラーはありません。
知りたいこと:ドライブの寿命だけでドライブを交換するのに十分な要素があるという点はありますかドライブが正常に動作していてエラーがない場合はどうですか?
(私は、人々が故障するかエラーをスローし始めるまでドライブを実行する傾向があるかどうか、または誰かが指標として電源オン時間を使用して交換時に積極的なアプローチを取るかどうかを知りたいと思います。)
ドライブの製造元は通常、エンタープライズドライブの1,000,000〜1,500,000時間でMTBFを引用していますが、これらの数値は実際にはそれほど意味がありません。
私はこの研究が2007年に完了したことを確認しました:
現実世界でのディスク障害:1,000,000時間のMTTFはあなたにとって何を意味しますか?
http://www.cs.cmu.edu/~bianca/fast07.pdf
この調査は、1年から5〜7年の「スイートスポット」であり、障害の発生が少ないことを示しています。これらの時間の前後のドライブ年齢はかなり高くなる傾向がありました。
番号。
ドライブが特定の年齢であるという理由だけでなく、ドライブに障害が発生した場合(またはSMARTのように予測障害が発生した場合)にドライブを交換します。ドライブが15年以上持続し、ドライブが1時間以内に故障するのを見てきました。そのため、ドライブの故障の年齢は良い指標ではありません。
10-15年前のサーバーで、元のドライブがまだ実行されており、サーバーが機能を変更せずに実行するのを見てきました。 1年未満のサーバーで致命的なドライブ障害が発生したことを確認しました。
障害の兆候が見られるまでドライブを実行するのがどれほど良い/悪い習慣であるかについては意見がありません。そのため、私の答えは「依存する」でしょう-バックアップ、データ/ツールの値、ドライブのサイズ、ミラーリングされたアレイにある場合、およびそれを交換するためのダウンタイムを提供できる場合、アクティビティの強度-これは単なるハードウェアよりも高価かもしれません。
これらのことや、サイトやアプリケーションに固有のその他の変数に基づいて考えます。それは、チームが行う決定であり、具体的な年齢ではありません。
編集:データまたは稼働時間が重要な場合は、冗長サーバーを使用した練習用のバックアップと災害復旧戦略、および異なるバッチのドライブを備えたミラーリングされたアレイを検討してください。この方法では、すべてが同時に失敗する可能性が非常に低いため、データを失うことなく、問題のあるハードウェアを交換しながら、動作中のハードウェアにフェイルオーバーできます。
ドライブが「古すぎる」という理由だけでドライブを交換している(ストレージ/サーバーを稼働状態に保ちながら)誰かに会った(または聞いた)ことがありません。