web-dev-qa-db-ja.com

RAIDディスクを個別に購入するより、個別に購入する方が良いでしょうか?

これは奇妙な質問のように聞こえるかもしれませんが、それは私の同僚の何人かとの活発な議論を生み出しました。 8枚または12枚のディスクで構成される適度なサイズのRAIDアレイを考えてみます。ディスクの最初のバッチを購入するとき、またはアレイを拡張するため、またはハードウェアを更新するために交換品を購入するとき、2つの広範なアプローチがあります。

  1. 1つのベンダーからすべてのドライブを1つの注文で購入すると、すべてのディスクが入った大きな箱が1つ届きます。
  2. さまざまなベンダーからディスクを1つずつ注文するか、(または数日または数週間にわたって)1つのディスクを複数注文します。

明らかにいくつかの中間点がありますが、これらは主な対立する考え方です。私は、アレイの壊滅的な障害のリスクを減らすという観点から、どちらのアプローチがより賢明であるかを本当に知りたがっています。 (「ディスクの25%が、アレイを一度再同期化するのにかかる時間と同じ時間枠内で障害が発生すると」と定義しましょう。)すべてのディスクが同じ場所から来た場合、それらはすべて同じになる可能性がありますストライキを待っている潜在的な欠陥。もしそうなら、時計の最初のカウントダウンが同じ、同じ時限爆弾。

各アプローチについて、より一般的な長所と短所をいくつか収集しましたが、それらの中には、根拠に基づいた堅固なデータではなく、推測と直感のように感じるものもあります。

すべてを一度に購入、プロ

  • 調査/注文フェーズに費やす時間が短縮されます。
  • ベンダーが請求する場合、送料を最小限に抑えます。
  • ディスクは、動作特性(温度、振動など)が同じファームウェアバージョンで同じ「癖」を持つことがほぼ保証されています。
  • 価格の上昇/在庫の不足は、プロジェクトを途中で停止させることはまずありません。
  • 次の各ディスクは、インストールする必要がある瞬間に手元にあります。
  • シリアル番号はすべて既知であり、シリアル番号の昇順でディスクをエンクロージャーにインストールできます。過度にうるさいようですが、一部の人々はそれを大事にしているようです。 (私はそれらの管理インターフェイスがハードウェアのポート順ではなくシリアル番号でディスクをソートすると思います...?)

まとめて購入、短所

  • すべてのディスク(おそらく)は、同じ材料で作られた、同じ工場で製造されたものです。それらは同じ環境に保管され、輸送中に同じ潜在的な虐待を受ける可能性があります。 1つに存在する欠陥または損傷はすべてに存在する可能性があります。
  • ドライブが一度に1つずつ既存のアレイに交換され、新しい各ディスクを個別に再同期化する必要がある場合、注文からの最後のディスクがインストールされ、欠陥があることが判明するまでに数週間かかる可能性があります。この期間中に、ベンダーとの返品/交換ウィンドウが期限切れになる場合があります。
  • プロジェクト中に発生する可能性のある近い将来の価格の低下を利用することはできません。

個人購入、プロ

  • 1つのディスクに障害が発生した場合、他のディスクと製造/輸送履歴はほとんど共有されません。障害が製造中または輸送中の何かによって引き起こされた場合、根本的な原因は他のディスクでは発生しなかった可能性があります。
  • ディスクが到着時に死んでいる、または最初の数時間の使用中に故障した場合、それは発送品が到着した直後に検出され、返品プロセスがよりスムーズに進む場合があります。

個別に購入、短所

  • 手頃な価格の十分なベンダーを見つけるのにかなりの時間がかかります。注文の追跡、配達の失敗、破損した商品の返品、その他の問題の解決には時間がかかる場合があります。
  • 送料が高くなる可能性があります。
  • 新しいディスクが必要になる可能性は非常にありますが、手元にあるものはなく、プロジェクトが停止します。
  • 想像上のメリット。ベンダーや購入した日付に関係なく、すべてのディスクは同じ場所からのものであり、実際には同じです。製造上の欠陥は品質管理によって検出され、標準以下のディスクは販売されなかっただろう。配送中の損傷は非常に重大なものである必要があり(そして肉眼ではっきりと見える)、損傷したドライブは開梱時に明らかになります。

単純に箇条書きで数えた場合、「一括購入」がかなり明確に勝利します。しかし、いくつかの長所は弱く、一部の短所は強力です。箇条書きの多くは、他のいくつかの論理的な逆を単に述べています。これらのいくつかはばかげた迷信かもしれません。しかし、迷信がアレイの整合性を維持する上でより良い仕事をするなら、私はそれと一緒に進んでも構わないと思います。

ここで最も賢明なグループはどれですか。

更新:この議論に関連するデータがあります。私が個人的に構築した最後のアレイ(約4年前)には8つのディスクがありました。 1つのベンダーに注文しましたが、購入をそれぞれ約4か月で4つのディスクの2つの注文に分割しました。アレイの1つのディスクは、稼働してから最初の数時間以内に故障しました。それは最初のバッチからのものであり、その注文の返品ウィンドウはすべてをスピンアップするのにかかった時間に閉じていました。

4年後、元の7枚のディスクと1枚の交換用ディスクは、エラーなしで動作しています。 (木のノック。)

96
smitelli

実際には、エンタープライズベンダー(HPE、Dellなど)から購入する人はこれを心配する必要はありません

これらのベンダーから供給されたドライブは、同じ部品番号ですでに複数のメーカーに分散しています。

特定のSKUの下のHPディスクは、HGST、Seagate、Western Digitalのいずれかです。

同じHPパーツ番号、製造元、ロット番号、ファームウェアのバリエーションenter image description here

ただし、バッチの失敗の可能性を出し抜く/裏切ろうとするべきではありません。心の安らぎを与えてくれるなら、試してみても大丈夫ですが、努力する価値はないかもしれません。

クラスタリング、レプリケーション、確実なバックアップなどの優れたプラクティスは、バッチ障害に対する真の保護策です。ホットスペアとコールドスペアを追加します。システムを注意深く監視します。 ZFSのようなスマートなファイルシステムを活用してください:)

また、ハードドライブの障害は必ずしも機械的なものとは限りません...

56
ewwhite

Ewwhiteからの回答とは異なり、一部のシステム管理者はバッチで注文します。私自身、ドライブを個別に注文することは決してしませんでしたが、私がそのような容量で作業した最後の場所での標準的な操作は、ドライブをバッチで注文することでした。 12台のドライブマシンの場合、SOPは、ドライブを3つのバッチに分割し、マシンに3層の冗長性プロファイルを与えることを指示しました。

しかし、私が相談した他の小さな衣装は、異なるプロトコルに従っており、一部はバッチに関係なく、他は2つまたは4つのアレイにバッチを分割しています。短い答えは、達成する必要があるサービスのレベルに適切と思われることを実行することです。

サイドノート:私が働いた最後の場所は確かに正しいことをしていました。アプリストレージマシンがドライブのバッチ全体で失敗することを決定したところ、この特定のバッチすべてに同じ障害があることがわかりました。バッチプロトコルに従わなかった場合、壊滅的なデータ損失が発生しました。

43
Wolfish

死にかけているレイドアレイと困難なドライブに対処するために多くの時間を費やした誰かからの正直な答え:回避できる場合は、同じバッチからすべてのドライブを持たないでください。

私の経験はディスクの回転にのみ適用されます。SSDには、大量注文時に考慮すべき独自の問題と利点があります。

物事を処理するための最良の方法は、主に、使用するアレイの大きさによって異なります。2つのドライブ冗長性を備えた6つのドライブアレイのようなものを使用している場合、3つのメーカーから同様のドライブを安全に購入してアレイを分割できますそのように。

奇妙なドライブを使用している場合、または簡単にパーティション分割できないアレイを使用している場合は、別のベンダーから同じドライブを購入するなどの他のアプローチを試すか、まとめて購入する場合は、一緒に製造される可能性に基づいてドライブを分離してみてください。

適切な基盤技術を備えた十分に小さなアレイを実行している場合は、異種ディスクサプライから段階的に構築する価値があるかもしれません。あなたが逃げることができる最小数のドライブから始めて、1ヶ月か2ヶ月後、またはシステムがいっぱいになったときに次のサプライ品を購入してください。また、選択した特定のモデルで発生する可能性のある問題の感触をつかむこともできます。

このアドバイスの背後にある理由は、2つの奇妙なドライブの組み合わせです。

  1. 同様の発生元を持つドライブが多数ある場合、MTBFは著しく壊れます。統計では、これをサンプリングバイアスと呼びます。サンプルが類似しているため、平均化の効果はあまり役に立たない傾向があります。バッチまたはデザイン自体に障害があり、それが予想よりも頻繁に発生する場合、そのバッチからのドライブはMTBFが示唆するよりも早く失敗します。

    ドライブが分散している場合、MTBFは[50%、90%、120%、200%]になる可能性がありますが、すべてのドライブがその50%バッチからのものである場合、手に混乱が生じます。

  2. RAIDアレイの再構成によりディスクが強制終了されます。いや、本当に。ドライブに障害が発生してアレイが再構築されると、データをスキャンして他のドライブに負荷をかけることになります。故障に近いドライブがある場合、再構築によってそれが取り除かれる可能性があります。または、そのセクションが最近読み込まれていなかったために気づかなかった故障箇所がすでにある場合があります。

    同じバッチから多数のドライブを取得している場合、この種のカスケード障害が発生する可能性は、それらが異なる場合よりもはるかに高くなります。定期的なパトロールスキャン、スクラブ、再同期など、使用しているアレイのタイプに推奨される方法であれば、これを軽減できますが、欠点は、パフォーマンスに影響し、完了するまでに数時間かかる可能性があることです。

ドライブの寿命がどれほど激しく変動するかについてのいくつかのコンテキストでは、Backblazeは定期的にドライブ障害の統計レポートを作成します...私はどのような方法でも会社とは関係ありませんが、ドライブの信頼性に関して何を話しているかを知っている必要があります。例は https://www.backblaze.com/blog/hard-drive-failure-rates-q1-2017/ ...サンプルセットはおそらく小さくなるため、外部のデータが混乱する可能性がありますあなた自身の経験をアップします、それはまだ良いリファレンスです。

38
Kaithar

私は数年前にこの問題を顧客のために検討しなければなりませんでした。マルチソースへの推奨を裏付ける実践的な経験と研究を組み合わせています。

現時点での長所と短所、および ewwhiteの優れた答え を別にしておくと、慎重に、ドライブを自分で購入する場合は、マルチソース化することをお勧めします。ウィキペディアでのRAIDの弱点に関する議論をざっと見てみると、興味深い参考文献が2つあります。

最初のリファレンスはACMペーパーRAID:高性能で信頼性の高いセカンダリストレージ(Chen、Lee、Gibson、Katz、およびPattersonです。ACMコンピューティング調査。26 :145-185)。セクション3.4.4で、ハードウェア障害は常に統計的に独立したイベントではないことを著者は指摘し、その理由を説明します。この回答を書いている時点では、この論文はオンラインで入手できます。 pp 19-22は信頼性について議論します( http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.41.3889 )。

2番目の参照は現実世界でのディスク障害:1,000,000時間のMTTFはあなたにとって何を意味しますか?(Schroeder、Gibson。5th USENIX Conference on Fileとストレージテクノロジー。)著者は、独立したイベントで予測されたよりも高い速度でドライブの障害が時間内にクラスター化される可能性があるという主張を裏付ける統計データを提示しています。この回答を書いている時点で、このペーパーはオンラインでも入手できます( https://www.usenix.org/legacy/events/fast07/tech/schroeder/schroeder_html/index.html )。

大規模なディスク環境で関連するディスク障害が発生したため、2012年にRAID 5に対してデルは明示的に推奨しました。 RAID 6は、2019年前後に同様の理由で信頼性が低くなると予測されています(「why-raid-6-stops-working-in-2019」というタイトルのZDNet記事: http://www.zdnet.com/article/why -raid-6-stops-working-in-2019 / )。これらの両方の重要な要素はディスクサイズと再構築時間ですが、より小さなドライブサイズとmultisourcingがRAID 5の問題の緩和策として推奨されていました。

したがって、可能であれば、ドライブをマルチソースします。 ewwhiteの回答 で説明されているように、エンタープライズベンダーから購入する場合、これは透過的に発生する可能性があります。しかし...私の顧客は、エンタープライズベンダーから2 TBドライブを16台購入しました。彼らはたまたま同じメーカーのものであり、同時に製造されているように見えました。 RAID01アレイの構成から2週間以内に2台のドライブが故障しました。入手したら、ドライブを確認してください。 (とにかくすでにチェックしていますよね?)

9
Eliodorus

ドライブを個別に注文することのもう1つの潜在的な欠点は、パッケージングと取り扱いです。

ハードドライブは、ほとんどの場合、小売パッケージでは提供されません。一度に1つずつ購入すると、ほぼ確実に売り手が再梱包します。この再パッケージ化は非常に変化しやすいものであることがわかりました。場合によっては、十分なパディングのあるナイスボックスが表示されることもありますが、パディングがほとんどない場合もあります。

箱が小さいほど、外見上明らかな損傷を与えることなく、運送業者に投げられやすくなります。

4
Peter Green

私はいつも中古/バルクを買います。私が追跡する注文は、ほとんどの場合同じデバイスモデルであり、少なくとも使用されると、「不良バッチ」に関する懸念が軽減されます。非常に多くのファイアセールハードウェアがウェブ上に浮かんでいるため、ミッションクリティカルなハードウェア(およびすべてのバックアップハードウェアがまだ再生中である!)でない限り、新しいドライブ(またはそのほかのこと)の購入を正当化するのに苦労します。

+ PRO:競争力のあるオンライン価格と、変化するビジネス環境からのハードウェアの絶え間ない洪水により、作業環境を引き出すために小売りを50〜80%オフにするのにほとんど手間がかかりません。

+ PRO:低価格であると、予算を解放して過剰購入し、交換用ハードウェアの確実な在庫を維持できます。

+ PRO:販売者との関係私は、再生品/中古ハードウェアのすでにかなりの割引からわずかな割引を受けるオンライン販売者をいくつか持っています。あなたが大量に購入しているか、SLAを持っている場合を除いて、Monopriceでそれを取得することは通常ありません。また、特にハードドライブでは、箱から出してすぐにテストしてください。 DOAハードウェアの払い戻しや交換を行わない売り手に問題があったことはありません(それが私が見つけられなかった詐欺でない限り)。

-CON:保証、正当性の問題保証はデバイスの製造日に基づいています。また、ブランド変更やクローンなどを販売しようとするオンラインハクスターを監視する必要があります。

-CON:テストテストのオーバーヘッドを考慮する必要があります。とにかく、これが当てはまるかどうかわからないため、新しいハードウェアもテストする必要があります。

-CON:寿命の判断が難しい。ディスク障害の影響を受けやすくなります。

注:クライアントビルドであり、明示的なリクエストが再生/使用されていない場合、常に光沢のある/新規の!

2
mlxs

「不良バッチ」シナリオを緩和しようとしている場合、つまり、特定の購入バッチのすべてのドライブがほぼ同時に故障する可能性がある/発生する可能性がある場合は、アレイのサイズと使用するRAIDレベルを考慮することも重要です。

複数の注文を行うことを検討している場合、セットの基準は全面的に適用できません。 2層から4層の購入を推奨している場合、ドライブの1つの層全体が故障しても、アレイはまだオンラインですか?したがって、1/5/10/50のような冗長性RAIDレベルの場合、ドライブを一度に1つ購入する必要があります。 RAID6の場合、一度に2つ購入できます。

定期的にバックアップするドライブを購入する方法や、アレイサイズとRAIDタイプに適したホット/コールドスペアを購入する方法に関係なくお勧めします。

2
Brian D.

異なるバッチ、理想的にはメーカーのハードドライブを使用することで、信頼性を高めることができます。そうしないと、時間内に失敗しすぎる可能性があります。 @Eliodorusの優れた答えは、これを十分に説明しています。

もちろん、ドライブをシャッフルする人は関係ありません。プロバイダーがそれをすでに確認している場合は、気にする必要はありません。しかし、おそらく別のプロバイダーでさえフォレンジックを行うことは合理的ではないと思われ、直接指示されない場合は誰かがあなたのために行うと結論付けます。プロバイダーは通常、ドライブの信頼性を高めるために講じているさまざまな手段を宣伝するのに怠惰ではありません。

1
h22

実際、それは 安価なディスクの冗長配列 (Raid)レベルに依存します。 RAID 2、3、4、5、および6では、いくつかの異なるバッチからドライブを作成することは役立ちますが、決定的なものではありません。これらのレベルを使用すると、本質的に信頼性とパフォーマンスが失われます。

ここで、Raid 1(ミラーリング)または1 + 0(ミラー上のストライピング)を使用するという通常の健全な選択の場合、各ミラー(各Raid 1アレイ)の異なる側に異なるドライブを配置して、リカバリ中にミラーに障害が発生しないようにします。また、リカバリ期間を最小限に抑えるために、ホットスペアが必要です。

詳細については、上級DBAの権威ある Oak table network による、ほのぼのだが有益なBattle for Any Raid ‘F’2(Baarf)Webサイトをチェックしてください。 Wikipedia も問題をうまくまとめています。

1
Leandro