「エンタープライズ」ドライブは、状況によってはニア/ミッドラインで安全に交換できますか？

Question

ストレージの専門家ではない多くのエンジニアのように（私は推測します）サーバーを指定するとき、最低でも10k SAS「システム」データ（通常はOS、場合によってはアプリ）用のドライブ（したがって、24時間365日のデューティサイクルを備えた「エンタープライズ」グレード）で、7.2kミッド/ニアラインドライブの使用を予約パフォーマンスが重要な要素ではないシステムデータ。3.5インチ（LFF）ディスクは大容量で低IOPの要件にのみ関連するため、これはすべて2.5インチ（SFF）ディスクを想定しています。

非システムデータが大量にない状況では、通常、システムデータと同じディスク/アレイに配置します。つまり、サーバーには10kのドライブしかありませんSASドライブ（最近は「One Big RAID10」タイプのセットアップが一般的です。）非システムデータのサイズが大きい場合のみ、通常、7.2kミッド/ニアラインディスクの別のアレイに配置してコスト/ GBを維持することを検討しますダウン。

これは私に不思議に思わせました：状況によっては、RAID10アレイ内のそれらの10kディスクを7.2kディスクに置き換えても、重大な悪影響はありませんか？言い換えれば、私は時々、最低10kの「エンタープライズ」グレードのディスクに固執することで過剰仕様（およびハードウェアベンダーを満足させる）ですか、それとも常に最低限に固執する十分な理由がありますか？

たとえば、典型的な中小企業（たとえば50人のユーザー）のVMが2つあるハイパーバイザーとして機能するサーバーを考えてみます。同社には特別な要件のない平均的なI/Oパターンがあります。典型的な9-5月曜から金曜のオフィスで、バックアップが1晩数時間実行されています。 VMはおそらくDCおよびファイル/印刷/アプリサーバーです。サーバーには、すべてのデータ（システムおよび非システムデータ）を格納するための6つのディスクを備えたRAID10アレイがあります。）専門家ではない目、それはまるで中間/ニアラインのディスクがうまくいくかもしれないように見えます。

ワークロード：ミッドラインディスクは、40％未満のワークロード用に評価されています。オフィスは1日9時間しか開いておらず、その期間の平均I/Oが最大に近いとは考えにくいため、ワークロードが40％を超える可能性は低いと思われます。バックアップのために夜間に数時間の激しいI/Oがあったとしても、それはまだ40％未満だと思います
速度：ディスクはわずか7.2kですが、6つのディスクに分散することでパフォーマンスが向上します

だから、私の質問：少なくとも10k SASドライブ、または7.2k midline/nearlineディスクは実際に多くの状況で十分以上であるか？安全なプレーをすることで、無知への奴隷になることを避けようとしていますか？

私の経験は主にHPサーバーでの経験なので、上記はHPに少し傾いているかもしれませんが、原則はベンダーにかなり依存していると思います。

ewwhite · Accepted Answer

ここには、サーバー設計、ディスク技術、および経済学の興味深い共通点があります。

また、 Large Form Factor（LFF）ディスクがまだかなり普及しているのはなぜですか？

高密度ラックマウントサーバーと小型フォームファクターサーバーへの移行。例えば。主要な製造元からのタワー製品はあまり見られなくなりますが、より高密度の製品ラインはより頻繁な改訂を享受し、より多くのオプション/可用性を備えています。
3.5インチエンタープライズ（15k）ディスク開発の停滞-600GB 15k 3.5インチは、可能な限りの大きさです。
2.5インチニアライン（7.2k）のディスク容量での進歩は遅い-2TBは、そこにある最大のものです。
大容量SSDの可用性の向上と低価格。
共有ストレージへのストレージ統合。大容量を必要とする単一サーバーのワークロードは、SAN経由で処理できる場合があります。
オールフラッシュおよびハイブリッドストレージアレイの成熟と、ストレージスタートアップの流入。

上記が、8-24個の2.5インチディスクドライブベイを備えた1U/2Uサーバーに焦点を当てているメーカーを見つける理由です。

3.5インチディスクは、低IOPの大容量ユースケース（2TB +）向けです。これらは、外部ストレージエンクロージャーまたはSAN何らかの形式のキャッシングが前にあるストレージ）に最適です。エンタープライズ15k RPMの速度では、 600GBまでしか利用できません。

2.5インチ10k RPM回転ディスクは、より高いIOPSのニーズに対応し、通常1.8TBの容量まで利用できます。

2.5インチ7.2k RPM回転ディスクは、容量、パフォーマンス、寿命、価格の利点がないため、不適切な呼び出しです。例：900GBのコストSAS 10kドライブは1TBのコストに非常に近い7.2k RPM SAS。価格差が小さいことを考えると、900GBドライブのほうが優れています。 1.8TB 10k SAS の例では、 2.0TB 7.2k SAS 、価格も非常に近く、保証はそれぞれ3年と1年です。

したがって、サーバーと2.5インチの内部ストレージには、SSDまたは10kを使用します。容量のニーズが必要で、3.5インチのドライブベイが内部または外部で利用できる場合は、7.2k RPMを使用します。

これまでに説明した使用例では、サーバーを過剰に構成していません。 2.5インチドライブベイがある場合は、実際には10k SASまたはSSDを使用する必要があります。ミッドラインディスクは、パフォーマンス、容量が失われ、大幅に短い保証で、コストを大幅に節約できません。

rackandboneman · Answer

couldが一部のドライブタイプで問題を引き起こす原因は少なくともいくつかあります。

多くのドライブを持つシャーシの振動負荷に対処することを目的としていないドライブ（RAID/NAS対応として指定されたドライブでは問題になる可能性は低い）
TLERを許可しないファームウェア、またはそれを有効にするためにドライブの時間のかかる手動再構成が必要なファームウェア（同上）
RAIDコントローラーを使用してテストされたことがないドライブ、およびそのようなセットアップで表面化する認識されていないバグがある可能性があります
ハードシャットダウンの場合に多くの混乱を引き起こす（物理的な書き込みが順不同であるか非常に遅延している）内部ドライブの書き込みキャッシュ（RAIDコントローラーはこれらを強制的にオフにするように構成する必要があります。ファームウェアが無視する必要がある場合の潜在的な問題）テストされていないドライブを参照してください:)
ドライブが時々内部メンテナンスルーチンを実行し、ドライブの動作が遅くなったり、十分な遅延で応答したりして、RAIDコントローラーに障害が発生したと見なされる（TLERに関連）
SATAは一般に、通常実装されているため、SAS完全にショットされたドライブまたは吊り下げられた電子機器がハングしているドライブに対してすべて（理論的ではない）リスク、特定のディスクとコントローラーのブランドの組み合わせは、その障害モードを好む）。

Brad · Answer

[〜＃〜] huge [〜＃〜]問題：

（ちょっぴり話題外かもしれませんが、私は重要です！）

SSDを扱う場合-（多くの場合、またはケースか誘惑のどちらかである可能性があります）-SSDのロットには厄介な問題があります自発的な停電から常に回復できるわけではありません！

これはHDDのtiny問題です。 HDDは通常、ロジックに電力を供給するのに十分な容量と、書き込み中に電源が失われた場合に、512バイトのブロックの書き込みを終了するまでプラッターを運ぶのに十分なangular勢いがあります。 rare一方、これは機能せず、結果として「破損した書き込み」-単一のブロックが部分的に書き込まれる可能性があります。部分的な書き込み（まれに）により、ブロックでチェックサムエラーが発生します。つまり、個々のブロックが不良になります。これは通常、ディスク回路自体によって不良として検出されます。アップストリームRAIDコントローラによって修正されました。

SSDは別の動物です。通常、「ウェアレベリング」と呼ばれるものを実装します。HDDのように「ブロックX」の物理的な場所に「ブロックX」を書き込むだけではありません。代わりに、フラッシュメディア上のdifferenceの場所への書き込みを試行し、（少しのバッファリングを使用して）書き込みを集約または結合しようとします。さまざまな場所への書き込みには、物事が書き込まれる場所の「マップ」を保持することが含まれます。これも、ウェアレベリングを減らすことを目的とした方法でバッファリングされ、書き出されます。ウェアレベリングの一部には、すでにデバイス上にあり、最近書き込まれていないデータの移動も含まれます。

この問題は、SSDが電源を失うと、メモリに大量のデータ（フラッシュされていない）があり、別の場所や変更された場所に書き出されたデータがいくつかあります。また、独自のメモリにこれらのマップが必要です。デバイス上のすべてのデータの構造を理解するためにフラッシュされます。

[〜＃〜]多く[〜＃〜]SSDには、コントローラを稼働状態に保ち、十分に長く機能させるためのロジックまたは回路がありません自発的パワーアウトにより、このデータすべてが安全にフラッシュされてから、データが消える前にフラッシュします。これは、あなたが書いた1つのブロックがjeprodyになる可能性があることを意味するだけでなく、他のブロックもallデバイス上のブロックがトラブル。多くのデバイスは、デバイス上のデータallを失うだけでなく、デバイス自体も失う問題を抱えていますがレンガになり、使用できなくなります。

これはすべて本当の理論ですが、（ストレージ業界で働いている）-私/私たちは、これが、あまりにも多くのデバイスで何度も起こっているのを見てきました。

多くのベンダーは、デバイス（「スーパーキャップ」）とその他の回路を明確に追加してクリーンな「フラッシュ」を可能にする「エンタープライズグレードのSSD」を作成することについて話し合っていますが、具体的にはそのデータシートの一部として、そのようなイベントからの十分で明示的なテスト済みの保護があり、そのようなイベントから保護することを述べています。

明らかに、フラッシュテクノロジーを利用した一流ベンダーから「ハイエンドストレージアレイ」を購入した場合、ドライブ-またはシステム全体これらすべてを考慮して設計されています。それがあることを確認してください！

あなたの質問に関する問題は次のとおりです：RAIDアレイがあり、いくつかのディスクがこの保護なしの「不良」SSDである場合-「自然停電」が発生した場合、失う可能性があります[〜＃〜]すべて[〜＃〜]上のデータ[〜＃〜]複数[〜＃〜]RAIDの再構築を不可能にするディスク。

「しかし、私はUPSを使用しています」

「自然停電」にはBSODやカーネルロック/クラッシュ/パニックなどの状況が含まれる可能性があることに注意することも一般的に重要です。システムのプラグを抜いて回復する方法はありません。