データベースサーバーのRAIDコントローラー Lenovo ThinkServer RD120と格闘しました。 Lenovo/IBMが ServeRAID 8k をダブするのは、Adaptecのブランド変更です。
これにパッチを適用しました ServeRAID 8k 最新かつ最高のものまで:
このRAIDコントローラーは、私たちがそれを所有していた4か月の短い期間でさえ、複数の重要なBIOSの更新がありました 変更履歴 は、まあ、恐いです。
論理RAIDドライブでライトバック戦略とライトスルー戦略の両方を試しました。 ディスクアクティビティが激しい場合でも、断続的なI/Oエラーが発生します。それらは一般的ではありませんが、SQL Server 2008 I /の原因となるため、発生すると深刻ですOタイムアウト、場合によってはSQL接続プールの障害。
私たちはこの問題のトラブルシューティングをしている最中だった。サーバー全体の交換やRAIDハードウェアの交換などのハードコア機能が不足しているため、絶望的になりました。
サーバーを最初に入手したとき、ドライブベイ#6が認識されないという問題がありました。奇妙なことに、ハードドライブを別のブランドに切り替えると、これが修正されました。RAIDBIOSを更新すると(最初は何度も)恒久的に修正されたため、ベイ6で元の「互換性のない」ドライブを使用できました。正直なところ、私は Western Digital SATAハードドライブ がServeRAID 8kコントローラーとなんらかの理由で互換性がないと選択したと思い始めました。
6台の新しいハードドライブを購入することは、テーブルで最も安価なオプションの1つだったので、IBM/Lenovo RAIDコントローラーの可能性が高いという理論の下で 6台のHitachi(別名IBM、別名Lenovo)ハードドライブ を選びました通常販売されているドライブで動作します。
その予感が報われたように見えます-私たちは、どのような種類のI/Oエラーも1つも発生せずに、最も重い負荷の3日間(月、火、水)を過ごしました。これ以前は、この時間枠で少なくとも1つのI/O「イベント」が定期的に発生していました。 ハードドライブのブランドを切り替えることで、断続的なRAID I/Oの問題が修正されたようです!
IBM/Lenovoが自社ブランドのハードドライブのみを使用してRAIDコントローラーをテストしていることは理解していますが、RAIDコントローラーが特定のブランドのハードドライブでこのような微妙なI/Oの問題を抱えていることに不安を感じています。
だから私の質問は、この種のSATAドライブの非互換性はRAIDコントローラーと共通ですか?他のブランドよりもうまく機能するブランドのドライブはありますか?特定のRAIDコントローラーに対して「検証済み」ですか?私は、すべてのコモディティSATAハードドライブが類似しており、特定のRAIDコントローラー(十分な品質)で適切に機能すると想定していました。
はい、ローエンドのカードとバグのあるドライバーでこれに遭遇しました。ただし、no、最新のAdaptecブランド変更カードではありません。すごいです。考慮すべきことの1つは、RAIDコントローラよりもドライブのバグのほうが多いかもしれません。
良い答えはありませんが、カードの交換以外のオプションのほとんどを使い果たしたようです(そしてドライブの交換でうまくいきました)。トラブルシューティングのために検討できるいくつかのアイデアを次に示します。
WDドライブはRE(RAID Edition)ドライブでしたよね?時間制限のあるエラー回復が重要なので、それがなく、ドライブがセクターを回復しようとしている場合は、そのドライブからルーポーズを取得します。 RAIDコントローラーが忍耐強く、ドライブを落とさない場合は、手に大きな問題が発生します。
ドライブ上のSMARTデータ削除したものを確認し、何か面白いものがあるかどうかを確認します。
NAS/RAIDベンダーサポートからの時間制限エラー回復(TLER)機能の重要性に関する別のコメント:
前に述べたように、RAID設定でドライブを使用する場合は、常にエンタープライズレベルのドライブを使用することをお勧めします。 エンタープライズレベルのドライブは、RAIDがより安全になるように、より一貫した応答時間を持っています。
RAID以外の、昔ながらのデスクトップハードドライブの場合でも、ベンダーからドライブを購入すると(予想されるばかげたマークアップで)、多くの場合、違いが生じる可能性があります。たとえば、Appleは、実際に機能するドライブのみを出荷するように注意しています Mac OS Xの_F_FULLSYNC
_ fcntl()
フラグを尊重 、 Time Machine バックアップが確実に機能することを確認するのに大いに役立ちます。
繰り返しますが、これは単純なバニラdesktopの使用であり、RAIDは関与しません。それよりも複雑で、ベンダー独自の高額なドライブではないにしても、間違いなく購入したいものは、少なくとも、ベンダーの「承認済み」リストにあることが確実なドライブモデルです。
それで、あなたの質問に答えることは一般的ですか?はい、企業の領域を超えても、あなたが思っているよりも一般的だと思います。
それ自体は一般的ではないと思います。ただし、エンタープライズストレージコントローラーの使用を開始するとすぐに、それがSANまたはスタンドアロンのRAIDコントローラーであるかどうかに関係なく、通常、互換性リストにかなり厳密に従う必要があります。
安いディスクの範囲を購入することで、ステッカーの価格をいくらか節約できるかもしれませんが、ほとんどのシナリオでデータの重要性を考えると、それはおそらく私がお金を節約したい最後の分野の1つです。
つまり、明示的な非互換性は非常にまれですが、明示的な互換性の順守をお勧めします。
サーバーにSATAディスクを使用することは夢にも思いません。サーバー品質のドライブに期待されるデューティサイクルがなく、SCSI/SASがドライブのパフォーマンスと状態を監視するための豊富なコマンドセットもありません。 Lenovoサーバーは、サーバーがたくさんあり、どれもそれほど重要ではない場合、安価で優れていますが、HPの300シリーズサーバーが市場の40%を占める理由があります-それらは機能します。特に、「SmartArray」ディスクコントローラーは信頼性とパフォーマンスにおいて比類のないものであり、障害前の保証は歓迎すべき追加です。最も安くはありませんが、あなたの時間はどれくらいの価値がありますか?私は20年間(よくCompaqの最初のTB)サーバーを購入してきましたが、年間500〜800台のサーバーを購入しても問題はありません。真剣にそれらをチェックしてください。
いつものように答えは「状況次第」です。
特定のエンタープライズストレージ(EMCなど)の場合、ベンダーはドライブを具体的に認定し、カスタムファームウェアのロードの範囲まで移動します。
Markが言っているように、ベンダーの承認済みリストがある場合は、それをフォローするときに最高だと思います。初期のコスト削減は、グレムリンを追い詰めるのに費やされた時間よりも重要です。
SASコントローラーがありますが、これが問題になる可能性があります。SASプロトコルを使用してATAコマンドをトンネリングできますが、物理レベルでのシグナリングは少し異なります( SASはより高い電圧とより広い差動を使用します)ほとんどすべてのコントローラーはSATAドライブと直接通信できますが、中央に(大きな?くだらない?)バックプレーンがあると、信号が途切れる可能性があります。通常、企業の世界ではSATAドライバーを接続しています。 直接 SASコントローラーは公式にはサポートされていません。インターポーザー(一方の側で完全なSAS)を理解するディスクに直接接続する小さなロジックボード)を使用する必要があります。 =プロトコル、もう一方はATAを話します-このようにして、バックプレーンはより高いSASシグナリング)を伝送します。
やや関連:SASと同じバックプレーン上のSATAドライブの混合は、すべてのドライブ(SASを含む)のシグナリングがSATAレベルに低下するため、失敗する傾向があります。
RAIDコントローラーを扱うエンジニアとして、一部のブランドのドライブで特定のRAIDコントローラーに問題が発生することは珍しくありません。すべてのドライブには特定の癖があり、コントローラーの「互換性のあるデバイス」リストにリストされているドライブモデルには、コントローラーがその癖を説明します。ドライブモデルがリストに表示されるためには、パフォーマンスと信頼性に関するコントローラーメーカーの基準を満たしている必要があります。このリストにないドライブは機能する可能性がありますが、「承認された」デバイスであるYMMVと同じ厳密なテストを経ていないためです。
特に、SATAプロトコルでは、ドライブまたはコントローラーで定義できるベンダー固有の(標準化されていない)コマンドを使用できます。あなたの場合、ドライブが特定のプロプライエタリコマンドに応答することを期待しているコントローラー、または決して到着しないプロプライエタリコマンドを期待しているドライブを見ているかもしれません。
もう1つの可能性は、問題のあるドライブが特定のストレスの多いワークロードではうまく動作せず、Adaptec/IBMがそのドライブモデルをサポート対象としてリストに表示しないという動作でした。
残念ながら、ストレージプロトコル(SATA、SASなど)は、他の標準化されたインターフェイス(USB、PCIなど)ほど優れていません。必要なのは、同じ言語を話すバスとデバイスだけで、すべて問題ありません。特にエンタープライズグレードの機器に関しては、デバイスメーカーとドライブメーカーは多くの共同作業に多くの時間とエネルギーを費やして、大多数のお客様が使用する構成(つまり、 「サポートされているデバイス」のリスト)。そのリストにないドライブは、異なるブランドのコントローラーで最適に動作するように設計されている可能性があり、表示されるエラーは最適化の副作用です。