RAIDコントローラに障害が発生した場合、交換されるまでサービスは中断されますか？

Question

RAID 1に2台のドライブがあり、RAIDコントローラに障害が発生した場合、それは、コントローラが交換されるまでサーバー上のWebサイトにダウンタイムが発生することを意味しますか？または、障害のあるRAIDカードが交換されるまで、ソフトウェアRAIDとしてすべてが自動的に続行されますか？

TomTom · Accepted Answer

または、障害のあるRAIDカードが交換されるまで、ソフトウェアRAIDとしてすべてが自動的に続行されますか？

それはどのように機能しますか？ソフトウェアは、ディスクコントローラーとして機能するハードウェアRAIDを魔法のようにバイパスしますか？ OSはディスクを認識しないだけでなく、実際にはハードウェアRAIDコントローラに物理的に接続されています。コントローラに障害が発生すると、ディスクへの接続が失敗します。

だから、あなたは下ります。これが、小規模なセットアップがクラウド製品から多くを得る理由であり、大規模なセットアップは複数のサーバーを持っています。

peufeu · Answer

rAIDコントローラが失敗する

私は電子工学エンジニアなので、「失敗」という言葉の私の精神的なイメージはソフトウェアエンジニアのものとは異なる場合があります...つまり、デバッグのために安全メガネをどれくらいの頻度で着用しますか？

RAIDコントローラーボードに、MOSFETの短絡、火の玉に破裂するタンタルコンデンサー、電源装置の事故などのハードウェア障害がある場合、サーバーの電源装置が短絡を検出してシャットダウンするなど、多くのことが起こります。この場合、すべてがダウンします。

RAIDカードのメインチップが突然停止した場合、次に何が起こるかは、OSとドライバーが予期せぬ周辺装置の突然の停止をどのように処理するかに大きく依存します。たとえば、ハードディスクが故障したPCを使用していました。 OSがハードディスクの応答を待つ間、PCはしばらくフリーズしました。

OSやドライバーを作成する人は、通常、動作するハードウェアでこれを行います。そのため、「拡張カードCPUが発火したばかり」を処理するコードはデバッグされていません。非難することはできません。人生の事実。

USBペリフェラルを設計したのはこのときでした。私がジャンクラップトップでデバッグする必要があることにすぐに気付きました。USB周辺機器の動作が少し異常だと、OSがOMFGになり、クラッシュまたは再起動するためです。

要するに、ハードウェア障害が発生したPC内のカードは、まったく何もないことから、カーネルパニックや完全なシャットダウンまで、あらゆる種類の問題を引き起こす可能性があります。だからあなたの質問に答える方法はありません。 RAIDカードの障害は、マザーボードの障害に似ています。重要なのは、データを元に戻すことだけです。

Mike · Answer

ソフトウェアRAIDまたはハードウェアをセットアップします。ソフトウェアはraid 1の2つのディスクを1つのディスクとして認識するため、魔法のようにピックアップすることはできません。カードの背後にある物理ディスクはわかりません。 RAIDカードがOSに提示するものだけを認識します。

したがって、あなたの質問に答えるために、レイドカードが失敗した場合、サーバーはそれにダウンしています。 RAIDカードが失敗することは非常にまれです。

ppetraki · Answer

そのレベルの可用性が本当に必要な場合は、StratusテクノロジーのftServer、99.999％の稼働率を調べることをお勧めします。ほとんどのOSを使用でき、アプリケーションの設定を変更する必要はありません。

私は10年ほど前にそこで内部ストレージの作業をしました。任意のデバイスを驚かせて取り外し（文字通り常にpci resetをアサート）、障害を検出し、サービスの中断なしにセカンダリにフェイルオーバーできます。ロックステップテクノロジーを使用してこれを実現します。

しかし、それは高価ですが、とんでもないことではありません。同等のサーバーの3〜4倍のコスト。通常これらを購入する人々は、ダウンタイムを数万ドル/秒で測定します。