まず、Windows 2008 R2 Two NodeクラスターがHAHyper-VとDHCPを実行しています。ストレージにバックエンドのDellMD3000i iSCSI SANを使用しています。すべてのネットワーキングは、冗長スイッチとMPIOドライバーを介して行われます。データネットワークは、プライマリネットワークとは異なるVLAN)上にあります。
これが私たちが遭遇し続けるシナリオです:
時々停電があります。キャビネットにはデュアルUPSデバイスがあり、それらは約15分ほど持続しますが、電源が回復しない場合は、すべてがダウンし、ノード、SANなどすべてがダウンします。
最終的に電源が復旧し、ACが戻ったときにすべてのデバイスが起動するように構成されます。ただし、このような完全な停止が発生すると、クラスターが正しくオンラインに戻ることはありません。クォーラムディスクが利用できないなどの通常のエラーが発生します。さらに、2つのプライマリドメインコントローラーは、VMクラスター上にある仮想マシンです。別のドメインとして実行されている物理サーバーがあります。コントローラーは、これがオンラインに戻ったときに役立つと考えています。
私たちが理解していないのは、システムが起動時にシステム自体を回復できない理由です。最終的には、認証に使用できるDCがあります。iSCSIネットワークがオンラインに戻ります。他に何かありますか?行方不明ですか?
これは、クラスターサービスの準備ができたときにiSCSIイニシエーターサービスが十分に速く開始されないことに関連している可能性があると思います。
役立つアイデアや投稿がありますか?
ありがとう、ブレント
停電後にクラスターが正常に復旧しないという同じ問題がありました。あなたと同じように、共有ストレージはiSCSISAN上にあります。私たちの修正は、VMホストとゲストの起動がSANが最初にオンラインに戻るのに十分な時間遅延するようにすることでした。これを行わないと、共有ボリュームが再接続しますが、オフライン状態のままであるため、クラスターに障害が発生します。
私は自分のシステムでこの問題に遭遇しました。電源障害が発生した後、ドメインコントローラーの準備ができていないか、SANの準備ができていなかったため、クラスターが復旧しませんでした。起動を遅らせるためのマネージドPDUまたはBIOSオプション、および起動遅延を追加する必要がある場合は、 このブログ に投稿された簡単な方法があります。
Server 2008で、コマンドプロンプトを開き、次のように入力します。
bcdedit /copy {current} /d "Boot delay placeholder"
bcdedit /timeout 300
これにより、2番目のブートメニューオプション(タイムアウトを表示するために必要)が作成され、タイムアウトが5分(300秒)に設定されます。サーバーは、タイムアウトに達するか、誰かがEnterキーを押すまで、ブートメニューに留まります。