SQL Server2008および2008R2 Enterprise/Datacenterに使用されるWin2008および2008R2Enterpriseクラスターが数十あります。過去に、地球の反対側にあるいくつかのサーバーで、ランダムフェイルオーバーと「ネットワークがパーティション化されています」エラーに関する多くの問題が発生しました。これはほとんど解決されましたNICドライバーを更新し、Forefront Endpoint Protectionをアンインストールしました(それがすべてにどのように影響したかはわかりません)助けた)。
11月まで6か月早送りすると、SCOMとイベントログから、クラスター(特に2つ)が週に数回「NetworkisPartitioned」エラーで失敗しているというアラートが絶えず届きますが、実際には失敗は発生していません)。 SQL Serverはまだ稼働しており、Webフロントエンドでサービスの中断は認識されません。エラーは「パッシブ」ノードから発生し、ネットワークを介して複製されるようです(パッシブから最初のアラートを受信し、次にアクティブ、次にWebフロントエンド)が、すべてのノード/ネットワークアダプター/ディスク/アプリケーション/ IP /ウェブサイトは機能し続けます。クラスターやネットワークなどに問題がないように見えるときに、これらのエラーが継続的に表示される理由を見つけることはできません。私たちが調査に行くことができる原因または考えられる方向についてのアイデアは素晴らしいでしょう。
ネットワークのパーティション分割エラーが発生した場合は、現在クラスターアプリケーションを実行しているサーバーが他のノードから何らかの方法で分離されていることを意味します。他の障害がないと仮定すると、サービスが引き続き実行される可能性は完全にあります(そして可能性が高いです)。警告は、フェイルオーバーが必要な場合、失敗する可能性が高いことを示しています(通常、ノードにディスク/ CSVを渡すためのパスがないため)。
問題のサーバー間のネットワークトポロジとクラスターネットワーク設定を注意深く確認してください。フェールオーバークラスターが、SQLサーバーが使用していたものとは異なるノード間通信(つまり、個別のVLAN)にマルチパスNICを使用していたという厄介な経験がありました。プライマリクラスター接続とバックアップクラスター接続の両方が、1つのスイッチのみがダウンした場合にクォーラムが失われる可能性があるようにパスしていたため、SQLサーバーはオンラインとして表示されますが、クラスターはパーティション化された状態で表示されます。スイッチ)が失敗すると、クラスターがハードダウンします。