したがって、これは4ノードのStorage Space Direct(S2D)クラスターであり、1.5年以上使用しても大きな問題はありません。 OSはWindows Server 2016です。
2日前に、クラスターイベントログに多くのエラーメッセージが表示され、クラスターでホストされているすべてのHyper-V VMのバックアップジョブが失敗しました(VEEAM経由で作成)。
調査により、SMB接続に多くの問題があることがすぐにわかりました。
4つのホストのいずれか:
net time \\server
が失敗する、w32tm /monitor
も失敗する)明らかに、ファイル共有監視も失敗し、ドメインサービスに関するいくつかの問題が報告されます...
ノードを個別に再起動しようとしましたが、再起動後、SMB接続は数分/時間で問題ありません。その後、問題が再び発生します。
クラスターへの影響は、ファイル共有監視がオフラインになったことに加えて、ノード間のVMのライブマイグレーションを簡単に実行できないことです(ランダムに成功します)。ただし、クイックマイグレーションは魅力的です。 SMB接続は不可能であるため、VMを別のクラスターまたはスタンドアロンホストに移動できません。
ノードに制御不能な障害が発生した場合、クラスターが不安定になることを恐れています。 VMは安定していますが、バックアップを実行することはできません(エクスポートを実行できます)。
S2DまたはMicrosoftフェールオーバークラスターの役割の問題について聞いたことがありますか?また、クラスター自体とは無関係である可能性もあります...
この問題の根本的な原因を見つけるために何ができますか?
以下は、クラスターの役割、およびSMBCLientのイベントログにあるログのサンプルです。
クラスタコンソールから:
クラスターネットワーク名リソース 'クラスター名'で、このノードでネットワーク名を有効にするときにエラーが発生しました。失敗の理由は、「ログオントークンを取得できません」でした。
エラーコードは「1311」でした。
ネットワーク名リソースをオフラインにしてから再度オンラインにして、再試行できます。
ID 30803のイベント:
ネットワーク接続の確立に失敗しました。
エラー:{デバイスタイムアウト}%hsで指定されたI/O操作は、タイムアウト期間が経過する前に完了しませんでした。
サーバー名:server.domain.com
サーバーアドレス:x.x.x.x:445接続タイプ:Wsk
ガイダンス:これは、SMBではなく、TCP/IPなどの基になるネットワークまたはトランスポートに問題があることを示しています。 TCPポート445、またはiWARP RDMAアダプターを使用するときにTCPポート5445をブロックするファイアウォールも、この問題の原因となる可能性があります。
別のもの、ID 30804:
ネットワーク接続が切断されました。
サーバー名:\ server.domain.comサーバーアドレス:x.x.x.x:445接続タイプ:Wsk
ガイダンス:これは、サーバーへのクライアントの接続が切断されたことを示します。
RDMA over Converged Ethernet(RoCE)アダプターを使用しているときに頻繁に予期しない切断が発生する場合は、ネットワークの構成に誤りがある可能性があります。 RoCEでは、RoCEネットワーク上のすべてのホスト、スイッチ、ルーターに対して優先フロー制御(PFC)を構成する必要があります。 PFCを適切に設定しないと、パケットが失われ、頻繁に切断され、パフォーマンスが低下します。
私は解決策を見つけました、それは愚かなことでした。ホストには、異なるVLANへのネットワークアクセス用にいくつかのNICがありました。 NICの一部は仮想スイッチにマップされ、一部はOSと共有されました( '管理オペレーティングシステムがこのネットワークアダプターを共有することを許可します')。
SMBパケットが誤ったインターフェイス(DMZ)を頻繁に使用していることに気づきましたが、もちろん要求は拒否されました。
SMBトラフィックが使用する間違ったルートを特定するために使用したPowershellコマンド:
Find-NetRoute -RemoteIPAddress x.x.x.x
(x.x.x.xはネットワーク上のリモートリソース)
これは、LANインターフェースではなく、DMZインターフェースを示しています。 DMZ vSwitchの「管理オペレーティングシステムがこのネットワークアダプターを共有できるようにする」を削除すると、問題が解決しました。
この構成では、このクラスターが1.5年間どのようにうまく機能したかはまだわかりません。しかし、まあ、それは今解決され、FSWと他のすべての操作はうまくいきます。
これが役立つことを願っています;)