面倒な問題があります。
VMWare vSphere5.1環境にサービスを提供する10Gbストレージネットワークがあります。
何が起こるか:週に1回から月に1回、ストレージネットワークデバイスはトラフィックの送信を停止し、すべてが炎上します。これが発生した場合、どのデバイスもストレージネットワーク上で相互にpingを実行できません。これは、スイッチがすべてのポートをシャットダウンしたか、動作を停止したかのようですが、スイッチを再起動しても何も起こりません。 Linuxおよびvmwareシステム内のネットワークステータスは「アップ」のステータスを報告しますが、それにもかかわらず、ネットワークインターフェイスを再起動しても何も起こりません。 TrueNASを含むがDellPowervaultを除くすべてのサーバーを再起動する必要があります。その後、オンラインに戻り、ネットワークが流れ始めます。
私がしたこと:これはしばらくの間続いていて、その間に私はすべてのNicsを交換し(320で、420にアップグレードしました)、スイッチを交換しました(Dell PC 8100でした) 、ケーブルを交換し、Dell PowerVaultMD3600iを追加しました。 TrueNASはプライマリストレージとして機能していましたが、そのジョブは現在PowerVaultに属しており、TrueNASはシステムバックアップのストレージとして機能しています。何が起こっているのかを示唆するログはありません。スイッチには、衝突やパケット送信エラーはありません。しかし、これらすべてに関係なく、問題は依然として発生します。
私がまだしていないこと: TrueNASのchelsioT320 NICを今夜、持っているスペアと交換します。私も行きます私のDellPowerConnect 8100 10Gbスイッチを元に戻し、TrueNASネットワークをそのスイッチに分離します。これは、TrueNASが現在、この問題で変更されていない唯一の定数であるためです。
私は何かが足りないのですか?:私はこれで終わりになり、コミュニティにこの問題を投げかけ、私がこれを考えすぎているかどうか、または問題を特定するのに役立つアイデアがあるかどうかを確認したいと思いました。私はこれでかなりの睡眠と髪を失っています。悪いNicがネットワークをダウンさせるのを見たことがありますが、ほとんどの場合、スイッチのポート統計で衝突を確認することで簡単に目撃できます。
ありがとうございました!ブラッド
ブロードコムのチップセットで フロー制御の欠陥 まで追跡した1Gネットワークでも同様の問題が発生しました。ハイPPS nicはPAUSEフレームをスイッチに送信します。PC62XXおよびその他のbroadcomベースのスイッチでは、デフォルトのアクションは、PAUSEをすべてのポートに伝播し、トラフィックを元のポートに送信します。 PAUSEフレームを受信しました。これは、最悪の場合、完全にシャットダウンするスイッチに伝播する可能性があり、少なくともトラフィックがブロックされていることがわかります。
結局、「フロー制御なし」ですべてのブロードコムスイッチのフロー制御をオフにしました。それ以来、高PPSによるネットワークまたはネットワーク全体の部分的な停止は見られませんでした。