web-dev-qa-db-ja.com

Cisco 4900Mスイッチへの不安定な10Gb銅線リンク、BroadcomおよびIntelカード

QLogic/Broadcom BCM57810 PCI Expressカードを搭載した一部のDell PowerEdge R730サーバーを購入し、それらをCisco 4900Mスイッチに接続しました。10Gbリンクは確実に機能しません。接続しない場合もあれば、数分後に接続する場合もあり、接続する場合は1日に数回ドロップします。切断は4分または2時間続く場合があります。

シスコのスイッチには、Dell PowerVault SANへの既存の10Gb銅線リンクがあり、何ヶ月も安定して動作しています。

VMwareログの切断が次のようなメッセージとして表示されます。

bnx2x 0000:82:00.1: vmnic5: NIC Link is Down

そして

 network connectivity on virtual switch "vSwitch2". Physical NIC vmnic5 is down.

役立つエラーコードや以前のメッセージは表示されず、リンクがドロップしたことによるメッセージのみが表示されます。 Windowsでは切断されたカードとして表示され、スイッチでは切断されたスイッチポートとして表示されます。

リンクが接続すると、リンクが機能します。ジャンボフレームのping、ping、iSCSIセッションが確立され、データストアはすべてのパスが検出された状態で表示されます。ただし、接続は断続的です。

私たちはチェックしました:

  • ケーブル:
    • もともとはCat5e単一ケーブルで、現在はCat6構造ケーブル。ケーブル長は全体で7m未満です。
    • 新しいケーブルで接続し、パッチ/ジョイントや他のケーブルが近くにない状態でホストを切り替えます。
  • ドライバー/OS:
    • もともとはVMware ESXi 5.5 U2 Dellビルド( "ESXi 5.5.0、2068190")とbnx2xドライババージョン2.710.39.v55.2
    • 次に、vmware.com、bnx2xバージョン2.710.70.v50.7から更新されたドライバー
    • 次に、ESXi 6.0、Dellビルド(「ESXi 6.0.0 2494585」)、bnx2xバージョン2.712 ...
    • 次に、Dellのサイトからの最新のドライバを使用したWindows Server 2012 R2。
  • QLogic/Broadcomネットワークカードファームウェア。デルからの最新バージョン、FFv7.12.17です。
  • スイッチポートの設定、それは単にmtu 9000およびswitchport access vlan NNN
  • スイッチポート
    • これらは、8ポートの10Gb RJ45モジュール(WS-X4908-10G-RJ45)であり、スイッチごとに1つです。 SANは各モジュールの最初の4つのポートを使用し、新しいサーバーは各モジュールの残りの4つのポートを使用します。これは、新しいサーバーに使用しているすべてのポートに影響するようです。つまり、1つの障害のあるポートや1つの障害のあるモジュールではありません。
    • SAN接続を中断してこれらのポートをテストしようとしましたが、最後の手段となる5-8よりもポート1-4の方が信頼性が高いと考える特別な理由はありません。
  • スイッチインターフェイスは、切断以外のエラーなしでカウンターします。
  • Windows QLogic/Broadcomドライバーのさまざまなオフロード機能を無効にし、EnergyEfficientEthernetを有効にして、カードを自動検出ではなく10Gbに強制します。
  • 同じホストを同じスイッチに接続して1Gbポートに接続すると、正常に動作しているように見えますが、非常に高速に繰り返し接続します。
  • 2つのホストを相互接続し、10Gbですばやく接続し、数日間安定した接続を維持します。
  • Intel X540-t2カードを購入して試してみました。同じように動作します。
  • それ以来、Cat 6aパッチケーブルを購入してテストしましたが、変更はありません。

デルのサポートに電話をかけたところ、彼らは何も問題を発見せず、スイッチに障害があることを示唆していますが、スイッチがDell PowerVaultストレージへの10Gb銅線接続を実行しているため、スイッチの監視ログと= SANイベントログ、これらのリンクはドロップされません。Ciscoスイッチが問題であるとは思わないです。

IOS 15.1(1)SG2は最新ではありませんが、スイッチは稼働していて安定しているので、「念のため」ファームウェアをさりげなく変更したくありません。

これは、複数のサーバー、複数のネットワークカード、複数のブランドのネットワークカード、複数のドライバーバージョン、複数のスイッチで発生します。単一の障害のあるハードウェアであってはなりません。それはすべて、エアコンと電力調整されたラックに入っています。

これは、VMwareホストで10Gbで接続の切り替えを試みたのは今回が初めてなので、比較できる他の構成や接続できるハードウェアはありません。

他に何を確認できますか?

-編集:スイッチのファームウェアをアップグレードしようとしていましたが、関連リンクを見つけました-これは、 Cisco WS-X4908-10G-RJ45モジュールおよびBroadcom BCM57810カード、IOSバージョンに依存 https://supportforums.Cisco.com/discussion/11755141/4900m-ws- x4908-10g-rj45-port-startup-delay これは多くの関連する議論があり、以下につながります:

https://tools.Cisco.com/bugsearch/bug/CSCug6837

WS-X4908-10G-RJ45とBroadcom 57810S 10Gb BASE-Tの相互運用性の問題

CSCug68370

説明

症状:Broadcom 57810S DP 10Gb BASE-Tを搭載したDell 820サーバーに接続された10Gbps BaseTポート(WS-X4908-10G-RJ45上)。スイッチのリロード時、またはケーブルポートの取り外し/再取り付け時に、長い時間(最大1時間)後に起動するか、まったく起動しない。条件:1)モジュールWS-X4908-10G-RJ45 2)バージョン15.0(2)SGから15.0(2)SG7、15.1(2)SGから15.1(2)SG3回避策:12.2(54)SGにダウングレード

これはまったく同じサーバーモデルではなく、Intelカードについても触れられていませんが、問題はかなり正確な一致です。

6
TitanBar

まあ、それはシスコのバグのようです https://tools.Cisco.com/bugsearch/bug/CSCug6837 「既知の修正済み」のいずれかにアップグレードIOSバージョン(15.1(2)SG4)で修正されたようです。

2
TitanBar

ESXiホストを更新してください。これは、トラブルシューティング手順で本当に見逃したものの1つです。

5.5のインストールは、ほぼ1年前です。

これを書いている時点では、ESXi 5.5の 現在のバージョン2718055 です。現在のESXi 6.0ビルド番号は 2809209 です。

デル、HP、どちらでも構いません... ESXiインストールを更新する必要があります。多くの人々 これを見落とす であり、私が目にする環境での意図しないダウンタイムの2番目に多い原因です。

3
ewwhite