PDATE:問題はスイッチのハードウェアの故障でした。良いデバッグの提案をしてくれた皆さんに感謝します。問題が解決しないかどうかを確認するために別のスイッチを使用することを提案するためにMattyBに与えられた正解。
こんにちはserverfault、
リンクが失われることはないはずなのに、一度に1〜2分間、リンクの損失を繰り返し検出している複数のノードで問題をデバッグしようとしています。
サーバー:
-HPDL360 G5
-1つのオンボード2ポートBroadcomNetXtreme II BCM5708ギガビットイーサネット(rev 12)(bnx2ドライバーを使用)
-14ポートIntel82571EBギガビットイーサネットコントローラー(銅線)(rev 06)(e1000eドライバーを使用)
事実:
-すべてのノードで、Broadcomポートと1つのIntelポートの両方が同じスイッチに接続されています。
- 更新:リンク損失は、NIC、Broadcom、Intelの両方のポートで検出されます
-100Mb/sの速度である2つのノードのIntelポートを除いて、すべてのポートはGb/sの速度です。オートネゴシエーションを使用して設定されたすべての速度。
-最近、すべてのノードがRHEL5.0からRHEL5.3にアップグレードされました。
現在、スイッチにアクセスしてGbps /全二重リンクを強制しようとしています。何かある その他 それよりも、この問題を診断または修正するために行うことができますか?さらにどのような情報が役立ちますか?
編集: 影響を受けるインターフェイスの1つでtcpdumpを実行しましたが、表示されるのはLLDPパケットと単一のIGMPグループメンバーシップクエリだけです。また、すべてのポートを1000Mbpsリンク、全二重に強制するようにスイッチを設定しました。これは、問題がノードの内部にあり、スイッチの設定が原因ではないことを示していますか?
======ログメッセージ======Oct 29 11:30:36 db1 kernel: bnx2: eth1 NIC Copper Link is Down
Oct 29 11:30:37 db1 kernel: bnx2: eth0 NIC Copper Link is Down
Oct 29 11:30:39 db1 kernel: bnx2: eth1 NIC Copper Link is Up, 1000 Mbps full duplex, receive & transmit flow control ON
Oct 29 11:30:39 db1 kernel: bnx2: eth0 NIC Copper Link is Up, 1000 Mbps full duplex
Oct 29 11:31:08 db1 kernel: bnx2: eth0 NIC Copper Link is Down
Oct 29 11:31:10 db1 kernel: bnx2: eth0 NIC Copper Link is Up, 1000 Mbps full duplex, receive & transmit flow control ON
Oct 29 12:56:41 db1 kernel: bnx2: eth1 NIC Copper Link is Down
Oct 29 12:56:41 db1 kernel: bnx2: eth0 NIC Copper Link is Down
Oct 29 12:58:34 db1 kernel: bnx2: eth1 NIC Copper Link is Up, 1000 Mbps full duplex
Oct 29 12:58:34 db1 kernel: bnx2: eth0 NIC Copper Link is Up, 1000 Mbps full duplex
Oct 29 12:59:02 db1 kernel: bnx2: eth1 NIC Copper Link is Down
Oct 29 12:59:03 db1 kernel: bnx2: eth0 NIC Copper Link is Down
Oct 29 12:59:05 db1 kernel: bnx2: eth1 NIC Copper Link is Up, 1000 Mbps full duplex, receive & transmit flow control ON
Oct 29 12:59:05 db1 kernel: bnx2: eth0 NIC Copper Link is Up, 1000 Mbps full duplex
Oct 29 12:59:34 db1 kernel: bnx2: eth0 NIC Copper Link is Down
Oct 29 12:59:35 db1 kernel: bnx2: eth1 NIC Copper Link is Down
Oct 29 12:59:37 db1 kernel: bnx2: eth0 NIC Copper Link is Up, 1000 Mbps full duplex, receive & transmit flow control ON
====== 1つのノードで接続されているすべてのインターフェイスのethtool出力======[root@db1 ~]# ethtool eth0
Settings for eth0:
Supported ports: [ TP ]
Supported link modes: 10baseT/Half 10baseT/Full
100baseT/Half 100baseT/Full
1000baseT/Full
Supports auto-negotiation: Yes
Advertised link modes: 10baseT/Half 10baseT/Full
100baseT/Half 100baseT/Full
1000baseT/Full
Advertised auto-negotiation: Yes
Speed: 1000Mb/s
Duplex: Full
Port: Twisted Pair
PHYAD: 1
Transceiver: internal
Auto-negotiation: on
Supports Wake-on: g
Wake-on: g
Link detected: yes
[root@db1 ~]# ethtool eth1
Settings for eth1:
Supported ports: [ TP ]
Supported link modes: 10baseT/Half 10baseT/Full
100baseT/Half 100baseT/Full
1000baseT/Full
Supports auto-negotiation: Yes
Advertised link modes: 10baseT/Half 10baseT/Full
100baseT/Half 100baseT/Full
1000baseT/Full
Advertised auto-negotiation: Yes
Speed: 1000Mb/s
Duplex: Full
Port: Twisted Pair
PHYAD: 1
Transceiver: internal
Auto-negotiation: on
Supports Wake-on: g
Wake-on: g
Link detected: yes
[root@db1 ~]# ethtool eth2
Settings for eth2:
Supported ports: [ TP ]
Supported link modes: 10baseT/Half 10baseT/Full
100baseT/Half 100baseT/Full
1000baseT/Full
Supports auto-negotiation: Yes
Advertised link modes: 10baseT/Half 10baseT/Full
100baseT/Half 100baseT/Full
1000baseT/Full
Advertised auto-negotiation: Yes
Speed: 100Mb/s
Duplex: Full
Port: Twisted Pair
PHYAD: 1
Transceiver: internal
Auto-negotiation: on
Supports Wake-on: pumbag
Wake-on: d
Current message level: 0x00000001 (1)
Link detected: yes
これは奇妙です。両方のNICで損失が発生しているため、NIC固有のファームウェアの問題、カーネルドライバーの問題、またはハードウェアの障害の問題(マザーボードを除く)が除外されると思われます。投稿したログはBNX2に固有ですが。同じハードウェアプロファイルでこの同じスイッチに接続されている他のマシンが同じ問題を示していないことを確認しましたか? NICとスイッチを100mbit/fullにハードコーディングしてみてください。また、ケーブルの接続に問題がないかどうかを確認してください。最後に、リソースが許せば、そのマシンをサードパーティのスイッチ(ネットギアや同様に無害なものなど)に接続してみませんか。 ?
複数のノードで同時にリンク損失が発生している場合は、スパニングツリーエラーが発生している可能性があり、これが一貫してスイッチの障害と再収束を引き起こしている可能性があります。トポロジーに関する詳細情報は、問題の診断に役立ちます。
マシンで最新のNICおよびサーバーファームウェアを実行していますか?HPDL380および360システムで古いNICファームウェアを実行すると、同様の問題がいくつか発生しました。
Intel NICのdmesgはどのように見えますか?
スイッチログにアクセスできますか?スイッチのメーカー/モデルは何ですか?
ethtool -K ethX tso off
BroadcomNICでこれを試してください。 ToE機能を無効にする必要があります。これは通常、多くの悲しみを引き起こします。
オートネゴシエーションの代わりに、ポートをデュプレックスまたはシンプレックスに設定してみることもできます。