web-dev-qa-db-ja.com

特定のネットワークスイッチが機能しなくなるのはなぜですか。

私たちの多くは、ケーブルモデム、DSLモデム、ルーター、ハブ/スイッチを再起動(または電源オフ/オン)する必要がある(または少なくとも時々必要がある)ことに慣れている(または経験した)と思います。

しかし、私は最近経験したばかりの広範囲にわたる問題に対応して、ここに投稿することにしました。複数の建物にまたがる多数のネットワーククローゼットがあります。

それらのほとんどは、管理された高品質のスイッチを備えています-ギガビット、建物間、時にはクローゼット間のファイバー。

週末の間、ある種のパワーグリッチがありました。しかし、グリッチはすべての場所ではなく、1つの建物だけを襲いました。

その後、多くのネットワーク問題が発生しました。プリンターの問題、接続の喪失など。すべての建物全体。

「高品質」の管理されたネットワーク機器はすべて問題ないようです。ただし、一部の地域では、一部のコンシューマーグレード-非管理型-スイッチがあります。たとえば、ネットワークドロップが1つしかないが、いくつかの接続が必要な大規模オフィス。現在、これらのスイッチすべてに(ユーザーからの問い合わせがあったため)徐々に電源を入れ直してきました。これでユーザーの問題が修正されます。スイッチは通常正常に見えます。それらのいくつかは、すべてのライトがオンになっています(オンにすべきでない場合)。

では、なぜこれらすべてのスイッチが誤動作し始めるのでしょうか?電源異常が発生したスイッチから、ある種の偽のルーティングデータが押し出されていますか?

5
Scott Szretter

これについて、OccamのRazorを呼び出します。 可能だと思いますが、特定の不正なパケットによって、低コストのスイッチが、説明している障害モードに陥る可能性があると考えられます。問題があると説明しているスイッチ(管理されていない小さなスイッチ)には、スパニングツリーの実装がありません。レイヤー3スイッチングと動的ルーティングプロトコルのサポートはもちろんです。そのタイプのスイッチは、スイッチングの決定を行うために送信元および宛先MACアドレスを使用する以外に、そのスイッチングのフレームの実際のコンテンツに対して「ブラインド」である必要があります。

これは、あなたが思っているよりも広範囲に電源の問題があったと私に信じさせます。

電源の問題を想定すると、低品質のスイッチである可能性が高いため、低コストのスイッチで問題が発生していると思います。当たり前のことのように聞こえますが、これは私のキャリア全体でのネットワーキング機器の経験です(例外はほとんどありません)。あなたは一般的にあなたが支払うものを手に入れます(そして、何かが間違って価格設定されているかもしれませんが、市場はそれをかなり速く分類します)。

より高いコストのスイッチは、通常、「グリッチ」ユーティリティ電力にさらされたときに許容範囲内で動作する可能性が高い、より優れた電源を備えています。低コストのスイッチの電源は、商用電源が仕様から外れたときに、おそらく悪い電力を出し始めたと思います。その時点で、1つ以上の電力Railsが許容範囲外にドリフトしすぎたため、スイッチの「頭脳」の一部が「これは絶対に起こらないはずの」シナリオになりました。

イーサネットスイッチは通常、単一のASICショー全体を実行しているのではなく、通常、相互に接続された異なるジョブを実行するASICのシステムのグループです。スイッチのアーキテクチャを知らなくても明確なことを言うのは難しい質問です。私は何年も前に、単一のASICを使用して4つのポートのグループを実行するために使用した)スイッチのモデルでの経験があります。特定のタイプの障害はスイッチの4つのポートのグループが「フレークアウト」し、スイッチの残りの部分は正常に動作し続けるスイッチの部分的な障害は、私の経験では異常ではありません。

障害が発生した場合、たとえば、ライトをオンにしておくことを処理するスイッチの部分は、正常に動作し続けました。物理インターフェイスハードウェア(PHY)はおそらく正常に動作し続けました(おそらく接続の遠端に「ライト」が表示されていたためです)。ただし、他の何かが正しく機能しなくなり、接続が不足することになります。このように「動作中」の障害が発生するスイッチをキャッチできるほど「幸運」だった場合、ラップトップを「問題」ポートに接続し、(Wiresharkを使用して)完全に「暗い」ネットワークを観察しました。ブロードキャストパケット、または一般的な「ワーキングネットワーク」に一般的に関連するその他の「ノイズ」。これらのポートに送信されたパケットは、ネットワークの他の場所には表示されず、「ブラックホール」に陥っただけです。あなたはあなたの状況で似たようなものを見るでしょう。

7
Evan Anderson

数年前にこのことで悪名高いCisco 1900シリーズスイッチ。

これらのスイッチは内部で2つの給電を使用しました:CPU /バックプレーン用に5ボルト、CAMメモリ用に12ボルト。短い電源スパイクでは、5ボルトはスイッチが動作し続けるのに十分な安定性を保ちましたが、12ボルトはCAMメモリテーブルが破損するのに十分なほど低下しました。残念ながら、L2スイッチングとARPであらゆる種類の混乱を引き起こしたメモリ破損をスイッチCPUが検出する方法はありませんでした。

そのため、各パッチキャビネットに小型のUPSを設置しました。すべてのスイッチを手動でリセットするよりもはるかに安価でした。 (そして腹を立てているユーザーに対処します。)

シスコはこれを後のモデルで修正しました。以前のHPスイッチでも同じ問題があると聞いています。

特にコンシューマ/ソーホーセグメントには、同様の問題があるハードウェアがたくさんあると思います。良質の電源は依然としてデバイスのより高価なコンポーネントの1つであるため、PHBが製品のマージンが低すぎると判断した場合、これは通常、最初に格下げされます。

1
Tonny

おそらくいくつかのCRC/Jabber/STP /管理されたスイッチが「処理できる」ブロードキャストエラー。コンシューマグレードのものはデータを処理できなかったため、クラッシュしました。

これとは関係なく、生意気なユーザーがあなたのネットワークをクラッシュさせる方法を見つけたのは現実的です!

0
Tubs

非管理スイッチで発生するネットワーク問題のほとんどは、arpテーブルに関連しています。そのレベルのネットワークで問題が発生することは他にあまりありません。また、ネットワーク上のさまざまな場所からのarppingを使用してテストするのは比較的簡単です。それがarpに関連している場合、arp pingが解決されないネットワークの領域が見つかります。

ネットワークの管理された部分でSTP=を使用している場合は、リンクを設定してダウンしている可能性があります。ただし、管理されているスイッチ:非管理スイッチはSTPをサポートしないため、参加しません。

0
3dinfluence