私たち 最近少し問題がありました 複数のサーバーが断続的にネットワーク接続を断続的に解決するのに苦痛な方法で(ハードリブートが必要です)ネットワーキングで。これは、約2週間、ランダムに見えるように、さまざまなサーバーで行われています。識別できる特定のパターンはありません。
少し調べたところ、問題のあるポートに対してスイッチが100 Mbpsを報告していることがわかりました。
これは、Joel Spolskyの記事で起こったことと非常に似ています Five Whys
マイケルは事後分析にしばらく時間を費やし、問題がスイッチの単純な構成の問題であることを発見しました。スイッチが通信に使用できる速度はいくつかあります(10、100、または1000メガビット/秒)。速度を手動で設定するか、または両側で使用できる最高速度をスイッチに自動的にネゴシエートさせることができます。 障害が発生したスイッチは自動ネゴシエーションに設定されていました。これは通常は機能しますが、常に機能するとは限りません。1月10日の朝には機能しません。
これで、ネットワークハードウェアにdisabled auto-negotiateが設定され、1000 Mbps(ギガビット)の固定レートに設定されました。
サーバーハードウェアネットワーキングの専門知識がある方への私の質問:
ネットワーク速度の自動ネゴシエーションで、(a)リンクの一端での手動と他端での自動の不一致、または(b)リンクの障害のあるコンポーネント(ケーブル、ポートなど)。
これは管理者によって異なりますが、私の経験では、リンク速度とデュプレックス設定を手動で指定すると、速度の不一致が発生する可能性があることがわかりました。どうして?スイッチとサーバーの間のさまざまな接続を文書化し、変更を加えるときはその文書に従うことはほとんど不可能だからです。私が見たほとんどの失敗は1(a)が原因であり、速度/デュプレックス設定を手動で設定し始めたときにのみ、その状況に陥ります。
Ciscoドキュメント で言及されているように:
自動ネゴシエーションを無効にすると、リンクのドロップやその他の物理層の問題が隠されます。ギガビット自動ネゴシエーションをサポートしていない古いギガビットNICなどのエンドデバイスへの自動ネゴシエーションのみを無効にします。物理層の問題が検出されず、スパニングツリーループが発生する可能性があるため、どうしても必要な場合以外は、スイッチ間の自動ネゴシエーションを無効にしないでください。
速度/二重の検証を必要とする(そしてフロー制御を忘れないでください)ネットワーク変更の変更管理システムをセットアップする準備ができていない場合、またはすべてのネットワークデバイスでこれらの設定を手動で指定することに起因する不定期な不一致に対処する用意がある場合を除き、次に、デフォルト設定のauto/autoを使用します。
今後、問題が発生する前にこれらの問題を特定できるように、 [〜#〜] mrtg [〜#〜] を使用してスイッチポートのエラーを監視することを検討してください。
編集:多くの人が古い機器でのネゴシエーションの失敗に言及しているのを見ています。はい、これはずっと前に規格が作成されていて、すべてのデバイスが規格に準拠しているわけではない問題でした。 NICとスイッチは10年以内のものですか?その場合、これは問題にはなりません。
非常によくあることですが、私はさまざまな種類のハードウェアで長年にわたって多くの問題を抱えてきました。
私の意見では、セットアップが静的であり(つまり、サーバーラック)、変更がないと思われる場合は、速度とデュプレックスを手動でセットアップすることをお勧めします。将来の問題を回避できるように十分に文書化されている限り。
編集:
明確にするために、私はネットワーク全体で手動速度を使用することを推奨していません。95%の時間auto/autoを使用する方法だと思います。デュプレックス/速度に問題があり、ネットワークの一部(つまり、サーバーラックの1つ)のほとんどが手動設定になっているというだけです。私たちは非常に厳しく制御されたLANを運用しており、未使用のポートはシャットダウンされており、ほとんどのポートでMACフィルターが使用されているため、速度を追跡することはそれほど難しくありません。
したがって、トラブルシューティングの手順(それぞれの後で停止し、問題が再発するのを待つと想定):
この時点で、構成、差し込まれている物理ポート、それらの間のケーブル接続は削除されています。 stillが発生している場合、他のいくつかの原因が考えられます:
背景/私の答えが最も素晴らしい理由:私は金融業界でネットワーク/システムエンジニアとして働いており、小規模なグローバルネットワーク(15のブランチオフィス、8つのデータセンター)での私の経験は次のとおりです。
すべてのLANポートはオートネグです。これは、両端で機器を制御し、両側になんらかのアクセス権があるためです。これは、誰かに電話をかけて設定を確認するのと同じくらい簡単かもしれません。 3年間で、autonegが失敗したために内部ポートの1つだけが失敗したことがありましたが、それはケーブルの不良が原因でした-ケーブルを交換した後に消えました。
前任者がNICで100 /フルをハードコードした場合、さらに多くの問題が発生し、その事実は文書化されませんでした。次のメインウィンドウですべてをauto/autoにリセットします。それ以降、問題は発生していません。
WANのキャリアから銅の引き渡しを受けたいくつかの場所では?銅線のWAN /インターネット接続が常に機能することを期待する必要があります。その理由の1つは、反対側に何があるかわからないためです。 autonegにバグのあるファームウェアが存在するが、MPLSタグ付けを行う古代のExtremeスイッチISPの200,000ドルのCiena Edgeデバイスは、ツイストペア上のイーサネットを提供するには非常に優れているため、5ドルのメディアコンバーターがありますか?それがどのように処理されるかを事前に決定し、それに固執します。合意された構成が文書化されておらず、ポリシーに従う必要があるため、土曜日の午後10時に運送業者内部で少し調整する必要があります。
ただし、真剣に、ISPからファイバーハンドオフを取得します。
自動ネゴシエーションが1日1時間または1か月間機能していて、何らかの理由でリンクが固定速度に設定されている「問題が発生した」場合、解決されずに回避される問題があると思います。実際の問題が修正されるまでの一時的な解決策として、リンクをfixedに設定すると思います。
私が担当しているネットワークは(他の数人と一緒に)〜40台のサーバー、1000台以上のワークステーション(かなり大規模なキャンパスに分散)、および〜1000のWAPで構成されており、さまざまな種類と年齢の大規模な領域に分散していますネットワーク機器の。
Dimitri.pが述べたように、何かが突然オートネゴシエーションを停止できなくなった場合、それは通常、別の問題を示しています。手動でポートを設定することは、腸に刺された人に絆創膏を貼るのと同じです。出血を止めるかもしれませんが、その下に損傷があるはずです。
私の通常のチェックリスト:
私たちは原則として 決して 他のすべての考えられる原因が取り除かれた状況でない限り、サーバー(またはデータセンターの他の何か)のautonegを無効にします。スイッチポートの移動、ケーブルの変更、NICのテストなどを行い、他に選択肢はありません。その場合、それは死に至るまで記録されます。これが発生するのは非常にまれであり、通常、BIOSとOSの設定を確認するためにアクセスできないアプライアンスで発生します。
一方、ワークステーションとAPは別の話です。オートネグの失敗は、ケーブルの配線不良の典型的な兆候であり、多くの場合、夏季の新しいケーブル敷設シーズンが始まるまで、手動で速度とデュプレックスを設定する必要があります。
これはネットワークの神話です。私たちのネットワーク関係者は、1998年にはベイスイッチがシスコなどと交渉しないため、このナンセンスを誓います。したがって、地球上の機器の99.999%にデフォルトを使用する代わりに、このばかげた構成管理演習と、NICドライバの更新によって設定が自動ネゴシエーションにリセットされるような状況に備えて、すばらしいスケープゴートを用意していますそして何かが起こります。
私たちのサーバーの多くはNICチーム化のような疑わしい機能を使用しているため、スイッチが故障した場合にネットワークアクセスが失われるのを防ぎながら、はるかに可能性の高いソフトウェアにユーザーをさらしているため、より面白くなりました。失敗(ドライバーは常に吸う)
ネットワーク関係者を守るために、多くのサーバーがWindows-default NIC=ドライバーで実行されています。これは、通常、問題があります。自動ネゴシエーションに問題があり、ギアがクリントン政権に日付を合わせていない場合、これらのNICドライバを更新します。
オートネゴシエーションを行う必要があります。確実に自動ネゴシエーションできないスイッチがある場合は、より良いスイッチを購入してください。
ギガビットは想定自動ネゴシエーションであり、これには自動クロスオーバー(MDI-X)検出が含まれます。
100baseTはguaranteed一端が自動に設定され、他端が手動に設定されている場合に失敗します。これは仕様によるものです。片方の端を100/fullに強制すると、もう一方の端willは100/halfに自動ネゴシエートし、デュプレックスの不一致が発生します。
通常、ネットワーク機器が1000 /フルではなく10 /ハーフにネゴシエートするのを見たので、サーバーを固定に設定しました。
また、一部のCoLoは、スイッチをネゴシエーションではなく、1000 /フルでのみリンクするように設定しています。
テストされていない初期構成で自動ネゴシエーションを無効にすることは、ブードゥープログラミングに似ています-正当な理由なしに何かを変更しています。テストした後、デュプレックスまたは速度の不一致があるか、ポートに過度のエラーがある場合は、他のトラブルシューティングを行い、必要に応じて最後に構成を修正します。
ドライバーをアップグレードしたり、ハードウェアを交換したりしても、設定がサーバー側で保持される保証はありません。
リンクの両側をネゴシエートするように設定するか、両側を修正します。一部のデバイスの速度とデュプレックスの設定を修正すると、それらのデバイスはピアに機能を通知しなくなります。片方が機能を発表し、反対側が発表しないときに何をすべきかについてイーサネット標準が何を言っているのか私は知りません、そしてそれはおそらく多くの実装者も知らないことを意味します。最小公分母である10分の1を選ぶ人もいれば、すべてが大丈夫であると仮定して、可能な限り速い速度を選ぶ人もいます。
銅線SFPを搭載したCiscoスイッチ(少なくとも一部)のように、ギガビット銅線イーサネットで自動ネゴシエーションをサポートしていない最新のハードウェアがあります。
何年も前に、私は3comに勤務して、ほとんどすべてのネットワーク機器の技術サポートを行っていました。この問題が頻繁に発生するのは驚くべきことであり、すべてを手動で設定するのはかなり標準的な手順でした。
大まかなもの。速度またはデュプレックスを強制した場合、10Mbを超えると接続できない100Mb 3com NICが表示されました。ドライバーが100Mbフルおよび100Mbハーフの設定を持っている場合でも、自動ネゴシエーションを行うことによってのみフルスピードを得ることができました。
多くのNICドライバでは、1000Mbを指定できません。10、100、Autoしか選択できません。フルスピードが必要な場合は、Broadcom netXtreme 57xx Gigabitドライバなど、Autoを強制する必要があります。このように動作します。
スイッチでギガビットを簡単に強制できますが、ほとんどのNICに自動ネゴシエーションを強制することになります。
オートネゴシエーションで多くの問題がありました。もちろん、多くは数か月に1回という意味ですが、それは私の本では多すぎる問題の1つです。
オートネゴシエーションの問題を見つけるのは困難です。特に、ネットワーク、サーバー、アプリケーション、データベースを扱う人々が4つの異なるチームである場合はそうです。通常、最後の2つは前後に多くの時間を費やし、パフォーマンスの悪さを互いに非難し、測定値について嘘をつきます。サーバーの人にそれを蹴り、「トップ」の出力を正しく見て、すべてが正しいと言うでしょう。サーバーで結構です。
これは、問題が「専門家」(実際には、ジェネラリストであり、したがってネットワーク、ハードウェア、オペレーティングシステム、データベース、フレームワーク、およびアプリケーションを理解している人)が問題に割り当てられ、問題が見つかるまでエスカレートするまで続きます5〜10分以内。
だから、私自身の経験則では、私がそれについて何かすることができるときはいつでも、常に本番サーバー、スイッチャー、ルーターで固定速度を設定することです。非運用サーバーも同様に、それを使用するユーザーがrootアクセスを持たないように十分に分離されている場合。
デスクトップ/ノートブックのアクセスを処理するスイッチは、自動ネゴシエーションに任せることができ、ルールには例外があります。 1つだけ言っておきますが、ネットワークで多くの変更が行われている場合は、自動のままにして、状況に注意することをお勧めします。
オートネゴシエーションに関してどのような選択をしても、monitor事。 Nagios またはwhat-have-youを設定するだけで、重要なポートの状態を監視できます。とにかく、すでにそのネットワーク機器を監視していますよね。
ホームセットアップでの自動ネゴシエーションに問題があり、問題は配線でした。特に、ネットワークケーブルがループ状に巻かれて直径が小さすぎるか、電源ケーブルに近すぎるためです。
しかし、私はそれらの提案があなたのセットアップにとって少なすぎることを理解しています。 ;)
私の経験では(ほとんどが3ComとHPの機器で、Ciscoはそれほど多くありません)、自動ネゴシエーションによって問題が発生することはほとんどありません。
Mrdennyと同様に、私は通常、サーバーを最速の速度(まだ100に設定しています)、全二重に設定しますそして、スイッチをautoのままにします速度の混合があるのでサーバーとワークステーションの両方で、私はスイッチを自動のままにして、エンドポイントに適応させることをたいへん好みます。
シスコは、PIX/ASAセキュリティデバイスを使用している場合に、自動ネゴシエーションを使用するのではなく、ポート速度とデュプレックスを手動で設定する必要があるいくつかのケースについて説明します。 http://www.Cisco.com/en/US/products/hw/ vpndevc/ps2030/products_tech_note09186a008009491c.shtml#troubleshoot
私は最近、このことについてGary DonahueのNetwork Warriorで読んでいました。この本に基づいて、オートネゴシエーションが正しく機能するようにするには、スイッチとNICをオートネゴシエーションに設定する必要があります。NICを特定の速度と二重モード、およびサーバーを自動ネゴシエーションのままにしておくと、正しく機能しません。自動ネゴシエーションはプロトコルであり、設定が正しく機能するためには、双方がそれを話す必要があります。
速度とデュプレックスモードを明示的に設定する場合は、接続の両端で行う必要があります。
私の経験則では、特に最近のBroadcomカードのような問題がない限り、ルーターリンクを除くすべてにオートネゴシエーションを使用します(BAH!)
たとえば、2つのルーターがイーサネット経由でリンクされている場合は、両端の速度を手動で設定します。