web-dev-qa-db-ja.com

ネットワークインターフェイスが定期的にダウンし、速度が0カーネルエラーに変更されました

過去数日間、サーバーの1つにある結合ネットワークインターフェイスが応答を停止しました。

カーネルログを見ると、インターフェイスがダウンすると、次の形式のエラーが繰り返し発生していることがわかります。

[76019.645601] e1000e 0000:03:00.0 p9p1: speed changed to 0 for port p9p1
[76325.575540] e1000e 0000:03:00.0 p10p1: speed changed to 0 for port p10p1

同様の問題をすばやく検索したことがありますが、これまでにこの種の動作を報告したことのある人を見つけることはできませんでした。

サーバーの構成に関する詳細をいくつか提供するには、次のようにします。

  • 結合されたネットワークインターフェイスは両方とも、Intel82574Lイーサネットコントローラーに関連付けられています。
  • サーバーは、Linuxカーネルバージョン4.4.0-101-genericでUbuntu16.04を実行しています。
  • ボンディングされたネットワークインターフェイスの構成は次のとおりです。

    auto p9p1
    iface p9p1 inet manual
    bond-master bond0
    
    auto p10p1
    iface p10p1 inet manual
    bond-master bond0
    
    auto bond0
    iface bond0 inet static
    address 10.0.0.10
    gateway 10.0.0.1
    netmask 255.255.255.0
    bond-mode 4
    bond-miimon 100
    bond-lacp-rate 1
    bond-slaves p9p1 p10p1
    dns-nameservers 10.0.0.2 10.0.0.3
    
  • ネットワークインターフェイスがダウンした場合、service networking restartを実行してサーバー上のネットワークサービスを再起動すると、問題が解決するようです。

誰かが以前に同様の問題を経験したことがあるかどうか、またはこのような原因をデバッグするための提案があるかどうか疑問に思っていましたか?

1
PicoutputCls

私にとって、これらの問題は、Ubuntu16.04のLinuxカーネルv4.4.0-97-genericの既知のバグが原因である可能性が高いようです。 4.4.0-97のe1000e-genericは高負荷で82574Lを壊します。

パッチを適用した テストカーネルバージョンv4.4.0-98 、バグの担当者によって提出された、Ubuntu Linuxパッケージバグトラッカーで、週末のかなり重い負荷テストの後に戻る誤った動作を経験していません結合されたインターフェースの。

0
PicoutputCls