Xenialにアップグレードして以来、私は約6週間この問題を追ってきました。最初はランダムであると考えていましたが、USBシリアルアダプターを使用すると問題が発生することがわかりました。ボード上にUSB2またはPCI-E USB3アドオンカードが搭載されているかどうかは関係ありません。テキストコンソールまたはシリアルコンソール(または、ob-boardシリアルポートを有効にしていた)に次のメッセージが表示されます。
NMI watchdog: Watchdog detected hard LOCKUP on cpu 0
NMI watchdog: Watchdog detected hard LOCKUP on cpu 2
NMI watchdog: Watchdog detected hard LOCKUP on cpu 3
NMI watchdog: Watchdog detected hard LOCKUP on cpu 4
NMI watchdog: Watchdog detected hard LOCKUP on cpu 5
NMI watchdog: Watchdog detected hard LOCKUP on cpu 6
NMI watchdog: Watchdog detected hard LOCKUP on cpu 8
NMI watchdog: Watchdog detected hard LOCKUP on cpu 11
等.
マシンには16個のコアがあり、すべてが連続してロックアップし、リセットが必要になります。
私は最新のカーネル(linux-image-4.4.0-72-generic)を実行していました。 4.8を試しましたが、MTUバグの影響を受けました( https://bugs.launchpad.net/ubuntu/+source/linux-hwe-Edge/+bug/167982 )。 4.10を試しましたが、それにはKVMバグがいくつかあります(ホスト上でいくつかのVMを実行しています)。
メモリーを(ECCメモリーであっても)交換し、マザーボードを交換し、NICを交換しましたが、まったく役に立ちませんでした。特定のユーザーランドプロセスに関連付けられていないマルチCPUロックアップを報告している他の人を見つけることができなかったので、ハードウェアに問題があると考えました。
指示に従って4.8用の独自のカーネルを構築し( https://wiki.ubuntu.com/Kernel/BuildYourOwnKernel )、linux-image-4.8.0-53-genericを構築しました。これにより、ロックアップ、MTU問題、およびKVMパニックが修正されました。これを6週間トラブルシューティングするのに無駄だったので、うまくいけば他の誰かがそれを見つけてくれることを願っています。