CPU +ウォッチドッグでのrcu_sched自己検出ストール:BUG:ソフトロックアップ-CPU#3が22秒間スタック
マシンにsshできないので、それをモニターに接続したところ、次のことがわかりました。
このマシンはUbuntu Server 18.04 LTSを実行しており、第1世代の8コアRyzen 1700です。それ以降、マシンを再起動しましたが、問題なく動作しましたが、何が原因であるかわからないので、再発を避けたいと思います。
差出人: これらすべての「バグ:ソフトロックアップ」メッセージは何ですか?
状況
システムログ(/ var/log/messagesまたはjournalctl)には、次のメッセージがたくさん出力されます。
May 25 07:23:59 XXXXXXX kernel: [13445315.881356] BUG: soft lockup - CPU#16 stuck for 23s! [yyyyyyy:81602]
さまざまなスタックトレースが続きます。このドキュメントでは、ソフトロックアップメッセージの意味を説明します。
エラーメッセージ自体は、問題の原因を特定するものではありません。
原因
「ソフトロックアップ」は、他のタスクを実行する機会を与えずに、カーネルをカーネルモードで20秒以上ループさせるバグとして定義されます。ウォッチドッグデーモンは、システム内のすべてのCPUに非マスカブル割り込み(NMI)を送信し、CPUは現在実行中のタスクのスタックトレースを出力します。
サーバーの負荷を減らすことは通常の解決策です:
解決
通常の状況では、負荷が減少すると、これらのメッセージが消えることがあります。この「ソフトロックアップ」は、カーネルがビジーで、それぞれスキャン、解放、または割り当てが必要な大量のオブジェクトを処理している場合に発生する可能性があります。これらのタスクのスタックトレースは、タスクが実行していたことを最初に理解するのに役立ちます。ただし、メッセージの原因を調べるには、カーネルダンプが必要です。
これらのメッセージを無効にすることはできませんが、状況によっては、これらのソフトロックアップが発生する時間を増やすことで状況を緩和できます。
そのためには、次の
sysctl
パラメータを増やします。kernel.watchdog_thresh
このパラメータのデフォルト値は10
と値を2倍にすることから始めるのが良いでしょう。