それほど明白ではない理由でサーバーがクラッシュする

Question

システム：

Linux v22017032713145956 3.16.0-4-AMD64 #1 SMP Debian 3.16.39-1+deb8u2 (2017-03-07) x86_64 GNU/Linux
これは、KVM仮想化を使用するノードで実行される仮想化サーバーです。

私がしたこと：

私はfactorioゲームサーバーを実行したかった。だから私はそれをダウンロードして実行しました。（これは3月でした）
数日後、サーバーは単にクラッシュしました。 rcu_sched detected stalls on cpuに関するカーネルメッセージがサーバーが実行されているノードと関係があるかどうかをサポートに尋ねる電子メールのほかに、これの記録はありません。
サポートによると、I/Oスケジューラをnoopに設定してみてください
それに応じてスケジューラーを設定しました（ただし、sys-fileにnoopをエコーすることによって一時的にのみ）
すべてが約1か月間正常に機能しました
私はDebianリポジトリから定期的に更新を行いました（jessieとjessie-updatesのみ、バックポートやその他の実験的なものはありません）
FroxlorおよびGitLabリポジトリから定期的に更新を行いました。
明らかな理由もなく、サーバーは4月29日の午前4時頃に再びクラッシュしました。
5月1日に、ノードのコントロールパネルからサーバーを再起動しました。
同じ日にまた墜落した。今回はfactorioサーバーを起動せず、I/Oスケジューラーも変更しませんでした。

追加情報

Ping応答

監視により、サーバーが次の間のpingに応答しないことが報告されました。

04-29-2017 04：07：30-> 04-30-2017 09:55:46
05-01-2017 11：08：52-> 05-01-2017 11:16:54

カーネルログ

これらの時間枠での/var/log/kern.log：

質問時間

何が問題ですか？何もインストールしたことを覚えていません。
rcu_sched detected stallsメッセージをデバッグするにはどうすればよいですか？

5月7日から更新

友達からサーバーがおかしな動作をしているというテキストが届きました。それで私はログをチェックしました、そして再び屋台があります。最新のログをアップロードしました。

5月8日から更新

Memtest86 +を実行したところ、何も見つかりませんでした。しかし、過去31日間のCPUグラフを確認したところ、興味深いものが見つかりました：サーバーが最初にpingに応答しなくなったとき、コア2のCPU負荷は低下しましたが、他のすべてのコアはアイドル状態でした。 CPU0の急上昇は最悪でした。

6月7日から更新

稼働時間レポート：
10:05:05 up 27 days, 20:50, 1 user, load average: 0.23, 0.25, 0.18
しかし、GitLabをシャットダウンしました。 Debianで問題を引き起こしているGitLabの経験はありますか？

Rui F Ribeiro · Answer

あなたのログに見られるように、あなたの問題はおそらくVirtualBoxGuestの追加がKVM VMマシンにインストールされていて、ある種の競合。

ややvboxdrvカーネルモジュールがアンインストールされ、古いパッケージのkvm/virtioドライバーに取って代わられたように見えました私は思うそしてややそれは新しいものでは起こっていないようでしたなんらかの理由。

あなたが言ったように、あなたが私たちに与えているログの後で、あなたはVirtualBoxコンポーネントをアンインストールしました。

IMO、あなたは正しい行動を取りました。ここで、これが再び発生するかどうかを確認するために数日を与えます。

Eric Zhang · Answer

ログから、いくつかのNMIがありました。参照： https://en.wikipedia.org/wiki/Non-maskable_interrupt

ハードウェアも確認することをお勧めします。