web-dev-qa-db-ja.com

カーネルパニックなしでサーバーがフリーズする

KVMノードが不規則にクラッシュし、非常に奇妙な動作を示しています。興味深いのは、1〜2週間ごとにクラッシュする別のノードでこの問題が既に発生していることです。ハードウェアの問題が見つかったため、VMを新しいノードに移行し始めました。VMの50%を移行してから約1週間後、「古い」ノードが正常に動作している間に新しいノードがクラッシュしました(稼働時間3週間、何ヶ月もこのような素晴らしい稼働時間は見ていません)。

ノードがクラッシュすると、Supermicro IPMIでこれらの奇妙なことが時々見られます:

enter image description hereenter image description here

私達はまた見ました:

  • サーバーの電源がオフになっているような "信号なし"(もちろん、電源がオフになっておらず、IPMIメインページに電源がオフとして表示されたこともありません)
  • サーバーからの通常のログイン画面またはその他の通常の出力、ただしフリーズ

私たちが見たことのないものは、クラッシュ前のカーネルパニックまたはログ内の少なくともいくつかのメッセージでした。突然ライトが消えるまで完全に沈黙しています。

問題が1つのサーバーから別のサーバー(新品のマシン)に「移った」ので、私の意見にはいくつかのオプションしか残っていません。

  • 特定のVMが問題を引き起こしています
  • カーネルのバグ
  • セットアップに関するハードウェアの問題

マシンに関する詳細情報:

  • 最新のカーネルを搭載したCentOS7(3.10.0-514.2.2.el7.x86_64)
  • 冗長電源を備えたSupermicroケース
  • Supermicro X10DRi/X10DRWiと最新のBIOSバージョン
  • Intel Xeon E5-2630 v3/v4
  • 512 GB DDR4 ECC RAM(Samsung Server RAM)
  • 145台のVMが実行されています(RAMとCPUが飽和状態から遠く離れています。KSMのおかげでもあります)
  • 8/16SSDを搭載したソフトウェアRAID-10

誰かがこの動作を見たことがありますか、またはコンソールの奇妙な「メッセージ」について何か言うことができますか?私はこのようなものを見たことがなく、グーグル検索のためにこれをどのように説明すべきかさえ知りません。現時点では、それがすべてである可能性があるため、次に何をすべきかについてはあまり良い考えがありません。

前もって感謝します!

5
smartenbergen

これに関する短い更新:最新のLTSカーネル(4.4.39)にアップグレードした後、サーバーは安定しています。稼働時間は19日なので、うまくいったと思います。根本的な原因はわかりませんが、最新のハードウェアではCentOS 7カーネル(3.10)は古すぎる可能性があります。有用なエラーメッセージ(最良の場合はカーネルパニックなど)を配信できないため、CentOS開発者には報告しないことにしました。

0
smartenbergen

これはCPUのバグである可能性があります。 Intelはこの問題に関するエラッタを公開し、E5 v3/v4 CPUのマイクロコードアップデートも提供しています(日付コード20170707)。 CentOS 7.4にはすでに新しいマイクロコードバージョン0xb000021があります(CentOS 7.3では0xb00001eでした)。マイクロコードの交換や7.4へのアップグレードが役立つ場合があります。また、このシステムがフリーズするのに多くの問題がありました。メインボード(X10DRi)、RAM、CPU、電源を交換しましたが、うまくいきませんでした。マイクロコードを更新してから十分な稼働時間がないため、これが解決策であるかどうかはわかりません。 Supermicroはまだ現在のIntelマイクロコードで更新されたBIOSを提供していません。 X10DRIのディストリビュータから非公式のプレリリースを取得する場合があります。

2
Bernhard