KVMノードが不規則にクラッシュし、非常に奇妙な動作を示しています。興味深いのは、1〜2週間ごとにクラッシュする別のノードでこの問題が既に発生していることです。ハードウェアの問題が見つかったため、VMを新しいノードに移行し始めました。VMの50%を移行してから約1週間後、「古い」ノードが正常に動作している間に新しいノードがクラッシュしました(稼働時間3週間、何ヶ月もこのような素晴らしい稼働時間は見ていません)。
ノードがクラッシュすると、Supermicro IPMIでこれらの奇妙なことが時々見られます:
私達はまた見ました:
私たちが見たことのないものは、クラッシュ前のカーネルパニックまたはログ内の少なくともいくつかのメッセージでした。突然ライトが消えるまで完全に沈黙しています。
問題が1つのサーバーから別のサーバー(新品のマシン)に「移った」ので、私の意見にはいくつかのオプションしか残っていません。
マシンに関する詳細情報:
誰かがこの動作を見たことがありますか、またはコンソールの奇妙な「メッセージ」について何か言うことができますか?私はこのようなものを見たことがなく、グーグル検索のためにこれをどのように説明すべきかさえ知りません。現時点では、それがすべてである可能性があるため、次に何をすべきかについてはあまり良い考えがありません。
前もって感謝します!
これに関する短い更新:最新のLTSカーネル(4.4.39)にアップグレードした後、サーバーは安定しています。稼働時間は19日なので、うまくいったと思います。根本的な原因はわかりませんが、最新のハードウェアではCentOS 7カーネル(3.10)は古すぎる可能性があります。有用なエラーメッセージ(最良の場合はカーネルパニックなど)を配信できないため、CentOS開発者には報告しないことにしました。
これはCPUのバグである可能性があります。 Intelはこの問題に関するエラッタを公開し、E5 v3/v4 CPUのマイクロコードアップデートも提供しています(日付コード20170707)。 CentOS 7.4にはすでに新しいマイクロコードバージョン0xb000021があります(CentOS 7.3では0xb00001eでした)。マイクロコードの交換や7.4へのアップグレードが役立つ場合があります。また、このシステムがフリーズするのに多くの問題がありました。メインボード(X10DRi)、RAM、CPU、電源を交換しましたが、うまくいきませんでした。マイクロコードを更新してから十分な稼働時間がないため、これが解決策であるかどうかはわかりません。 Supermicroはまだ現在のIntelマイクロコードで更新されたBIOSを提供していません。 X10DRIのディストリビュータから非公式のプレリリースを取得する場合があります。