CPU使用率が急上昇した後、VMWare ESXi 5.5のホストサーバーは、DRAC、ネットワーク、およびクラスターメンバーシップに関して応答しなくなりました。
ホストはブレードモジュールであり、4 x XeonE5-4620と128GB RAMおよびRAID6のローカルSSDを備えたDellM1000eシャーシのDellPowerEdgeM820です。
すべてのVMはServer2008R2です。データにSSDRAIDを使用するSQLサーバーが1つあります。それ以外の場合、VMは10ギガビットリンクのQNAPに保存されます。
リソースは過剰にコミットされていません。
ブレードモジュールまたはQNAPにハードウェア障害が記録または表示されたことはありません。
サーバーを再び機能させるには、サーバーをM1000eDRACからコールドリブートする必要がありました。
これは、ハードウェアをハードロックしたある種のVMWare障害のようですが、キックする3か月前にログの事前ロックアップが欠落しています。
再起動以降、VMWareとサーバーハードウェアは問題を報告または示していません。
他の誰かがこのようなことを経験したことがありますか?何かアイデア、考え、提案はありますか?
これは、WindowsVMの問題である可能性があります。 WindowsVMが使用しているネットワークドライバーを教えてください。 Intel e1000? Intel e1000e? VMware vmxnet3?
VMware vmxnet3を使用していない場合は、ホストクラッシュ(PSOD)で現れるひどいバグが発生しています。 対応するナレッジベースの記事#2059053を参照
これは、Windows Server2008R2とWindowsServer2012仮想マシン間の大量のネットワークアクティビティに続く5.5ESXiホストでのクラッシュのトレースです。
修正は、vmxnet3ドライバーに移行することです。 e1000/e1000eがWindows仮想マシンを作成するときのデフォルトであるため、これは多くの人を苦しめます。
あなたの立場で、私はデルでチケットを開き、すべての診断を実行します。まだ行っていない場合は、おそらくすべてのファームウェアを最新バージョンにアップグレードするように指示されます。これは一般的に良い考えです。
同じ問題について、VMwareでチケットを開くこともあります。
OSのバグまたはハードウェア障害が発生した可能性があります。または、このシステムに「問題の可能性がある」というフラグを付けて、再発するかどうかを確認することもできます。
/編集-または、Edを聞いたり、VMwareKBを確認したりできます。