web-dev-qa-db-ja.com

VMwareロックアップCPUスパイク

CPU使用率が急上昇した後、VMWare ESXi 5.5のホストサーバーは、DRAC、ネットワーク、およびクラスターメンバーシップに関して応答しなくなりました。

ホストはブレードモジュールであり、4 x XeonE5-4620と128GB RAMおよびRAID6のローカルSSDを備えたDellM1000eシャーシのDellPowerEdgeM820です。

すべてのVMはServer2008R2です。データにSSDRAIDを使用するSQLサーバーが1つあります。それ以外の場合、VMは10ギガビットリンクのQNAPに保存されます。

リソースは過剰にコミットされていません。

ブレードモジュールまたはQNAPにハードウェア障害が記録または表示されたことはありません。

サーバーを再び機能させるには、サーバーをM1000eDRACからコールドリブートする必要がありました。

これは、ハードウェアをハードロックしたある種のVMWare障害のようですが、キックする3か月前にログの事前ロックアップが欠落しています。

再起動以降、VMWareとサーバーハードウェアは問題を報告または示していません。

他の誰かがこのようなことを経験したことがありますか?何かアイデア、考え、提案はありますか?

4
Steven Walker

これは、WindowsVMの問題である可能性があります。 WindowsVMが使用しているネットワークドライバーを教えてください。 Intel e1000? Intel e1000e? VMware vmxnet3?

VMware vmxnet3を使用していない場合は、ホストクラッシュ(PSOD)で現れるひどいバグが発生しています。 対応するナレッジベースの記事#2059053を参照

これは、Windows Server2008R2とWindowsServer2012仮想マシン間の大量のネットワークアクティビティに続く5.5ESXiホストでのクラッシュのトレースです。

修正は、vmxnet3ドライバーに移行することです。 e1000/e1000eがWindows仮想マシンを作成するときのデフォルトであるため、これは多くの人を苦しめます。

トレース内の「e1000」参照に注意してください...enter image description here

5
ewwhite

あなたの立場で、私はデルでチケットを開き、すべての診断を実行します。まだ行っていない場合は、おそらくすべてのファームウェアを最新バージョンにアップグレードするように指示されます。これは一般的に良い考えです。

同じ問題について、VMwareでチケットを開くこともあります。

OSのバグまたはハードウェア障害が発生した可能性があります。または、このシステムに「問題の可能性がある」というフラグを付けて、再発するかどうかを確認することもできます。

/編集-または、Edを聞いたり、VMwareKBを確認したりできます。

0
mfinni