vmware仮想ホストでのサービス停止の原因を特定する方法

Question

Vmwareesxi4で実行されているいくつかの仮想サーバーで不定期に発生した停止の原因を特定しようとしています。 2台のESXiホストマシンに12台の仮想サーバーが分散していますが、そのうち3台でこの問題に気づいただけです。問題のある仮想サーバーは、1つのftpサーバーと2つのdnsサーバーです。

停止が発生すると、vSphereクライアントにログインして、問題の仮想サーバーのコンソールを使用できますが、停止中（1分から1時間近く続く）、仮想サーバーのネットワーク転送速度は非常に遅いようです。毎秒0〜3キロビットのオーダーであるか、接続がまったくありません。（彼らがいるデータセンターには100MBの接続があります）

マシン上のOSはdebianlennyであり、定期的に更新されます。

私はこれらの停止の原因を特定することができませんでした、そして彼らは本当に私を悩ませ始めているので、これらの問題の原因を特定するのに助けがあれば大いに感謝します。

esxiのログファイルには

Feb 08 13:16:57.981: mks| SOCKET 8 (105) recv error 104: Connection reset by peer Feb 08 13:16:57.981: mks| SOCKET 8 (105) destroying VNC backend on socket error: 1 Feb 08 13:16:57.998: mks| MKS: Base polling period is 1000000us Feb 08 20:28:14.774: mks| MKS: Base polling period is 10000us Feb 08 20:28:15.194: mks| VNCENCODE 9 encoding mode change: (720x400x16depth,16bpp,1440bytes/line) Feb 08 20:28:15.228: mks| VNCENCODE 9 encoding mode change: (720x400x16depth,16bpp,1440bytes/line)

数回繰り返した。これは単に私がコンソールに接続したり、コンソールから切断したりするだけですか？

Vick Vega · Answer

これが私がチェックするものです：

ESXiを最新のビルドに更新します（4.1）
ゲスト（VM）のVMtoolsを最新に更新します。
VM（デーモン）で不要なものをすべてオフにします。これは明らかにすべてのサーバーで実行する必要があります。
VMwareの推奨に従って、特に複数のCPUを使用できるアプリケーションを実行している場合を除き、VMごとに1vCPUを割り当てていることを確認します。
メモリなどのリソースをオーバーコミットしていないことを確認します。
VMのvmwareログをPCにコピーします。通常、データストア内のVM自体と同じディレクトリにあり、奇妙なメッセージがないか調べます。

ホストがVMware互換であることを検証したと思います。検証していない場合、VMwareはサポートしません。