web-dev-qa-db-ja.com

ESXiv5.5でランダムなクラッシュが発生する

HW:タイプ:HP Proliant ML350 G5 RAM 22GB CPU 1 x Intel Xenon E5405 2.00GHz

OP:ESXi 5.5が5.1から更新され、同じハードウェア上のESXi5.1で発生するクラッシュを修正しようとしました。

サーバーの1つがクラッシュしている理由のエラーを見つけようとしていますが、24時間で2回ロックアップしました。前面の内部エラーライトが赤く点滅し、内側の「#5および#6ページ76マニュアル」、「プロセッサー2」ライト「琥珀色」、「電源」ライト「緑」のみが点灯しています。

ログでは、関連する時間枠で確認できるエラーは、ログの下にあります。これが理由ですか?または、エラーをログに記録/特定するために他にできることはありますか。

zcatsyslog.6.gzから|もっと少なく

2014-05-26T11:55:47Z sfcbd[35064]: Error opening socket pair for getProviderContext: Too many open files
2014-05-26T11:55:47Z sfcbd[35064]: Failed to set recv timeout (30) for socket -1. Errno = 9
2014-05-26T11:55:47Z sfcbd[35064]: Failed to set timeout for local socket (e.g. provider)
2014-05-26T11:55:47Z sfcbd[35064]: spGetMsg receiving from -1 35064-9 Bad file descriptor
2014-05-26T11:55:47Z sfcbd[35064]: rcvMsg receiving from -1 35064-9 Bad file descriptor
2014-05-26T11:55:47Z sfcb-ProviderManager[34828]: SendMsg sending to 1 34828-9 Bad file descriptor
2014-05-26T11:55:47Z sfcb-ProviderManager[34828]: SendMsg sending to 1 34828-9 Bad file descriptor
2014-05-26T11:55:47Z sfcb-ProviderManager[34828]: SendMsg sending to 1 34828-9 Bad file descriptor
2014-05-26T11:55:47Z sfcbd[35064]: Error opening socket pair for getProviderContext: Too many open files
2014-05-26T11:55:47Z sfcbd[35064]: Failed to set recv timeout (30) for socket -1. Errno = 9
2014-05-26T11:55:47Z sfcbd[35064]: Failed to set timeout for local socket (e.g. provider)
2014-05-26T11:55:47Z sfcbd[35064]: spGetMsg receiving from -1 35064-9 Bad file descriptor
2014-05-26T11:55:47Z sfcbd[35064]: rcvMsg receiving from -1 35064-9 Bad file descriptor
2014-05-26T11:55:47Z sfcb-ProviderManager[34828]: SendMsg sending to 1 34828-9 Bad file descriptor
2014-05-26T11:55:47Z sfcb-ProviderManager[34828]: SendMsg sending to 1 34828-9 Bad file descriptor
2014-05-26T11:55:47Z sfcb-ProviderManager[34828]: SendMsg sending to 1 34828-9 Bad file descriptor
2014-05-26T11:55:53Z sfcb-ProviderManager[34828]: SendMsg sending to 1 34828-9 Bad file descriptor
2014-05-26T11:55:57Z sfcb-ProviderManager[34828]: SendMsg sending to 1 34828-9 Bad file descriptor
2014-05-26T11:56:01Z sfcb-ProviderManager[34828]: SendMsg sending to 1 34828-9 Bad file descriptor
2014-05-26T11:56:04Z sfcb-ProviderManager[34828]: SendMsg sending to 1 34828-9 Bad file descriptor
2014-05-26T11:56:15Z sfcb-ProviderManager[34828]: SendMsg sending to 1 34828-9 Bad file descriptor
2014-05-26T11:56:17Z sfcbd[35064]: Error opening socket pair for getProviderContext: Too many open files
2014-05-26T11:56:17Z sfcbd[35064]: Failed to set recv timeout (30) for socket -1. Errno = 9
2014-05-26T11:56:17Z sfcbd[35064]: Failed to set timeout for local socket (e.g. provider)
2014-05-26T11:56:17Z sfcbd[35064]: spGetMsg receiving from -1 35064-9 Bad file descriptor
2014-05-26T11:56:17Z sfcbd[35064]: rcvMsg receiving from -1 35064-9 Bad file descriptor
2014-05-26T11:56:17Z sfcb-ProviderManager[34828]: SendMsg sending to 1 34828-9 Bad file descriptor
2014-05-26T11:56:17Z sfcb-ProviderManager[34828]: SendMsg sending to 1 34828-9 Bad file descriptor
2014-05-26T11:56:17Z sfcb-ProviderManager[34828]: SendMsg sending to 1 34828-9 Bad file descriptor
2014-05-26T11:56:17Z sfcbd[35064]: Error opening socket pair for getProviderContext: Too many open files
2014-05-26T11:56:17Z sfcbd[35064]: Failed to set recv timeout (30) for socket -1. Errno = 9
2014-05-26T11:56:17Z sfcbd[35064]: Failed to set timeout for local socket (e.g. provider)
2014-05-26T11:56:17Z sfcbd[35064]: spGetMsg receiving from -1 35064-9 Bad file descriptor
2014-05-26T11:56:17Z sfcbd[35064]: rcvMsg receiving from -1 35064-9 Bad file descriptor
2014-05-26T11:56:17Z sfcb-ProviderManager[34828]: SendMsg sending to 1 34828-9 Bad file descriptor
2014-05-26T11:56:17Z sfcb-ProviderManager[34828]: SendMsg sending to 1 34828-9 Bad file descriptor
2014-05-26T11:56:17Z sfcb-ProviderManager[34828]: SendMsg sending to 1 34828-9 Bad file descriptor
2014-05-26T11:56:23Z sfcb-ProviderManager[34828]: SendMsg sending to 1 34828-9 Bad file descriptor
2014-05-26T11:56:27Z sfcb-ProviderManager[34828]: SendMsg sending to 1 34828-9 Bad file descriptor
2014-05-26T11:56:31Z sfcb-ProviderManager[34828]: SendMsg sending to 1 34828-9 Bad file descriptor
2014-05-26T11:56:34Z sfcb-ProviderManager[34828]: SendMsg sending to 1 34828-9 Bad file descriptor
2014-05-26T11:56:34Z sfcb-ProviderManager[34828]: SendMsg sending to 1 34828-9 Bad file descriptor
2014-05-26T11:56:34Z sfcb-ProviderManager[34828]: SendMsg sending to 1 34828-9 Bad file descriptor
2014-05-26T11:56:34Z sfcb-ProviderManager[34828]: SendMsg sending to 1 34828-9 Bad file descriptor
2014-05-26T11:56:34Z sfcb-ProviderManager[34828]: SendMsg sending to 1 34828-9 Bad file descriptor
2014-05-26T11:56:44Z sfcb-ProviderManager[34828]: SendMsg sending to 1 34828-9 Bad file descriptor
2014-05-26T11:56:44Z sfcb-ProviderManager[34828]: SendMsg sending to 1 34828-9 Bad file descriptor
2014-05-26T11:56:44Z sfcb-ProviderManager[34828]: SendMsg sending to 1 34828-9 Bad file descriptor
2014-05-26T11:56:44Z sfcb-ProviderManager[34828]: SendMsg sending to 1 34828-9 Bad file descriptor
2014-05-26T11:56:46Z sfcb-ProviderManager[34828]: SendMsg sending to 1 34828-9 Bad file descriptor
2014-05-26T11:56:48Z sfcbd[35064]: Error opening socket pair for getProviderContext: Too many open files

更新

ILO 2をセットアップしてログにアクセスすると、進行状況が表示され、電源が切断されたというメッセージが大量に表示されていました。だから私は電源を疑うようになりました、そしてUPSを取り外した後、サーバーは今5日間安定しています。

Informational
iLO 2
05/29/2014 20:31
05/29/2014 20:31
1
Server power restored.
Informational
iLO 2
05/29/2014 20:31
05/29/2014 20:31
1
Server power removed.
Informational
iLO 2
05/29/2014 16:57
05/29/2014 16:57
1
Server power restored.
Informational
iLO 2
05/29/2014 16:57
05/29/2014 16:57
1
Server power removed.
Informational
iLO 2
05/29/2014 15:39
05/29/2014 15:39
1
Server power restored.
Informational
iLO 2
05/29/2014 15:39
05/29/2014 15:39
1
Server power removed. 

アップデート2

まだ安定していない24時間で2回クラッシュしました

ログでも同じ

Informational
iLO 2
06/13/2014 05:21
06/13/2014 05:21
2
Server power removed.
Informational
iLO 2
06/13/2014 05:21
06/13/2014 05:21
3
Server power restored.

これが発生した後、iLOインターフェイスは稼働したままになります。空のIMLログには何も表示されません

enter image description here


更新3

Status Summary  
    Server Name:    esx01.xx.xx; ProLiant ML350 G5
UUID:   32393534-3937-5A43-4A38-353130393248
Server Serial Number / Product ID:  CZJ851092H / 459279-425
System ROM:     D21  11/02/2008; backup system ROM: 11/02/2008
System Health:   Ok
Internal Health LED:     Ok
Server Power:   
 ON
UID Light:  
 OFF
Last Used Remote Console:       
Remote Console
Latest IML Entry:       IML Cleared (iLO 2 user:xxx)
iLO 2 Name:     ILOCZJ851092H
License Type:   iLO 2 Standard
iLO 2 Firmware Version:     1.61   08/31/2008
IP address:     192.168.2.2
Active Sessions:    iLO 2 user:xxx
Latest iLO 2 Event Log Entry:   Browser login: xxx - 172.20.1.105(DNS name not found).
iLO 2 Date/Time:    06/13/2014 23:22:52 
5
Darkmage

ハードウェアに問題がある可能性があります。これはVMware ESXiの問題ではありません

  • どのビルド番号のESXiを使用していますか?
  • サーバーハードウェア/ BIOSはどのファームウェアリビジョンにありますか?
  • あなたが言及した他のESXiホストは同じハードウェアで構成されていますか?

最善の策は、サーバーのHP統合管理ログ(IML)を調べることです。これは、ILO 2インターフェースを介して行うことができます。

  • ILOにログオンし、ハードウェアシステムのステータスタブを確認します。そのメインの概要画面で、おそらく何が問題なのかがわかります。
  • さらに、[システムステータス]タブのIMLオプションを確認してください。これにより、サーバーがクラッシュした理由がわかります。

それで全部です。ここでRAM、CPU、またはシステムボードに問題がある可能性があります。

enter image description here


編集:ホストのファームウェアを更新してください、お願いします!!-統計

お使いのシステムの 現在の起動可能なファームウェアDVD のダウンロードはこちらです。それを使用してシステムを起動し、すべてのコンポーネントを更新させてください。そのサーバー上のすべてのものは2008年にさかのぼるように見えます。これは、HPサーバーハードウェアを使用する場合は大したことではありません。

7
ewwhite