web-dev-qa-db-ja.com

応答しないESXi5.5サーバー

HAの4ホストクラスターの一部であるホストがあります。

昨日のある時点で、ホストが応答を停止したことに気付きました。vSphereコンソールでは、ホストは(応答しない)としてグレー表示され、その上のすべてのVMは(アクセス不能)として表示されます。それら自体がまだ正常に実行されているVMは、リモートデスクトップで接続でき、すべてが稼働しています。このマシンには重要なサーバーがあります。ホストを右クリックして、数時間後に「接続」しようとしましたが、失敗しました。その上でVMを移動できません。すべてのアクションがグレー表示されます。ホストでF2を押すと、ログインプロンプトが表示されます。資格情報を入力した後、何も起こりません。 ALT + F1は有効になっていないため、何もできません。 SSHが有効になっていません。 ALT + F11を使用すると、hostdがクラッシュしたことがわかります。これは、おそらく問題です。私は完全なサポートがあるのでVmwareに電話しましたが、非常に短い電話の後、彼はホストを強制的にシャットダウンする以外に何もすることはないと言いました。

私はそれをしたくありません。hostdを再起動したいのですが、アクセスできないようです。 PowerCLIを試しましたが、ホストへの接続がタイムアウトしました。ホストへの直接のvSphereもタイムアウトします。ホストへのpingは機能するため、少なくともネットワークは存在します。

シェルを入手する他の方法を知っている人はいますか?

ありがとう。

詳細:Dell PowerEdge R720、Dell PERCH710でESXi5.5.01331820を実行

DRACを確認しましたが、ローカルボリュームは正常です。これは実際にはRAID1にすぎず、すべてのVMがSAN上にあります。 vmware esxiのウェルカムページは機能しますが、「このホストのインベントリ内のデータストアを参照する」をクリックしても表示されません。 mobは「hostip/mob /?moid = ServiceInstance&doPath = content」でも正常に機能しているようです。

ALT + F11コンソールの場合:2014-09-11T7:15:02.329Z cpu12:57750311)hostdが非応答性であることが検出されました

同じ行、異なる時間、CPUを11回。

3
Enriquev

これは私にはローカルストレージの問題のように聞こえます。私は、ローカルRAIDストレージで実行される何百ものESXiホストがある環境で作業しました。残念ながら、ハードウェアのローカルストレージコントローラーは不安定でした...不正なLSIファームウェアリビジョン、欠陥のあるバックプレーン、Supermicroハードウェアの有毒な組み合わせ。

しかし、あなたが説明している動作は、ローカルストレージの問題を示しています。実行中のVMはRAMにあり、ネットワークスタックは影響を受けませんが、ホストを管理する機能が損なわれます。ホストがローカルディスクから読み取ることができないため、ログインが機能しません。ディスクアクセスを必要とする他のコマンドについても同じことが言えます。

ここでの最善のオプションは、(ゲストオペレーティングシステム内から)VMの正常なシャットダウンをスケジュールすることです。そこから、手動でホストに障害を発生させます(電源オフ、再起動など)。メンテナンスモードまたはクラスター選択の範囲外のままにします。 VMの電源を入れ、vSphereクラスターの他の場所で実行できるようにします。

ホストの問題のデバッグに関心がある場合は、DellDRACでストレージアレイのステータスを確認してください。それはあなたを正しい方向に向けます。

2
ewwhite