proxmox Xen全体Nodeに灰色の疑問符+データベースコンテナが表示されない

Question

まず、最近、以前に管理したことがないproxmoxクラスターの管理を始めました（クラスター管理は完全に新しいですが、Linuxはそれほど悪くありません）。

pve-manager/5.1-46/ae8241d4 (running kernel: 4.13.13-6-pve)

2つのxenノードがあり、それらのノード内で多数のコンテナとVMを実行しています。昨日、mysqlデータベースを実行するXen2のコンテナが応答を停止しました。私はssh経由でコンテナーにログインでき、mysqlを再起動しようとしましたが、mysql.sockに接続できなかったというエラーが表示されました。だから私は単にコンテナーをシャットダウンして、それを再起動することにしました。コンテナーのproxmox UIで「シャットダウン」を選択し、それをシャットダウンしました。次に、「開始」をクリックすると、proxmoxログが記録されました。

CT 110 - Start ERROR: command 'systemctl start pve-container@110' failed: exit code 1

だから、私は「システムスタート...」をssh経由で実行してみました。しばらくすると、次の結果が表示されます。

Job for pve-container@110.service failed because a timeout was exceeded. See "systemctl status pve-container@110.service" and "journalctl -xe" for details.

以下は「systemctl status ...」の出力です。

● pve-container@110.service - PVE LXC Container: 110 Loaded: loaded (/lib/systemd/system/pve-container@.service; static; vendor preset: enabled) Active: failed (Result: timeout) since Thu 2018-06-07 08:35:22 BST; 43s ago Docs: man:lxc-start man:lxc man:pct Process: 1603366 ExecStart=/usr/bin/lxc-start -n 110 (code=killed, signal=TERM) Tasks: 1 (limit: 4915) CGroup: /system.slice/system-pve\x2dcontainer.slice/pve-container@110.service └─1532500 [lxc monitor] /var/lib/lxc 110 Jun 07 08:33:52 xen2 systemd[1]: Starting PVE LXC Container: 110... Jun 07 08:35:22 xen2 systemd[1]: pve-container@110.service: Start operation timed out. Terminating. Jun 07 08:35:22 xen2 systemd[1]: Failed to start PVE LXC Container: 110. Jun 07 08:35:22 xen2 systemd[1]: pve-container@110.service: Unit entered failed state. Jun 07 08:35:22 xen2 systemd[1]: pve-container@110.service: Failed with result 'timeout'.

そして 'journalctl -xe'：

Jun 07 08:35:22 xen2 systemd[1]: pve-container@110.service: Start operation timed out. Terminating. Jun 07 08:35:22 xen2 systemd[1]: Failed to start PVE LXC Container: 110. -- Subject: Unit pve-container@110.service has failed -- Defined-By: systemd -- -- Unit pve-container@110.service has failed. -- -- The result is failed. Jun 07 08:35:22 xen2 systemd[1]: pve-container@110.service: Unit entered failed state. Jun 07 08:35:22 xen2 systemd[1]: pve-container@110.service: Failed with result 'timeout'.

初めてコンテナーを再起動しようとした直後に、xen2ノード全体がすべてのVM /コンテナーの横に灰色の疑問符を表示し始め、ラベルが失われました（スクリーンショットを参照）：

それにもかかわらず、xen2内の他のすべてのVM /コンテナは引き続き正常に機能しています。そこで、次のコマンドを実行して何が起こるかを確認することにしました。

service pvedaemon restart（何も変更されていません）service pveproxy restart（何も変更されていません）service pvestatd restart（VMはproxmox UI内で名前を表示し始めました（ただしコンテナーではありません）、これは10〜15分しか続きませんでした）

Xenノード全体をアップグレードまたは再起動することをためらっています。構成の未知の側面と、潜在的な落とし穴があり、そのビジネスは少なくとも何かを実行することが重要であるためです。さらに、私は/ var/log/syslogを実行しましたが、コンテナーがクラッシュした理由を示すものは何も表示されませんでした。

理想的には、達成したいのは：データベースコンテナーがクラッシュした理由を特定する（110）データベースコンテナーを再度正常に起動するxen2ノードがVM /コンテナーに関するデータをUIに報告していない理由を特定するUIのレポートデータを修正するnode繰り返しますが、私がproxmoxを初めて使用することに感謝してください。

この問題のトラブルシューティングに関するヒントや知識をありがとうございます。他に共有してほしい情報がある場合は、お知らせください。

乾杯、デビッド

Sirens · Answer

私も同様の症状の問題に苦しんでいます（すべてのノード、VM、およびCTが「不明」ステータスになります）。コマンドラインを使用するとすべてが問題なく見えたので、Web UIを再度使用する前にすべてを移行して各ノードを個別に再起動する必要があったため、何よりも厄介でした。次のように各ノードで次のサービスを再起動すると問題が解決することがわかりました。

systemctl restart pvedaemon systemctl restart pveproxy systemctl restart pvestatd

これらをスクリプトにドロップして./script.sh &で実行することをお勧めします。これにより、コンソールセッションが切断されるため、Web UIの使用を計画している場合は、これをオフにします。

Argl Bargl · Answer

同じ問題に遭遇しただけです（1つのクラスターノードで灰色の疑問符のみが表示され、コンテナーのラベルが失われました）。私の場合、これはproxmoxのアップデート（5.3から5.4へ）の直後でした。 OPのような同様のことを行った後、私のsshdがポート22にもうリストされていないことがわかりました。 sshdを再起動した後、すぐには問題ありませんでしたが、約15分ほど必要でした。その後、すべてが再び元気でした。