web-dev-qa-db-ja.com

proxmox Xen全体Nodeに灰色の疑問符+データベースコンテナが表示されない

まず、最近、以前に管理したことがないproxmoxクラスターの管理を始めました(クラスター管理は完全に新しいですが、Linuxはそれほど悪くありません)。

pve-manager/5.1-46/ae8241d4 (running kernel: 4.13.13-6-pve)

2つのxenノードがあり、それらのノード内で多数のコンテナとVMを実行しています。昨日、mysqlデータベースを実行するXen2のコンテナが応答を停止しました。私はssh経由でコンテナーにログインでき、mysqlを再起動しようとしましたが、mysql.sockに接続できなかったというエラーが表示されました。だから私は単にコンテナーをシャットダウンして、それを再起動することにしました。コンテナーのproxmox UIで「シャットダウン」を選択し、それをシャットダウンしました。次に、「開始」をクリックすると、proxmoxログが記録されました。

CT 110 - Start          ERROR: command 'systemctl start pve-container@110' failed: exit code 1

だから、私は「システムスタート...」をssh経由で実行してみました。しばらくすると、次の結果が表示されます。

Job for [email protected] failed because a timeout was exceeded.
See "systemctl status [email protected]" and "journalctl -xe" for details.

以下は「systemctl status ...」の出力です。

[email protected] - PVE LXC Container: 110
   Loaded: loaded (/lib/systemd/system/[email protected]; static; vendor preset: enabled)
   Active: failed (Result: timeout) since Thu 2018-06-07 08:35:22 BST; 43s ago
     Docs: man:lxc-start
           man:lxc
           man:pct
  Process: 1603366 ExecStart=/usr/bin/lxc-start -n 110 (code=killed, signal=TERM)
    Tasks: 1 (limit: 4915)
   CGroup: /system.slice/system-pve\x2dcontainer.slice/[email protected]
           └─1532500 [lxc monitor] /var/lib/lxc 110

Jun 07 08:33:52 xen2 systemd[1]: Starting PVE LXC Container: 110...
Jun 07 08:35:22 xen2 systemd[1]: [email protected]: Start operation timed out. Terminating.
Jun 07 08:35:22 xen2 systemd[1]: Failed to start PVE LXC Container: 110.
Jun 07 08:35:22 xen2 systemd[1]: [email protected]: Unit entered failed state.
Jun 07 08:35:22 xen2 systemd[1]: [email protected]: Failed with result 'timeout'.

そして 'journalctl -xe':

Jun 07 08:35:22 xen2 systemd[1]: [email protected]: Start operation timed out. Terminating.
Jun 07 08:35:22 xen2 systemd[1]: Failed to start PVE LXC Container: 110.
-- Subject: Unit [email protected] has failed
-- Defined-By: systemd
--
-- Unit [email protected] has failed.
--
-- The result is failed.
Jun 07 08:35:22 xen2 systemd[1]: [email protected]: Unit entered failed state.
Jun 07 08:35:22 xen2 systemd[1]: [email protected]: Failed with result 'timeout'.

初めてコンテナーを再起動しようとした直後に、xen2ノード全体がすべてのVM /コンテナーの横に灰色の疑問符を表示し始め、ラベルが失われました(スクリーンショットを参照):

enter image description here

それにもかかわらず、xen2内の他のすべてのVM /コンテナは引き続き正常に機能しています。そこで、次のコマンドを実行して何が起こるかを確認することにしました。

service pvedaemon restart(何も変更されていません)service pveproxy restart(何も変更されていません)service pvestatd restart(VMはproxmox UI内で名前を表示し始めました(ただしコンテナーではありません)、これは10〜15分しか続きませんでした)

Xenノード全体をアップグレードまたは再起動することをためらっています。構成の未知の側面と、潜在的な落とし穴があり、そのビジネスは少なくとも何かを実行することが重要であるためです。さらに、私は/ var/log/syslogを実行しましたが、コンテナーがクラッシュした理由を示すものは何も表示されませんでした。

理想的には、達成したいのは:データベースコンテナーがクラッシュした理由を特定する(110)データベースコンテナーを再度正常に起動するxen2ノードがVM /コンテナーに関するデータをUIに報告していない理由を特定するUIのレポートデータを修正するnode繰り返しますが、私がproxmoxを初めて使用することに感謝してください。

この問題のトラブルシューティングに関するヒントや知識をありがとうございます。他に共有してほしい情報がある場合は、お知らせください。

乾杯、デビッド

2
David

私も同様の症状の問題に苦しんでいます(すべてのノード、VM、およびCTが「不明」ステータスになります)。コマンドラインを使用するとすべてが問題なく見えたので、Web UIを再度使用する前にすべてを移行して各ノードを個別に再起動する必要があったため、何よりも厄介でした。次のように各ノードで次のサービスを再起動すると問題が解決することがわかりました。

systemctl restart pvedaemon
systemctl restart pveproxy
systemctl restart pvestatd

これらをスクリプトにドロップして./script.sh &で実行することをお勧めします。これにより、コンソールセッションが切断されるため、Web UIの使用を計画している場合は、これをオフにします。

2
Sirens

同じ問題に遭遇しただけです(1つのクラスターノードで灰色の疑問符のみが表示され、コンテナーのラベルが失われました)。私の場合、これはproxmoxのアップデート(5.3から5.4へ)の直後でした。 OPのような同様のことを行った後、私のsshdがポート22にもうリストされていないことがわかりました。 sshdを再起動した後、すぐには問題ありませんでしたが、約15分ほど必要でした。その後、すべてが再び元気でした。

0
Argl Bargl