web-dev-qa-db-ja.com

gfsが壊れて、lock_gulmdを起動できませんでした、State =期限切れと述べています

Sometingが壊れていて、私は最初のサーバー上のストレージとの接続を失いました。 2番目のサーバーはそのfsにアクセスできました。私はService Lock_gulmd、GFS、プール、CCSD STOP/STATE(さまざまな注文で)でGFSを再起動しようとしましたが、運がありません。マスターサーバー(3番目のもの) "gulm_tool nodelist localhost"

「言う

Name: srv1
  state = Expired
  mode = Slave
  missed beats = 0
  last beat = 0
  delay avg = 0
  max delay = 0
 _

私はそれが柵を求める必要があることを見つけましたか?自動または手動で?誰もが助けることができますか?現時点では、どのホストもFSに何も書いていないので、害はできませんでした、私は推定します。現時点では2番目のホストも期限切れになり、lock_gulmdを起動できません。

1
Icapan

まだ自動的に述べられていない場合は、フェンシングメカニズムが完全に機能していないと仮定します。

私は何ができるかは、期限切れのホストを(1つずつ、または同時に両方に)再起動し、クラスタフェンシングをFence_ack_Manual Toolに成功させたことを知らせます。これはあなたのログに表示されませんか?

このツールを実行している(実行するノードでは、再起動する必要があるノードではありません)は、GFSファイルシステムと障害のあるノードを回復することができます。回復は主に、適切なクラスタメンバーであるノードと、GFSファイルシステムジャーナルは必要に応じて再生されています。

1
wzzrd

正直なところ、特にファイルシステムからロックアウトしたときは、このようなGFSの問題を解除する最善の方法は、すべてのマシンを停止してからクラスタを再度バックアップするだけです。私がたくさんのGFSファイルシステムをレングスしていたとき、それは最も信頼性が高く、通常これらの問題を修正する最も早い方法でした。

0
womble