Pacemaker/Corosync/drbdを使用してアクティブ/パッシブクラスターを作成し、Apacheの障害を「シミュレート」しましたpkill httpd
そしてペースメーカーは「障害」から回復し、pcs status
を実行するとhttpdを開始しました。
Failed Actions:
* Apache_monitor_60000 on server1 'not running' (7): call=39, status=complete, exitreason='none',
last-rc-change='Wed May 9 09:55:45 2018', queued=0ms, exec=0ms
ペースメーカーは、回復が成功した後、失敗したアクションをクリアしないのはなぜですか?または、手動以外に失敗したアクションをクリアする他の方法はありますか?
前もって感謝します!
これは仕様によるものです。私を含めた一部の管理者は、エラーがいつ発生したかを把握して調査できるように、エラーを確認したいと考えています。さらに、ペースメーカーはこれらのエラーを追跡して、リソースを開始するのに最適な場所を決定できるようにする必要があります。
ただし、Pacemakerには、新しい障害が発生しなかった場合に、指定された時間後に障害をクリアする方法があります。これは、障害タイムアウトとして知られています。これはリソースごとに構成できますが、以下は、crmシェルでクラスター全体のリソースのデフォルトとして指定する方法です。 pcsにもそれを定義する方法があると思います。
crm configure rsc_defaults failure-timeout=15m
これはcluster-recheck-intervalでのみチェックされることに注意してください。デフォルトでは15分ごとです。 15mの障害タイムアウトが設定されている場合、正確に障害が発生した時期によっては、これがクリアされるまでに29分59秒かかる可能性があります。