web-dev-qa-db-ja.com

Red Hat Cluster Suiteが機能しなくなったのはなぜですか?

私はCentOS6.4でClusterSuiteをテストしていて、正常に動作していましたが、今日[この質問が最初に尋ねられた8月8日]以前に動作していた構成が気に入らないことに気付きました。 。 CCSを使用して構成を最初から再作成しようとしましたが、検証エラーが発生しました。


8月21日編集:

CentOS 6.4 x86_64の最小インストールからボックスを完全に再インストールし、次のパッケージとその依存関係を追加しました。

yum install bind-utils dhcp dos2unix man man-pages man-pages-overrides nano nmap ntp rsync tcpdump unix2dos vim-enhanced wget

そして

yum install rgmanager ccs

次のコマンドはすべて機能しました。

ccs -h ha-01 --createcluster test-ha
ccs -h ha-01 --addnode ha-01
ccs -h ha-01 --addnode ha-02
ccs -h ha-01 --addresource ip address=10.1.1.3 monitor_link=1
ccs -h ha-01 --addresource ip address=10.1.1.4 monitor_link=1
ccs -h ha-01 --addresource ip address=10.110.0.3 monitor_link=1
ccs -h ha-01 --addresource ip address=10.110.8.3 monitor_link=1
ccs -h ha-01 --addservice routing-a autostart=1 recovery=restart
ccs -h ha-01 --addservice routing-b autostart=1 recovery=restart
ccs -h ha-01 --addsubservice routing-a ip ref=10.1.1.3
ccs -h ha-01 --addsubservice routing-a ip ref=10.110.0.3
ccs -h ha-01 --addsubservice routing-b ip ref=10.1.1.4
ccs -h ha-01 --addsubservice routing-b ip ref=10.110.8.3

その結果、次の構成になりました。

<?xml version="1.0"?>
<cluster config_version="13" name="test-ha">
    <fence_daemon/>
    <clusternodes>
        <clusternode name="ha-01" nodeid="1"/>
        <clusternode name="ha-02" nodeid="2"/>
    </clusternodes>
    <cman/>
    <fencedevices/>
    <rm>
        <failoverdomains/>
        <resources>
            <ip address="10.1.1.3" monitor_link="1"/>
            <ip address="10.1.1.4" monitor_link="1"/>
            <ip address="10.110.0.3" monitor_link="1"/>
            <ip address="10.110.8.3" monitor_link="1"/>
        </resources>
        <service autostart="1" name="routing-a" recovery="restart">
            <ip ref="10.1.1.3"/>
            <ip ref="10.110.0.3"/>
        </service>
        <service autostart="1" name="routing-b" recovery="restart">
            <ip ref="10.1.1.4"/>
            <ip ref="10.110.8.3"/>
        </service>
    </rm>
</cluster>

ただし、ccs_config_validateを使用するか、cmanサービスを開始しようとすると、次のように失敗します。

Relax-NG validity error : Extra element rm in interleave
tempfile:10: element rm: Relax-NG validity error : Element cluster failed to validate content
Configuration fails to validate

どうしたの?これは以前は機能していました!

2
Iain Hallam

さらにyum updateダンスをした後、再び機能し始めました。新旧の/var/lib/cluster/cluster.rngを比較しましたが、驚き、驚き、違いがあります。動作しなかったシステム上のものには、<ip>要素の定義がありませんでした。

システムの現在の化身は同じ最小限のCDからインストールされ、カットアンドペーストのコマンドのステップバイステップの手順があります。これは、開発中に数回機能し、その後2か月近く失敗し、現在は開始されています。再び働きます。私は箱を約半ダース回作ったので、それは手順ではないと思います。

おそらく、Red Hatの側のスリップアップですが、過去2か月間にこのファイルにチェックインされた変更を見つける方法がわかりません。

0
Iain Hallam

フェイルオーバードメインが不足していると思います。RedHatクラスターでサービスを定義する場合は、最初にフェイルオーバードメインを定義する必要があります。多くのサービスにフェイルオーバードメインを使用することも、サービスごとに1つ使用することもできます。

フェイルオーバードメイン「manclurgmgrd」に関する詳細情報が必要な場合

フェイルオーバードメインは、サービスがバインドされる可能性のあるメンバーの順序付けられたサブセットです。以下

さまざまな構成オプションがフェイルオーバードメインの動作にどのように影響するかに関するオプションを管理するセマンティクスのリストです。

0
c4f4t0r