Ubuntu 10.04を使用していて、UbunturepesitoryからSunGridEngineをインストールしようとしています。単一のマシンで動作し、ジョブなどを送信できます。ただし、他のマシンでは動作させられません。別の実行ホストを追加してgridengine-client gridengine-common gridengine-exec
をインストールしましたが、どういうわけかマスターと通信できません。問題が発生していないことを確認するために、すべてのファイアウォールをオフにしました。
マスターノードでqstat -f
を試してみると、次のようになります。
queuename qtype resv/used/tot. load_avg Arch states
---------------------------------------------------------------------------------
standard@neuron1 BIP 0/0/2 0.04 lx26-AMD64
---------------------------------------------------------------------------------
standard@neuron2 BIP 0/0/2 -NA- -NA- au
Neuron2ノードでデーモンを再起動すると、次のようになります。
error: can't find connection
error: can't get configuration from qmaster -- backgrounding
N2(neuron2)ノードからqstat -f
を実行しようとすると、次のようになります。
error: commlib error: access denied (server Host resolves destination Host "n1" as "neuron1")
error: unable to contact qmaster using port 6444 on Host "n1"
このマシンには2つのホスト名があり、最初のエラーはそれと関係があるように見えますが、それがこの種の問題を引き起こしている場合は奇妙です。 telnet n1 6444
を試してみたところ、接続されました。
ここで何が起こっているのか誰か知っていますか?私は何かが足りないのですか?
わかりました、問題は確かに2倍のホスト名にありました。私がそれから1つを取り除いたとき、働き始めました。私はそれを掘り起こし、なぜそれがそのようであるかを見つけようとします。