Sun Grid Engineに新しい作業の割り当てを停止させたいという意味で、ノード(またはノードのセット)を「オフライン」としてマークしたいと思います。これは、ノード自体のある種の保守作業のためのものです。ノードは、割り当てられたすべての作業を終了してから、ある種のアイドル(「オフライン」)状態に入る必要があります。私はqconfのドキュメントを探してきましたが、どのハウツーでもこのユースケースを見つけることができません。
について検索すると、qmodユーティリティが表示されます。私はの簡単なテストを行いました
qmod -d QUEUENAME.q@MACHINENAME
実際にジョブを実行して試したことはありませんが、これは機能しているようです。 qstat出力が変更され、ノードが無効になっていることが示されます。「d」フラグが表示されます。
qmod -e QUEUENAME.q@MACHINENAME
マシンを再び有効にします。
私たちのクラスターでは、マシンの名前はworker-##-##で、2つの番号はラック番号とランク番号です。 「all.q」と呼ばれる1つのマスターキューのみを実行します。また、クラスター内のマシンは、qstat出力に「.local」サフィックスが付いてリストされます。したがって、上記のコマンドは最終的に
qmod -d [email protected]
マシンをラック9、ランク9のキューイングローテーションから外します。