サーバーでSunGridEngine(Rocks Cluster)を使用してリモートジョブを実行しています。
qdel
を使用してジョブを削除しようとすると、期待どおりに機能することがよくありますが、時々、見つかったほとんどすべてのものが削除されます。
たとえば、今日のある時点で、77の実行中のジョブがありました。
[znorg @ server MD] $ qstat job-ID事前名ユーザー状態キュースロットで送信/開始ja-task-ID --------- -------------------------------------------------- -------------------------------------------------- ---- 7711 0.55500 shg_oAll_c znorg dr 10/30/2012 13:49:07 [email protected] 1 7712 0.55500 shg_oCAB_c znorg dr 10/30/2012 13:49:07 [email protected] 1 7873 0.55500 a1h3l_prdA znorg r 11/08/2012 13:37:22 [email protected] 1 7874 0.55500 a1t8k_obsA znorg r 11/08/2012 13:37:22 [email protected] 1 7875 0.55500 a1t8k_prdA znorg r 11/08/2012 13:37 :37 [email protected] 1 7877 0.55500 a3zr8_prdA znorg r 11/08/2012 13:37:37 [email protected] 1 7878 0.55500 b1nez_obsA znorg r 11/08/2012 13:37:52 [email protected] 1 7880 0.55500 b2j73_obsA znorg r 11/08/2012 13:37:52 all.q @ compute-0-20.local 1 (...) 7955 0.55500 b2qcp_prdE znorg r 11/08/2012 13:44:07 [email protected] 1 7956 0.55500 c3o2e_obsE znorg r 11/08/2012 13:44:22 [email protected] 1 7960 0.55500 c3zzp_obsE znorg r 11/08/2012 13: 44:37 [email protected] 1 7995 0.55500 s1enh_prdA znorg r 11/22/2012 16:06:24 [email protected] 1 7996 0.55500 s1igd_prdA znorg r 11/22/2012 16:06:39 [email protected] 1 7997 0.55500 s1ixs_prdA znorg r 11/22/2012 16:06:39 all .q @ compute-0-33.local 1 (...) 8008 0.55500 s1igd_pr dD znorg r 11/22/2012 16:07:39 [email protected] 1 8009 0.55500 s1ixs_prdD znorg r 11/22/2012 16:07:39 all.q@compute -0-13.local 1 8010 0.55500 s1shg_prdD znorg r 11/22/2012 16:07:39 [email protected] 1
最後の16個のジョブを削除したかったので、次のように入力しました。
[znorg @ server MD] $ qdel 7995 7996 7997 7998 7999 8000 8001 8002 8003 8004 8005 8006 8007 8008 8009 8010
戻った:
znorgは削除のためにジョブ7995を登録しました znorgは削除のためにジョブ7996を登録しました znorgは削除のためにジョブ7997を登録しました znorgはジョブ7998を登録しました削除用 znorgは削除用にジョブ7999を登録しました znorgは削除用にジョブ8000を登録しました znorgは削除用にジョブ8001を登録しました znorgは削除用に登録しました削除用のジョブ8002 znorgは削除用のジョブ8003を登録しました znorgは削除用のジョブ8004を登録しました znorgは削除用のジョブ8005を登録しました znorgはジョブ8006を削除用に登録 znorgはジョブ8007を削除用に登録 znorgはジョブ8008を削除用に登録 znorgはジョブ8009を削除用に登録 znorgはジョブ8010を削除用に登録しました
これまでのところ、期待どおりに進んでいるようです。
しかし、もう一度確認すると、他のほとんどすべての仕事がなくなっていました。
[znorg @ server MD] $ qstat job-ID事前名ユーザー状態キュースロットで送信/開始ja-task-ID --------- -------------------------------------------------- -------------------------------------------------- ---- 7712 0.55500 shg_oCAB_c znorg dr 10/30/2012 13:49:07 [email protected] 1 7893 0.55500 a1t8k_prdB znorg r 11/08/2012 13:39:07 [email protected] 1 7929 0.55500 a1t8k_prdD znorg r 11/08/2012 13:42:07 [email protected] 1
私は何か間違ったことをしていますか?ここで何が起こっているのでしょうか?
仕事は終わったようです。 qdelコマンドに問題はありません。そして、あなたが最後に得る数字によって、それはそうではないように見えますqdelアクション。あなたはいくつかの仕事情報をチェックすることができます:
qacct -o znorg -j Job-ID