web-dev-qa-db-ja.com

SLURMクラスターのエラー-1つのoom-killイベントが検出されました:実行中のジョブを改善する方法

私はSLURMクラスターで作業しており、複数のプロセスを(複数の入力ファイルで)同時に実行し、同じbashスクリプトを使用していました。

ジョブの終わりに、プロセスは強制終了されました。これは私が取得したエラーです。

slurmstepd: error: Detected 1 oom-kill event(s) in step 1090990.batch cgroup.

私の推測では、メモリに何らかの問題があるということです。しかし、どうすればもっと知ることができますか?十分なメモリを提供しませんでしたか?またはユーザーとして、私がアクセスできるもの以上のものを要求していましたか?

なにか提案を?

10
CafféSospeso

ここで、OOMは「Out of Memory」の略です。 Linuxのメモリが不足すると、重要なプロセスを実行し続けるためにプロセスを「殺し」ます。 slurmstepdがプロセスが完全に終了したことを検出したようです。 Oracleには、このメカニズムの いい説明 があります。

許可されているよりも多くのメモリを要求した場合、プロセスはノードに割り当てられず、計算は開始されません。より多くのメモリを要求する必要があるようです。

8
Kyle