私はSLURMクラスターで作業しており、複数のプロセスを(複数の入力ファイルで)同時に実行し、同じbashスクリプトを使用していました。
ジョブの終わりに、プロセスは強制終了されました。これは私が取得したエラーです。
slurmstepd: error: Detected 1 oom-kill event(s) in step 1090990.batch cgroup.
私の推測では、メモリに何らかの問題があるということです。しかし、どうすればもっと知ることができますか?十分なメモリを提供しませんでしたか?またはユーザーとして、私がアクセスできるもの以上のものを要求していましたか?
なにか提案を?
ここで、OOMは「Out of Memory」の略です。 Linuxのメモリが不足すると、重要なプロセスを実行し続けるためにプロセスを「殺し」ます。 slurmstepd
がプロセスが完全に終了したことを検出したようです。 Oracleには、このメカニズムの いい説明 があります。
許可されているよりも多くのメモリを要求した場合、プロセスはノードに割り当てられず、計算は開始されません。より多くのメモリを要求する必要があるようです。