我在AWS集群上使用slurm,并编写了一个执行脚本,该脚本似乎不起作用。如果我单独运行这个脚本,它就运行得很好。但是,在使用sbatch运行时,它不起作用。我使用以下代码调用sbatch: do sudo /opt/slurm/bin/sbatch ./slurm_script.sh $sample; don
当我使用slurm ()工作负载管理器时,出现了这个错误。当我运行一些tensorflow python脚本时,有时会导致错误(附后)。它似乎找不到安装库达库,但我正在运行的脚本,不需要GPU。我从slurm_id文件中获得的唯一有用信息如下:
I tensorflow/stream_executor/dso_loader.cc:108] successfully opened CUDA library我试图用GPU运行我的工作,如果我的任务是CPU
我正在尝试在运行Ubuntu的Virtualbox上安装slurm。我们使用它通过web界面运行长时间运行的作业,并使用slurm对作业进行排队和运行。我已经设置了slurm,但是当我将一个作业排入队列并运行squeue时,我得到: $ squeue
JOBID PARTITION NAME USER ST1 (Nodes required for job are DOWN, DRAINED or reserv