腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
出错
时
自动
重新
运行
使用
sbatch
--
array
提交
的
作业
、
我正在以数组
的
形式
提交
作业
。有时,一个
作业
会因为难以诊断
的
gpu内存问题而
出错
。只需
重新
运行
作业
即可获得成功。 我想要做
的
是捕获这个错误,记录它,并将
作业
放回slurm
的
队列中
重新
运行
。如果数组
作业
不能做到这一点,那也没关系,
使用
数组并不是必须
的
(尽管这是首选)。我尝试过
使用
浏览 40
提问于2019-04-25
得票数 1
回答已采纳
2
回答
处理
作业
提交
限制
我
使用
--
array
运行
slurm
作业
数组,我想
运行
大约2000个任务/数组项。但是,这超出了集群一次
提交
约500个
作业
的
限制。 有没有什么小贴士/最佳实践来拆分这一切呢?我想一次
提交
所有的数组,如果可能的话,仍然可以将数组id参数1-2000传递给我
的
程序。我认为像等待
提交
数组片段这样
的
事情可能会有帮助,但目前我不确定如何做到这一点。
浏览 0
提问于2020-11-10
得票数 0
1
回答
Slurm Workload Manager
的
作业
提交
问题
、
我
使用
的
计算机集群有20个节点,每个节点有16个CPU。我尝试
使用
"
sbatch
XX.
sbatch
“命令向所有节点
提交
1,000个
作业
。我想要
的
是320个
作业
同时
运行
,即每个节点16个
作业
,或每个CPU 1个
作业
。
浏览 6
提问于2021-03-11
得票数 0
1
回答
使用
在其他文件中找到
的
不同变量
运行
作业
脚本
、
、
、
假设我在一个txt文件(var.txt)中有以下变量列表: AAABBB#
SBATCH
--job-name test#
SBATCH
--time 04:00#
SBATCH
--erro
浏览 18
提问于2021-11-16
得票数 1
回答已采纳
1
回答
SLURM:
自动
重新
排队由于抢占而取消
的
作业
的
标志?
、
我在SLURM上
运行
以下
作业
数组: #!/bin/bash #
SBATCH
--partition=scavenge#
SBATCH
--time=1:00:00module load Python/3.6.4-iomkl-2018a python run.py ${SLURM_
ARRAY
_TASK_ID} 我
的
许多
浏览 339
提问于2020-08-19
得票数 2
回答已采纳
1
回答
SLURM:相同
的
脚本
运行
在不同但顺序编号
的
文件上
我
使用
的
集群刚刚切换到SLURM,我试图做一些我认为非常简单
的
事情。我有一个脚本,我想在许多按顺序编号
的
文件上
运行
,例如:python script.py file2.gz#!
浏览 0
提问于2018-09-17
得票数 0
回答已采纳
1
回答
将参数传递到slurm脚本
、
、
、
、
我
使用
slurm脚本在集群上
运行
用于Matlab计算
的
数组。每个脚本都
使用
一个数组来循环matlab参数。#
SBATCH
--
array
=1-128matlab -nodesktop r "frame=[${SLURM_
ARRAY
_TASK_ID}]; filename=['Person24']; myfunction(frame, f
浏览 0
提问于2019-06-18
得票数 2
回答已采纳
1
回答
如何
使用
slurm正确
提交
作业
数组
、
我正在尝试
使用
slurm
提交
一组
作业
,但它并不像我预期
的
那样工作。我
的
bash脚本是test.sh###
Array
echo TEST MESSAGE 1test.py代码: print(&
浏览 1
提问于2022-07-12
得票数 0
回答已采纳
3
回答
相同脚本但具有不同输入参数
的
SLURM
sbatch
作业
数组并行
运行
、
、
我有一个问题,我需要启动相同
的
脚本,但
使用
不同
的
输入参数。M
的
每一次试验都几乎达到了我工作
的
集群
的
时间限制(并且我没有特权更改它)。因此在实践中,我需要
运行
独立于NxM
的
作业
。因为每个批处理
作业
都有相同
的
节点/cpu配置,并调用相同
的
python脚本,除了更改输入参数之外,原则上,在伪语言中,我应该有一个
sbatch
脚本,它应该执行以下操作: #!看看,
浏览 5
提问于2017-01-28
得票数 9
回答已采纳
1
回答
如何
使用
Slurm/
Sbatch
提交
/
运行
多个并行
作业
?
、
、
、
我正在尝试向Slurm服务器
提交
大量
作业
(数百个),并希望避免为我想要
运行
的
每个
作业
提交
新
的
shell脚本。
提交
的
代码是一个Python脚本,它接受shell脚本中
的
两个输入变量,并且这些变量是在不同
作业
之间唯一变化
的
变量。以下是适用于单个
作业
的
简短shell脚本
的
示例: #!/bin/bash #
浏览 1898
提问于2021-04-02
得票数 0
1
回答
Slurm:是否可以通过批处理来给出或更改
提交
作业
的
pid
、
当我们通过
sbatch
提交
作业
时
,通过增量命令
提交
作业
的
pid值。根据我
的
观察,这个命令再次从1开始。
sbatch
-N1 run.sh//目标是在可能
的
情况下更改
提交
的
批处理
作业
的
id。 例如,Q1在slurm下有一个正在
运行
的
作业
浏览 3
提问于2017-04-10
得票数 0
回答已采纳
1
回答
使
作业
依赖于SLURM中
的
数组
作业
、
、
、
我有两个
作业
脚本要
提交
给SLURM,jobA.sh和jobB.sh。jobA是一个数组
作业
,我希望jobB仅在所有jobA完成后启动。我
的
jobA.sh脚本是:#
SBATCH
-A TRIGWMS # cores per task# #
SBATCH
--
array
/myjobA_$SLURM_<em
浏览 12
提问于2018-09-10
得票数 5
回答已采纳
1
回答
有没有办法通过slurm在集群上单独
使用
CPU?
、
我一直在
使用
一个由200个节点组成
的
集群,每个节点有32个核心,用于模拟随机过程。我必须对同一系统进行大约10000次模拟,所以我在一个节点
的
32个内核中
运行
相同
的
模拟(
使用
不同
的
RNG种子),直到它完成所有10000次模拟。(每个模拟完全独立于其他模拟) 在这样做
的
过程中,根据种子
的
不同,一些模拟比其他模拟需要更多
的
时间,一段时间后,我通常会分配给我完整
的
节点,但只有一个核心在
运行</em
浏览 20
提问于2020-10-23
得票数 1
1
回答
提交
的
职位是否抄袭源?排队
的
工作?
当
使用
sbatch
提交
作业
时
,是否将我
的
可执行文件
的
副本带到计算节点?还是它只是从/home/user/执行文件?有时,当我没有组织,我会
提交
一份工作,然后改变来源和
重新
编译,以
提交
另一份工作。这似乎不是一个好主意,特别是当工作仍然在排队
的
时候。同时,这似乎是应该允许
的
,如果在调用
sbatch
时
创建了源
的</
浏览 3
提问于2022-02-22
得票数 1
回答已采纳
2
回答
,让#
SBATCH
-数组读取txt文件
的
行数
、
、
、
我有下面的slurm脚本(script.sh),它将与#
SBATCH
--
array
=0-24并行
运行
在HPC 25
作业
上。每个
作业
将从file.txt中获取一个变量,并将其用作$VAR变量。#
SBATCH
--job-name test#
SBATCH
--time 00-05:00#
SBATCH<
浏览 3
提问于2022-01-16
得票数 1
2
回答
SLURM:在worker完成后
重新
启动worker
、
我想创建一个SLURM worker数组,每当其中一个worker完成它
的
工作
时
,我想
重新
启动这个worker。如果可以在我
的
队列上
运行
无限持续时间
的
作业
,我当然会这样做,但因为这是不可能
的
,所以我认为我应该创建一个无限系列
的
工作程序。 这在SLURM中是可能
的
吗?我认为我可以从worker数组中
的
最后一个worker内部
提交
sbatch
命令来
重新</em
浏览 3
提问于2020-09-18
得票数 0
1
回答
为什么我不能在SLURM中模拟
运行
同一python脚本
的
多个实例
、
、
、
我可以
使用
以下命令在登录节点上
运行
此脚本此外,我可以
提交
一个脚本submit.sh来
运行
该
作业
:found 当我尝试以数组
的
形式
提交
作业
时
,我发现我遇到了同样
的
问题。例如,当我
使用
浏览 2
提问于2018-10-24
得票数 0
2
回答
Slurm -如何将所有可用
的
CPU用于独立任务?
、
我
的
问题类似于这个问题。 不同
的
是,我
的
作业
由N个独立
的
任务组成,每个任务有一个核心,而不是MPI程序
的
单个
作业
。对worker_script.sh
的
每个调用都是一个任务。我希望前32个任务
运行
,而其余68个任务将排队。当内核释放
时
,后面的任务就会
运行
。最终,当所有任务都
运行<
浏览 2
提问于2020-08-22
得票数 1
2
回答
SLURM‘`srun`’vs‘`
sbatch
`’及其参数
、
、
、
、
根据
的
说法,srun是用来
提交
作业
的
,
sbatch
是用来
提交
作业
供以后执行
的
,但是实际
的
差别对我来说并不清楚,他们
的
行为似乎是一样
的
。例如,我有一个有两个节点
的
集群,每个节点都有两个CPU。如果我连续执行srun testjob.sh & 5x,它将很好地排队等待第五个
作业
,直到CPU可用为止,执行
sbatch
testjob.sh也是如
浏览 21
提问于2017-05-03
得票数 148
回答已采纳
1
回答
能否向slurm
提交
一系列不同
的
工作?
例如,我有一个名为myScript
的
脚本,它处理一个输入文件,还有一个文件名列表。也就是说,我得跑了有关存储在filenames.txt中
的
文件名列表。分发我在Slurm中找到
的
作业
的
唯一方法是指定-n参数,该参数重复您
的
命令或批处理脚本。但是请注意,我需要在每次
运行
中传递一个变量参数。在斯隆有可能这样做吗?我目前
的
解决方案是激发许多
sbatch
脚本,每个脚本都有一个指定<em
浏览 2
提问于2015-02-14
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
linux后台执行命令:&和nohup的用法,确实很实用
Midjourney系列教程【1】–命令
PHP编程实例:简单的自定义函数过滤字符串功能实现!
金科案例 广东农信:核心批量调度系统项目
高性能多级网关与多级缓存架构落地实战
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券