腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
基于
资源
请求
在
slurm
中
设置
队列
我很好奇是否有一种方法可以
设置
Slurm
分区,这样调度程序就可以查询可用的分区,并根据
请求
的
资源
量分配给一个分区,例如。假设我有几个
队列
: small_cpu = node1,2,3 <- assigned when requesting <= 10 coresfail/backfill = nodes10,11,12 <- assigned when th
浏览 41
提问于2019-03-08
得票数 1
回答已采纳
1
回答
修改mesos代理以添加动态更改的自定义
资源
、
我正在开发一个新的mesos-
slurm
框架,其中来自外部的作业也可以被推送到
slurm
队列
中
。 更新,以更好地解释问题:mesos代理
在
HPC
中
编排作业的同一台计算机上安装了
slurm
。这个
Slurm
既可以从mesos执行器接收作业,也可以从其他方法接收作业(例如,第三方用户通过ssh将作业直接发送给
slurm
)。因此,我希望代理
在
向mesos发送报价之前能够知道
slurm
队列
浏览 3
提问于2017-02-01
得票数 2
1
回答
使用同一用户管理多个访问的最佳方法是什么?
、
场景:我们有两个Ubuntu服务器,每个服务器都有一个用户。用户帐户有一些绑定到主机IP地址和特定端口的特定软件(我们不能更改端口号,因为它是一个标准)。我想知道处理这种情况的最好方法是什么?我们可以有多个用户,但这仍然不能解决端口正在使用的问题。当我们登录时,如果有一种方法来判断是否有人在使用这台机器,那就太好了。 任何想法都很感谢,谢谢!
浏览 0
提问于2023-02-18
得票数 0
1
回答
mpirun是否知道所
请求
的核数目是否大于或小于节点中可用的核数?
、
、
在
mpirun和srun之间,我正在考虑哪个进程启动程序
在
优化
资源
方面更好。假设集群
中
的一个计算节点总共有16个核心,我有一个作业,我想使用10个进程来运行。如果我使用启动它,它是否能够检测到我的
请求
的核心数量少于每个节点中可用的核数,并且将自动从单个节点分配所有10个核?我认为
在
一个节点上运行所有进程可以减少通信时间。在上面的示例
中
,让我们进一步假设每个节点都有2个CPU,并且每个节点的核心分布是相等的,因此8个核心/CPU和规范规定每个节点有48 GB内存
浏览 5
提问于2020-10-28
得票数 0
1
回答
使用
SLURM
和Horovod运行hydra配置的项目
、
我想开始为--multirun特性使用hydra配置,并使用
SLURM
将所有作业排入
队列
。我知道有Submitid插件。但我不确定,整个管道如何与Horovod合作。假设我想使用hydra -multirun来运行几个多gpu实验,我想使用
slurm
来排队运行,因为我的
资源
是有限的,并且大部分时间都是按顺序运行的,我想使用Horovod来同步我的网络的梯度。这个
设置
会开箱即用吗?如果
slurm
负责
资源
,我需要指定CUDA_VISIBLE_DEVICES吗?我需要如何调整
浏览 50
提问于2020-09-28
得票数 0
回答已采纳
3
回答
Slurm
,限制每个分区的作业数。
我正在配置
Slurm
调度程序,我需要限制分区(
队列
)上并发运行的最大作业数。也就是说,我有两个分区,短的和长的,具有相同的计算节点,但是有不同的时间限制和优先级。
浏览 0
提问于2014-07-11
得票数 1
1
回答
SLURM
QOS抢占
、
、
我试图
在
Slurm
19.05集群
中
设置
一个抢占,但我不知道如何使抢占工作像我计划的那样工作。 normal 0以下是我的优先购买配置
中
的相关
设置
OverSubscribe=FORCE:1 State=UP Nodes=compute01,compute02 我的计划是允许premium作业抢占normal作
浏览 2
提问于2019-08-29
得票数 2
1
回答
Slurm
数组占用的cpus是
请求
的两倍
、
、
我
在
使用
Slurm
数组时遇到了一些问题,因为它们占用的CPU是
请求
的两倍。我们有一个具有60个可用于
Slurm
队列
的核心的节点,当我启动一个具有24个cpus的玩具阵列示例时,sinfo告诉我们它们正被48个cpus使用。: " $
SLURM
_ARRAY_TASK_ID 奇怪的是,当我用squeue -o "%.15i %.25j %.8u %.2t %.9P %C %.6D %R %.10M %e%l"检查每个用户占用的内核时,<em
浏览 1
提问于2021-04-22
得票数 0
1
回答
Slurm
-主机节点分配?
当我将by SBATCH作业提交给HPC时,我相信
slurm
基于
资源
分配节点,
在
我的示例
中
,主机总是
在
Node 0上产生,它被
设置
为按字母顺序排列的node/machine名称
中
的第一个。如果在我的nodefile中分配
资源
slurm
,是否有任何方法手动
设置
主机节点? 我可以用-mincpus来修复这个问题,但是我只需要超过一个cpu就可以了。其他增加--mem-per-cpu或仅增加--
浏览 2
提问于2019-10-09
得票数 0
2
回答
无法
在
SLURM
中
强制执行内存限制
、
我
在
单个节点(控制和计算)上使用
Slurm
,似乎无法正确限制内存。该脚本似乎使用小内存值(3G)调用SBATCH,但我看到顶部的值超过25G。Sacct给了我正确的值: squeue -o "%C %m"2 3G 这是我的
slurm
.conf: ###JobFileAppend=0#JobSubmitPlugins=1#La
浏览 395
提问于2020-11-05
得票数 1
回答已采纳
1
回答
Snakemake WorkflowError:未能将作业组合在一起
、
背景:我必须将我的Snakemake管道从一个节点的使用调整到一个具有
资源
管理的集群。使用特定于
SLURM
的Snakemake配置文件,我的规则成功地作为
SLURM
作业提交,因此我继续将Snakemake指令resources添加到每个非本地规则
中
,以优化
队列
调度。这些
设置
都采用了,我的管道也按预期完成了。我想,每个组应该只有一个resource
设置
,但是我找不到它背后的逻辑上的在线
资源
。 问题:如何在组作业
中
定义不同的
资源<
浏览 5
提问于2021-11-12
得票数 0
回答已采纳
3
回答
SLURM
:并行运行作业,而不是数组?
、
我已经将这个大文件拆分为29个可管理的片段,以便在
SLURM
上作为数组运行。然而,它们
在
工作负载
队列
中
已经存在很长时间了,而如果我可以
请求
整个节点(32个cpus),它们将进入一个单独的
队列
,具有更快的可用性。有没有办法告诉
SLURM
在
节点中的所有cpus上并行运行这些片段上的命令,而不是作为串行数组?
浏览 0
提问于2018-07-17
得票数 0
1
回答
如何让
slurm
为每个节点分配一个任务?
我
在
S批处理脚本的开头尝试了一个#SBATCH参数的变体,但没有成功。到目前为止,我尝试过的是:#SBATCH -N 1#SBATCH -o
slurm
_out/output_%j.txt#SBATCH -o
slurm
_out/output_%j.txt #SBATCH -e
slurm
_error&
浏览 0
提问于2019-07-10
得票数 2
回答已采纳
1
回答
slurm
作业阵列与作业步骤绩效的差异
、
、
我
在
slurm
中
运行了一组并行作业(大约1000),每个任务都必须分配给一个CPU。每个
Slurm
作业可以包含多个作业步骤,而
Slurm
中用于管理作业步骤的开销要比单个作业低得多。 作业数组是管理具有相同
资源
需求的批处理作业集合的有效机制。大多数
Slurm
命令可以作为单个元素(任务)或单个实体(例如,
在
单个命令
中
删除整个作业数组)来管理作业数组。不过,我的问题是,我不想为其他人阻塞
资源
;如果我使用1000个srun调
浏览 4
提问于2019-07-25
得票数 4
回答已采纳
2
回答
任务工作者被困在
SLURM
队列
中
,直到主任务到达墙面时间才会开始
、
、
最近,我一直
在
尝试用Dask
在
一个使用
SLURM
调度器的HPC集群上做一些机器学习工作。重要的是,在这个集群上,
SLURM
被配置为每个作业24小时的硬墙时间限制。我试图增加工作进程的数量(因此,也增加了
请求
节点的数量),但工作进程被困在
SLURM
队列
中
(原因是这种
队列
被标记为“优先级”)。考虑到问题可能是我
请求
了太多的
SLURM
作业,我尝试将工人压缩到一个单一的、多节点作业using a worka
浏览 62
提问于2021-09-13
得票数 0
回答已采纳
2
回答
配置
SLURM
,使其需要用户指定--account
、
、
、
我正在尝试弄清楚如何配置
SLURM
,以便用户
在
使用
SLURM
命令(salloc、sbatch、srun)时需要指定--account。实际上,我想禁用默认帐户行为。
浏览 0
提问于2014-09-05
得票数 1
1
回答
如何在
SLURM
集群上
设置
交互式作业分区或批处理只作业分区?
、
、
、
我正在管理一个PBS/torque HPC集群,现在我正在使用斯隆
设置
另一个集群。
在
PBS集群
中
,我可以
设置
一个
队列
,使其只接受qmgr -c "set queue interactive_q disallowed_types = batch"的交互式作业,而只接受qmgr -c "但是,
在
浏览正式的
SLURM
文档后,我无法找到与
SLURM
相对应的
设置
。 如何将
SLURM
集群上
浏览 0
提问于2022-01-21
得票数 2
回答已采纳
1
回答
Slurm
:我可以使用单个节点中的
资源
子集创建e子
队列
吗?
、
我有一个
slurm
的用例,我想知道是否有办法处理它。I想运行几个作业(比如60个作业)。每个作业需要几个小时,例如3h/作业。
在
slurm
管理的集群
中
,使用一个
队列
,每个节点有4个gpu(因此我可以将批处理脚本限制为一个节点)。每个作业需要1个gpu。<code>G 211</code>想要的解决方案:通过只使用2个gpus
浏览 2
提问于2022-06-24
得票数 0
2
回答
使用C++获取
SLURM
下的可用内存
、
、
、
我
在
HPC环境
中
工作,并使用
SLURM
将我的作业提交到
队列
中
。我正在编写自己的内存缓存机制,因此我想知道每个节点有多少内存可用,以便我可以扩展或重用空间。 有没有办法知道有多少内存可用。
SLURM
是否
设置
了任何环境变量。
浏览 6
提问于2018-03-23
得票数 1
1
回答
Slurm
请求
的节点配置不可用
、
、
、
大家好,所以我试图
设置
一个新的hpc集群,我创建了一个帐户,添加了一个用户,并使用一个分区添加了im,但是当我运行一个作业时,它会给我一个错误,即
请求
节点配置不可用,我检查了我的
slurm
.conf,但是在我看来## #SlurmdUser=root#JobCredentialPrivateKey= #Job
浏览 9
提问于2022-07-21
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Volley 源码解析
关于Kafka配额的讨论(2)
共享存储设备,如何实现差异化IO分配策略
Java多线程和线程池
为什么要使用消息队列?
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券