腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(1144)
视频
沙龙
1
回答
将
MPI
限
制为
在
单个
GPU
上
运行
,
即使
我们
设置
了
单
节
点多
GPU
、
、
、
、
我是分布式计算的新手,我正在尝试
运行
一个使用
MPI
和ROCm(图形处理器
上
运行
的AMD框架)的程序。 我用来
运行
程序的命令是mpirun -np 4 ./a.out 但它默认
运行
在我机器
上
可用的2个
GPU
上
。有没有办法让它只
在
单个
GPU
上
运行
,如果是,如何
运行
? 提前感谢:)
浏览 226
提问于2020-03-20
得票数 1
回答已采纳
2
回答
MPI
+
GPU
:如何
将
这两种技术相结合
、
、
我的程序非常适合
MPI
。每个CPU执行自己的、特定的(复杂的)工作,生成一个double,然后我使用一个
MPI
_Reduce来乘以来自每个CPU的结果。我
在
谷歌附近,但找不到任何具体的东西。如何
将
MPI
与
GPU
混合使用?是否有一种方法来查询和验证“哦, 这个等级是
GPU
,所有其他都是CPU”?重要的是,我不需要或不需要一套完整的
GPU
。我确
浏览 0
提问于2012-04-09
得票数 10
回答已采纳
2
回答
在
一个
GPU
上
运行
多个CUDA应用程序
、
、
、
CUDA文档没有具体说明多少CUDA进程可以共享一个
GPU
。例如,如果我由同一用户启动多个CUDA程序,而系统中只安装了一块
GPU
卡,会有什么效果?它能保证执行的正确性吗?在这种情况下,
GPU
如何调度任务?
浏览 1
提问于2015-07-27
得票数 42
回答已采纳
1
回答
一个K80中两个
GPU
的CUDA感知
MPI
、
、
、
、
现在我
运行
的是两个
MPI
进程和两个
GPU
。我的系统有两个套接字,每个套接字连接到2个K80。由于每个K80内部包含2个
GPU
,因此每个套接字实际
上
连接到4个
GPU
。但我只使用两个核心
在
一个插座和2个
GPU
(1 K80)连接到该套接字。
MPI
编译器是MVAPICH2 2.2rc1,CUDA编译器版本是7.5。 这就是背景。我分析
了
应用程序,发现通信是性能瓶颈。但是MVAPICH2需要Infiniband接口卡,这在我
浏览 12
提问于2016-07-21
得票数 0
回答已采纳
2
回答
可以
在
多
GPU
机器
上
执行CUDA程序的多个实例吗?
、
、
、
问题: 我正在一个带有4个
GPU
的Linux机器
上
运行
我的代码,并且希望通过
运行
我的程序的4个实例(每个
GPU
一个)来利用所有4个
GPU
。是否有可能让该程序选择另一个CUDA应用程序没有使用的
GPU
来
运行
?当程序
在
不同的硬件
上
运行
时,如果有更多或更少的
GPU
,我不想对任何可能导致问题的东西进行硬编码。
浏览 4
提问于2015-06-18
得票数 3
回答已采纳
1
回答
只有当两人都获得分配的资源时,才
运行
2 slurm作业
、
、
、
提交一个作业以获得4个
GPU
。第二个被提交以获得接下来的4个
GPU
(
在
另一个节点
上
)。如何确保这两个作业同时
运行
,从而最终实现同步(Pytorch DPP)。有一个额外的脚本来检查可用的资源是可行的,但是其他作业可能有优先级,因为它们
在
队列中,而不是等待. 我使用的特定分区不允许直接请求两个节点。
浏览 31
提问于2022-06-27
得票数 0
2
回答
TensorFlow Horovod: NCCL和
MPI
、
、
、
正在
将
和
MPI
组合成一个用于分布式深度学习的包装器,例如TensorFlow。我以前没有听说过NCCL,我正在研究它的功能。以下是NVIDIA网站上关于NCCL的说明: NVIDIA集体通信库(NCCL)实现
了
对NVIDIA
GPU
性能进行优化的多
GPU
和多节点集体通信原语。从关于NCCL的中,我了解到NCCL是通过PCIe、NVLink、原生Infiniband、以太网工作的,它甚至可以通过RDMA检测
GPU
在当前硬件拓扑中是否有意义,并透明地使用它。所以我想问为什么
在</e
浏览 2
提问于2018-11-27
得票数 11
1
回答
Slurm中的
GPU
分配:-gres vs -
GPU
-每个任务,mpirun vs srun
、
、
、
、
在
批处理脚本中启动
MPI
任务还有两种方法:要么使用srun,要么使用通常的mpirun (当使用Slurm支持编译OpenMPI时)。我发现这些方法在行为上有一些惊人的差异。接下来,当作业至少
在
两个节点
上
运行
时,我
将
描述的行为是可以观察到的。我
在
每个节点
运行
2个任务,因为
我们
每个节点有2个
GPU
。最后,有两个变体的
GPU
分配(A和B)和两个变体的程序执行(1和2)。变体B2 (--
gpu</
浏览 33
提问于2021-04-14
得票数 5
1
回答
是否可以使用系统内存而不是
GPU
内存来处理Dask任务?
、
、
我们
已经在库伯奈特
上
运行
了一段时间
了
。到目前为止,
我们
一直
在
使用CPU进行处理,当然,还使用系统内存来存储大约1,5 TB的数据(每个DASK集群,分成960个工作人员)。现在,
我们
希望更新
我们
的算法,以利用
GPU
。但似乎
GPU
上
的可用内存将不足以满足
我们
的需求,这将是一个限制因素(就
我们
目前的
设置
而言,每个虚拟核使用的内存超过1GB )。我能安
浏览 3
提问于2022-02-24
得票数 1
1
回答
共享
单个
GPU
的多个容器
、
、
、
我已经配置
了
一个
运行
在g4dn.xlarge实例
上
的ECS服务,该实例只有一个
GPU
。在此实例
上
运行
一个任务和一个容器可以正常工作。当我
将
服务的期望任务计数
设置
为2时,将在服务上接收一个事件,该事件声明: Amazon将对可用的启用
GPU
的容器实例进行调度,并将物理
GPU
引脚到适当的容器中,以
浏览 5
提问于2020-01-10
得票数 5
1
回答
使用PyTorch DistributedDataParallel
在
亚马逊SageMaker
上
拥抱脸
、
、
、
即使
是
单
实例培训,PyTorch DistributedDataParallel (DDP)通常也比PyTorch DataParallel (DP)推荐,因为DP的策略性能较差,并且
在
默认设备
上
使用更多的内存(每单位)我最近遇到了这个问题:
将
HF培训任务从p3.8xlarge扩展到更高级的p3.16x
浏览 10
提问于2022-09-08
得票数 0
1
回答
简单的
MPI
_Send和Recv给出了使用CUDA的分割错误(11)和无效权限(2)
、
、
、
、
我已经验证
了
我有CUDA感知的
MPI
和一些简单的设备缓冲区到设备缓冲区
MPI
发送/ recv代码,这样我就可以
在
GPU
设备内存之间发送和recv数组,而无需通过CPU/主机。我的代码是三维网格,它沿着z方向
在
不同的节点之间划分,光晕
在
节点之间传递,以确保流体可以在这些分区之间流动。光晕
在
GPU
上
。下面的代码是一个简化程序,编译后会产生与我的主要代码相同的错误。这里,等级0
节
点<e
浏览 1
提问于2013-08-06
得票数 6
回答已采纳
1
回答
CUDA全局内存事务的成本
根据CUDA5.0编程指南,如果我同时使用L1和L2缓存(
在
费米或开普勒
上
),所有的全局内存操作都是使用128字
节
的内存事务完成的。但是,如果我只使用L2,则使用32字
节
内存事务(F.4.2章)。让
我们
假设所有缓存都是空的。如果我有一个warp,每个线程以完全对齐方式访问一个4字
节
字,这将在L1+L2情况下导致1x128B事务,
在
仅L2情况下导致4x32B事务。是那么回事吗?我的直觉来自预费米硬件,它会更慢,但也许这在新的硬件
上
不再是真的?或者,我应该
浏览 0
提问于2012-10-09
得票数 5
回答已采纳
2
回答
BSOD 0x09c
在
50台SuperMicro机上的应用
、
):有时系统
运行
一周没有问题,有时
在
崩溃后仅10分钟,但大多数情况下,它
运行
了几个小时。我对Linux并不熟悉,也从未见过Linux,而且我也从未见过,因为服务器系统是无头的,我
在
DC中尝试过这一点。结果:系统
将
挂起,并在重新启动后,Linux报告XORG崩溃(
GPU
相关)。
将
BIOS中的
GPU
设置
更改为“高于4G”,其余的BIOS是工厂默认
设置
。系统位于数据中心。温度、空气、功率
浏览 0
提问于2016-04-16
得票数 8
6
回答
如何选择要在哪个
GPU
上
运行
作业?
、
在
多
GPU
计算机中,如何指定一个CUDA作业应该在哪个
GPU
上
运行
? 例如,
在
安装CUDA时,我选择安装NVIDIA_CUDA-<#.#>_Samples,然后
运行
几个nbody模拟实例,但它们都
运行
在一个
GPU
0
上
;
GPU
1完全空闲(使用watch -n 1 nvidia-dmi监视)。除了$CUDA_VISIBLE_DEVICES$之外,我还看到其他文章引用了环境变量$CUDA_
浏览 11
提问于2016-09-22
得票数 122
回答已采纳
11
回答
如何解决TensorFlow中
gpu
内存不足的问题
我
在
TensorFlow中
运行
了MNIST演示程序,其中包含两个conv层和一个完整的层,我收到了一条消息,“内存用完了,试图分配2.59GiB”,但是它显示总内存为4.69GiB,空闲内存为3.22GiB对于更大的网络,我如何管理
gpu
内存?我只关心如何最好地利用
gpu
内存,并想知道它是如何发生的,而不是如何预先分配内存。
浏览 14
提问于2016-04-29
得票数 50
回答已采纳
6
回答
如何在火炬中使用多个
GPU
?
、
我使用这个命令来使用
GPU
。device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")device
浏览 4
提问于2019-01-16
得票数 57
4
回答
使用VBO使用JOGL可能发生内存泄漏
、
、
、
、
为了
在
发送到
GPU
之前准备数据,
我们
使用缓冲区(FloatBuffer、ByteBuffer等)。圆柱的一些数据:每个柱体使用16 *9+ 16 *3=192个浮点数,-> 192 *4字
节
= 768字
节
。
即使
我们
关闭圆柱体计数,内存也不会释放出来。
在
JConsole监控工具中有一个按钮来
运行
GC,如果
我们
手动
运行
它,它会释放内存(如果
我们
加载
了
大量的柱面并
浏览 10
提问于2011-08-12
得票数 2
回答已采纳
1
回答
如何从ML库(如DataFrame或Tensorflow )访问
GPU
中的火花PyTorch数据
、
、
、
、
在
官方的spark-rapids文档中,我遇到了,它声明:
在
某些情况下,您可能希望访问
GPU
上
的原始数据,最好不要复制它。这方面的一个用例是
在
进行特征提取之后
将
数据导出到ML框架。对我来说,这听起来好像可以使
GPU
上
已经可以从上游的Spark进程中获得的数据直接提供给诸如Tensorflow或PyTorch这样的框架。如果是这样的话,我如何从这些框架中访问数据?
浏览 4
提问于2021-01-04
得票数 1
回答已采纳
4
回答
tensorflow2.1 2.1 InvalidArgumentError:断言失败:[0] [Op:Assert]名称: EagerVariableNameReuse
、
当我
运行
代码时,我会得到以下错误: self.train_accuracy
浏览 5
提问于2020-04-14
得票数 6
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
英伟达是如何做 GPU 编程的(二)
绕开算力限制,如何用单GPU微调 LLM?这是一份“梯度累积”算法教程
为支持机器学习,OpenAI 将Kubernetes 扩展到 7500 个节点
DaVinci Resolve 19.1.1 正式更新
在个人电脑上快速训练Atari深度学习模型:Uber开源“深度神经进化”加速版
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券