腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如
何在
gpu
v100
上
使用
fma
?
、
、
我已经在上尝试过
FMA
的例子 float f;} a, b;b.ia.f * a.f + b.f; printf("b %.8g\n", b.f); 然而,我在
gpu
sizeof(float))); test<<<1, 1>&g
浏览 19
提问于2019-11-22
得票数 0
回答已采纳
2
回答
GCP AI平台培训不能
使用
完整的
GPU
配额
、
、
、
在GCP -> IAM & admin ->配额页面上,为我们服务“计算引擎API NVidia
V100
GPU
”--集中度1显示限制为4。但当我
使用
下面的命令在GCP AI平台上提交培训工作时,出现了一个错误,即最大允许的
V100
GPU
为2。 更新1 (1/14/2020):在上,它提到了需要增加的全球
GP
浏览 12
提问于2020-01-10
得票数 2
回答已采纳
1
回答
Nsight计算中的计算工作量分析
、
计算工作量分析显示了不同计算管道的
使用
情况。我知道在现代
GPU
中,整数和浮点管道是不同的硬件单元,可以并行执行。但是,还不清楚哪个管道代表其他管道的哪个硬件单元。2)哪个管道
使用
相同的硬件单元(例如FP16、
FMA
、FP64
使用
浮点单元)?P.s.:我
浏览 4
提问于2020-04-24
得票数 4
回答已采纳
1
回答
是否将Fortran卸载到
GPU
与nvfortran在旧的
GPU
上
可能(CC61)
、
、
、
我试图
使用
OpenMP将fortran代码卸载到nvidia
GPU
,
使用
Nvidia ()及其nvfortran编译器。当前版本的文档()指出,要
使用
GPU
特性,必须有一个计算能力大于7.0 (
GPU
的
V100
生成)/我的
GPU
的计算能力为6.1的
GPU
。with compute capability '>= cc70'
使用
-mp编译器开关启用OpenMP指令和
浏览 3
提问于2022-01-21
得票数 0
1
回答
我怎么知道哪个
GPU
足够解决一个问题?
、
我
使用
进行目标检测,并发现在我的计算机上运行速度更快的using算法进行推理完全太慢了(~15s,无法处理一幅图像)。我在
使用
GPU
构建真实的应用程序方面没有多少经验,也不确定我是应该
使用
云实例还是购买低端的
GPU
(在200-500美元的范围内)。问题:,对于我来说,判断
GPU
是否足够快,而不首先购买它,最好的方法是什么?所有的云
GPU
(Amazon,Google)都
使用
超出我预算的硬件,所以在这些实例
上
运行我的代码不会给我一个很好
浏览 4
提问于2019-12-31
得票数 1
回答已采纳
2
回答
Tensorflow AVX支持
、
、
、
、
我在Google引擎
上
运行了Tensorflow的编译版本,而且速度很慢。狗慢点。冷糖蜜慢。洛杉矶交通缓慢。说,支持AVX的编译显着地提高了Google的性能,但是当我在那个站点
上
遵循编译过程时,它就失败了。只是想知道AVX是否已经在可执行文件中了?
浏览 1
提问于2016-07-21
得票数 6
回答已采纳
1
回答
两个单精度浮点向量的点积在CUDA内核中的结果与在主机上的结果不同。
、
、
在调试一些CUDA代码时,我将其与
使用
printf语句的等效CPU代码进行比较,并注意到在某些情况下,我的结果不同;它们在两个平台上都不一定是错误的,因为它们在浮点四舍五入错误中,但我仍然感兴趣的是,是什么导致了这种差异然后,在每个平台上,
使用
以下代码计算点积并打印结果:printf("b: %.24f0.988499701023101806640625 1.000000000000000000000000
浏览 1
提问于2013-09-20
得票数 1
回答已采纳
2
回答
已完成作业
使用
的查询峰值
GPU
内存
、
、
、
我有一份与sbatch一起提交的乏味的工作,例如job.sh在
V100
图形处理器
上
训练模型。代码本身不记录
GPU
内存的
使用
情况。 ,工作完成后,是否有SLURM命令来查询峰值
GPU
内存
使用
情况?
浏览 0
提问于2020-03-11
得票数 2
回答已采纳
1
回答
通用处理器和HPC处理器之间的主要区别是什么?
、
、
、
、
我指的是影响程序性能的CPU组织部分,
如
内存带宽、并行加载的最大数量、并行存储的最大数量等。也欢迎任何到外部站点的链接。
浏览 6
提问于2021-02-10
得票数 0
1
回答
Pytorch:如何知道是否确实需要
使用
GPU
内存,或者是否存在内存泄漏
、
、
、
、
我有3个特斯拉
V100
(16 GB)。我在批量大小为20的(512,512)图像
上
使用
efficeint (6300万个参数)进行迁移学习。我的
GPU
内存利用率如下- 如你所见,它几乎填满了所有的3个
GPU
(几乎80%)。我的问题是,是否有任何理论
上
的方法来计算正在显示的
GPU
内存利用率是模型在特定图像和批处理大小下所需的,还是在我的
GPU
中存在内存泄漏?
浏览 2
提问于2020-05-26
得票数 1
1
回答
如何每小时监控谷歌云平台(GCP)的成本?
、
我正在GCP
上
运行一个VM实例(实际
上
是一个现成的深度学习包:8个
GPU
,1个Tesla
V100
GPU
,.,通过朱庇特笔记本访问)。 有没有办法实时监控总体
使用
情况和成本?我正在考虑内部的“实时
使用
”链接,它显示了当前
使用
的产品以及它们每秒/小时的价格。
浏览 0
提问于2018-10-05
得票数 1
回答已采纳
1
回答
是否可以通过nvprof (或其他方法)查看内核执行是否发生在张量核心上?
、
、
、
、
我正在尝试为Titan V/
V100
上
的深度学习模型找出
GPU
执行性能的瓶颈。我理解,要在基于的张量内核
上
执行底层内核,必须满足某些要求 "nvprof“提供了一种简单的方法来将所有内核执行转储到
GPU
上
,但它似乎并没有说明张量内核是否被实际
使用
。
浏览 2
提问于2017-12-21
得票数 4
1
回答
无法在Google Cloud Compute Engine
上
使用
GPU
、
、
、
我
使用
了谷歌云计算引擎,并
使用
Windows Server 2019数据中心桌面体验制作了一个具有8vCPU、30
GPU
内存和Nvidia
V100
图形处理器的实例 我也检查了显示设备框,但当我启动系统并转到任务管理器时,我看不到图形处理器,我可以看到Nvidia
GPU
V100
存在于设备管理器中,但由于某些原因,它什么也不做。我尝试安装驱动程序,但什么都不起作用,当我尝试打开Nvidia控制面板时,我收到错误消息"Nvidia显示设置不可用“”您当前未
使用</em
浏览 31
提问于2019-06-19
得票数 2
2
回答
利用terraform用
GPU
添加GKE节点池
、
、
我尝试用
GPU
创建google_container_node_pool。在查看和管理配额,禁止
使用
根据,我需要配额,但他们没有指定哪个配额。
浏览 3
提问于2021-01-14
得票数 1
2
回答
神经网络单元在Tensorflow中的cuDNN实现
、
、
要创建RNN单元,可以
使用
像GRUCell和LSTMCell这样的类来创建RNN层。 还有另外两个类,
如
CudnnGRU和CudnnLSTM,它们可以直接用于创建RNN层。当我创建一个cuDNN模型时,为什么要
使用
或不
使用
这个RNN实现的类而不是经典的RNN实现呢?
浏览 7
提问于2017-10-16
得票数 0
回答已采纳
1
回答
自定义YoloV4检测时间
、
、
、
、
我已经训练了一个自定义的YoloV4,
使用
的单级对象检测器。我的模型中的最佳权重文件将产生以下性能我
使用
命令获得了这个评估, darknet.exe detector map data/obj.data yolo-obj.cfg backup\yolo-custom-best.weights当我在视频
上
运行这个模型时,我得到了大约25 fps。
浏览 2
提问于2021-04-19
得票数 0
1
回答
CUDA内核在发布模式下的结果不同
、
、
到目前为止,我已经在CUDA中获得了与在CPU
上
串行运行代码所获得的结果相同的结果。我
使用
的是Visual Studio 2010,构建配置为Debug。我还不能
使用
Nvidia论坛,因为它们现在已经关闭了。有CUDA经验的人能指出这个问题吗?
浏览 18
提问于2012-07-26
得票数 1
回答已采纳
1
回答
使用
GPU
部署到GCE的Google Cloud DL Container找不到CUDA设备
、
我将Pytorch镜像用于
GPU
: gcr.io/deeplearning-platform-release/pytorch-
gpu
.1-2:latest.我
使用
K80和
V100
GPU
将其部署到GCE
上
。
浏览 9
提问于2019-11-15
得票数 2
1
回答
使用
v100
使样式在gcp实例
上
运行
、
、
、
我一直在尝试让stylegan在gcp
上
运行,以连接到
v100
。我已经能够
使用
这个实例设置为1d进行训练了。export IMAGE_FAMILY="pytorch-latest-
gpu
" # or "pytorch-latest-cpu" for non-
GPU
instances当我尝试
使用
export IMAGE_FAMIL
浏览 1
提问于2019-02-16
得票数 1
2
回答
对于这个特定的工作负载,您推荐哪一个
GPU
?
我有一个非常特殊的工作负载,需要
GPU
(OpenCL强制性的)加速。然而,据我所知,
GPU
是为浮点计算而优化的,在那里,我需要加速的任务需要大量的整数计算,而那些整数计算分数很难找到。更具体地说(在发送给
GPU
的全部数据中),工作负载包括: 记忆越多越好。
浏览 0
提问于2020-01-23
得票数 0
回答已采纳
点击加载更多
相关
资讯
如何在 GPU 上加速数据科学
在Docker Compose上使用GPU运行TensorFlow
如何在 Windows 11 上使用虚拟桌面
如何在 Ubuntu 16.04 上安装和使用 Encryptpad
如何在 Ubuntu Linux 上使用 KVM 云镜像
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券