腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
3
回答
降低
CPU
到
GPU
数据传输
延迟
的
技术
、
、
、
、
我一直在寻找减少从
CPU
和
GPU
来回传输数据所导致
的
延迟
的
方法。当我第一次开始使用CUDA时,我确实注意
到
CPU
和
GPU
之间
的
数据传输
确实需要几秒钟
的
时间,但我并不真正关心,因为这并不是我正在编写
的
小程序真正关心
的
问题。事实上,对于绝大多数使用
CPU
的
程序(包括视频游戏)来说,
延迟
可能不是什么大问题,因为它们仍
浏览 10
提问于2011-06-28
得票数 15
回答已采纳
1
回答
CPU
->
GPU
传输与
GPU
->
CPU
传输
、
、
我一直在做一些实验,测量从
CPU
->
GPU
和
GPU
->
CPU
传输数据
的
延迟
。我发现对于特定
的
消息大小,
CPU
->
GPU
的
数据传输
速率几乎是
GPU
->
CPU
传输速率
的
两倍。
浏览 3
提问于2012-10-23
得票数 2
1
回答
ATI FirePro上
的
FirePro带宽
SDK中
的
amd应用示例PCIeBandwidth测量来自: Selected Platform Vendor : Advanced Micro Devices, Inc.为什么每个方向
的
带宽是不同
的
?另外,我知道这种通信是通过DMA进行<
浏览 4
提问于2012-10-11
得票数 2
1
回答
cudaMemcpy设备连接到远程主机
、
、
我正在进行一个模拟,它在主机上运行,并使用
GPU
进行计算。计算完成后,主机将内存从设备复制
到
自身,然后将计算
的
数据发送到远程主机。基本上数据就可以了:
GPU
->主机->网卡有可能吗?编辑:远程主机=>
CPU
浏览 0
提问于2013-04-10
得票数 0
1
回答
Matlab中
的
GPU
定时
、
、
我正在使用一个GeForce GT 720做一些基本
的
计算在Matlab中。我只是在做矩阵乘法:tic; % Start clock在这段代码中,我
的
时钟将
数据传输
到
GPU
并在
GPU
上进行矩阵乘法,我得到了时间~4秒。我怀疑
数据传输
比乘法花费更多
的
浏览 0
提问于2018-03-10
得票数 2
1
回答
在
CPU
上运行Tensorflow比在
GPU
上运行它快
、
、
、
、
我有一个ASUS n552vw笔记本电脑,有一个4GB专用
的
Geforce GTX 960图形卡。我把这些代码放在代码
的
开头,比较使用
GPU
或
CPU
的
训练速度,我看到似乎使用
CPU
赢了!
GPU
:os.environ['CUDA_VISIBLE_DEVICES'] = '0'import os os.environ['CUDA_VISIBLE_DEVICES']
浏览 0
提问于2019-08-02
得票数 2
回答已采纳
1
回答
为什么对于小数据集,用cula(dgesv)比mkl (dgesv)求解线性方程组要慢。
、
、
、
对于一个小数据集来说,
CPU
程序比
GPU
程序更快。但是
GPU
克服了
CPU
,因为数据集超过500。我正在使用我
的
戴尔笔记本电脑,它有i3
CPU
和Geforce 525M
GPU
。
GPU
最初缓慢性能
的
最佳解释是什么? 我编写了另一个程序,它需要两个向量,将它们相乘,并将结果相加。这就像点积,结果是向量和,而不是标量。在这个程序中,
GPU
比
CPU
更快,即使是小数据集也是如此。我用
的
是同
浏览 9
提问于2012-11-26
得票数 0
3
回答
OpenGL显示图像
的
速度比OpenCV快吗?
、
、
但是似乎cv::imshow不够快,或者从
CPU
到
GPU
再到投影仪
的
数据传输
速度很慢,所以我想知道是否有比OpenCV?更快
的
显示方式。我考虑了 OpenGL ,因为OpenGL直接使用
GPU
,所以命令可能比OpenCV使用
的
CPU
更快。如果我错了,请纠正我。
浏览 18
提问于2014-01-15
得票数 9
回答已采纳
1
回答
CPU
与
GPU
之间
的
指令传输
、
、
我正在寻找有关
的
信息,
CPU
如何移动程序代码
到
GPU
时,使用
GPU
计算。Internet是关于
数据传输
的
大量手册,而不是关于指令/程序加载
的
手册。问题是:程序由
CPU
处理,
CPU
用每个计算单元上
的
适当标志“配置”
GPU
,以执行给定
的
操作。在此之后,数据被转移和处理。第一次手术是怎么做
的
?如何向
GPU
发出指令?指令是否以
浏览 3
提问于2012-02-16
得票数 4
1
回答
linux中
的
opengl屏幕外渲染速度很慢
、
、
、
、
我
的
opengl应用程序以大约110fps
的
速度运行。当我添加离屏渲染时,它会减慢到15fps。我正在使用frame buffer对象和glReadPixels在屏幕外渲染。我在网上搜索过,发现
GPU
内存到
CPU
内存
的
数据传输
很慢,反之亦然。我有一个128MB显存
的
ATI Mobility Radeon™X2300。所以我
的
问题是 1)有没有办法提高VRAM
到
CPU
ram
的
数据传输</em
浏览 0
提问于2013-12-25
得票数 0
2
回答
为什么是模型视图矩阵?
、
、
如果这是一个愚蠢
的
问题,我很抱歉,但我很长一段时间都在想,为什么有这么多
的
例子顶点着色器,包含一个模型视图矩阵。在我
的
程序中,我有以下情况: 视图矩阵也经常发生变化(例如,改变查看方向如果我要在顶点着色器中使用一个模型视图矩阵,我就必须在
CPU
上执行矩阵乘法并上传一个矩阵。另一种方法是上传模型和视图矩阵,并在
GPU
上进
浏览 3
提问于2014-04-25
得票数 2
回答已采纳
2
回答
优化
GPU
到
CPU
数据传输
、
、
我有点不深入(最好
的
方式,我认为),但我正在寻找一个优化,可以减少
GPU
到
CPU
数据传输
为我
的
应用程序。 我有一个应用程序,对
GPU
中
的
顶点数据执行一些修改。有时
CPU
必须读取部分修改后
的
顶点数据,然后计算一些参数,然后通过制服传递回
GPU
着色器,形成一个循环。需要很长时间才能将所有顶点
数据传输
回
CPU
,然后在
CPU
上对其进行筛选(数百万点),因
浏览 6
提问于2017-07-03
得票数 3
回答已采纳
2
回答
使用tensorflow.js加载
的
图形模型可以使用图形处理器上
的
数据,而不需要先将
数据传输
到中央处理器吗?
、
、
、
、
为了创建输入Tensor,我调用了browser.fromPixels(imageData),它从同样位于
CPU
上
的
Tensor对象创建
CPU
上
的
ImageData。由于我使用
的
是tfjs
的
webgl后端,所以在调用model.predict(tensor)函数时,数据会被发送到
GPU
。所有这些都运行得很好,除了我
的
ImageData对象是从带有WebGLRenderingContext
的
画布上
的
图像创建
的<
浏览 42
提问于2021-10-22
得票数 1
回答已采纳
1
回答
Keras中
的
5层DNN使用
GPU
训练速度较慢
、
、
我使用tensorflow-
gpu
作为后端,在Kras1.2中编写了一个5层
的
密集网络,并在我
的
MacBookPro (
CPU
)和AWS (启用K80- cuda )
的
P2.xlarge实例中训练它。令人惊讶
的
是,我
的
MacBookPro训练模型
的
速度比P2实例快。我已经检查过模型是使用P2中
的
图形处理器进行训练
的
,所以我想知道...为什么它会运行得更慢?
浏览 0
提问于2018-03-07
得票数 2
2
回答
PyTorch
的
non_blocking=True在数据预取中
的
正确使用
、
、
、
当模型被训练在
GPU
上时,我正在研究从
CPU
中预取数据
到
GPU
中。与
GPU
模型训练重叠
的
CPU
到
GPU
数据传输
似乎需要两者同时进行。用data = data.cuda(non_blocking=True)向
GPU
传输数据 但是,我无
浏览 21
提问于2020-08-18
得票数 10
2
回答
Pascal CUDA8 1080 of统一存储器
的
速度
、
由于昨天
的
答案,我认为我现在有一个正确
的
基本测试统一内存使用PASCAL1080Ti。它分配一个50 up
的
单维数组并将其相加。如果我正确理解,它应该是内存绑定,因为这个测试是如此简单(添加整数)。i = 0; i < n; ++i) { } printf("done in %f (single
CPU
这些数字是7个整数-3:+3
的
重复序列,当加起来时,除了结尾
的
2
的
浏览 2
提问于2017-05-03
得票数 2
1
回答
如何理解高速网络链路,提高
数据传输
速率,只
降低
数据传输
延迟
?
我正在读一份文件:我无法理解高速网络链路,
浏览 0
提问于2018-09-08
得票数 1
回答已采纳
3
回答
OpenGL ES呈现
到
用户空间内存
、
我需要用PowerVR SGX硬件实现屏幕外渲染
到
ARM设备上
的
纹理。更新:--关于“慢
浏览 2
提问于2012-02-27
得票数 4
回答已采纳
1
回答
是否有使用异步函数并行地将数据(缓冲区数据)传递给
gpu
的
方法?
我试图用setTimeout ()命令并行包装gl.BufferData函数,将数据从
cpu
传递
到
gpu
。理想情况下,我试图加速从
cpu
到
gpu
的
数据传输
。 我认识
到
,webgl调用不能用
cpu
定时器来计时。
浏览 0
提问于2019-08-12
得票数 0
点击加载更多
相关
资讯
南通安白申请工业物联网基于TCP的数据传输低延迟协议优化系统及方法专利,降低传输延迟与抖动
超原版速度110倍,针对PyTorch的CPU到GPU张量迁移工具开源
超原版速度110倍,针对PyTorch的CPU到GPU张量迁移工具开源
上海芯力基申请基于多播复制引擎实现集体通信相关专利 降低数据传输的延迟性
面向CPU、GPU和IPU,英特尔发布重大技术架构的改变和创新
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券