腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如何
使用
函数
getdata
(
imaqtool
)直
接在
GPU
上
传输
数据
、
、
、
我目前正在
使用
imaqtool
库中的
函数
"
getdata
“来获取我的相机
数据
,并在我的
GPU
上进行一些后处理。 因此,我想让
数据
直接从缓冲CPU内存
传输
到我的
GPU
内存。我的理解是"
getdata
“将
数据
从CPU内存(缓冲区)移动到CPU内存。因此,将这些
数据
直接
传输
到我的
GPU
应该是微不足道的。 然而,我找不到任何关于它的东
浏览 19
提问于2019-06-04
得票数 0
回答已采纳
1
回答
CUDA异步内存复制-哪个硬件设备执行内存复制操作?
我一
直
在研究异步CUDA操作,并读到有一个内核执行(“计算”)队列和两个内存复制队列,一个用于主机到设备(H2D),另一个用于设备到主机(D2H)。假设我正确理解了这一切,我的问题是,是哪个设备“管理”
数据
的
传输
?进一步的读取表明
GPU
具有对主机(CPU)存储器(RAM)的直接存储器访问(DMA)。这意味
浏览 0
提问于2021-06-05
得票数 0
1
回答
gpu
中时间测量的执行与分配
、
、
、
我正在
使用
OpenCL和JOCL在
GPU
上
执行一个并行内核。是否有任何
函数
可以知道内核大小的工作项和工作组,以及它是
如何
在我的Nvidia
GPU
平台上执行的?如果没有
GPU
/CPU
数据
传输
,是否有可能知道内核的执行时间?我在启动内核之前和之后都
使用
了java工具System.currentTimeMillis();,但是它包括了
数据
传输
时间。3更准确地说,
浏览 6
提问于2016-09-19
得票数 0
回答已采纳
1
回答
OpenCV 3.x -为UMat
使用
已分配的缓冲区(
使用
Cuda或OpenCL)
、
、
我一
直
在寻找一种方法,可以用已经分配的
GPU
缓冲区(来自OpenCL,Cuda或OpenGL)的
数据
初始化cv::Umat,而不必将
数据
复制回CPU端。理想情况下,不涉及复制操作,UMat会“包裹”
GPU
上
已经存在的
数据
(这是以前
使用
CUDA/OpenCL/OpenGL分配的)。如果这不起作用,也可以直接将
GPU
上
的OpenCL/CUDA缓冲区复制到UMat中,而不将
数据</em
浏览 0
提问于2017-08-28
得票数 0
2
回答
使用
tensorflow.js加载的图形模型可以
使用
图形处理器
上
的
数据
,而不需要先将
数据
传输
到中央处理器吗?
、
、
、
、
我目前正在
使用
TFJS3.8在客户端加载一个分段模型(作为tf.GraphModel加载)。由于我
使用
的是tfjs的webgl后端,所以在调用model.predict(tensor)
函数
时,
数据
会被发送到
GPU
。所有这些都运行得很好,除了我的ImageData对象是从带有WebGLRenderingContext的画布
上
的图像创建的,这意味着它来自
GPU
。这种
GPU
->CPU->
GPU
数据
传输<
浏览 42
提问于2021-10-22
得票数 1
回答已采纳
1
回答
numba是否在功能之间将
数据
从
GPU
传递到CPU?
、
我习惯于把更大的工作分解成更小的功能,只要这个
函数
做一个或多或少独特的操作。section of codedata = func1(data)data = func3(data) 但是,如果我将这些
函数
转换为通过numba (
使用
@njit装饰符)在cuda
上
运行,那么faster...but可能会更快(也就是说,在调用每个
函数
时,通过将
数据
传输
到
gpu
或从
gpu
浏览 3
提问于2020-08-28
得票数 1
回答已采纳
2
回答
如何
缓解OpenCL/CUDA中的主机+设备内存
传输
瓶颈
、
、
、
如果我的算法被主机到设备和设备到主机的内存
传输
遇到瓶颈,唯一的解决方案是不同的算法还是修改后的算法?
浏览 0
提问于2010-10-20
得票数 3
回答已采纳
1
回答
CUDA:
如何
在图形处理器
上
直接
使用
thrust::sort_by_key?
、
、
推力库可用于对
数据
进行排序。sort_by_key(d_keys.begin(), d_keys.end(), d_values.begin()); 在CPU上调用,d_keys和d_values在CPU内存中;大部分执行发生在
GPU
上
。但是,我的
数据
已经在
GPU
上了?
如何
使用
推力库直
接在
GPU
上
执行高效的排序,即从内核调用sort_by_key
函数
?此外,我的
数据
由unsigne
浏览 0
提问于2013-03-25
得票数 8
3
回答
降低CPU到
GPU
数据
传输
延迟的技术
、
、
、
、
我一
直
在寻找减少从CPU和
GPU
来回
传输
数据
所导致的延迟的方法。当我第一次开始
使用
CUDA时,我确实注意到CPU和
GPU
之间的
数据
传输
确实需要几秒钟的时间,但我并不真正关心,因为这并不是我正在编写的小程序真正关心的问题。事实
上
,对于绝大多数
使用
CPU的程序(包括视频游戏)来说,延迟可能不是什么大问题,因为它们仍然比在CPU
上
运行要快得多。通过
使用
cudaHostAlloc()<em
浏览 10
提问于2011-06-28
得票数 15
回答已采纳
1
回答
py_func只用于CPU操作?
根据文档,我可以
使用
tf.py_func来定义自己的操作。它将接收Numpy数组,并且必须返回Numpy数组。它没有显式地写在文档中,但我由此得出结论,它将绑定到CPU设备
上
?如果我将此与可能运行在
GPU
上
的其他操作系统结合起来,TF是否会贪婪地将同样多的计算转移到
GPU
上
,并为我的tf.py_func op自动在
GPU
和CPU之间
传输
内存?(就像西亚诺那样。)是否有类似的tf.py_func来定义
GPU
操作?
浏览 5
提问于2016-12-12
得票数 5
回答已采纳
1
回答
OpenCL + OpenGL减少CPU与
GPU
之间的
数据
传输
、
、
、
我正在读这篇文章 现在,如果OpenCl内核对象具有全内存R/W访问& OpenGL可以访问内存中的
数据
,通过CPU与
GPU
之间的交互来
传输
数据
,那么
如何
减少CPU/
GPU
的空闲时间,因为如果
GPU
从主存本身访问
数据
浏览 7
提问于2013-06-13
得票数 1
1
回答
在内核运行时将
数据
传输
到
GPU
以节省时间
、
假设我们有一些
数据
不适合
GPU
内存,但我们仍然希望
使用
它来计算。我们所能做的就是把这些
数据
分割成几个部分,然后一个一个地把它输入
GPU
。向
GPU
发送大
数据
可能需要时间,人们可能会想,如果我们将一个
数据
块分割成两个,并为前半部分提供
数据
,运行内核,然后在内核运行时为另一半提供
数据
会怎么样?按照这种逻辑,我们应该节省一些时间,因为
数据
传输
应该在计算过程中进行,希望没有中断它的工作,当它
浏览 1
提问于2016-12-29
得票数 3
2
回答
PyTorch的non_blocking=True在
数据
预取中的正确
使用
、
、
、
当模型被训练在
GPU
上
时,我正在研究从CPU中预取
数据
到
GPU
中。与
GPU
模型训练重叠的CPU到
GPU
数据
传输
似乎需要两者同时进行。用data = data.cuda(non_blocking=True)向
GPU
传输
数据
但是,我无
浏览 21
提问于2020-08-18
得票数 10
1
回答
我是否可以
使用
PyOpenCL与Scipy集成来执行与
GPU
并行的差异进化?
、
、
、
、
我对PyOpenCL的多处理没有太多的经验,所以我想问一下,是否值得进入并尝试将两者集成到
GPU
上
。
浏览 7
提问于2022-08-25
得票数 2
2
回答
报告CUDA加速的正确方法
我想比较在CPU
上
运行的串行程序和在
GPU
上
运行的CUDA程序的性能。但我不确定
如何
公平地比较性能。例如,如果我将旧CPU和新
GPU
的性能进行比较,那么我将获得巨大的加速比。另一个问题:
如何
将我的CUDA程序与论文中报告的另一个CUDA程序进行比较(两者都运行在不同的
GPU
上
,并且我无法访问源代码)。
浏览 0
提问于2012-09-26
得票数 2
回答已采纳
1
回答
用OpenCL和
GPU
进行排列/散列时要注意的事情?
例如,我有一个琐碎的散列
函数
:{ foreach (char ch in我的问题是: OpenCL/
GPU
计算会带来什么缺陷吗?我读过以下文章: 翘曲中的所有“线程”都必须执行相同的指令。这让我对
GPU
计
浏览 1
提问于2013-10-26
得票数 1
回答已采纳
1
回答
Linux多
GPU
屏幕外渲染
、
、
我试图在Linux
上
做多图形处理器的工作,特别是
使用
2sli的glmark2。我尝试过
使用
SLI,但即使在
使用
nvidia-xconfig将X11/xorg.conf文件修改为SFR之后,它似乎也没有
使用
第二个图形处理器(我尝试过的glmark2测试仍然在相同的范围内)。因此,第一个问题是
如何
在Linux中为这些卡启用SLI?这有可能吗? 如果不可能,我想知道我是否可以手动拆分工作,并在每个
GPU
上
执行屏幕外渲染。我还希望
使用</em
浏览 3
提问于2015-10-02
得票数 3
2
回答
Theano.function中赋值变量的目的
我正在阅读给出的逻辑
函数
的代码。我对
函数
的inputs和givens变量之间的区别感到困惑。计算小型批处理模型所犯错误的
函数
是: outputs=classifier.errors(y)
浏览 1
提问于2014-11-12
得票数 21
回答已采纳
1
回答
如何
理解安卓setDisplay/setSurface/setPrewviewDisplay/setPreviewTexture的底层
、
、
、
由于Android级别1,我们可以
使用
setDisplay或setPrewviewDisplay将一个setDisplay或摄像头附加到Surface
上
,然后图像
数据
可以被
传输
到
gpu
并处理得更快。引入SurfaceTexture后,我们可以
使用
目标GL_TEXTURE_EXTERNAL_OES创建自己的纹理,并将MediaPlayer或照相机附加到opengl
上
。() 产生的
数据
在CPU端,所以必须以非常快的方式
传输
到
GPU
浏览 2
提问于2016-02-06
得票数 1
回答已采纳
1
回答
内存- cuda中的计算重叠问题
、
、
、
、
我有一个CUDA内核处理大量
数据
。由于不能同时
传输
所有
数据
,所以我必须将它们分割成块,然后逐块处理它们,并更新
GPU
上
的输出。我正在解析文件中的输入
数据
。我在想,是否可以通过在主机和
GPU
中都有两个缓冲区来重叠块的内存
传输
。在处理一个卡盘时,我可以读取另一个卡盘,将其
传输
到
GPU
,并将内核启动到相同的流中。我的问题是内核的执行时间比解析
数据
并将它们
传输
到
GPU
要慢
浏览 2
提问于2014-01-27
得票数 0
回答已采纳
点击加载更多
相关
资讯
威纶通触摸屏宏指令,PLC指令分类函数,详解与实操
深入理解Vue 3.0中Async/Await 语法
为什么.NET会成为测试测量的主流技术
如何提高PyTorch“炼丹”速度?这位小哥总结了17种方法,可直接上手更改的那种
一文揭开 NVIDIA CUDA 神秘面纱
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
实时音视频
活动推荐
运营活动
广告
关闭
领券