如何使用函数getdata (imaqtool)直接在GPU上传输数据

文章/答案/技术大牛

发布

1回答

、、、

我目前正在使用imaqtool库中的函数"getdata“来获取我的相机数据，并在我的GPU上进行一些后处理。因此，我想让数据直接从缓冲CPU内存传输到我的GPU内存。我的理解是"getdata“将数据从CPU内存(缓冲区)移动到CPU内存。因此，将这些数据直接传输到我的GPU应该是微不足道的。然而，我找不到任何关于它的东

浏览 19提问于2019-06-04得票数 0

回答已采纳

1回答

CUDA异步内存复制-哪个硬件设备执行内存复制操作？

我一直在研究异步CUDA操作，并读到有一个内核执行(“计算”)队列和两个内存复制队列，一个用于主机到设备(H2D)，另一个用于设备到主机(D2H)。假设我正确理解了这一切，我的问题是，是哪个设备“管理”数据的传输？进一步的读取表明GPU具有对主机(CPU)存储器(RAM)的直接存储器访问(DMA)。这意味

浏览 0提问于2021-06-05得票数 0

1回答

gpu中时间测量的执行与分配

、、、

我正在使用OpenCL和JOCL在GPU上执行一个并行内核。是否有任何函数可以知道内核大小的工作项和工作组，以及它是如何在我的Nvidia GPU平台上执行的？如果没有GPU/CPU数据传输，是否有可能知道内核的执行时间？我在启动内核之前和之后都使用了java工具System.currentTimeMillis();，但是它包括了数据传输时间。3更准确地说，

浏览 6提问于2016-09-19得票数 0

回答已采纳

1回答

OpenCV 3.x -为UMat使用已分配的缓冲区(使用Cuda或OpenCL)

、、

我一直在寻找一种方法，可以用已经分配的GPU缓冲区(来自OpenCL，Cuda或OpenGL)的数据初始化cv::Umat，而不必将数据复制回CPU端。理想情况下，不涉及复制操作，UMat会“包裹”GPU上已经存在的数据(这是以前使用CUDA/OpenCL/OpenGL分配的)。如果这不起作用，也可以直接将GPU上的OpenCL/CUDA缓冲区复制到UMat中，而不将数据</em

浏览 0提问于2017-08-28得票数 0

2回答

使用tensorflow.js加载的图形模型可以使用图形处理器上的数据，而不需要先将数据传输到中央处理器吗？

、、、、

我目前正在使用TFJS3.8在客户端加载一个分段模型(作为tf.GraphModel加载)。由于我使用的是tfjs的webgl后端，所以在调用model.predict(tensor)函数时，数据会被发送到GPU。所有这些都运行得很好，除了我的ImageData对象是从带有WebGLRenderingContext的画布上的图像创建的，这意味着它来自GPU。这种GPU->CPU->GPU数据传输<

浏览 42提问于2021-10-22得票数 1

回答已采纳

1回答

numba是否在功能之间将数据从GPU传递到CPU？

、

我习惯于把更大的工作分解成更小的功能，只要这个函数做一个或多或少独特的操作。section of codedata = func1(data)data = func3(data) 但是，如果我将这些函数转换为通过numba (使用@njit装饰符)在cuda上运行，那么faster...but可能会更快(也就是说，在调用每个函数时，通过将数据传输到gpu或从gpu

浏览 3提问于2020-08-28得票数 1

回答已采纳

2回答

如何缓解OpenCL/CUDA中的主机+设备内存传输瓶颈

、、、

如果我的算法被主机到设备和设备到主机的内存传输遇到瓶颈，唯一的解决方案是不同的算法还是修改后的算法？

浏览 0提问于2010-10-20得票数 3

回答已采纳

1回答

CUDA:如何在图形处理器上直接使用thrust::sort_by_key？

、、

推力库可用于对数据进行排序。sort_by_key(d_keys.begin(), d_keys.end(), d_values.begin()); 在CPU上调用，d_keys和d_values在CPU内存中；大部分执行发生在GPU上。但是，我的数据已经在GPU上了？如何使用推力库直接在GPU上执行高效的排序，即从内核调用sort_by_key函数？此外，我的数据由unsigne

浏览 0提问于2013-03-25得票数 8

3回答

降低CPU到GPU数据传输延迟的技术

、、、、

我一直在寻找减少从CPU和GPU来回传输数据所导致的延迟的方法。当我第一次开始使用CUDA时，我确实注意到CPU和GPU之间的数据传输确实需要几秒钟的时间，但我并不真正关心，因为这并不是我正在编写的小程序真正关心的问题。事实上，对于绝大多数使用CPU的程序(包括视频游戏)来说，延迟可能不是什么大问题，因为它们仍然比在CPU上运行要快得多。通过使用cudaHostAlloc()<em

浏览 10提问于2011-06-28得票数 15

回答已采纳

1回答

py_func只用于CPU操作？

根据文档，我可以使用tf.py_func来定义自己的操作。它将接收Numpy数组，并且必须返回Numpy数组。它没有显式地写在文档中，但我由此得出结论，它将绑定到CPU设备上？如果我将此与可能运行在GPU上的其他操作系统结合起来，TF是否会贪婪地将同样多的计算转移到GPU上，并为我的tf.py_func op自动在GPU和CPU之间传输内存？(就像西亚诺那样。)是否有类似的tf.py_func来定义GPU操作？

浏览 5提问于2016-12-12得票数 5

回答已采纳

1回答

OpenCL + OpenGL减少CPU与GPU之间的数据传输

、、、

我正在读这篇文章现在，如果OpenCl内核对象具有全内存R/W访问& OpenGL可以访问内存中的数据，通过CPU与GPU之间的交互来传输数据，那么如何减少CPU/GPU的空闲时间，因为如果GPU从主存本身访问数据

浏览 7提问于2013-06-13得票数 1

1回答

在内核运行时将数据传输到GPU以节省时间

、

假设我们有一些数据不适合GPU内存，但我们仍然希望使用它来计算。我们所能做的就是把这些数据分割成几个部分，然后一个一个地把它输入GPU。向GPU发送大数据可能需要时间，人们可能会想，如果我们将一个数据块分割成两个，并为前半部分提供数据，运行内核，然后在内核运行时为另一半提供数据会怎么样？按照这种逻辑，我们应该节省一些时间，因为数据传输应该在计算过程中进行，希望没有中断它的工作，当它

浏览 1提问于2016-12-29得票数 3

2回答

PyTorch的non_blocking=True在数据预取中的正确使用

、、、

当模型被训练在GPU上时，我正在研究从CPU中预取数据到GPU中。与GPU模型训练重叠的CPU到GPU数据传输似乎需要两者同时进行。用data = data.cuda(non_blocking=True)向GPU传输数据但是，我无

浏览 21提问于2020-08-18得票数 10

1回答

我是否可以使用PyOpenCL与Scipy集成来执行与GPU并行的差异进化？

、、、、

我对PyOpenCL的多处理没有太多的经验，所以我想问一下，是否值得进入并尝试将两者集成到GPU上。

浏览 7提问于2022-08-25得票数 2

2回答

报告CUDA加速的正确方法

我想比较在CPU上运行的串行程序和在GPU上运行的CUDA程序的性能。但我不确定如何公平地比较性能。例如，如果我将旧CPU和新GPU的性能进行比较，那么我将获得巨大的加速比。另一个问题:如何将我的CUDA程序与论文中报告的另一个CUDA程序进行比较(两者都运行在不同的GPU上，并且我无法访问源代码)。

浏览 0提问于2012-09-26得票数 2

回答已采纳

1回答

用OpenCL和GPU进行排列/散列时要注意的事情？

例如，我有一个琐碎的散列函数：{ foreach (char ch in我的问题是: OpenCL/GPU计算会带来什么缺陷吗？我读过以下文章：翘曲中的所有“线程”都必须执行相同的指令。这让我对GPU计

浏览 1提问于2013-10-26得票数 1

回答已采纳

1回答

Linux多GPU屏幕外渲染

、、

我试图在Linux上做多图形处理器的工作，特别是使用2sli的glmark2。我尝试过使用SLI，但即使在使用nvidia-xconfig将X11/xorg.conf文件修改为SFR之后，它似乎也没有使用第二个图形处理器(我尝试过的glmark2测试仍然在相同的范围内)。因此，第一个问题是如何在Linux中为这些卡启用SLI？这有可能吗？如果不可能，我想知道我是否可以手动拆分工作，并在每个GPU上执行屏幕外渲染。我还希望使用</em

浏览 3提问于2015-10-02得票数 3

2回答

Theano.function中赋值变量的目的

我正在阅读给出的逻辑函数的代码。我对函数的inputs和givens变量之间的区别感到困惑。计算小型批处理模型所犯错误的函数是： outputs=classifier.errors(y)

浏览 1提问于2014-11-12得票数 21

回答已采纳

1回答

如何理解安卓setDisplay/setSurface/setPrewviewDisplay/setPreviewTexture的底层

、、、

由于Android级别1，我们可以使用setDisplay或setPrewviewDisplay将一个setDisplay或摄像头附加到Surface上，然后图像数据可以被传输到gpu并处理得更快。引入SurfaceTexture后，我们可以使用目标GL_TEXTURE_EXTERNAL_OES创建自己的纹理，并将MediaPlayer或照相机附加到opengl上。() 产生的数据在CPU端，所以必须以非常快的方式传输到GPU

浏览 2提问于2016-02-06得票数 1

回答已采纳

1回答

内存- cuda中的计算重叠问题

、、、、

我有一个CUDA内核处理大量数据。由于不能同时传输所有数据，所以我必须将它们分割成块，然后逐块处理它们，并更新GPU上的输出。我正在解析文件中的输入数据。我在想，是否可以通过在主机和GPU中都有两个缓冲区来重叠块的内存传输。在处理一个卡盘时，我可以读取另一个卡盘，将其传输到GPU，并将内核启动到相同的流中。我的问题是内核的执行时间比解析数据并将它们传输到GPU要慢

浏览 2提问于2014-01-27得票数 0

回答已采纳

点击加载更多