使用CUDA流的优势

、、、、

我正在尝试理解Stream可以在哪里帮助我处理视频帧上的多个感兴趣区域。如果使用支持流的NPP函数，是否会启动与ROI一样多的流？甚至可能为每个流创建一个CPU线程？或者，使用一个流来处理所有的ROI，并可能使用来自CPU中多个线程的单个流的好处是什么？

浏览 21提问于2017-02-01得票数 6

回答已采纳

4回答

用C#编写CUDA？

、

我一直在寻找一些关于用C#编写CUDA ( nvidia gpu语言)的信息。我看过一些库，但它们似乎会增加一些开销(因为p/invokes等)。我应该如何在我的C#应用程序中使用CUDA？使用包装器的开销是否会扼杀我从使用CUDA中获得的任何优势？有没有在C#中使用CUDA的好例子？

浏览 89提问于2011-06-25得票数 59

回答已采纳

1回答

在单个GPU上使用多个主机线程

、、、

现在我用ROS开发了一个CUDA项目。有两个节点对应于两个主机线程，它们需要同时启动两个不同的CUDA内核。所以我想知道：如果我使用CUDA流，这两个内核是否

浏览 2提问于2021-01-14得票数 0

2回答

如何在CUDA中度量内核启动的开销

我想在CUDA中测量内核启动的开销。我这样做主要是为了衡量使用CUDA 6.0中引入的托管内存的优势。我将用我开发的代码和注释更新这个问题。谢谢!

浏览 5提问于2014-06-23得票数 4

回答已采纳

1回答

cv::cuda::Stream选择线程默认流

、、

我们正在使用-default-stream=per-thread进行编译，以获得数据自动化系统的每个线程流。但是，当我们这样做：cv::cuda::Stream::Null()时，我们会得到一个指向“遗留默认流”的流指针(请参阅详细信息)。如何获得指向cuda流句柄cv::cuda::Stream CU_STREAM_PER_THREAD**?**的？更普遍的情况是，如何获得指向现

浏览 22提问于2019-11-04得票数 0

1回答

如果cuEventRecord获得默认流的句柄，那么它保证要做什么？

、、

cuEventRecord()要求流和事件属于同一个上下文。现在，我们可以将0解释为“适当上下文中的默认流”--满足了这些要求，这应该有效；但也可以将其解释为“当前上下文中的默认流”--在这种情况下，如果当前上下文不是事件的上下文--这应该会失败。或者，这一切可能只是未定义/不一致的行为。我的问题是：cuEventRecord()肯定会选择一种解释而不是另一种解释吗？

浏览 3提问于2022-04-13得票数 0

1回答

CUDA共享内存中的扁平与多维数组

与库达共享内存中的多维数组相比，使用扁平数组有什么性能优势吗？我知道，当涉及到主机内存空间时，扁平数组比多维数组提供了某些优势，但我不确定这是否适用于gpu共享内存中的数组。这主要是因为我看到了许多在共享内存中使用多维的代码示例，例如CUDA最佳实践指南中的矩阵乘法示例。

浏览 2提问于2015-07-20得票数 0

回答已采纳

1回答

关于CUDA的架构(SM，SP)

、、、、

我是一个刚刚开始CUDA程序的人。SP = CUDA核心/MP=8 顺便说一句，deviceQuery.cpp的结果如下。CUDA设备查询(Runtime )版本(CUDART静态链接)检测到1个C

浏览 0提问于2013-10-17得票数 5

1回答

库达FFT计划跨多个“重叠”CUDA流重复使用

、、

我正在尝试使用与GPU计算重叠的异步内存传输来提高代码的性能。现在我移到流中，我正在做的是多次创建“相同的”计划，然后设置CUDA FFT流。根据你们中的一些人在这个中给出

浏览 2提问于2015-03-04得票数 1

回答已采纳

2回答

Cuda:内核启动队列

我没有找到太多关于内核启动操作机制的信息。说要去看我在那也没找到什么。 6. cudaMemcpy(hostArry, deviceArry, ... deviceToHost); 第三行是同步的。第4&5行是异步的，机器支持并发执行。所以在某种程度上，这两个内核都在GPU上运行。(在kernelA结束之前，kernelB可能会启动和结束。)当发生这种情况时，主机正

浏览 2提问于2012-10-06得票数 4

1回答

cuda流:流执行后不被调用的回调

、、

我在cuda streams回调函数上有问题。问题是它在运行内核之后不执行。我将库达流封装在一个C++类中，如下所示：{ Stream();{ thiz->callback_function();构造函数设置流并附加回调cudaStreamCreate(&s));

浏览 1提问于2015-04-10得票数 1

回答已采纳

1回答

决斗DQN -优势流，为什么使用平均而不是坦赫？

对于决斗的DQN (第5页)，为什么作者使用平均值来表示优势流，而不简单地“激活”优势流(例如，使用$tanh$ )？$$Q(s，a；θ，α，β)= V(s；θ，β)+\\大l(A，a；a；\θ，α)-{1}\sum_{a‘’\sum

浏览 0提问于2018-06-04得票数 1

回答已采纳

1回答

CUDA流和上下文

、、

我目前使用的一个应用程序产生了一堆pthread (linux)，每个pthread都创建了自己的CUDA上下文。(现在使用cuda 3.2 )。我遇到的问题是，似乎每个线程都有自己的上下文，需要在GPU上占用大量内存。大约每个线程200MB，所以这真的限制了我。我是否可以简单地在宿主线程中创建流，将流引用传递给工作线程，然后工作线程将能够将它们的流编号传递给我的

浏览 6提问于2011-07-26得票数 5

回答已采纳

3回答

使用CUDA向量类型是否有优势？

、

CUDA提供了内置的矢量数据类型，如uint2、uint4等。使用这些数据类型有什么好处吗？假设我有一个元组，它包含两个值，A和B。在内存中存储它们的一种方法是分配两个数组。第一个数组存储所有A值，第二个数组存储与A值对应的索引处的所有B值。另一种方法是分配一个uint2类型的数组。我应该使用哪一个？推荐哪种方式？uint3的成员，即x、y、z是否并排驻留在内存中？

浏览 2提问于2012-09-09得票数 15

2回答

使用Streambuilder使用流的优势

、

与使用StreamBuilder ()相比，使用Stream.listen()有哪些优点？

浏览 5提问于2021-11-05得票数 0

回答已采纳

2回答

对于我的CUDA开发，我使用了一台16核的机器，1个GTX 580 GPU和16个SMs。对于我正在做的工作，我计划启动16个主机线程(每个核心上1个)，每个线程1个内核启动，每个线程有1个块和1024个线程。我的目标是在16个SMs上并行运行16个内核。这是可能/可行的吗？我试图尽可能多地阅读有关独立上下文的信息，但似乎没有太多的信息可用。据我所知，每个主机线程都可以有自己的GPU上下文。但是，如果我<e

浏览 11提问于2012-09-06得票数 9

回答已采纳

2回答

与纯MPI+CUDA相比，MPI有什么优势吗？

、、

加速应用程序的常用方法是使用MPI或PETSc等更高级的库来并行化应用程序，这些库在幕后使用了MPI。然而，现在似乎每个人都对使用CUDA并行化他们的应用程序感兴趣，或者使用MPI和CUDA的混合来解决更雄心勃勃的/更大的问题。与传统的、久经考验的MPI+CUDA并行编程模型相比，使用混合MPI编程模

浏览 3提问于2011-11-09得票数 5

回答已采纳

1回答

默认流上的cublasSetMatrixAsync是否阻塞？

、

关于运行cublasSetMatrixAsync函数调用是否会阻塞默认流，似乎存在冲突的信息？我看到它阻塞执行，我想知道使用它的正确方法是什么。如果是这样，有没有一种简单的方法来阻止缺省流，如果它需要在设备上的矩阵在未来的一些内核？

浏览 2提问于2014-12-24得票数 0

3回答

CUDA中是否有流的最大数量？

在CUDA中可以创建的流是否有最大数量？为了澄清，我指的是CUDA流，就像流一样，它允许你执行内核和内存操作。

浏览 0提问于2010-08-25得票数 26

回答已采纳

1回答

我如何暂停一个数据自动化系统流，然后恢复它？

、

假设我们有两个CUDA流，同时在GPU上运行两个CUDA内核。我如何能够暂停运行的CUDA内核的指令，我放入主机代码，并继续它的指令在主机代码？例如，我不知道如何编写示例代码来继续这个问题。确切地说，我的问题是，在CUDA中是否有一条指令可以暂停运行在CUDA流中的CUDA内核，然后继续运行？

浏览 2提问于2022-01-29得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

用C#编写CUDA？

在单个GPU上使用多个主机线程

如何在CUDA中度量内核启动的开销

cv::cuda::Stream选择线程默认流

如果cuEventRecord获得默认流的句柄，那么它保证要做什么？

CUDA共享内存中的扁平与多维数组

关于CUDA的架构(SM，SP)

库达FFT计划跨多个“重叠”CUDA流重复使用

Cuda:内核启动队列

cuda流:流执行后不被调用的回调

决斗DQN -优势流，为什么使用平均而不是坦赫？

CUDA流和上下文

使用CUDA向量类型是否有优势？

使用Streambuilder使用流的优势

启动单个CUDA内核的多个主机线程

与纯MPI+CUDA相比，MPI有什么优势吗？

默认流上的cublasSetMatrixAsync是否阻塞？

CUDA中是否有流的最大数量？

我如何暂停一个数据自动化系统流，然后恢复它？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐