腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
CUDA
流
的
优势
、
、
、
、
我正在尝试理解Stream可以在哪里帮助我处理视频帧上
的
多个感兴趣区域。如果
使用
支持
流
的
NPP函数,是否会启动与ROI一样多
的
流
?甚至可能为每个
流
创建一个CPU线程?或者,
使用
一个流来处理所有的ROI,并可能
使用
来自CPU中多个线程
的
单个
流
的
好处是什么?
浏览 21
提问于2017-02-01
得票数 6
回答已采纳
4
回答
用C#编写
CUDA
?
、
我一直在寻找一些关于用C#编写
CUDA
( nvidia gpu语言)
的
信息。我看过一些库,但它们似乎会增加一些开销(因为p/invokes等)。 我应该如何在我
的
C#应用程序中
使用
CUDA
?
使用
包装器
的
开销是否会扼杀我从
使用
CUDA
中获得
的
任何
优势
?有没有在C#中
使用
CUDA
的
好例子?
浏览 89
提问于2011-06-25
得票数 59
回答已采纳
1
回答
在单个GPU上
使用
多个主机线程
、
、
、
现在我用ROS开发了一个
CUDA
项目。有两个节点对应于两个主机线程,它们需要同时启动两个不同
的
CUDA
内核。所以我想知道: 如果我
使用
CUDA
流
,这两个内核是否
浏览 2
提问于2021-01-14
得票数 0
2
回答
如何在
CUDA
中度量内核启动
的
开销
我想在
CUDA
中测量内核启动
的
开销。 我这样做主要是为了衡量
使用
CUDA
6.0中引入
的
托管内存
的
优势
。我将用我开发
的
代码和注释更新这个问题。谢谢!
浏览 5
提问于2014-06-23
得票数 4
回答已采纳
1
回答
cv::
cuda
::Stream选择线程默认
流
、
、
我们正在
使用
-default-stream=per-thread进行编译,以获得数据自动化系统
的
每个线程
流
。但是,当我们这样做:cv::
cuda
::Stream::Null()时,我们会得到一个指向“遗留默认
流
”
的
流
指针(请参阅详细信息)。如何获得指向
cuda
流
句柄cv::
cuda
::Stream CU_STREAM_PER_THREAD**?**
的
?更普遍
的
情况是,如何获得指向现
浏览 22
提问于2019-11-04
得票数 0
1
回答
如果cuEventRecord获得默认
流
的
句柄,那么它保证要做什么?
、
、
cuEventRecord()要求
流
和事件属于同一个上下文。现在,我们可以将0解释为“适当上下文中
的
默认
流
”--满足了这些要求,这应该有效;但也可以将其解释为“当前上下文中
的
默认
流
”--在这种情况下,如果当前上下文不是事件
的
上下文--这应该会失败。或者,这一切可能只是未定义/不一致
的
行为。 我
的
问题是:cuEventRecord()肯定会选择一种解释而不是另一种解释吗?
浏览 3
提问于2022-04-13
得票数 0
1
回答
CUDA
共享内存中
的
扁平与多维数组
与库达共享内存中
的
多维数组相比,
使用
扁平数组有什么性能
优势
吗? 我知道,当涉及到主机内存空间时,扁平数组比多维数组提供了某些
优势
,但我不确定这是否适用于gpu共享内存中
的
数组。这主要是因为我看到了许多在共享内存中
使用
多维
的
代码示例,例如
CUDA
最佳实践指南中
的
矩阵乘法示例。
浏览 2
提问于2015-07-20
得票数 0
回答已采纳
1
回答
关于
CUDA
的
架构(SM,SP)
、
、
、
、
我是一个刚刚开始
CUDA
程序的人。SP =
CUDA
核心/MP=8 顺便说一句,deviceQuery.cpp
的
结果如下。
CUDA
设备查询(Runtime )版本(CUDART静态链接)检测到1个
C
浏览 0
提问于2013-10-17
得票数 5
1
回答
库达FFT计划跨多个“重叠”
CUDA
流
重复
使用
、
、
我正在尝试
使用
与GPU计算重叠
的
异步内存传输来提高代码
的
性能。现在我移到
流
中,我正在做
的
是多次创建“相同
的
”计划,然后设置
CUDA
FFT
流
。根据你们中
的
一些人在这个中给出
浏览 2
提问于2015-03-04
得票数 1
回答已采纳
2
回答
Cuda
:内核启动队列
我没有找到太多关于内核启动操作机制
的
信息。说要去看我在那也没找到什么。 6. cudaMemcpy(hostArry, deviceArry, ... deviceToHost); 第三行是同步
的
。第4&5行是异步
的
,机器支持并发执行。所以在某种程度上,这两个内核都在GPU上运行。(在kernelA结束之前,kernelB可能会启动和结束。)当发生这种情况时,主机正
浏览 2
提问于2012-10-06
得票数 4
1
回答
cuda
流
:
流
执行后不被调用
的
回调
、
、
我在
cuda
streams回调函数上有问题。问题是它在运行内核之后不执行。我将库达
流
封装在一个C++类中,如下所示:{ Stream();{ thiz->callback_function();构造函数设置
流
并附加回调cudaStreamCreate(&s));
浏览 1
提问于2015-04-10
得票数 1
回答已采纳
1
回答
决斗DQN -
优势
流
,为什么
使用
平均而不是坦赫?
对于决斗
的
DQN (第5页),为什么作者
使用
平均值来表示
优势
流
,而不简单地“激活”
优势
流
(例如,
使用
$tanh$ )?$$Q(s,a;θ,α,β)= V(s;θ,β)+\\大l(A,a;a;\θ,α)-{1}\sum_{a‘’\sum
浏览 0
提问于2018-06-04
得票数 1
回答已采纳
1
回答
CUDA
流
和上下文
、
、
我目前
使用
的
一个应用程序产生了一堆pthread (linux),每个pthread都创建了自己
的
CUDA
上下文。(现在
使用
cuda
3.2 )。我遇到
的
问题是,似乎每个线程都有自己
的
上下文,需要在GPU上占用大量内存。大约每个线程200MB,所以这真的限制了我。我是否可以简单地在宿主线程中创建
流
,将
流
引用传递给工作线程,然后工作线程将能够将它们
的
流
编号传递给我
的
浏览 6
提问于2011-07-26
得票数 5
回答已采纳
3
回答
使用
CUDA
向量类型是否有
优势
?
、
CUDA
提供了内置
的
矢量数据类型,如uint2、uint4等。
使用
这些数据类型有什么好处吗? 假设我有一个元组,它包含两个值,A和B。在内存中存储它们
的
一种方法是分配两个数组。第一个数组存储所有A值,第二个数组存储与A值对应
的
索引处
的
所有B值。另一种方法是分配一个uint2类型
的
数组。我应该
使用
哪一个?推荐哪种方式?uint3
的
成员,即x、y、z是否并排驻留在内存中?
浏览 2
提问于2012-09-09
得票数 15
2
回答
使用
Streambuilder
使用
流
的
优势
、
与
使用
StreamBuilder ()相比,
使用
Stream.listen()有哪些优点?
浏览 5
提问于2021-11-05
得票数 0
回答已采纳
2
回答
启动单个
CUDA
内核
的
多个主机线程
、
对于我
的
CUDA
开发,我
使用
了一台16核
的
机器,1个GTX 580 GPU和16个SMs。对于我正在做
的
工作,我计划启动16个主机线程(每个核心上1个),每个线程1个内核启动,每个线程有1个块和1024个线程。我
的
目标是在16个SMs上并行运行16个内核。这是可能/可行
的
吗?我试图尽可能多地阅读有关独立上下文
的
信息,但似乎没有太多
的
信息可用。据我所知,每个主机线程都可以有自己
的
GPU上下文。但是,如果我<e
浏览 11
提问于2012-09-06
得票数 9
回答已采纳
2
回答
与纯MPI+
CUDA
相比,MPI有什么
优势
吗?
、
、
加速应用程序
的
常用方法是
使用
MPI或PETSc等更高级
的
库来并行化应用程序,这些库在幕后
使用
了MPI。然而,现在似乎每个人都对
使用
CUDA
并行化他们
的
应用程序感兴趣,或者
使用
MPI和
CUDA
的
混合来解决更雄心勃勃
的
/更大
的
问题。与传统
的
、久经考验
的
MPI+
CUDA
并行编程模型相比,
使用
混合MPI编程模
浏览 3
提问于2011-11-09
得票数 5
回答已采纳
1
回答
默认流上
的
cublasSetMatrixAsync是否阻塞?
、
关于运行cublasSetMatrixAsync函数调用是否会阻塞默认
流
,似乎存在冲突
的
信息? 我看到它阻塞执行,我想知道
使用
它
的
正确方法是什么。如果是这样,有没有一种简单
的
方法来阻止缺省
流
,如果它需要在设备上
的
矩阵在未来
的
一些内核?
浏览 2
提问于2014-12-24
得票数 0
3
回答
CUDA
中是否有
流
的
最大数量?
在
CUDA
中可以创建
的
流
是否有最大数量? 为了澄清,我指的是
CUDA
流
,就像
流
一样,它允许你执行内核和内存操作。
浏览 0
提问于2010-08-25
得票数 26
回答已采纳
1
回答
我如何暂停一个数据自动化系统
流
,然后恢复它?
、
假设我们有两个
CUDA
流
,同时在GPU上运行两个
CUDA
内核。我如何能够暂停运行
的
CUDA
内核
的
指令,我放入主机代码,并继续它
的
指令在主机代码?例如,我不知道如何编写示例代码来继续这个问题。确切地说,我
的
问题是,在
CUDA
中是否有一条指令可以暂停运行在
CUDA
流
中
的
CUDA
内核,然后继续运行?
浏览 2
提问于2022-01-29
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
从头开始进行CUDA编程:流和事件
CUDA的开发技术难点
工作流引擎使用详解!工作流框架Activiti的详细配置以及安装使用
英伟达推出开源项目CV-CUDA,流处理量相当于基于单个GPU的10倍
CUDA编程的错误处理
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券