腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
0
回答
OpenCl
全局
工作
项
操作
优先级
我想知道以下代码片段的索引计数
优先级
(简单的2维矩阵乘法例程)。tmp += A[i*N+k] * B[k*N+j]; }如果您使用'k‘计数器查看for循环,您可以看到
全局
工作
项
我不明白这是如何
工作
的,因为我是第一次接触
OpenCl
,如果我只是使用普通的C或Python语言,我会使用嵌套的for循环来进行这种类型的
操作
。 有人能解释一下
全局
工作
项</
浏览 4
提问于2017-12-07
得票数 0
2
回答
如何添加额外的
工作
项
以使
全局
工作
大小成为本地
工作
大小的倍数
我正在编写一个
OpenCL
程序,但是我的
全局
工作
大小并不是本地
工作
大小的倍数。在
OpenCL
中,
全局
工作
大小必须可以被局部
工作
大小整除,所以我读到的一个解决方案是添加一些额外的
工作
项
,这些额外的
工作
项
不会对
全局
工作
大小的大小进行四舍五入,并使其可以被选定的局部
工作
大小整除。例如,假设局部
工作
大小为4,
全
浏览 9
提问于2017-02-13
得票数 2
回答已采纳
1
回答
在代码中共享GPU资源
、
、
另一个CPU线程我的程序做一些计算,是高度密集,但低
优先级
。我使用在GPU上运行的
OpenCL
实现了这个计算。从那时起,我观察到OpenGL绘图的视觉延迟太大。据我所知,
OpenCL
有“设备裂变”扩展,这在这种情况下是有帮助的,但它只支持CPU,不是吗?更新.--我用我的
OpenCL
内核函数做了一个小实验。
全局
工作
大小
浏览 5
提问于2012-02-08
得票数 1
1
回答
OpenCL
全局
大小或每个
工作
项
的for循环?
、
、
、
、
我学习
OpenCL
是为了实现一个相对复杂的图像处理算法,它包括几个应该作为内核实现的子例程。在文档中,内核是在没有循环的情况下编写的,因为内核中的每个
工作
浏览 5
提问于2016-05-09
得票数 1
1
回答
为什么程序(
全局
)作用域变量必须是__constant?
、
我是
OpenCL
新手,对这个限制感到很困惑。例如,如果我想写一个LCG,我必须使状态词可以修改为rand()和srand()。将所有
全局
作用域变量限制为__constant。/*
OpenCL
C */ __private static uint _holdrand = 1;} return (*holdrand() >> 16) & 0x7FFF; void
浏览 3
提问于2014-03-18
得票数 6
回答已采纳
1
回答
在
全局
地址空间中维护了在
opencl
内核函数内声明的
全局
变量的多少个副本
、
我是
Opencl
编程的新手。为了更好地学习
opencl
,在花了一些时间阅读一些教程后,我开始开发一个简单的模式匹配内核函数。但我有一些疑问:其次,我如何使用标准的C库,尤其是。“string.h.h”。pos + patLength; } matchCount[id] = matches;总而言之,每个
工作</
浏览 0
提问于2013-02-08
得票数 1
回答已采纳
1
回答
OpenCL
local_work_size空
、
当
OpenCL
内核排队时,local_work_size可以设置为NULL,在这种情况下,
OpenCL
实现将决定如何将
全局
工作
项
分解为适当的
工作
组实例。
OpenCL
的
工作
组规模选择是否趋于最佳?是否有更好的情况是手动指定local_work_size
浏览 6
提问于2013-08-16
得票数 4
回答已采纳
1
回答
(Py)
OpenCl
: 16元素后的错误扫描结果
因此,我已经开始研究Hillis - Steele扫描算法,从而得到数组的运行和,并且它似乎对小于17个元素的数组(N < 17)很好,但是在那之后,我经常得到不正确的结果,尽管并不总是这样。N越大,返回不正确结果的概率就越高,这在N = 40之后达到100%的不正确。数组在第16个元素之后开始偏离真值。__kernel void scan(__global double * a, __const int N, __global double * sum_a, __global double * temp) { // Hillis - Steel
浏览 4
提问于2013-12-07
得票数 1
回答已采纳
1
回答
OpenCL
全局
屏障
工作
项
同步
、
、
、
我正在测试一个包含四个
工作
项
和一个
工作
组的
opencl
内核。在
工作
项
0打印出[INFO]行之前,
全局
屏障不应该停止所有
工作
项
吗?
浏览 18
提问于2019-08-31
得票数 0
回答已采纳
1
回答
具有较大
全局
id的
工作
项
是否可以在具有较小
全局
id的
工作
项
之前执行?
我阅读了
OpenCL
规范,但没有找到
全局
id是如何分配的。它是在EnQueue时间分配的,还是在运行时间分配的?如果后来,很容易看到id较小的
工作
项
总是更早或同时执行(如果在同一时间段) id较大的
工作
项
。如果是在EnQueue时间赋值的,我们能保证执行顺序和
全局
id一致吗?
浏览 5
提问于2012-08-25
得票数 0
3
回答
全局
工时规模是否需要是
OpenCL
中
工作
组规模的倍数?
、
、
、
您好:
全局
工时大小(维度)是否需要是
OpenCL
中
工作
组大小(维度)的倍数?将
工作
组维度的大小动态设置为
全局
工作
维度的因子。(这将导致查找因子的开销,并可能将
工作
组设置为非最佳大小。)将
全局
工作
的维度增加到
工作
组维度的最接近倍数,保持所有输入和输出缓冲区相同,但检查内核中的边界以避免分段错误,即不对所需输出的边界
浏览 3
提问于2010-06-30
得票数 13
回答已采纳
8
回答
OpenCL
调试器
我正在研究
OpenCL
。有没有人知道一个好的
OpenCL
调试器,这样我就可以进入
OpenCL
代码并进行跟踪了?
浏览 0
提问于2010-03-02
得票数 43
回答已采纳
3
回答
OpenCL
与中央调度的并发编程
、
、
、
、
随着
OpenCL
2.0的引入,
OpenCL
似乎具备了GCD的许多特性,比如CLang/
OpenCL
风格的块和队列。查看它们各自的功能集,我想知道
OpenCL
是否能够完成GCD /lib分派所能做的所有事情,但是否具有将计算导向GPU和CPU的额外能力--或者GCD是否可以提供与
OpenCL
无关的更多功能。具体来说,我的问题是: 如果在一起使用它们是有价值的(假设GCD提供了附加的功能),那么C块可以路由到GCD队列
浏览 8
提问于2014-02-01
得票数 4
回答已采纳
2
回答
OpenCL
:内核间的同步
、
、
、
some_val; (*i) = (*i) + 1;} 这似乎不是一个好的方法,因为我想保证同一迭代的所有
工作
项
都共享i,而上面的代码并不保证下一次迭代的
工作
项
0不会增加I。
浏览 5
提问于2013-12-24
得票数 0
回答已采纳
2
回答
OpenCL
:只运行基于CPU的内核的单个实例
我有两个
OpenCL
内核:第一个是并行任务,第二个是线性任务(LZW)。第一个是并行的,在GPU上运行,第二个是线性的,在CPU上运行。
浏览 1
提问于2011-05-05
得票数 3
回答已采纳
3
回答
openCL
中的多维内核发布不起作用
、
、
我正试图在以下三个维度中启动
openCL
:size_t localWorkSize[2] = {32, 32};还有什么方法可以找到Cuda n
openCL
线程的等价性? 有人能帮忙吗。谢谢。
浏览 0
提问于2019-04-05
得票数 1
回答已采纳
1
回答
在中央处理器上调试
OpenCL
、
、
我正在尝试调试CPU target上的
OpenCL
内核,但是没有成功。内核构建,应用程序运行,但是断点没有命中。有一句话是“调试器需要在调试会话开始前设置要调试的
工作
项
的
全局
ID”,但没有关于设置位置或如何设置
全局
ID的信息。有没有人对此有
工作
样板项目或建议?谢谢!
浏览 64
提问于2020-02-18
得票数 2
3
回答
关于内核执行期间的clEnqueueWriteBuffer()
OpenCL
实现允许这样做吗?
浏览 1
提问于2012-10-04
得票数 0
3
回答
循环执行模型的
OpenCL
、
、
、
我目前正在学习
OpenCL
,并看到了下面的代码片段:int ti = get_local_id(0); 在
OpenCL
中,for-循环究竟是如何执行的?我知道所有
工作
项
都运行相同的代码,而
工作
组中的
工作
项
试图并行执行。因此,如果我在
OpenCL
中运行一个for循环,这是否意味着所有
工作
浏览 5
提问于2014-06-02
得票数 5
2
回答
OpenCL
变量声明在内核作用域之外失败
、
、
、
我正在尝试维护一个内核智慧的
全局
变量,它可以像静态变量一样
工作
。这样我就可以将之前的值存储在变量中,以便进行进一步的计算。+=(i-begin+1)*price[i]; firstValue[len]/=(double)weightsum; 输出错误为:5105 5105错误代码显示:Error occurred when compiling
浏览 7
提问于2018-05-04
得票数 0
点击加载更多
相关
资讯
OpenCL-1-编程四大模型介绍
为什么OpenCL是并行计算时代的“万能厨房”
GPU并行编程有哪些优点?
谷歌称 TensorFlow 的 OpenCL 可以将推理性能提高一倍
发掘 ARM GPU 的全部深度学习性能,TVM 优化带来高达2倍性能提升
热门
标签
更多标签
云服务器
ICP备案
对象存储
云点播
实时音视频
活动推荐
运营活动
广告
关闭
领券