腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
OpenCL
:
数组
大小
与
工作
项
全局
大小
的
关系
、
有人知道GPU内核如何访问
全局
内存中
的
大型数据
数组
的
细节吗(出于某种原因,我们不能直接复制到共享内存)?假设我们有一个类型
的
内核: kernel void doSomething(global A* s, global float* result) uint gidx = get_global_id(0);} 我
的
理解是,每
浏览 41
提问于2020-10-28
得票数 0
回答已采纳
1
回答
数组
不适合OepnCl中
的
全局
大小
。
、
、
我不知道如何处理clEnqueueNDRangeKernel中
全局
大小
设置
的
大小
较小
的
数组
。 在我
的
原子计算中,
全局
大小
是由原子数决定
的
。这是位置,速度和力
的
大小
。然后,我做了一个伪约简,并将数据存储在
与
块数相对应
的
大小
数组
中。我还有一个小
数组
来存储对势
的
参数。我
的<
浏览 2
提问于2013-09-29
得票数 0
回答已采纳
2
回答
如何添加额外
的
工作
项
以使
全局
工作
大小
成为本地
工作
大小
的
倍数
我正在编写一个
OpenCL
程序,但是我
的
全局
工作
大小
并不是本地
工作
大小
的
倍数。在
OpenCL
中,
全局
工作
大小
必须可以被局部
工作
大小
整除,所以我读到
的
一个解决方案是添加一些额外
的
工作
项
,这些额外
的
工作
项
不会对
全局</
浏览 9
提问于2017-02-13
得票数 2
回答已采纳
3
回答
openCL
中
的
多维内核发布不起作用
、
、
我正试图在以下三个维度中启动
openCL
:size_t localWorkSize[2] = {32, 32};还有什么方法可以找到Cuda n
openCL
线程
的
等价性? 有人能帮忙吗。谢谢。
浏览 0
提问于2019-04-05
得票数 1
回答已采纳
1
回答
OpenCL
全局
大小
或每个
工作
项
的
for循环?
、
、
、
、
我学习
OpenCL
是为了实现一个相对复杂
的
图像处理算法,它包括几个应该作为内核实现
的
子例程。 该实现计划在Mali 6xx GPU上实现。我阅读了"
OpenCL
Programming by Example“一书和”在Mali T600 GPU上优化
OpenCL
内核“文档。在书中
的
示例中,他们使用了一些
全局
大小
的
工作
项
,并且每个
工作
项
在for循环中处理几
浏览 5
提问于2016-05-09
得票数 1
2
回答
为什么CUDA内核在做任何事情之前必须检查“`if (index <n)”?
、
这就是讨厌
的
样板
的
定义。显然,在索引>= n
的
地方,不应该调用内核。
OpenCL
不要求您进行这样
的
边界检查,它已经在内核之外为您完成了。
浏览 11
提问于2022-10-05
得票数 -3
回答已采纳
1
回答
空内核上
的
CUDA
与
OpenCL
性能
、
、
当在CUDA和
OpenCL
上测量同一个内核
的
性能时,我发现了一件奇怪
的
事情。CUDA给390 NVIDIA计算工具包5.5中
的
Op
浏览 3
提问于2014-05-06
得票数 3
回答已采纳
1
回答
OpenCL
ND-范围边界?
、
考虑一个执行向量加法
的
内核: __global double *b,if (id < n) }更一般地,我想知道如果要处理
的
数据
浏览 1
提问于2014-12-03
得票数 0
回答已采纳
2
回答
如果
全局
id高于
OpenCL
中
的
元素数,我应该返回吗?
您经常可以看到
OpenCL
内核,如{get_global_id(0); // ...我想知道这个if (global_id >= N) return;是否真的是必要
的
,特别是当您创建具有
全局
大小
的
缓冲区时。在哪种情况下是强制性
的</
浏览 7
提问于2015-02-17
得票数 1
回答已采纳
2
回答
NVIDIA
的
CUDA核心和
OpenCL
计算单元之间有什么
关系
?
、
、
我
的
电脑有一个GeForce GTX 960百万,这是由NVIDIA声称拥有640个CUDA核心。但是,当我运行clGetDeviceInfo来查找计算机中
的
计算单元数时,它会打印出5个(见下图)。听起来,数据自动化系统
的
核心
与
OpenCL
认为
的
计算单元有些不同吗?或者一组数据自动化系统核心组成了一个
OpenCL
计算单元?你能给我解释一下吗?
浏览 0
提问于2015-12-14
得票数 3
回答已采纳
1
回答
工作
尺寸尺寸对
OpenCL
性能
的
影响
我最初
的
工作
单位和11*11*6779一样大。为了简单起见,我不想把它转换成一维
全局
工作
大小
。当我将其转换为21*21*6779时,性能比以前
的
慢5-6倍。据我所知,该代码
与
正在运行
的
线程数量无关。传输
的
数据量仅为
的
4倍,我认为这并不是程序运行较慢
的
原因,因为我测试了内存分配过程。注意,我
的
设备
的
最大
工作
项
为256*256*25
浏览 2
提问于2018-05-13
得票数 0
1
回答
OpenCL
-相同代码,在Win XP + MSVS 2008 + Nvidia CUDA 5上更正苹果+ Xcode错误
、
我在带有Nvidia
OpenCL
的
MacPro上运行相同
的
GTX580代码,运行以下任一
项
: Windows XP 32位
与
VisualXP2008Enterprise要定义使用
的
工作
项数,我指定
工作
组
大小
(192个)、
工作
组数目(256个),并设置用作
工作
组
大小
x
工作
组
的</em
浏览 2
提问于2013-02-10
得票数 1
回答已采纳
2
回答
当矩阵
大小
变得太大时,
OpenCL
中
的
矩阵乘法核写不起作用
、
、
我写了一个
OpenCL
矩阵乘法核,它将做两个方阵
的
乘法。get_global_id(1); C[n*kx+ky]=C[n*kx+ky]+A[n*kx+i]*B[n*i+ky];} 启动内核
的
主机代码是,我试着在Macbook pro上
的
Intel Iris显卡上运行这个内核。当n很小时,它
工作
得很好。然而,当n为2000或更大时,则会给出错误
的
结果。此gpu
的
最大
全局
<em
浏览 3
提问于2014-12-06
得票数 2
回答已采纳
3
回答
OpenCL
从大
数组
中选择/删除点
我有一个2M+点
数组
(计划在适当
的
时候增加到20M ),我正在通过
OpenCL
进行计算。我想删除任意三角形几何中
的
任何点。
openCL
全局
输出
数组
不能是可变
的
,因
浏览 3
提问于2015-07-20
得票数 3
回答已采纳
3
回答
全局
工时规模是否需要是
OpenCL
中
工作
组规模
的
倍数?
、
、
、
您好:
全局
工时
大小
(维度)是否需要是
OpenCL
中
工作
组
大小
(维度)
的
倍数?将
工作
组维度
的
大小
动态设置为
全局
工作
维度
的
因子。(这将导致查找因子
的
开销,并可能将
工作
组设置为非最佳
大小
。)将<
浏览 3
提问于2010-06-30
得票数 13
回答已采纳
2
回答
OpenCL
中
的
最优局部/
全局
工作
大小
我想知道如何在
OpenCL
中为不同
的
设备选择最优
的
本地和
全局
工作
大小
?AMD、NVIDIA、英特尔GPU是否有通用规则?我是否应该分析设备
的
物理构建(多处理器
的
数量、多处理器中
的
流处理器
的
数量等)?因为我看到一些库(如ViennaCL)用来评估正确
的
值,只是测试许多局部/
全局
工作
大小
的
组合,并选择最佳组合。
浏览 2
提问于2013-01-10
得票数 4
1
回答
OpenCL
-为大型数据集设置本地内存
然而,在内核
的
某些部分,这6000
项
必须相加在一起。
工作
组中本地元素
的
最大数量似乎是有限
的
。 我该如何解决这个问题呢?
浏览 2
提问于2017-04-09
得票数 0
2
回答
OpenCL
工作
-每个
工作
项
-2 2DRange中
的
组
、
、
这个代码表示矩阵乘法,代码是用
OpenCL
编写
的
。这三个矩阵
的
大小
(二合一)是1024x1024。谈到
OpenCL
实现,执行
的
范围是二维
的
,所以我们有1024x1024
工作
组,每个
工作
组由16x16
工作
项
组成。问题是,为什么我们应该设置每个
工作
组
的
大小
,因为在内核中,我们既不使用本地内存,也不使用get_local_id()调用。将
工作<
浏览 1
提问于2016-01-18
得票数 1
1
回答
OpenCl
--全球和本地
的
规模--差异以及为什么有时只增加本地规模是显而易见
的
?
、
、
我编写了两个多平台和多设备
的
OpenCl
程序。一是积分,二是矩阵-矩阵乘法.我发现处理
全局
工作
大小
并使其大到一些荒谬
的
大数字,比如2^28会减慢我
的
程序速度(而本地
大小
是1),我可以自我解释,因为GPU可能把它拥有的每一个线程都放入,而且由于
全局
大小
如此之大,另一个线程排队等待前一个线程完成他们
的
工作
,它正在减慢计算速度。但在矩阵乘法中,我能够将局部
大小
设置为10
浏览 1
提问于2017-01-06
得票数 0
回答已采纳
2
回答
为什么
数组
大小
是可访问
的
,但动态分配
的
内存
大小
在运行时是不可访问
的
?
、
如果我声明一个
数组
double x[n],其中n是一个常量或一个整型变量,我可以在运行时得到它
的
大小
。但是如果我使用malloc分配内存,这种情况就不会发生。这是因为堆栈
与
堆内存分配
的
关系
吗?如果是这样的话,如何确定
全局
变量
的
数组
大小
,为什么不能将可变长度
数组
声明为
全局
变量?既然您需要知道要释放多少内存,那么释放是如何
工作
的
呢?
浏览 29
提问于2020-07-13
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
辐射的大小与基站的多少有关系吗?
手持风扇的续航时间与电池容量大小是否有关系
OpenCL-1-编程四大模型介绍
谷歌称 TensorFlow 的 OpenCL 可以将推理性能提高一倍
Imagination与MulticoreWare合作
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券