腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(7349)
视频
沙龙
1
回答
L2
缓存
的
内存
操作
速度
是否
明显
快于
NVIDIA
GPU
的
全局
内存
?
cuda
、
gpu
、
nvidia
现代图形处理器架构同时具有L1
缓存
和
L2
缓存
。众所周知,L1
缓存
比
全局
内存
快得多。然而,
L2
缓存
的
速度
在CUDA文档中不太清楚。我查阅了CUDA文档,但只能发现
全局
内存
操作
的
延迟大约是300-500个周期,而L1
缓存
操作
只需要大约30个周期。有人能给出
L2
缓存
的</e
浏览 53
提问于2021-04-02
得票数 0
回答已采纳
1
回答
不同
GPU
内存
空间
的
访问时间是多少?
performance
、
caching
、
gpu
、
nvidia
、
gpgpu
这是一个关于离散
GPU
的
问题,主要是最近
的
GPU
(
NVIDIA
开普勒,Maxwell;以及AMD Kaveri和R 290‘s中
的
任何东西)。 (每个核心共享
内存
应该与L1
缓存
相
浏览 3
提问于2015-05-21
得票数 5
1
回答
GPU
中
的
L1
缓存
caching
、
cuda
、
gpu
在阅读
GPU
的
内存
层次结构时,我看到了一些类似的术语,而且由于在过去
的
版本中有一些架构修改,我不知道它们
是否
可以一起使用,或者有不同
的
含义。该设备是M2000,它是计算兼容性5.2。顶层(最接近管道)是一个统一
的
L1/纹理
缓存
,它是每SM 24 SM。指令和数据也是统一
的
吗? 下面是
L2
缓存
,也称为共享
内存
,根据./deviceQuery,
L2</e
浏览 1
提问于2019-04-18
得票数 2
回答已采纳
1
回答
在
NVIDIA
的
maxwell
GPU
中,L1
缓存
用于什么?
caching
、
cuda
NVIDIA
已经发布了一段时间
的
maxwell
GPU
,但是在阅读"Maxwell调优指南“时,我对L1
缓存
的
功能感到困惑。在开普勒时代,
全局
内存
访问仅
缓存
在
L2
中,而L1用于
缓存
由寄存器溢出引起
的
本地
内存
访问。通过阅读
NVIDIA
的
文档,这种本地
内存
缓存
是我知道
的
唯一能从L1<em
浏览 6
提问于2015-03-06
得票数 5
回答已采纳
1
回答
OpenCL
内存
架构和物理
内存
/
缓存
(L1/L2...)之间
的
关系?
memory
、
opencl
、
gpu
OpenCL
内存
体系结构之间
是否
有任何直接关系:以及物理
GPU
的
内存
和
缓存
。例如具有1 1GB
内存
/L1高速
缓存
/
L2
高速
缓存
的
GPU
卡。这些
是否
与本地/
全局
相关。记忆?或者是从
全局
内存
分配
的</em
浏览 4
提问于2012-04-15
得票数 3
回答已采纳
1
回答
开普勒中
的
L2
缓存
caching
、
cuda
、
gpu
、
nvidia
在开普勒架构
的
GPU
中,
L2
缓存
是如何在引用
的
局部性方面工作
的
?例如,如果线程访问
全局
内存
中
的
地址,假设该地址
的
值不在
L2
缓存
中,那么如何
缓存
该值?是暂时
的
吗?或者该地址
的
其他附近值也被带到了
L2
缓存
(空间)?
浏览 0
提问于2013-10-28
得票数 11
回答已采纳
2
回答
纹理
缓存
比
L2
缓存
快吗?
caching
、
textures
、
gpu
我正在使用纹理
缓存
来加速科学计算。我在想为什么纹理记忆可以使代码更快。 一种可能是纹理
内存
将
L2
缓存
流量引入纹理
缓存
。如果纹理
内存
访问
速度
快于
L2
缓存
,这将是有意义
的
,但我还没有找到这样
的
基准测试。
浏览 3
提问于2014-04-10
得票数 1
回答已采纳
1
回答
使用
L2
触发AMD体系结构上
全局
内存
的
OpenCL
缓存
写入
memory
、
opencl
、
gpu
、
gpgpu
、
amd
我正在为
GPU
的
DRAM (
全局
)
内存
编写一系列测试。专门针对AMD GCN架构
的
塔希提岛和夏威夷模型线。archs有一个回写
L2
缓存
。我想要
的
是确保
全局
内存
的
存储在另一个线程进行读取之前确实被写入
全局
内存
。规范中
的
屏障和mem_fence文档声明: CLK_GLOBAL_MEM_FENCE -屏障功能将排队一个
内存
栅栏,以确保
浏览 5
提问于2015-06-25
得票数 1
1
回答
CUDA将数据从
全局
内存
中
缓存
到统一
缓存
中,以便将它们存储到共享
内存
中?
caching
、
cuda
、
nvidia
据我所知,
GPU
按照以下步骤(
全局
内存
-L2-L1-寄存器-共享
内存
)将数据存储到以前
NVIDIA
GPU
体系结构
的
共享
内存
中。但是,maxwell
gpu
(GTX980)物理上分离了统一
缓存
和共享
内存
,我想知道这个体系结构也遵循相同
的
步骤将数据存储到共享
内存
中?还是支持
全局
内存
和共享
内存
之间
的</em
浏览 2
提问于2016-04-20
得票数 3
回答已采纳
1
回答
Cuda
GPU
中
的
错误共享:它
是否
存在/类似于CPU?
c
、
cuda
、
false-sharing
我了解到,在对称多处理器(SMP)系统中,由于每个核中
的
单个
缓存
,可能会出现错误共享,其代码如下:02 #pragma09 sum_local[me] += x[i] * y[i];11 #pragma omp atomic13 } 错误共享主要来自于这样一个事实:
内存
是通过一个由固定字节数组成
的
块访问
的<
浏览 1
提问于2013-12-15
得票数 4
回答已采纳
3
回答
又一个CUDA纹理
内存
线程。(为什么纹理记忆在费米上会更快?)
caching
、
cuda
、
textures
有相当多
的
堆栈溢出线程询问为什么使用纹理
的
内核比使用
全局
内存
访问
的
内核更快。对我来说,答案和评论总是有点深奥。在白色上声明为黑色: 费米架构通过为负载和存储实现一个统一
的
内存
请求路径来解决这一挑战,为每个SM多处理器提供一个L1
缓存
,以及为所有
操作
(加载、存储和纹理)提供服务
的
统一
L2
缓存
。那么,为什么人们应该期望在费米设备上使用纹理存储器
的
速度</em
浏览 16
提问于2014-09-13
得票数 4
回答已采纳
1
回答
如何找出
GPU
的
共享
内存
和
全局
内存
大小?
memory
、
parallel-processing
、
gpu
、
shared-memory
、
gpgpu
我想知道我
的
GPU
的
共享
内存
和
全局
内存
大小。我正在使用
nvidia
特斯拉k40c。我找到了,它说标准
内存
是12 GB。标准
内存
是否
与
全局
内存
相同?如何找到共享
内存
的
大小?
是否
有显示
gpu
功能
的
命令?我使用了
nvidia
-smi命令,但它没有给出有关
内存
大小<
浏览 4
提问于2016-06-26
得票数 3
回答已采纳
1
回答
“全球负荷效率”超过100%
cuda
、
gpu
、
gpgpu
、
nvidia
、
kepler
我有一个CUDA程序,在这个程序中,块
的
线程在几次迭代中读取长数组
的
元素,
内存
访问几乎完全合并在一起。当我分析时,
全局
负载效率超过100% (根据输入
的
不同,在119%到187%之间)。
全局
负载效率
的
描述是“
全局
内存
负载吞吐量与所需
全局
内存
负载吞吐量
的
比率”。这
是否
意味着我经常访问
L2
缓存
,而我
的
内存<
浏览 1
提问于2013-10-29
得票数 3
回答已采纳
1
回答
L1本地存储/ L1
全局
读取在
Nvidia
可视化分析器中
的
意义
cuda
可视化分析器中
的
上述代码时,我将得到以下
内存
带宽分析。
全局
内存
负载-
L2
丢失从
L2
复制2*128 B到L1 (包括来自
L2
的
附加数据,因为L1
缓存
行是128对每个线程执行相当于a= L1_positionthreadIdx
浏览 2
提问于2016-06-21
得票数 0
回答已采纳
1
回答
如何从CUDA内核随机访问小常数数组
cuda
、
gpu
我
的
内核使用大小为8×8
的
float数组,下面是随机访问模式。flt[ind * 8 + 7]; }访问flt数组
的
最佳方法是什么不要传递flt,使用__const__
内存
。我不知道当不同
的
线程访问不同
的
数据时,const
内存
的
速度
有多快。 如上所示使用。由于线程访问不同
的</e
浏览 2
提问于2013-03-02
得票数 2
回答已采纳
1
回答
当存在L1和
L2
缓存
级别时,
是否
会同时对一个地址进行
全局
内存
访问?
cuda
、
gpgpu
、
nvidia
、
kepler
根据我所知道
的
,当翘曲
的
线程访问
全局
内存
中相同
的
地址时,请求就会被序列化,所以最好使用常量
内存
。当
GPU
配备了L1和
L2
缓存
级别(在费米和开普勒体系结构中)时,同步
全局
内存
访问
的
序列化
是否
发生?换句话说,当一个翘曲
的
线程访问相同
的
全局
内存
地址时,一个翘曲
的
31个线程会因为一个
浏览 1
提问于2013-11-16
得票数 1
回答已采纳
1
回答
对于
GPU
上
的
非原子写入
的
弱保证?
cuda
、
opencl
、
atomic
、
memory-model
OpenCL和CUDA已经包括了几年
的
原子
操作
(虽然显然不是每个CUDA或OpenCL设备都支持这些
操作
)。但是-我
的
问题是,由于非原子
的
写作,“与种族一起生活”
的
可能性。假设一个网格中
的
多个线程都写入
全局
内存
中
的
相同位置。我们
是否
保证,当内核执行结束时,其中一个写
操作
的
结果将出现在该位置,而不是一些垃圾?这个问题
的
相关参数(选择任意组合,编辑,
浏览 0
提问于2016-07-02
得票数 5
2
回答
图形处理器L1
缓存
一致性
gpu
、
gpgpu
在OPENCL和CUDA中,有原语,即分别为L1数据
缓存
/共享
内存
强制一致性
的
屏障()和同步线程()。这
是否
意味着
缓存
本身是不一致
的
,即没有像L1
缓存
硬件中实现
的
缓存
一致性协议那样
的
CPU?
浏览 7
提问于2013-10-22
得票数 1
1
回答
CUDA Fermi
的
架构:
内存
结构
cuda
、
global
、
shared
、
tesla
我有一个关于CUDA Fermi's architecture
的
问题:我在某个地方读到过,在Fermi's architecture中,
全局
内存
的
访问
速度
与共享
内存
一样快,因为它们现在使用统一寻址。因此,我真的可以访问
全局
内存
上
的
数据而不会有(大)延迟(不像“预费米”
GPU
)?对我来说,知道这一点非常重要,因为我正在为
Nvidia
Tesla
GPU
编程,但没有
浏览 3
提问于2012-08-12
得票数 0
1
回答
如何将所有访问到CUDA中
的
全局
内存
?
cuda
我希望程序中
的
所有访问都能访问
全局
内存
(即使数据在L1/
L2
缓存
中找到)。为此,我发现可以通过将以下选项传递给nvcc编译器来跳过L1
缓存
:CUDA文件指出: .cv Cache as volatile (consider cached system因此,我假设在使用-dlcm=cg或-dlcm=cv运行时,生成
的
PTX文件应该与正常生成
的
文件不同。("-Xptxas -dlcm=cg“或&quo
浏览 0
提问于2017-01-16
得票数 0
点击加载更多
相关
资讯
CPU 和 GPU - 异构计算的演进与发展
CPU与GPU区别和发展进程
一文揭开 NVIDIA CUDA 神秘面纱
Java内存模型
Triton入门教程:安装与编写和运行简单Triton内核
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
智聆口语评测
活动推荐
运营活动
广告
关闭
领券