L2缓存的内存操作速度是否明显快于NVIDIA GPU的全局内存？

文章/答案/技术大牛

发布

1回答

cuda、gpu、nvidia

现代图形处理器架构同时具有L1缓存和L2缓存。众所周知，L1缓存比全局内存快得多。然而，L2缓存的速度在CUDA文档中不太清楚。我查阅了CUDA文档，但只能发现全局内存操作的延迟大约是300-500个周期，而L1缓存操作只需要大约30个周期。有人能给出L2缓存的</e

浏览 53提问于2021-04-02得票数 0

回答已采纳

1回答

不同GPU内存空间的访问时间是多少？

performance、caching、gpu、nvidia、gpgpu

这是一个关于离散GPU的问题，主要是最近的GPU (NVIDIA开普勒，Maxwell；以及AMD Kaveri和R 290‘s中的任何东西)。 (每个核心共享内存应该与L1缓存相

浏览 3提问于2015-05-21得票数 5

1回答

GPU中的L1缓存

caching、cuda、gpu

在阅读GPU的内存层次结构时，我看到了一些类似的术语，而且由于在过去的版本中有一些架构修改，我不知道它们是否可以一起使用，或者有不同的含义。该设备是M2000，它是计算兼容性5.2。顶层(最接近管道)是一个统一的L1/纹理缓存，它是每SM 24 SM。指令和数据也是统一的吗？下面是 L2 缓存，也称为共享内存，根据./deviceQuery，L2</e

浏览 1提问于2019-04-18得票数 2

回答已采纳

1回答

在NVIDIA的maxwell GPU中，L1缓存用于什么？

caching、cuda

NVIDIA已经发布了一段时间的maxwell GPU，但是在阅读"Maxwell调优指南“时，我对L1缓存的功能感到困惑。在开普勒时代，全局内存访问仅缓存在L2中，而L1用于缓存由寄存器溢出引起的本地内存访问。通过阅读NVIDIA的文档，这种本地内存缓存是我知道的唯一能从L1<em

浏览 6提问于2015-03-06得票数 5

回答已采纳

1回答

OpenCL内存架构和物理内存/缓存(L1/L2...)之间的关系？

memory、opencl、gpu

OpenCL内存体系结构之间是否有任何直接关系：以及物理GPU的内存和缓存。例如具有1 1GB内存/L1高速缓存/L2高速缓存的GPU卡。这些是否与本地/全局相关。记忆？或者是从全局内存分配的</em

浏览 4提问于2012-04-15得票数 3

回答已采纳

1回答

开普勒中的L2缓存

caching、cuda、gpu、nvidia

在开普勒架构的GPU中，L2缓存是如何在引用的局部性方面工作的？例如，如果线程访问全局内存中的地址，假设该地址的值不在L2缓存中，那么如何缓存该值？是暂时的吗？或者该地址的其他附近值也被带到了L2缓存(空间)？

浏览 0提问于2013-10-28得票数 11

回答已采纳

2回答

纹理缓存比L2缓存快吗？

caching、textures、gpu

我正在使用纹理缓存来加速科学计算。我在想为什么纹理记忆可以使代码更快。一种可能是纹理内存将L2缓存流量引入纹理缓存。如果纹理内存访问速度快于L2缓存，这将是有意义的，但我还没有找到这样的基准测试。

浏览 3提问于2014-04-10得票数 1

回答已采纳

1回答

使用L2触发AMD体系结构上全局内存的OpenCL缓存写入

memory、opencl、gpu、gpgpu、amd

我正在为GPU的DRAM (全局)内存编写一系列测试。专门针对AMD GCN架构的塔希提岛和夏威夷模型线。archs有一个回写L2缓存。我想要的是确保全局内存的存储在另一个线程进行读取之前确实被写入全局内存。规范中的屏障和mem_fence文档声明： CLK_GLOBAL_MEM_FENCE -屏障功能将排队一个内存栅栏，以确保

浏览 5提问于2015-06-25得票数 1

1回答

CUDA将数据从全局内存中缓存到统一缓存中，以便将它们存储到共享内存中？

caching、cuda、nvidia

据我所知，GPU按照以下步骤(全局内存-L2-L1-寄存器-共享内存)将数据存储到以前NVIDIA GPU体系结构的共享内存中。但是，maxwell gpu(GTX980)物理上分离了统一缓存和共享内存，我想知道这个体系结构也遵循相同的步骤将数据存储到共享内存中？还是支持全局内存和共享内存之间的</em

浏览 2提问于2016-04-20得票数 3

回答已采纳

1回答

Cuda GPU中的错误共享:它是否存在/类似于CPU？

c、cuda、false-sharing

我了解到，在对称多处理器(SMP)系统中，由于每个核中的单个缓存，可能会出现错误共享，其代码如下：02 #pragma09 sum_local[me] += x[i] * y[i];11 #pragma omp atomic13 } 错误共享主要来自于这样一个事实:内存是通过一个由固定字节数组成的块访问的<

浏览 1提问于2013-12-15得票数 4

回答已采纳

3回答

又一个CUDA纹理内存线程。(为什么纹理记忆在费米上会更快？)

caching、cuda、textures

有相当多的堆栈溢出线程询问为什么使用纹理的内核比使用全局内存访问的内核更快。对我来说，答案和评论总是有点深奥。在白色上声明为黑色：费米架构通过为负载和存储实现一个统一的内存请求路径来解决这一挑战，为每个SM多处理器提供一个L1缓存，以及为所有操作(加载、存储和纹理)提供服务的统一L2缓存。那么，为什么人们应该期望在费米设备上使用纹理存储器的速度</em

浏览 16提问于2014-09-13得票数 4

回答已采纳

1回答

如何找出GPU的共享内存和全局内存大小？

memory、parallel-processing、gpu、shared-memory、gpgpu

我想知道我的GPU的共享内存和全局内存大小。我正在使用nvidia特斯拉k40c。我找到了，它说标准内存是12 GB。标准内存是否与全局内存相同？如何找到共享内存的大小？是否有显示gpu功能的命令？我使用了nvidia-smi命令，但它没有给出有关内存大小<

浏览 4提问于2016-06-26得票数 3

回答已采纳

1回答

“全球负荷效率”超过100%

cuda、gpu、gpgpu、nvidia、kepler

我有一个CUDA程序，在这个程序中，块的线程在几次迭代中读取长数组的元素，内存访问几乎完全合并在一起。当我分析时，全局负载效率超过100% (根据输入的不同，在119%到187%之间)。全局负载效率的描述是“全局内存负载吞吐量与所需全局内存负载吞吐量的比率”。这是否意味着我经常访问L2缓存，而我的内存<

浏览 1提问于2013-10-29得票数 3

回答已采纳

1回答

L1本地存储/ L1全局读取在Nvidia可视化分析器中的意义

cuda

可视化分析器中的上述代码时，我将得到以下内存带宽分析。全局内存负载- L2丢失从L2复制2*128 B到L1 (包括来自L2的附加数据，因为L1缓存行是128对每个线程执行相当于a= L1_positionthreadIdx

浏览 2提问于2016-06-21得票数 0

回答已采纳

1回答

如何从CUDA内核随机访问小常数数组

cuda、gpu

我的内核使用大小为8×8的float数组，下面是随机访问模式。flt[ind * 8 + 7]; }访问flt数组的最佳方法是什么不要传递flt，使用__const__内存。我不知道当不同的线程访问不同的数据时，const内存的速度有多快。如上所示使用。由于线程访问不同的</e

浏览 2提问于2013-03-02得票数 2

回答已采纳

1回答

当存在L1和L2缓存级别时，是否会同时对一个地址进行全局内存访问？

cuda、gpgpu、nvidia、kepler

根据我所知道的，当翘曲的线程访问全局内存中相同的地址时，请求就会被序列化，所以最好使用常量内存。当GPU配备了L1和L2缓存级别(在费米和开普勒体系结构中)时，同步全局内存访问的序列化是否发生？换句话说，当一个翘曲的线程访问相同的全局内存地址时，一个翘曲的31个线程会因为一个

浏览 1提问于2013-11-16得票数 1

回答已采纳

1回答

对于GPU上的非原子写入的弱保证？

cuda、opencl、atomic、memory-model

OpenCL和CUDA已经包括了几年的原子操作(虽然显然不是每个CUDA或OpenCL设备都支持这些操作)。但是-我的问题是，由于非原子的写作，“与种族一起生活”的可能性。假设一个网格中的多个线程都写入全局内存中的相同位置。我们是否保证，当内核执行结束时，其中一个写操作的结果将出现在该位置，而不是一些垃圾？这个问题的相关参数(选择任意组合，编辑，

浏览 0提问于2016-07-02得票数 5

2回答

图形处理器L1缓存一致性

gpu、gpgpu

在OPENCL和CUDA中，有原语，即分别为L1数据缓存/共享内存强制一致性的屏障()和同步线程()。这是否意味着缓存本身是不一致的，即没有像L1缓存硬件中实现的缓存一致性协议那样的CPU？

浏览 7提问于2013-10-22得票数 1

1回答

CUDA Fermi的架构:内存结构

cuda、global、shared、tesla

我有一个关于CUDA Fermi's architecture的问题:我在某个地方读到过，在Fermi's architecture中，全局内存的访问速度与共享内存一样快，因为它们现在使用统一寻址。因此，我真的可以访问全局内存上的数据而不会有(大)延迟(不像“预费米”GPU)？对我来说，知道这一点非常重要，因为我正在为Nvidia Tesla GPU编程，但没有

浏览 3提问于2012-08-12得票数 0

1回答

我希望程序中的所有访问都能访问全局内存(即使数据在L1/L2缓存中找到)。为此，我发现可以通过将以下选项传递给nvcc编译器来跳过L1缓存：CUDA文件指出： .cv Cache as volatile (consider cached system因此，我假设在使用-dlcm=cg或-dlcm=cv运行时，生成的PTX文件应该与正常生成的文件不同。("-Xptxas -dlcm=cg“或&quo

浏览 0提问于2017-01-16得票数 0

点击加载更多