测量准确的GPU计算时间

、、、、

我使用cublas库执行向量到矩阵的乘法(如下代码)。cudaMemcpyDeviceToHost);b = clock();我必须测量这个for循环的运行时间。我读到了一些关于CudaEvent的东西，但在我的例子中，我想测量总循环的时间，而不是内核，

浏览 4提问于2016-09-17得票数 0

回答已采纳

1回答

Pytorch在几次迭代后变慢

、、、、

训练过程相当复杂，需要一段时间，但我注意到的是，模型在前几个批次上非常快，然后突然达到500左右。我猜这是由于一些内存泄漏问题，好像python并没有真正释放释放的巨大张量的内存。起初，我认为问题与存储梯度有关，但实际上，即使使用torch.no_grad()，也会出现同样的问题。Iteration 51 Time: 0.

浏览 5提问于2021-06-23得票数 0

1回答

如何评估CUDA gpus的相对性能？

、、、

如何估计我不拥有的卡的库达性能，即。新卡？内核是内存绑定的，但是我的卡有更高的内存带宽。我不知道该从中得出什么结论。

浏览 1提问于2011-09-21得票数 3

1回答

用Tensorflow测量数据从RAM到GPU内存所需的时间

、、

我想做以下简单的实验。我在用Tensorflow。我有一个大数组(5000x5000 float32元素)。如何测量将这个数组从RAM移动到GPU内存实际上需要多长时间？我知道我可以创建一些非常简单的计算图，运行它，并测量它花了多长时间。然而，这有两个问题。首先，我担心测量的时间将被计算所需的时间所支配，而不是通过从RAM do GPU

浏览 1提问于2018-04-04得票数 7

2回答

在MacOSX上使用OpenGL的图形处理器计时

、、

我需要在GPU端处理一组绘图调用的时间跨度。OpenGL 3.2+为此提供了"GL_ARB_timer_query"-extension。不幸的是，MacOSX仍然不支持该扩展。你怎么能够在gpu端测量时间，必须有一种老式的方法或不同的方法来做到这一点。

浏览 1提问于2012-02-06得票数 0

2回答

如何准确测量性能，排除背景程序干扰？

、、

我会测量一个程序执行时间，比如说，在Linux桌面上计算fibonacci数。测量方法可以是在代码中使用time命令或clock()函数，什么都可以。我确信，在我的计算机上，只有这个程序正在运行，没有其他重要的程序正在运行。我的问题是，如何确保我的测量是准确的，不受后台程序，如操作系统中断，调度，桌面渲染等。我的第一个想法是注意每一个可疑的方面，

浏览 3提问于2016-10-12得票数 1

1回答

CUDA测量每个gpu内核的执行时间

、、、

我对cuda编程真的很陌生(几周前才开始)，我有一个任务是将大矩阵(比如960x960)相乘，并测量整体和每个gpu内核的执行时间。我查看了安装工具包时附带的CUDA示例(更准确地说，是0_Simple文件夹中的项目matrixMul )。我改变了样本来乘以大的矩阵。示例本身具有测量执行时间的实现，但我的问题是如何测量每个gpu内核的</

浏览 0提问于2012-12-14得票数 1

回答已采纳

1回答

测量GPU中上下文切换的开销

、、、

有很多方法来测量CPU上下文切换开销。它似乎没有多少资源来测量GPU上下文切换开销。CPU上下文切换和GPU的不同之处在于。我很困惑如何用上下文转换来测量翘曲的时间？有人

浏览 2提问于2014-06-17得票数 6

5回答

如何准确计算Java程序写入或读取文件所需的时间？

、、

如何准确计算Java程序在文件中写入或读取大量字节所需的时间？准确测量时间真的很重要。(时间应该由程序自己计算)。

浏览 0提问于2009-04-08得票数 5

1回答

GPU上的测量时间

、、、

我目前正在调查一些抗走样方法所花费的时间。我不完全确定如何准确计算着色计算时间。我是否正确地假设，如果我进行抽签调用，数据被发送到GPU。CPU继续运行，然后等待在交换链上完成GPU。所以准确地计算时间是RenderAntialiasing()之前的“RenderAntialiasing”，swapChain->Present(0，0)之后的"St

浏览 1提问于2016-06-02得票数 2

回答已采纳

1回答

在OpenCl中，多个图形处理器比单个图形处理器慢。我怎样才能做得更快？

、、、

我制作了矢量加法内核，并在单gpu和多gpu上运行。然而，在多gpu的情况下，在相同的向量加法长度下，比单gpu慢得多。 err = clGetPlatformIDs(1, &platform, NULL); &#

浏览 6提问于2020-11-16得票数 1

1回答

在CUDA中，通过clock()和clock64()测量的时钟是什么？

、、

在CUDA中，clock()和clock64()测量的时钟是多少？根据的说法，时钟是“每个多处理器的计数器”。根据我的理解，这指的是主GPU时钟(不是着色器时钟)。但是，当我使用主GPU时钟频率测量时钟计数并将其转换为时间值时，我得到的结果是实际值的两倍(我使用cuda事件使用主机代码的内核执行时间来测量实际值)。这表明clock()返回着色器

浏览 13提问于2014-11-22得票数 4

1回答

测量安卓GLSurfaceView.Renderer的帧时/帧数

、、、、

我有一个使用OpenGL ES 2.0的应用程序，并使用一个GLSurfaceView和一个Renderer类来绘制屏幕。最初，我将渲染模式设置为RENDER_WHEN_DIRTY，然后每秒调用requestRender() 60次，计时完成该功能所需的时间，但是当程序明显滞后在我的手机上时，我一直得到难以置信的短帧时间(然后，我决定在实际的onDrawFrame()函数中执行计时。我在函数的开头和结尾都使用了SystemClock.elapsedRe

浏览 0提问于2014-09-16得票数 4

回答已采纳

1回答

精确测量机器之间的运行时间

、、

我试图测量从一台机器发送的消息到另一台计算机接收消息之间的时间。最初，我在EC2实例网络中测量这一点。EC2实例使用NTP进行时间同步。当发送机器发送消息时，我取它的系统时间，当它收到消息时，从接收机器的系统时间中减去它。我不确定这种方法的准确性；有时我会得到一些奇怪的结果，即负数。我认为问题在于时间同步的<e

浏览 2提问于2014-01-12得票数 0

回答已采纳

1回答

如何打印在tensorflow代码中完成的计算的执行时间？

、

这是一个一般性的问题。我想打印代码执行过程中花费的时间。我第一次用：start = time.time()print ("%s" % (time.time() - start_time)) 但我读到这是一种不准确的测量执行时间的方法如何准确地测量我的</e

浏览 7提问于2017-01-23得票数 3

回答已采纳

1回答

F#的C++ AMP库有用吗？

、、、

我正在试验F#中的GPU库，以此作为使用C++并行工作的一种方式。然而，我得到的结果似乎并不直观。a view over the data on the CPU { });

浏览 0提问于2012-12-24得票数 5

回答已采纳

0回答

RaspPi的GPU上的FFT？

、、、

我目前正在做一个Raspberry Pi项目，在这个项目中，我试图在一些包含一些测量数据的numpy数组上计算FFT。我想在GPU上完成这项工作，以释放CPU上的资源。我发现Andrew Holme的GPU_FFT库显然允许这样做。然而，我不知道如何准确地使用这个库(我阅读了附带的说明)，因为我对Python和C之间的交互一无所知(我以前从未使用过C)。此外，我找不到任何关于如何在互联网上使用GPU</e

浏览 0提问于2017-06-09得票数 1

2回答

测量渲染时间OpenGL ES 2.0

、、

.GL_TRIANGLE_FAN, 0, v_n);GLES20.glFinish();实际上，我存储这些值并测量一定数量的渲染过程的平均值我以前读过一些设备并不真正监听glFinish()，但如果不是这样，我如何测量渲染速度？我还尝试了我在互联网上看到的另一种方法(主要是在测量FPS的上下文中)：public void onDrawFrame(GL10 un

浏览 2提问于2013-06-24得票数 0

回答已采纳

1回答

带PyCUDA和固定存储器的点积

、、、、

我目前正在使用PyCUDA开发一个带固定内存的点产品。我对大数组有个问题。我的工作是： #!, y_gpu_ptr, z_gpu_ptr, np.uint32(N), block=(THREADS_PER_BLOCK, 1, 1), grid=(BLOCKS,1))

浏览 3提问于2017-12-18得票数 1

回答已采纳

2回答

如何测量GPU上下文从计算到渲染着色器的切换

、、、、

在OpenGL中，我根据运动方程调度计算着色器来计算给定对象模型中的新顶点位置。然后我通过顶点/片段渲染着色器程序渲染这些新的顶点位置。我的理解是，每次我调度一个计算着色器，它都会启动一个GPU设备上下文切换，这需要有限的时间。谁能分享一下如何在OpenGL中测量计算着色器和渲染着色器之间的上下文切换。我假设这是非常少的时间，但我需要

浏览 2提问于2017-06-28得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Pytorch在几次迭代后变慢

如何评估CUDA gpus的相对性能？

用Tensorflow测量数据从RAM到GPU内存所需的时间

在MacOSX上使用OpenGL的图形处理器计时

如何准确测量性能，排除背景程序干扰？

CUDA测量每个gpu内核的执行时间

测量GPU中上下文切换的开销

如何准确计算Java程序写入或读取文件所需的时间？

GPU上的测量时间

在OpenCl中，多个图形处理器比单个图形处理器慢。我怎样才能做得更快？

在CUDA中，通过clock()和clock64()测量的时钟是什么？

测量安卓GLSurfaceView.Renderer的帧时/帧数

精确测量机器之间的运行时间

如何打印在tensorflow代码中完成的计算的执行时间？

F#的C++ AMP库有用吗？

RaspPi的GPU上的FFT？

测量渲染时间OpenGL ES 2.0

带PyCUDA和固定存储器的点积

如何测量GPU上下文从计算到渲染着色器的切换

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐