基于Titan RTX的双精度和单精度矩阵乘法基准测试

、、、

我正在尝试了解我们的GPU工作站的单精度和双精度之间的性能差异。我们的工作站配备了两个TITAN RTX GPU，但我在单个Titan RTX上运行基准测试。我正在使用cublas矩阵-矩阵乘法测试性能。我将由随机浮点数或双精度数组成<e

浏览 26提问于2020-09-18得票数 0

回答已采纳

1回答

与简单的矩阵向量乘法相比，solve()的性能如何？

我需要用几百个大小相同的矩阵来解决大量线性问题。初始化成本无关紧要，但运行时成本至关重要。天真地，我的LA背景告诉我，我应该反转我的矩阵，并使用缓存的反演，以解决我的每一个线性问题。然而，Eigen文档提到，这可能不是最好的方法。如果原始矩阵表现良好，那么.solve()和将倒置矩阵乘以RHS之间的速度和精度<

浏览 0提问于2019-04-05得票数 1

1回答

为什么我的Float64 tf.matmul在TensorFlow2中的CPU性能比NumPy matmul慢得多，甚至在图形模式下也是如此？

、、、、

我正在比较TensorFlow 2和NumPy中矩阵矩阵产品的单线程性能。分别对单精度(float32)和双精度(float64)进行了比较。我发现，NumPy性能几乎等同于用于单精度和双精度(DGEMM和SGEMM)的Intel MKL C++实现(用作矩阵乘法的基准)。但

浏览 9提问于2022-01-16得票数 1

回答已采纳

3回答

为什么使用float而不是double不能提高Android的性能？

、

由于所有的智能手机(至少是我能找到的智能手机)都有32位处理器，我想在大量计算中使用单精度浮点值将比使用双精度浮点值的性能要好得多。然而，情况似乎并非如此。即使我避免类型转换，并尽可能使用FloatMath包，在比较基于浮点数的方法和基于双精度的方法时，除了内存使用之外，我几乎看不到任何性能上的改进。我目前正在开发一个相当大的计算密集型声音分析工

浏览 1提问于2011-02-24得票数 12

回答已采纳

1回答

用于矩阵向量计算的clang优化标志

、

我研究了由clang从glm (一个用于3d计算的矩阵向量库)操作生成的反汇编代码。我注意到clang正在做一些双精度操作的“向量化”，例如。在一条SIMD指令中强制执行两次乘法。然而，对于单精度计算，代码对我来说似乎各不相同。所使用的指令来自SSE指令集和寄存器MMX指令集，但每次乘法都是针对单个浮点数完成的，甚至是赋值组(例如，矩阵赋值)是由一大堆movss

浏览 2提问于2015-01-20得票数 0

1回答

翘曲矩阵-乘法函数-支持单精度乘数吗？

、、、

在中，有一个支持类型组合的表，其中乘法要么是子单精度浮点类型，要么是double -从不浮动。但是-在中，它说：数据类型(矩阵片段的T)可以是double、float、__half、__nv_bfloat16、char，或者是对乘法数没有符号的char，对于累加器则是double、float那么，乘法矩阵可以是float，还是不能呢？

浏览 4提问于2022-05-12得票数 1

2回答

iOS BLAS加速框架矩阵乘法性能差

、、、、

我正在为iPhone实现一个基于切线距离的光学字符识别解决方案，它严重依赖于大小为253x7的浮点矩阵的快速乘法。在PoC表现良好之后，我决定通过结合的矩阵乘法(它可能使用SIMD和其他奇特的东西来完成繁重的任务……)进一步提高性能极限： Matrix operator*(const Matrix& m) const(至少对我来说)，上面的代码花了两倍的时

浏览 0提问于2013-04-03得票数 1

回答已采纳

1回答

给定数据类型的算术运算的开销是否随操作数值的不同而不同？

、

如果我执行一个用C编写的计算，比如矩阵-矩阵加法或矩阵-矩阵乘法，其中的工作是在for循环中完成的，每次迭代都会发生相同数量和类型的算术运算，输入数据的特定值是否会影响计算速度？例如，如果矩阵元素是值在0到127之间的32位整数，那么它们的表示在每四个相应的字节中只有一个字节变化，这会比值在0和INT_MAX之

浏览 1提问于2016-12-15得票数 4

1回答

对角线OpenGL线失去垂直分量？

下面是我的代码：if (!SetWindowPixelFormat(hDC)) if (!

浏览 0提问于2013-09-20得票数 0

3回答

BLAS :矩阵积在C？

、、、、

由于BLAS (没有机会选择另一个库，这是我的项目中唯一可用的库)，我想用C语言实现一些快速操作。我做以下操作：我听说这种手术用BLAS是可能的，而且速度很快。但是我搜索并没有发现任何东西(在C代码行中，我的意思是)，它可以让我理解和应用它。

浏览 4提问于2012-05-13得票数 2

3回答

Kahan求和

、

额外的精度什么时候会有用呢？我听说在某些平台上，双精度运算比浮点数运算更快。我如何在我的机器上测试它？

浏览 0提问于2011-02-09得票数 5

1回答

单/双精度SpMV在CPU上的性能

、、、

稀疏矩阵向量乘积由于运算强度很低，是一种内存界运算.由于浮点存储格式与双倍(值和列索引)的4+8=12字节相比，每非零需要4+8=12字节，因此当切换到浮点数时，应该可以预期执行速度快33%左右。我构造了一个基准，它组装一个每行200个非零的1000000x1000000矩阵，然后从20个乘法中取最小值。github 上的源代码。结果与我所预期的大致相同。现在，由于矩阵的数据几乎比向量的<

浏览 0提问于2016-04-11得票数 0

回答已采纳

1回答

ARM汇编器中的可变大小整数矩阵

、、、、

我目前正在尝试在ARM汇编器中实现矩阵乘法。我已经读过一些关于汇编器中矩阵计算的教程，它们都使用了3x3或4x4浮点矩阵上的霓虹灯指令。但这和我想做的完全不同。我有两个对称的整数矩阵，所以这两个矩阵的行数和列数是相同的，并且我的汇编函数将矩阵的大小作为参数，所以我不能像教程中那样只为3x3或4x4矩阵<

浏览 1提问于2014-02-02得票数 0

1回答

cublas的速度比软垫解析慢得多。

、、、

我正在尝试运行一些测试来比较不同稀疏性(与土卫六X)下种子解析和cublas的性能，下面是名为"testcusparsevector.cpp“的主要代码：#includeExecution time of CUDA_csr: 4818.447266 ms这意味着，即使我的密度是0.999，cusparseDcsrmm仍然比cublasDgemm快，

浏览 3提问于2016-03-31得票数 3

回答已采纳

2回答

双对浮动对_Float16 (运行时间)

、、、、

我用C语言有一个简单的问题。我正在用C语言(我的mac基于ARM)实现半精度软件，但运行时间并不比单精度或双精度软件快。我用一个非常简单的代码测试了一半，一个，两个，就像添加数字一样。一半的速度比单倍或双倍慢。此外，单一类似于双。time = (double)(end1 - start1)/CLOCKS_PER_SEC; printf("[] %.16f\n"

浏览 10提问于2022-07-09得票数 2

2回答

fft算法的基准测试方法

、、

我目前正在开发一个库，它有自己的内部fft (快速傅立叶变换)库，我想用替换它。现在，其他开发人员有点担心它可能导致的性能问题。此外，速度方面最关键的部分是1D卷积算法，它处理半复数实数。(我正在使用fftw的fftw_plan_r2r_1d)。我现在的想法是生成一组不同长度的数据集。然后，在进行转换之前，以预定的方式读取它们并修改每次迭代的</

浏览 1提问于2011-08-18得票数 2

4回答

这就是我尝试过的，也是我所拥有的:这就是画25k精灵的过程：使用正则17-18fps.Using /glEnd和trig计算顶点点的- 10-11fps.Using正则的glBegin/glEnd，但使用glRotate、glTranslate和glScale转换sprite -D13</code>和glEnd和glEnd，但仍然使用trig来计算顶点位置--10-11fps.Using顶点数组而不是glBe

浏览 7提问于2011-09-05得票数 1

2回答

在C++中执行复数矩阵运算

、、、、

我正在尝试执行涉及矩阵运算和复杂数学的计算-有时是用C语言一起执行的。我非常熟悉Matlab，我知道这些类型的计算可以简单有效地执行。例如，两个大小相同的矩阵A和B，每个矩阵都有复数元素，可以通过expression A+B轻松求和。有没有什么包或技术可以推荐使用C或Objective C对这些类型的表达式进行编程？我知道complex.h，它允许对复数执行操作，但不知道如何对复数矩阵执行操作，这才

浏览 1提问于2011-10-07得票数 3

1回答

为什么Torch在使用1.5mb网络进行预测时使用~700 of的GPU内存

、、

我对Torch/CUDA非常陌生，我正在尝试测试来自的小型二进制网络(~1.5mb)，但我一直遇到内存不足的问题。我使用的是一个相对较弱的GPU (NVIDIA K600)，它在16.04Ubuntu上有大约900 am的图形内存，具有CUDA 10.0和CudNN版本5.1。因此，我并不真正关心性能，但我认为我至少可以运行一个小型网络来预测，一次只运行一个映像(尤其是针对那些“使用有限资源”的映像)。我还添加了一些日志，以查看我在main.

浏览 0提问于2019-04-11得票数 1

回答已采纳

1回答

cublas应该被atlas超越吗？

、、

根据我对cublas和atlas的测量，atlas在速度方面比cublas快得多。对于采用英特尔i7 950和Nvidia GTX470的系统来说，这是预期的结果吗？我测试了大小为10x10到6000x6000的矩阵，增量为50。阿特拉斯总是赢。我既测量了应用程序的总执行，也测量了乘法步骤。提前谢谢。编辑：(相同的代码，在至强X5670<

浏览 0提问于2012-06-15得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

与简单的矩阵向量乘法相比，solve()的性能如何？

为什么我的Float64 tf.matmul在TensorFlow2中的CPU性能比NumPy matmul慢得多，甚至在图形模式下也是如此？

为什么使用float而不是double不能提高Android的性能？

用于矩阵向量计算的clang优化标志

翘曲矩阵-乘法函数-支持单精度乘数吗？

iOS BLAS加速框架矩阵乘法性能差

给定数据类型的算术运算的开销是否随操作数值的不同而不同？

对角线OpenGL线失去垂直分量？

BLAS :矩阵积在C？

Kahan求和

单/双精度SpMV在CPU上的性能

ARM汇编器中的可变大小整数矩阵

cublas的速度比软垫解析慢得多。

双对浮动对_Float16 (运行时间)

fft算法的基准测试方法

在OpenGL中加快旋转缩放图像的绘制

在C++中执行复数矩阵运算

为什么Torch在使用1.5mb网络进行预测时使用~700 of的GPU内存

cublas应该被atlas超越吗？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐