腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(423)
视频
沙龙
1
回答
基于
Titan
RTX
的
双
精度
和
单精度
矩阵
乘法
基准
测试
、
、
、
我正在尝试了解我们
的
GPU工作站
的
单精度
和
双
精度
之间
的
性能差异。 我们
的
工作站配备了两个
TITAN
RTX
GPU,但我在单个
Titan
RTX
上运行
基准
测试
。我正在使用cublas
矩阵
-
矩阵
乘法
测试
性能。我将由随机浮点数或
双
精度
数组成<e
浏览 26
提问于2020-09-18
得票数 0
回答已采纳
1
回答
与简单
的
矩阵
向量
乘法
相比,solve()
的
性能如何?
我需要用几百个大小相同
的
矩阵
来解决大量线性问题。初始化成本无关紧要,但运行时成本至关重要。天真地,我
的
LA背景告诉我,我应该反转我
的
矩阵
,并使用缓存
的
反演,以解决我
的
每一个线性问题。然而,Eigen文档提到,这可能不是最好
的
方法。 如果原始
矩阵
表现良好,那么.solve()
和
将倒置
矩阵
乘以RHS之间
的
速度
和
精度<
浏览 0
提问于2019-04-05
得票数 1
1
回答
为什么我
的
Float64 tf.matmul在TensorFlow2中
的
CPU性能比NumPy matmul慢得多,甚至在图形模式下也是如此?
、
、
、
、
我正在比较TensorFlow 2
和
NumPy中
矩阵
矩阵
产品
的
单线程性能。分别对
单精度
(float32)
和
双
精度
(float64)进行了比较。我发现,NumPy性能几乎等同于用于
单精度
和
双
精度
(DGEMM
和
SGEMM)
的
Intel MKL C++实现(用作
矩阵
乘法
的
基准
)。但
浏览 9
提问于2022-01-16
得票数 1
回答已采纳
3
回答
为什么使用float而不是double不能提高Android
的
性能?
、
由于所有的智能手机(至少是我能找到
的
智能手机)都有32位处理器,我想在大量计算中使用
单精度
浮点值将比使用
双
精度
浮点值
的
性能要好得多。然而,情况似乎并非如此。即使我避免类型转换,并尽可能使用FloatMath包,在比较
基于
浮点数
的
方法
和
基于
双
精度
的
方法时,除了内存使用之外,我几乎看不到任何性能上
的
改进。我目前正在开发一个相当大
的
计算密集型声音分析工
浏览 1
提问于2011-02-24
得票数 12
回答已采纳
1
回答
用于
矩阵
向量计算
的
clang优化标志
、
我研究了由clang从glm (一个用于3d计算
的
矩阵
向量库)操作生成
的
反汇编代码。 我注意到clang正在做一些
双
精度
操作
的
“向量化”,例如。在一条SIMD指令中强制执行两次
乘法
。然而,对于
单精度
计算,代码对我来说似乎各不相同。所使用
的
指令来自SSE指令集
和
寄存器MMX指令集,但每次
乘法
都是针对单个浮点数完成
的
,甚至是赋值组(例如,
矩阵
赋值)是由一大堆movss
浏览 2
提问于2015-01-20
得票数 0
1
回答
翘曲
矩阵
-
乘法
函数-支持
单精度
乘数吗?
、
、
、
在中,有一个支持类型组合
的
表,其中
乘法
要么是子
单精度
浮点类型,要么是double -从不浮动。但是-在中,它说: 数据类型(
矩阵
片段
的
T)可以是double、float、__half、__nv_bfloat16、char,或者是对
乘法
数没有符号
的
char,对于累加器则是double、float那么,
乘法
矩阵
可以是float,还是不能呢?
浏览 4
提问于2022-05-12
得票数 1
2
回答
iOS BLAS加速框架
矩阵
乘法
性能差
、
、
、
、
我正在为iPhone实现一个
基于
切线距离
的
光学字符识别解决方案,它严重依赖于大小为253x7
的
浮点
矩阵
的
快速
乘法
。在PoC表现良好之后,我决定通过结合
的
矩阵
乘法
(它可能使用SIMD
和
其他奇特
的
东西来完成繁重
的
任务……)进一步提高性能极限: Matrix operator*(const Matrix& m) const(至少对我来说),上面的代码花了两倍
的
时
浏览 0
提问于2013-04-03
得票数 1
回答已采纳
1
回答
给定数据类型
的
算术运算
的
开销是否随操作数值
的
不同而不同?
、
如果我执行一个用C编写
的
计算,比如
矩阵
-
矩阵
加法或
矩阵
-
矩阵
乘法
,其中
的
工作是在for循环中完成
的
,每次迭代都会发生相同数量
和
类型
的
算术运算,输入数据
的
特定值是否会影响计算速度?例如,如果
矩阵
元素是值在0到127之间
的
32位整数,那么它们
的
表示在每四个相应
的
字节中只有一个字节变化,这会比值在0
和
INT_MAX之
浏览 1
提问于2016-12-15
得票数 4
1
回答
对角线OpenGL线失去垂直分量?
下面是我
的
代码:if (!SetWindowPixelFormat(hDC)) if (!
浏览 0
提问于2013-09-20
得票数 0
3
回答
BLAS :
矩阵
积在C?
、
、
、
、
由于BLAS (没有机会选择另一个库,这是我
的
项目中唯一可用
的
库),我想用C语言实现一些快速操作。我做以下操作: 我听说这种手术用BLAS是可能
的
,而且速度很快。但是我搜索并没有发现任何东西(在C代码行中,我
的
意思是),它可以让我理解
和
应用它。
浏览 4
提问于2012-05-13
得票数 2
3
回答
Kahan求和
、
额外
的
精度
什么时候会有用呢? 我听说在某些平台上,
双
精度
运算比浮点数运算更快。我如何在我
的
机器上
测试
它?
浏览 0
提问于2011-02-09
得票数 5
1
回答
单/
双
精度
SpMV在CPU上
的
性能
、
、
、
稀疏
矩阵
向量乘积由于运算强度很低,是一种内存界运算.由于浮点存储格式与双倍(值
和
列索引)
的
4+8=12字节相比,每非零需要4+8=12字节,因此当切换到浮点数时,应该可以预期执行速度快33%左右。我构造了一个
基准
,它组装一个每行200个非零
的
1000000x1000000
矩阵
,然后从20个
乘法
中取最小值。github 上
的
源代码。 结果与我所预期
的
大致相同。现在,由于
矩阵
的
数据几乎比向量
的<
浏览 0
提问于2016-04-11
得票数 0
回答已采纳
1
回答
ARM汇编器中
的
可变大小整数
矩阵
、
、
、
、
我目前正在尝试在ARM汇编器中实现
矩阵
乘法
。我已经读过一些关于汇编器中
矩阵
计算
的
教程,它们都使用了3x3或4x4浮点
矩阵
上
的
霓虹灯指令。但这和我想做
的
完全不同。我有两个对称
的
整数
矩阵
,所以这两个
矩阵
的
行数
和
列数是相同
的
,并且我
的
汇编函数将
矩阵
的
大小作为参数,所以我不能像教程中那样只为3x3或4x4
矩阵<
浏览 1
提问于2014-02-02
得票数 0
1
回答
cublas
的
速度比软垫解析慢得多。
、
、
、
我正在尝试运行一些
测试
来比较不同稀疏性(与土卫六X)下种子解析
和
cublas
的
性能,下面是名为"testcusparsevector.cpp“
的
主要代码:#includeExecution time of CUDA_csr: 4818.447266 ms这意味着,即使我
的
密度是0.999,cusparseDcsrmm仍然比cublasDgemm快,
浏览 3
提问于2016-03-31
得票数 3
回答已采纳
2
回答
双
对浮动对_Float16 (运行时间)
、
、
、
、
我用C语言有一个简单
的
问题。我正在用C语言(我
的
mac
基于
ARM)实现半
精度
软件,但运行时间并不比
单精度
或
双
精度
软件快。我用一个非常简单
的
代码
测试
了一半,一个,两个,就像添加数字一样。一半
的
速度比单倍或双倍慢。此外,单一类似于
双
。time = (double)(end1 - start1)/CLOCKS_PER_SEC; printf("[] %.16f\n"
浏览 10
提问于2022-07-09
得票数 2
2
回答
fft算法
的
基准
测试
方法
、
、
我目前正在开发一个库,它有自己
的
内部fft (快速傅立叶变换)库,我想用替换它。现在,其他开发人员有点担心它可能导致
的
性能问题。此外,速度方面最关键
的
部分是1D卷积算法,它处理半复数实数。(我正在使用fftw
的
fftw_plan_r2r_1d)。我现在
的
想法是生成一组不同长度
的
数据集。然后,在进行转换之前,以预定
的
方式读取它们并修改每次迭代
的</
浏览 1
提问于2011-08-18
得票数 2
4
回答
在OpenGL中加快旋转缩放图像
的
绘制
、
、
、
这就是我尝试过
的
,也是我所拥有的:这就是画25k精灵
的
过程: 使用正则17-18fps.Using /glEnd
和
trig计算顶点点
的
- 10-11fps.Using正则
的
glBegin/glEnd,但使用glRotate、glTranslate
和
glScale转换sprite -D13</code>
和
glEnd
和
glEnd,但仍然使用trig来计算顶点位置--10-11fps.Using顶点数组而不是glBe
浏览 7
提问于2011-09-05
得票数 1
2
回答
在C++中执行复数
矩阵
运算
、
、
、
、
我正在尝试执行涉及
矩阵
运算
和
复杂数学
的
计算-有时是用C语言一起执行
的
。我非常熟悉Matlab,我知道这些类型
的
计算可以简单有效地执行。例如,两个大小相同
的
矩阵
A
和
B,每个
矩阵
都有复数元素,可以通过expression A+B轻松求和。有没有什么包或技术可以推荐使用C或Objective C对这些类型
的
表达式进行编程?我知道complex.h,它允许对复数执行操作,但不知道如何对复数
矩阵
执行操作,这才
浏览 1
提问于2011-10-07
得票数 3
1
回答
为什么Torch在使用1.5mb网络进行预测时使用~700 of
的
GPU内存
、
、
我对Torch/CUDA非常陌生,我正在尝试
测试
来自
的
小型二进制网络(~1.5mb),但我一直遇到内存不足
的
问题。我使用
的
是一个相对较弱
的
GPU (NVIDIA K600),它在16.04Ubuntu上有大约900 am
的
图形内存,具有CUDA 10.0
和
CudNN版本5.1。因此,我并不真正关心性能,但我认为我至少可以运行一个小型网络来预测,一次只运行一个映像(尤其是针对那些“使用有限资源”
的
映像)。我还添加了一些日志,以查看我在main.
浏览 0
提问于2019-04-11
得票数 1
回答已采纳
1
回答
cublas应该被atlas超越吗?
、
、
根据我对cublas
和
atlas
的
测量,atlas在速度方面比cublas快得多。对于采用英特尔i7 950
和
Nvidia GTX470
的
系统来说,这是预期
的
结果吗?我
测试
了大小为10x10到6000x6000
的
矩阵
,增量为50。阿特拉斯总是赢。我既测量了应用程序
的
总执行,也测量了
乘法
步骤。提前谢谢。编辑:(相同
的
代码,在至强X5670<
浏览 0
提问于2012-06-15
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
英伟达深度学习Tensor Core全面解析
NVIDIA深度学习Tensor Core全面解析
NVIDIA Tensor Core深度学习核心解析:全是干货
GPU选购指南:训练ML模型,我必须买RTX3080吗?
TITAN V发布:9倍性能提升
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券