腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
在
使用
MKL
时
,
AVX2
和
AVX512
没有
太大
区别
吗
?
performance
、
tensorflow
、
intel
、
intel-mkl
、
avx512
CPU环境:英特尔(R)至强(R) Gold 6148 CPU @2.40 Gold 首先,我
使用
pip install tensorflow==1.12.0安装tensorflow,并下载tensorflow-benchmark运行1:export
MKL
_VERBOSE=0;export
MKL
_ENABLE_INSTRUCTIONS=
AVX512
;python tf_cnn_benchmarks.py --device==
AVX2
;python tf_cnn_benchmarks.py --devi
浏览 110
提问于2019-03-20
得票数 2
2
回答
对于简单阵列处理循环的AVX 512
和
AVX2
性能
performance
、
x86
、
micro-optimization
、
avx2
、
avx512
目前,我正在为DSP应用程序进行一些优化
和
比较,这对于
AVX512
来说似乎很理想,因为这些只是简单的不相关数组处理循环。但是
在
一个新的i9上,与
AVX2
相比,我
在
使用
AVX512
时
并
没有
进行任何合理的改进。有什么指示
吗
?有好结果
吗
?(顺便说一句。我尝试了MSVC/CLANG/ICL,
没有
明显的
区别
,很多时候
AVX512
代码似乎
浏览 0
提问于2018-09-26
得票数 5
1
回答
使用
Intel
MKL
在
Intel Xeon Gold上运行的Mathnet数字比一台旧的i7-7700HQ笔记本电脑慢得多
c#
、
intel-mkl
、
avx2
、
avx512
、
mathnet-numerics
我有几个函数
使用
MathNet数字+ Intel提供程序进行矩阵计算。矩阵不
太大
,比如40x100,运算涉及到一些伪逆、特征值
和
类似的线性代数内容。我已经尝试过“本地英特尔
MKL
”
和
“管理”多线程提供商。
MKL
的速度慢了2倍,而管理的
MKL
则快了10%。(更新) 如果有人有同样的问题,可以
浏览 11
提问于2021-07-12
得票数 2
回答已采纳
1
回答
Xcode Apple启用
avx512
xcode
、
clang
、
avx
、
avx2
、
avx512
在
Xcode(版本10.1 (10B61))中,我
使用
宏来检测
AVX512
支持,如下所示。"#error "
avx512
"
在
默认构建设置中,SSE4_1是活动的,但avx、
avx2
却
没有
。当我
在
构建设置中添加-mavx
时
->Apple-自定义编译器标志-->启用AVX的其他C标记,进一步添加-mavx2来启用AVX
和
浏览 0
提问于2019-03-27
得票数 1
回答已采纳
1
回答
AVX512
未在英特尔Tensorflow上显示
tensorflow
、
intel
、
avx512
、
intel-tensorflow
我有一个Windows 11计算机与第11代英特尔核心i7-1185G7,它支持SSE4.1,SSE4.2,AVX,
AVX2
和
AVX512
。这台电脑
没有
GPU。它提到
在
PIP车轮上自动
使用
和
启用
AVX512
: 所有英特尔TensorFlow二进制文件都是
使用
oneAPI深层神经网络库(oneDNN)进行优化的,该库将在性能关键操作中自动
使用
AVX2
或AVX512F因此,我不确定TensorFlow
浏览 21
提问于2022-07-19
得票数 1
2
回答
为什么VS C/C++
AVX512
编译软件可以
在
我的系统上运行,而我的CPU
没有
AVX512
?
visual-c++
、
cpu
、
instruction-set
、
avx512
、
cpuid
我最近看到Visual Studio2019预览版增加了一个用
AVX512
编译的选项。好的,我试过了,它起作用了。但是为什么它能工作,而我的CPU
没有
这样的能力呢?我正在
使用
下面的C/C++脚本来检测CPU功能: 运行此脚本
时
,所有
AVX512
标志(AVX512F、AVX512CD、AVX512PF
和
AVX512ER)
在
我的系统上都不可用。Visual Studio 2019预览版有以下选项: AVX、
AVX2
、
AVX512
浏览 49
提问于2019-11-06
得票数 0
1
回答
创建tensorflow for intel xeon gold 6148
tensorflow
、
bazel
、
avx2
、
avx512
、
intel-tensorflow
我有一台服务器,上面有两个Intel xeon gold 6148
和
tensorflow。当我用pip安装tf
时
,我会收到一条消息,即我的安装中
没有
使用
AVX2
和
AVX512
。因此,为了获得最好的性能,我尝试从源代码构建tf
使用
docker。我是
在
之后这样做的,但是对于build命令,我
使用
了: bazel build --config=
mkl
-c opt --copt=-mavx --copt=
浏览 2
提问于2018-11-28
得票数 1
回答已采纳
2
回答
应该在具有不同架构的集群上指定哪些AVX
和
MA三月?
c
、
compiler-optimization
、
hpc
、
avx
、
icc
目前,我正试图
使用
Intel编译器来编译用于HPC集群的软件。登录节点是我编译
和
准备计算的地方,它
使用
处理器,而计算节点
使用
Haswell- ( / )或Skylake-处理器()。据我从上面的链接中了解到,我的登录节点支持Intel SSE4.2、Intel AVX、Intel
AVX2
以及Intel AVX-512,但我的计算节点只支持Intel
AVX2
(Haswell)或如果我
在
登录节点上
使用
选项-xHost进行编译,它应该自动<e
浏览 2
提问于2020-06-05
得票数 5
回答已采纳
2
回答
如何
使用
AVX2
和
SSE将大整数转换为小整数?
c++
、
c
、
type-conversion
、
simd
、
avx
是否有一种
使用
AVX2
和
SSE将较大整数类型向下转换为较小整数类型(当然是截断)的有效方法?,但是如何在
没有
此类指令的
AVX2
和
SSE中完成这一任务?请注意,虽然上面的
AVX512
内部有128位
和
256位重载,但它们在运行时仍然需要
AVX512
。我正在寻找仅
使用
AVX2
和
/或SSE指令完成相同任务的方法。我已经测量了我们的代码的性能(抱歉,NDA,这里
没有</em
浏览 18
提问于2022-01-22
得票数 0
1
回答
如何在
没有
AVX2
的情况下
使用
柯南进行构建
c++
、
avx2
、
conan
、
apache-arrow
我正在
使用
conan来构建一个
使用
arrow拼花的库。--build=arrow 它可以
在
我的机器上正确构建和执行,但在Jenkins服务器上的测试失败 SIGILL - Illegal instruction signal 从this
和
this的帖子来看事实上,它们是有
区别
的: Jenkins服务器 AVX supported
AVX2
supported 此外,箭头代码具有高达uint8_
浏览 60
提问于2021-07-27
得票数 0
回答已采纳
1
回答
AVX2
和
AVX512
的加速
c
、
avx
、
avx2
、
avx512
我正在尝试可视化将
AVX2
和
AVX512
合并的加速过程。首先,我们
使用
通用循环执行它,然后
使用
AVX2
,然后是
AVX512
。我正在
使用
英特尔Xeon 6130处理器。taken 0.175549现在,
在
一般循环
和
内部实现中,加速比是可见的。有人能对这种行为有所启发
吗
?*更新1*
在
使用
-O3
浏览 2
提问于2020-02-04
得票数 0
回答已采纳
1
回答
如何为虚幻引擎4启用/arch:AVX?
c++
、
visual-studio-2017
、
unreal-engine4
、
avx
、
visual-studio-2017-build-tools
据我所知,
在
默认情况下,它
使用
的是SSE2,而且它是自己的NMake,因此
没有
Visual属性页面可以访问
和
添加arch。注意到:尝试支持AVX、
AVX2
和
AVX512
。
浏览 0
提问于2020-04-26
得票数 2
回答已采纳
1
回答
什么是最有效的方式清除一个或几个ZMM注册骑士登陆?
assembly
、
avx
、
xeon-phi
、
avx512
、
knights-landing
下面的代码会提供最快的速度
吗
?vpxorq zmm0, zmm0, zmm0vpxorq zmm2, zmm2, zmm2
在
AVX2
上,如果我想清除ymm寄存器,vpxor比vxorps速度更快,因为vpxor可以
在
多个单元上运行。
在
AVX512
上,我们
没有
vpxor for zmm寄存器,只有vpxorq
和
vpxord。这是清查登记的有效方法<
浏览 6
提问于2017-06-16
得票数 11
回答已采纳
2
回答
编译
AVX2
程序
c
、
gcc
、
avx
、
avx2
我已经写了一个程序与AVX的内部,它可以很好地
使用
Ubuntu12.4LTS
和
GCC 4.6与以下编译行: g++ -g -Wall -mavx ProgramName.cc -o ProgramName当我将编译器更新到4.7
和
4.8.1版本以支持16位
AVX2
内部函数
时
,问题就开始了,而在gcc 4.6中不支持 目前,更新的gcc版本可以正确编译AVX
和
AVX2
程序。然而,当我运行程序时,它给了我以下错误:非法指令(核心转储),尽管它是
在
gcc 4
浏览 4
提问于2014-12-24
得票数 5
1
回答
AVX512
中的人口计数
simd
、
intrinsics
、
avx512
、
hammingweight
我一直试图
在
一台支持_mm256_popcnt_epi64的机器上
使用
AVX512
,并在以前为
AVX2
进行优化的代码上
使用
。 不幸的是,我遇到了找不到函数的问题。不推荐
使用
__m256i函数
吗
?
浏览 4
提问于2020-05-18
得票数 2
回答已采纳
2
回答
在
PyCharm中将虚拟环境中的Tensorflow二进制更新为
使用
AVX2
python
、
tensorflow
、
pycharm
、
avx2
我的问题与这个有关,但我
使用
的是PyCharm,并根据这个 (第5页)
使用
解释器设置了虚拟环境。当我运行我的tensorflow代码
时
,我会收到警告: 我可以忽略它,但由于我的模型拟合很慢,我想利用它。但是,我不知道如何在这个虚拟环境PyCharm设置中更新我的系统以利用
AVX2
?
浏览 5
提问于2020-07-07
得票数 5
1
回答
_mm256_loadu_epi64,_mm256_storeu_epi64需要avx512vl?
c++
、
clang
、
intrinsics
、
avx2
、
avx512
第一次
使用
avx2
本质(
在
支持
avx2
(而不是
avx512
)的系统上)。无论是从原型还是从英特尔本质引用中获得的信息,我都不认为_mm256_loadu_epi64
和
_mm256_storeu_epi64是
avx512
函数。另一方面,如果我
使用
-mavx512vl进行编译(正如编译器错误所建议的那样),那么它会编译,而似乎可以工作。但是,如果我选择
avx512
,我当然会对编译器
在
程序的其余部分可能做什么感到紧张。&
浏览 2
提问于2021-03-18
得票数 1
回答已采纳
1
回答
在
python中设置线程数
python
、
numpy
、
scipy
、
python-multithreading
、
intel-mkl
我有一个python脚本,它由numpy
和
scipy函数组成。我试着检查我的代码的缩放。我的系统中安装的numpy的配置显示了以下信息。this NumPy install: found = SSSE3,SSE41,POPCNT,SSE42,AVX,F16C,FMA3,
AVX2
,AVX512F,AVX512CD,AVX512_SKX,AVX512_CLX,AVX512_CNL因此,
在
导入numpy之前
浏览 20
提问于2022-08-17
得票数 -1
回答已采纳
1
回答
lscpu
和
cpuid说我有
AVX2
,但是vpsllvw不工作。
assembly
、
x86-64
、
avx2
、
cpuid
如果我运行lscpu或查看/proc/cpuinfo,他们都说我的处理器支持
AVX2
。$ lscpu | grep -o
avx2
但是,当我
在
代码中
使用
vpsllvw
时
,它给出了SIGILL。解决方案 原来只有dword
和
qword版本
在
AVX2
中,vpsllvw是
AVX512
。
浏览 7
提问于2021-02-02
得票数 2
回答已采纳
1
回答
紧致
AVX2
寄存器,因此根据掩码选择的整数是连续的
c++
、
c
、
assembly
、
sse
、
avx2
在
问题中,最上面的答案是: 我得到了一个包含
AVX2
向量的int32s,以及一个对应的比较结果向量。我想以某种方式对其进行洗牌,以便在掩码中设置相应msb的元素(比较为真)
在
向量的低端是连续的。我能看到的最好是
使用
_ps 256_movema
浏览 1
提问于2014-08-01
得票数 4
回答已采纳
点击加载更多
相关
资讯
从源码编译PaddlePaddle
数据同步、流计算全面强化,TDengine 3.3.4.3 版本正式发布
挑战者Juia再出手,小型神经网络深度学习框架比PyTorch快5倍
安装与编译C-API预测库
异构计算系列文章(一):定义、场景及局限性
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
语音识别
活动推荐
运营活动
广告
关闭
领券