在使用MKL时，AVX2和AVX512没有太大区别吗？

文章/答案/技术大牛

发布

1回答

performance、tensorflow、intel、intel-mkl、avx512

CPU环境:英特尔(R)至强(R) Gold 6148 CPU @2.40 Gold 首先，我使用pip install tensorflow==1.12.0安装tensorflow，并下载tensorflow-benchmark运行1:export MKL_VERBOSE=0;export MKL_ENABLE_INSTRUCTIONS=AVX512;python tf_cnn_benchmarks.py --device==AVX2;python tf_cnn_benchmarks.py --devi

浏览 110提问于2019-03-20得票数 2

2回答

对于简单阵列处理循环的AVX 512和AVX2性能

performance、x86、micro-optimization、avx2、avx512

目前，我正在为DSP应用程序进行一些优化和比较，这对于AVX512来说似乎很理想，因为这些只是简单的不相关数组处理循环。但是在一个新的i9上，与AVX2相比，我在使用AVX512时并没有进行任何合理的改进。有什么指示吗？有好结果吗？(顺便说一句。我尝试了MSVC/CLANG/ICL，没有明显的区别，很多时候AVX512代码似乎

浏览 0提问于2018-09-26得票数 5

1回答

使用Intel MKL在Intel Xeon Gold上运行的Mathnet数字比一台旧的i7-7700HQ笔记本电脑慢得多

c#、intel-mkl、avx2、avx512、mathnet-numerics

我有几个函数使用MathNet数字+ Intel提供程序进行矩阵计算。矩阵不太大，比如40x100，运算涉及到一些伪逆、特征值和类似的线性代数内容。我已经尝试过“本地英特尔MKL”和“管理”多线程提供商。MKL的速度慢了2倍，而管理的MKL则快了10%。(更新) 如果有人有同样的问题，可以

浏览 11提问于2021-07-12得票数 2

回答已采纳

1回答

Xcode Apple启用avx512

xcode、clang、avx、avx2、avx512

在Xcode(版本10.1 (10B61))中，我使用宏来检测AVX512支持，如下所示。"#error "avx512"在默认构建设置中，SSE4_1是活动的，但avx、avx2却没有。当我在构建设置中添加-mavx时->Apple-自定义编译器标志-->启用AVX的其他C标记，进一步添加-mavx2来启用AVX和

浏览 0提问于2019-03-27得票数 1

回答已采纳

1回答

AVX512未在英特尔Tensorflow上显示

tensorflow、intel、avx512、intel-tensorflow

我有一个Windows 11计算机与第11代英特尔核心i7-1185G7，它支持SSE4.1，SSE4.2，AVX，AVX2和AVX512。这台电脑没有GPU。它提到在PIP车轮上自动使用和启用AVX512：所有英特尔TensorFlow二进制文件都是使用oneAPI深层神经网络库(oneDNN)进行优化的，该库将在性能关键操作中自动使用AVX2或AVX512F因此，我不确定TensorFlow

浏览 21提问于2022-07-19得票数 1

2回答

为什么VS C/C++ AVX512编译软件可以在我的系统上运行，而我的CPU没有AVX512？

visual-c++、cpu、instruction-set、avx512、cpuid

我最近看到Visual Studio2019预览版增加了一个用AVX512编译的选项。好的，我试过了，它起作用了。但是为什么它能工作，而我的CPU没有这样的能力呢？我正在使用下面的C/C++脚本来检测CPU功能：运行此脚本时，所有AVX512标志(AVX512F、AVX512CD、AVX512PF和AVX512ER)在我的系统上都不可用。Visual Studio 2019预览版有以下选项: AVX、AVX2、AVX512

浏览 49提问于2019-11-06得票数 0

1回答

创建tensorflow for intel xeon gold 6148

tensorflow、bazel、avx2、avx512、intel-tensorflow

我有一台服务器，上面有两个Intel xeon gold 6148和tensorflow。当我用pip安装tf时，我会收到一条消息，即我的安装中没有使用AVX2和AVX512。因此，为了获得最好的性能，我尝试从源代码构建tf使用docker。我是在之后这样做的，但是对于build命令，我使用了： bazel build --config=mkl -c opt --copt=-mavx --copt=

浏览 2提问于2018-11-28得票数 1

回答已采纳

2回答

应该在具有不同架构的集群上指定哪些AVX和MA三月？

c、compiler-optimization、hpc、avx、icc

目前，我正试图使用Intel编译器来编译用于HPC集群的软件。登录节点是我编译和准备计算的地方，它使用处理器，而计算节点使用Haswell- ( / )或Skylake-处理器()。据我从上面的链接中了解到，我的登录节点支持Intel SSE4.2、Intel AVX、Intel AVX2以及Intel AVX-512，但我的计算节点只支持Intel AVX2 (Haswell)或如果我在登录节点上使用选项-xHost进行编译，它应该自动<e

浏览 2提问于2020-06-05得票数 5

回答已采纳

2回答

如何使用AVX2和SSE将大整数转换为小整数？

c++、c、type-conversion、simd、avx

是否有一种使用AVX2和SSE将较大整数类型向下转换为较小整数类型(当然是截断)的有效方法？，但是如何在没有此类指令的AVX2和SSE中完成这一任务？请注意，虽然上面的AVX512内部有128位和256位重载，但它们在运行时仍然需要AVX512。我正在寻找仅使用AVX2和/或SSE指令完成相同任务的方法。我已经测量了我们的代码的性能(抱歉，NDA，这里没有</em

浏览 18提问于2022-01-22得票数 0

1回答

如何在没有AVX2的情况下使用柯南进行构建

c++、avx2、conan、apache-arrow

我正在使用conan来构建一个使用arrow拼花的库。--build=arrow 它可以在我的机器上正确构建和执行，但在Jenkins服务器上的测试失败 SIGILL - Illegal instruction signal 从this和this的帖子来看事实上，它们是有区别的： Jenkins服务器 AVX supportedAVX2 supported 此外，箭头代码具有高达uint8_

浏览 60提问于2021-07-27得票数 0

回答已采纳

1回答

AVX2和AVX512的加速

c、avx、avx2、avx512

我正在尝试可视化将AVX2和AVX512合并的加速过程。首先，我们使用通用循环执行它，然后使用AVX2，然后是AVX512。我正在使用英特尔Xeon 6130处理器。taken 0.175549现在，在一般循环和内部实现中，加速比是可见的。有人能对这种行为有所启发吗?*更新1* 在使用-O3

浏览 2提问于2020-02-04得票数 0

回答已采纳

1回答

如何为虚幻引擎4启用/arch:AVX？

c++、visual-studio-2017、unreal-engine4、avx、visual-studio-2017-build-tools

据我所知，在默认情况下，它使用的是SSE2，而且它是自己的NMake，因此没有Visual属性页面可以访问和添加arch。注意到：尝试支持AVX、AVX2和AVX512。

浏览 0提问于2020-04-26得票数 2

回答已采纳

1回答

什么是最有效的方式清除一个或几个ZMM注册骑士登陆？

assembly、avx、xeon-phi、avx512、knights-landing

下面的代码会提供最快的速度吗？vpxorq zmm0, zmm0, zmm0vpxorq zmm2, zmm2, zmm2在AVX2上，如果我想清除ymm寄存器，vpxor比vxorps速度更快，因为vpxor可以在多个单元上运行。在AVX512上，我们没有vpxor for zmm寄存器，只有vpxorq和vpxord。这是清查登记的有效方法<

浏览 6提问于2017-06-16得票数 11

回答已采纳

2回答

编译AVX2程序

c、gcc、avx、avx2

我已经写了一个程序与AVX的内部，它可以很好地使用Ubuntu12.4LTS和GCC 4.6与以下编译行: g++ -g -Wall -mavx ProgramName.cc -o ProgramName当我将编译器更新到4.7和4.8.1版本以支持16位AVX2内部函数时，问题就开始了，而在gcc 4.6中不支持目前，更新的gcc版本可以正确编译AVX和AVX2程序。然而，当我运行程序时，它给了我以下错误:非法指令(核心转储)，尽管它是在gcc 4

浏览 4提问于2014-12-24得票数 5

1回答

AVX512中的人口计数

simd、intrinsics、avx512、hammingweight

我一直试图在一台支持_mm256_popcnt_epi64的机器上使用AVX512，并在以前为AVX2进行优化的代码上使用。不幸的是，我遇到了找不到函数的问题。不推荐使用__m256i函数吗？

浏览 4提问于2020-05-18得票数 2

回答已采纳

2回答

在PyCharm中将虚拟环境中的Tensorflow二进制更新为使用AVX2

python、tensorflow、pycharm、avx2

我的问题与这个有关，但我使用的是PyCharm，并根据这个 (第5页)使用解释器设置了虚拟环境。当我运行我的tensorflow代码时，我会收到警告：我可以忽略它，但由于我的模型拟合很慢，我想利用它。但是，我不知道如何在这个虚拟环境PyCharm设置中更新我的系统以利用AVX2？

浏览 5提问于2020-07-07得票数 5

1回答

_mm256_loadu_epi64，_mm256_storeu_epi64需要avx512vl？

c++、clang、intrinsics、avx2、avx512

第一次使用avx2本质(在支持avx2 (而不是avx512)的系统上)。无论是从原型还是从英特尔本质引用中获得的信息，我都不认为_mm256_loadu_epi64和_mm256_storeu_epi64是avx512函数。另一方面，如果我使用-mavx512vl进行编译(正如编译器错误所建议的那样)，那么它会编译，而似乎可以工作。但是，如果我选择avx512，我当然会对编译器在程序的其余部分可能做什么感到紧张。&

浏览 2提问于2021-03-18得票数 1

回答已采纳

1回答

在python中设置线程数

python、numpy、scipy、python-multithreading、intel-mkl

我有一个python脚本，它由numpy和scipy函数组成。我试着检查我的代码的缩放。我的系统中安装的numpy的配置显示了以下信息。this NumPy install: found = SSSE3,SSE41,POPCNT,SSE42,AVX,F16C,FMA3,AVX2,AVX512F,AVX512CD,AVX512_SKX,AVX512_CLX,AVX512_CNL因此，在导入numpy之前

浏览 20提问于2022-08-17得票数 -1

回答已采纳

1回答

lscpu和cpuid说我有AVX2，但是vpsllvw不工作。

assembly、x86-64、avx2、cpuid

如果我运行lscpu或查看/proc/cpuinfo，他们都说我的处理器支持AVX2。$ lscpu | grep -o avx2但是，当我在代码中使用vpsllvw时，它给出了SIGILL。解决方案原来只有dword和qword版本在AVX2中，vpsllvw是AVX512。

浏览 7提问于2021-02-02得票数 2

回答已采纳

1回答

紧致AVX2寄存器，因此根据掩码选择的整数是连续的

c++、c、assembly、sse、avx2

在问题中，最上面的答案是：我得到了一个包含AVX2向量的int32s，以及一个对应的比较结果向量。我想以某种方式对其进行洗牌，以便在掩码中设置相应msb的元素(比较为真)在向量的低端是连续的。我能看到的最好是使用_ps 256_movema

浏览 1提问于2014-08-01得票数 4

回答已采纳

点击加载更多