腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
SIMD
基于
另一个
向量
位
值
计算
值
的
乘积
、
、
、
我有两个
向量
。大小为N
的
双精度a
的
向量
和大小为ceil(N/8)
的
无符号字符
的
向量
b。目标是
计算
a
的
一些
值
的
乘积
。b将逐
位
读取,其中每一
位
表示是否在产品中考虑来自a
的
给定double。b[byte] |= 1 << 7; // set last bit to 'true
浏览 6
提问于2019-11-08
得票数 2
3
回答
openMP
的
SIMD
结构是否需要特定类型
的
硬件?
、
、
、
、
simd
结构(OpenMP 4.0+) OpenMP 4.0增加了显式
SIMD
并行性(单指令、多数据).
SIMD
意味着多个
计算
将由处理器同时执行,
使用
对多个
值
一次执行相同
计算
的
特殊指令。这通常比对单个数据
值
进行操作
的
常规指令更有效。这有时也被称为
向量
并行或
向量
操作(实际上是OpenACC中
的
首选术语)。 单指令多数据(
SIMD
)是弗林分
浏览 0
提问于2018-03-01
得票数 4
回答已采纳
2
回答
如何利用矢量SSE操作将图像像素数据
的
字节数组转换为灰度
、
、
、
、
在将存储在byte[] array中
的
图像数据转换为灰度时,我遇到了问题。我想
使用
向量
SIMD
操作,因为将来需要编写ASM和C++动态链接库文件来度量操作时间。当我读到
SIMD
时,我发现SSE命令是在128
位
寄存器上操作
的
,因此出现了一个问题,因为我需要将我
的
byte[] array转换成存储在List<T>.中
的
少量Vector<T>。图像是四通道RGBA,所以我也需要知道如何创建
基于
单12
浏览 7
提问于2019-11-15
得票数 8
回答已采纳
1
回答
处理器核心有多个
向量
管道时
的
simdlen
值
。
、
、
、
$omp
simd
/ #pragma omp
simd
指令有自己
的
想法。具体来说,这对我来说还不清楚什么是允许
的
simdlen
值
。如果我有一个具有一个浮点单元(FPU)
的
处理器核,它可以容纳256
位
矢量操作,我将
使用
simdlen(4)来处理64
位
浮点变量。但是,如果一个核心有两个具有128
位
寄存器
的
独立
向量
管道,我应该
使用
什么simdlen
值
浏览 3
提问于2017-12-10
得票数 1
回答已采纳
1
回答
REP指令被认为是
向量
操作吗?
、
、
我试图理解
SIMD
和矢量指令
的
概念。如果我理解正确的话:REP指令对一个数据数组进行操作,因此看起来它们实际上是
SIMD
/
向量
指令。我没有看到任何文章将它们描述为
向量
指令,而且我知道REP指
浏览 5
提问于2020-01-16
得票数 2
回答已采纳
2
回答
需要将一个XMM寄存器乘以
另一个
寄存器,但要
使用
位
屏蔽
值
、
、
、
在x86/
SIMD
汇编中,我用需要转换
的
图形图像
的
四个32
位
像素填充了一个XMM寄存器。,未
使用
。我需要将这些像素乘以
另一个
值
,但是这个
值
需要被屏蔽,这样它只会影响红色像素。该
值
是常量,因此可以进行硬编码。比方说这个
值
是0.1234。如何
使用
适当
的
掩码将其放入
另一个
XMM寄存器中,以便它只影响每个32
位
段
的
红色部分?)
浏览 0
提问于2013-02-19
得票数 5
1
回答
三维矢量
的
SSE对准
、
、
、
、
我希望确保SSE用于我
的
3D (96
位
)浮点
向量
上
的
算术。然而,我读到了关于什么才是必要
的
相互矛盾
的
观点。一些文章/帖子说我需要
使用
一个4D
向量
并“忽略”第四个元素,有人说我必须用__declspec(align(16))之类
的
东西来修饰我
的
类并重写new操作符,还有一些文章说编译器足够聪明来为我对齐(我真的希望这是真的我正在
使用
本征库,但发现“不支持”
的
AlignedV
浏览 4
提问于2016-05-22
得票数 1
回答已采纳
1
回答
Intel -如何检查__m256*是否包含任何非零
值
、
、
、
我正在
使用
编译器。我试图找出一个256
位
向量
是否包含任何非零
值
.我试过res_
simd
= ! _mm256_testz_ps(*pSrc1, *pSrc1);,但它不起作用。
浏览 8
提问于2015-03-08
得票数 6
回答已采纳
2
回答
确定三角角
给出了以下问题:我有两个解决方案: 二是
计算
点积,规范化,
计算
arccos()。如何有效地解决给定
的
问题?
浏览 0
提问于2018-02-27
得票数 0
回答已采纳
2
回答
有什么问题是
SIMD
优于Cray型
向量
的
吗?
、
、
、
CPU
的
目的是提供高性能
的
数字运算,最终得到某种矢量指令集.基本上有两种:
SIMD
.这在概念上很简单,例如,不只是拥有一组64
位
寄存器和操作,而是有第二组128
位
寄存器,并且可以同时在两个64
位
值
的
短
向量
上操作它在实现中变得很复杂,因为您还想选择对四个32
位
值
进行操作,然后一个新
的
CPU生成提供256
位
向量
,这需要一组全新
的</em
浏览 13
提问于2022-05-29
得票数 3
回答已采纳
1
回答
单字节元素大小/粒度
的
SSE/
SIMD
移位?
、
、
、
如您所知,我们在
SIMD
中有以下移位指令:PSLL(W)和PSRL(W) 没有PSLLB指令,那么我们如何移动8
位
值
的
向量
(单字节)?
浏览 3
提问于2016-01-25
得票数 1
回答已采纳
2
回答
使用
AVX-512或AVX-2在大数据上计数1
位
(人口计数)。
、
、
、
、
我有很长
的
内存,比如说,256 KiB或更长
的
内存。我想
计算
整个块中
的
1
位
数,或者换句话说:将所有字节
的
“填充计数”
值
相加。我知道AVX-512有一个,它在一个512
位
向量
中连续
计算
64
位
中
的
1
位
数,IIANM应该可以在每一个周期中发出一个(如果有一个合适
的
SIMD
向量
寄存器)--但是我没有编写
SIMD
浏览 1
提问于2018-04-28
得票数 8
回答已采纳
1
回答
如何在多个条件下
向量
化循环?
、
、
、
目标是在数组tmp
的
所有元素之间执行操作,并将其存储在标量b中。该操作相当于一个加法,因此没有特定
的
执行顺序。例如,如果我们有a+b+c+ d,我们可以按任何顺序
计算
,这意味着(a+b) + (c+d)也是可能
的
。同样
的
也适用于这个操作。然而,也有一些特殊
的
条件导致不同
的
结果通过不同
的
方式。是否有任何形式来比较所有的tmp.e,例如,对于SSE
的
2对,并相应地执行b.x
的
正确
计算
。在任何情况下,它都
浏览 3
提问于2015-11-28
得票数 0
1
回答
利用整数乘法
的
布尔卷积
、
、
、
、
. + bit(n - 1) * x^n形式
的
多项式,那么它们
的
乘积
实际上只包含那些幂为第一集、第二集或和集中
的
数
的
单项式。对于子集和问题,
乘积
系数不重要。它们
的
值
只是指示了从第一集和第二集,或者可能从0得到数(对应单项
的
程度)作为元素之和
的
方法。受两个集合
的
较大大小限制
的
任何系数
的
值
(s)。为了将多项式乘法问题转化为大整数(指示
向量</
浏览 0
提问于2018-03-01
得票数 1
回答已采纳
1
回答
使用
SIMD
指令执行任意128/256/512
位
排列
的
最快方法是什么?
、
、
、
、
我希望在宽度为128、256或512
位
的
CPU寄存器(xmm、ymm或zmm)上执行单个位、对位和比特(4
位
)
的
任意排列;这应该是尽可能快
的
。为此,我研究了
SIMD
指令。有人知道实现这个/库
的
方法吗?我在Windows上
使用
MSVC,在Linux上
使用
GCC,主机语言是C或C++。谢谢! 我被赋予一个任意
的
排列,需要洗牌大量
的
位
向量
/对位<em
浏览 0
提问于2019-01-28
得票数 12
回答已采纳
2
回答
解释金属和
SIMD
中
的
不同类型
、
、
、
、
在
使用
Metal时,我发现有一个令人费解
的
类型,我并不总是清楚我应该在哪种上下文中
使用
哪种类型。 在Apple
的
Metal语言规范中,有一个非常清晰
的
表,其中支持金属着色器文件中
的
哪些类型。然而,有大量可用
的
示例代码似乎
使用
了
SIMD
中
的
其他类型。在事物
的
macOS (Objective)方面,金属类型是不可用
的
,但是
SIMD
类型是可用
的
,我不确
浏览 1
提问于2018-08-10
得票数 14
回答已采纳
1
回答
基于
SIMD
指令
的
并行二项式系数
、
、
、
、
也就是说,在我有一个b元素数组之前,现在我在一个64
位
整数中设置了b
位
,以指示该
值
是否属于我
的
状态。一些制约因素: 在每一种64
位
状态(代表小数)中总是有精确
的
b
位
设置。二项
浏览 3
提问于2020-05-07
得票数 2
1
回答
有无SSE
simd
操作
的
结果是不同
的
、
我试图将数组
的
所有元素(无符号字符)相加。对于sse,数组结果
的
和大于无,但为什么??我得到了2042115
的
sse和,但cv::mat
的
和结果2041104。
浏览 4
提问于2021-05-16
得票数 0
回答已采纳
1
回答
理解
向量
乘法
的
一种方法
、
在计划规范白皮书中,它说明如下:下面是我用来
计算
向量
积
的
函数
的
一个简化版本(实际函数是
使用
位
旋转实现
的
,但这使它更易读): aa这是实现上述
向量
乘积
方法
的
一种尝试。
向量
a总是非常稀疏(~100 s),所以朴素方法工作得很好。我相信实际
的
实现
使用
了一种固定时间
的
方法来避免SC定
浏览 0
提问于2020-07-12
得票数 2
1
回答
Fortran诉C: Mandelbrot基准
、
、
、
我对Mandelbrot测试
计算
时间
的
差异感到非常惊讶(Fortran慢了4.3倍!)因为两种语言都有非常相似的特征集。此外,Fortran应该能够优化更激进
的
(例如,)。编辑:这不是一个编程语言更好
的
问题(总是有很多方面发挥作用)。在这个例子中,这是一个关于优化
的
差异
的
基本问题。Add对Peter
的
回答:有一篇关于
的
论文,其中还简要地讨论了Fortran编程中
的
SIMD
。英特尔编译器:
浏览 0
提问于2019-01-20
得票数 8
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
代码详解:如何在深度学习下理解线性代数?
《深度学习》读书笔记系列——线性代数2
让手机神经网络速度翻倍:Facebook开源高性能内核库QNNPACK
《深度学习》读书笔记系列——线性代数1
机器学习中7种常用的线性降维技术总结
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券