开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

在ARMv8环境中使用向量寄存器(NEON)程序集时，双精度不适用

在ARMv8环境中使用向量寄存器(NEON)程序集时，双精度不适用。NEON是ARM架构中的一种SIMD（单指令多数据）扩展，用于加速多媒体处理、图像处理、信号处理等应用。NEON寄存器是128位宽度的向量寄存器，可以同时处理多个数据元素。

然而，ARMv8架构中的NEON指令集并不支持双精度浮点数操作。NEON指令集主要用于处理单精度浮点数、整数和定点数操作。如果需要在ARMv8环境中进行双精度浮点数操作，可以使用ARMv8架构中引入的Advanced SIMD（ASIMD）指令集。

ASIMD指令集是ARMv8架构中的另一种SIMD扩展，专门用于双精度浮点数操作。ASIMD指令集提供了一系列支持双精度浮点数运算的指令，可以高效地进行双精度浮点数的加减乘除、向量化计算等操作。

在ARMv8环境中，开发者可以根据具体需求选择使用NEON指令集或ASIMD指令集来进行向量化编程。对于双精度浮点数操作，应使用ASIMD指令集提供的指令。

腾讯云提供了一系列适用于ARM架构的云服务器实例，如云服务器C1、云服务器CA1等。这些实例可以满足在ARMv8环境中进行向量化编程的需求。具体产品介绍和更多信息，请参考腾讯云官方网站：https://cloud.tencent.com/product/cvm

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

ARMV8体系结构简介

本文的主要内容来源于ARMV8白皮书v5，对ARMV8做一个概述。包含如下的内容：

01

ARM的体系结构。

1.1 Application Cortex Processors (ARM Cortex 应用处理器 )　　• Cortex™-A 系列 - 开放式操作系统的高性能处理器　　Cortex 应用处理器在先进工艺节点中可实现高达 2GHz+ 标准频率的卓越性能，从而可支持下一代的移动 Internet 设备。这些处理器具有单核和多核种类，最多提供四个具有可选 NEON™ 多媒体处理模块和先进浮点执行单元的处理单元。　　所有 Cortex-A 处理器都共享共同的体系结构和功能集。这使其成为开放式平台设计的最佳解决方案，因为此时不同设计之间软件的兼容性和可移植性最重要：　　ARMv7-A 体系结构　　对所有操作系统的支持　　Linux 完整分配 - Android、Chrome、Ubuntu 和 Debian　　Linux 第三方 - MontaVista、QNX、Wind River　　Symbian　　Windows CE　　需要使用内存管理单元的其他操作系统支持　　指令集支持 - ARM、Thumb-2、Thumb、Jazelle®、DSP　　TrustZone® 安全扩展　　高级单精度和双精度浮点支持　　NEON™ 媒体处理引擎

03

[core]-ARMV7-A、ARMV8-A、ARMV9-A 架构简介「建议收藏」

Armv9-A 架构建立在 Armv8-A 架构的基础上并向前兼容。 Armv9-A 架构构成了 Arm 基础系统架构的基础——该规范概述了一种标准，可确保硬件和固件在系统级的广泛应用中具有兼容性。

05

aarch64下NEON的使用与思考

cortex-a系列有偏重能耗与偏重性能的两个方向，对于偏重能耗的芯片往往我们可以不使用，而偏重性能的芯片我们不能去掉FPU与NEON，所以一般做这样的划分：

05

嵌入式：ARM体系结构详解

为了清楚地表达每个ARM应用实例所使用的指令集，ARM公司定义了8种主要的ARM指令集体系结构版本，以版本号V1～V8表示。

02

一份朴实无华的移动端盒子滤波算法优化笔记

这是我自己做的移动端算法优化笔记的第一篇文章。我入门移动端的时间其实很短，也是今年刚开始接触Neon优化并尝试用Neon来做一些算法加速工作，之前我做过系列的X86上的SSE/AVX算法加速文章分享。但那个系列已经比较久没有更新了，一是因为我日常做的都是和移动端相关的一些算法部署工作，二是因为我变懒了，所以希望新开这个专题重新找到一点分享算法优化文章的热情（笑）。关于盒子滤波这个算法的移动端优化，梁德澎作者已经有分享过一篇很优秀的文章了，即【AI移动端算法优化】二，移动端arm cpu优化学习笔记之一步步优化盒子滤波，所以你可能会在我的这篇文章看到很多的优化技巧已经被他讲过了，但这篇文章仍然有我自己大量的思考以及花了大量写出对应的优化代码，我接触了哪些资料或者说学习了哪些知识，我都有列举到，所以对移动端优化感兴趣的小白还是值得看看的。代码开源在https://github.com/BBuf/ArmNeonOptimization 。

03

ARM Neon Intrinsics 学习指北：从入门、进阶到学个通透

【GiantPandaCV导语】Neon是手机普遍支持的计算加速指令集，是AI落地的工程利器。Neon Intrinsics 的出现，缓解了汇编语言难学难写的难题，值得工程师们开发利用。

04

移动端arm cpu优化学习笔记第4弹--内联汇编入门

本文主要内容是介绍ARMv7和v8内联汇编的一些基础知识，并且会结合两个具体例子去看下如何用内联汇编来改写原来的代码。

00

ARM探索之旅02 | ARM Cortex-M 用什么指令集？

笔者接触嵌入式领域软件开发已近五年，几乎用的都是 ARM Cortex M 内核系列的微控制器。在这五年期间，感谢C语言编译器的存在，让我不用接触汇编即可进行开发，但是彷佛也错过了一些风景，没有领域到编译器之美和CPU之美，所以决定周末无聊的休息时间通过寻找资料、动手实验、得出结论的方法来探索 ARM CPU 架构的美妙，以及C语言编译器的奥秘。（因为我个人实在是不赞同学校中微机原理类课程的教学方法）。

03

ARM架构的一次充电

ARM处理器使用精简指令集(RISC),ARM（Advanced RISC Machines）ARM是一家公司的简称，其次ARM指一系列处理器的统称，同时ARM也是一种精简指令集架构。

02

sparc v8架构的异常处理

对于研究芯片处理器架构，是件非常有意思的事情。刚开始的接触时候也是一头雾水，不知所云，看着厚厚的架构手册，不知道从哪里下手。比如《ARMv8-A Architecture reference manual》一共是6666页纯英文文档，如果没真正看过，估计一上来就开始打退堂鼓了。后面接触的芯片的体系架构多了，自然也明白很多东西其实是有一些共性的，虽然架构不同，但是指令集、流水线以及系统运行的模式也能猜测7到8分准确。本文主要介绍一下sparc v8体系架构下的异常处理，同时简单的对比一下armv8体系架构的异常。

02

ARMv8-A architecture overview

从今天起，正式学习ARMv8-A架构的知识，其中会涉及到ARMv7-A的一些知识，用来和ARMv8-A做对比使用。

01

ARMv8 寄存器

本文主要介绍 Armv8/v9 指令集架构中常用部分，详细的还是要看 Arm architecture reference manual.

01

ARMv8-A Process State, PSTATE

在ARMv8架构中，使用PSTATE用来描述当前处理器的状态信息。如下的图描述了PSTATE的每个字段的意义

02

手机指令集：armv7 & armv8

经验总结：手机指令集主要跟芯片相关，如果是c端，就默认是arm芯片了，也只有arm芯片才有armv7和armv8之分。如果上MNN的话，MNN的量化都是做在armv8上的现在c端大部分都是64位APP，对应的架构是armv8。寄存器个数不一样，指令集也不一样。需要针对这些不同重新设计计算的方式。 armv7：一般偏低端机才有armv7，而armv7 是可以优化的。模型一般在armv7上跑得较慢，而MNN现在对armv7不能加速。但是据说抖音的都跑在armv7上，且还能加速。 armv8：目前开

01

aarch64 和 ARMV8 的区别

aarch64 和 ARMv8 是紧密相关但涵义不同的术语，在解释他们的区别之前，让我们先简单理解它们各自的含义： ARMv8: ARMv8 是指 ARM 架构的第八个版本，这是由 ARM Holdings 设计的一种处理器架构（也称为 ARMv8-A）。这个版本首次引入了对 64 位处理器的支持，它被设计来提供增强的性能，更好的电能效率，以及对现代计算需求的支持，比如高级多媒体和安全性能等。ARMv8 架构同时支持 64 位（AArch64）和 32 位（AArch32）指令集。 AArch64: AArch64 是 ARMv8 架构中用来描述 64 位的处理器状态和对应的指令集的术语。当处理器运行在这个状态下时，它可以执行 64 位的指令集并访问 64 位的寄存器。AArch64通常被用来指代64位的ARM处理器和操作系统。总而言之，ARMv8 指的是处理器架构的一个版本，这个版本包括了 64 位处理能力。而 aarch64 指的是 ARMv8 架构中的 64 位指令集。也就是说，aarch64 是 ARMv8 的一部分。所有运行在 aarch64 模式下的ARM处理器都基于 ARMv8 架构，但 ARMv8 架构也包括对之前架构如 ARMv7 的兼容支持（例如，在 32 位模式下运行）。

01

ARMv8-A vs ARMv7 Registers

ARM8v-A提供了31个通用寄存器，分别是X0-X30。每个寄存器是64bits，可以在任何Exception Level访问。

03

支付宝如何优化移动端深度学习引擎？

由于移动端资源的限制，大部分深度学习引擎都部署在云端，移动设备获取到输入数据，经过简单的加工，发送给云端，云端服务器经过深度神经网络推断运算，得到结果并反馈给移动端，完成整个过程。

04

IJCAI 2022 | 推理速度22.3倍提升，北航、字节跳动提出二值化关键字识别模型

机器之心发布北航刘祥龙教授团队、字节跳动 AI Lab智能语音团队该研究提出了首个针对 KWS 任务的二值神经网络 BiFSMN，通过令人信服的精度改进优于现有的二值化方法，甚至可以与全精度对应物相媲美。此外，该研究在 ARMv8 实际设备上的 BiFSMN 实现了 22.3 倍加速和 15.5 倍存储节省。近年来，以 FSMN 为代表的语音关键字识别（KWS）模型在各类边缘场景得到广泛应用。然而，语音唤醒应用的实时响应需求和边缘设备上有限计算与能耗资源间的矛盾一直存在，这阻碍了 KWS 模型在真实世

02

ARM深入理解-5.3-通往内核的大门(异常向量表_AArch32)

在ARMv8架构的AArch32状态下启动处理器的时候，SCTLR.V决定了reset向量的位置，这与AArch64状态下是不同的（AArch64状态下，reset不再是向量表的一部分）：

01

ARM Cortex-A系列处理器性能分类与对比 | A53、A57、A73等

在这之前让我们先简单认识一下处理器的架构。所谓处理器架构是CPU厂商给属于同一系列的CPU产品定的一个规范，主要目的是为了区分不同类型CPU的重要标示。目前市面上的CPU指令集分类主要分有两大阵营，一个是intel、AMD为首的复杂指令集CPU，另一个是以IBM、ARM为首的精简指令集CPU。不同品牌的CPU，其产品的架构也不相同，例如，Intel、AMD的CPU是X86架构的，而IBM公司的CPU是PowerPC架构，ARM公司是ARM架构。　　下面我们将详细了解近年来ARM公司发布的数款A系列处理器。ARM公司的Cortex-A系列处理器适用于具有高计算要求、运行丰富操作系统以及提供交互媒体和图形体验的应用领域。　　Cortex-A73

03

[强基固本-视频压缩]第十二章：向量指令第一部分

向量计算是在执行单个处理器指令时，对多个数据块同时执行相同类型的多个操作。这一原理也被称为 SIMD（单指令多数据）。这个名字源于与向量代数的明显相似性：向量之间的操作具有单一符号表示，但涉及对向量各分量执行多个算术操作。

01

Uboot 大全 | uboot 启动流程（一）

atf基本启动流程为：BL1 – BL2 – BL31 – BL32 – BL33（uboot），即在bl32启动完成后再启动uboot，uboot作为启动链中作为最后一级镜像，用于启动最终的os。Atf是arm为了增强系统安全性引入，只支持armv7和armv8架构的可信固件。而uboot是通用的嵌入式系统引导程序，其可以支持包含arm在内的多种处理器架构，如mips、riscv、powerpc以及x86等，且其历史比atf更加久远。因此默认情况下uboot并不需要与atf共同启动，而其自身就被设计为支持完整的多级启动链，该启动链被设计为最多可包含spl、tpl和uboot三个阶段。接下来我们通过一些典型启动流程，来看下这些阶段的一些组合关系吧。

03

TNN行业首发Arm 32位 FP16指令加速，理论性能翻倍

FP16是半精度浮点格式，相比常用的FP32单精度浮点，数据宽度降低了一半。2016年Arm更新了Armv8.2-A Extension扩展指令集，其中包含FP16半精度浮点运算。Arm NEON向量指令长度为128位，一条FP32向量可完成4个单精度浮点数运算，一条FP16向量可完成8个半精度浮点数运算，使理论峰值性能翻倍。如果该指令用于加速网络推理，相比于FP32预期能达到2倍加速。

02

ARMv8 异常处理简介

内核稳定性问题复杂多样，最常见的莫过于“kernel panic”，意为“内核恐慌，不知所措”。这种情况下系统自然无法正常运转，只能自我结束生命，留下死亡信息。诸如：

03

【原创】Linux虚拟化KVM-Qemu分析（七）之timer虚拟化

timer就像是系统的脉搏，重要性不言而喻。ARMv8架构处理器提供了一个Generic Timer，与GIC类似，Generic Timer在硬件上也支持了虚拟化，减少了软件模拟带来的overhead。

02

linux_aarch64_qt环境搭建

armv7是ARMv7-A指令集架构的缩写，其中“A”表示“应用程序级别”。ARMv7-A架构是ARM架构的第七代，支持32位指令和地址。它是2011年前的大多数ARM芯片所采用的架构，包括Cortex-A7、Cortex-A9和Cortex-A15等。

01

图说ARMv8架构特点

ARMv8是ARM重点发展的一个架构。有一些年头了！我们来了解下！本文介绍了ARMv8-a中的一些概念！从ARMv7开始，ARM公司面向三个市场:应用、实时、控制，分别推出A、R、M系列处理器。A

07

[转]SIMD、MMX、SSE、AVX、3D Now!、NEON

对于SISD，每个指令只能处理一个数据，而SIMD一个指令可以处理多个数据，因为多个数据的处理是平行的，因此从时间来说，一个指令执行的时间，SISD和SIMD是差不多的。由于SIMD一次可以处理N个数据，所以它的处理的时间也就缩短到SISD的1/N。需要指出一点，NEON是需要硬件支持的，需要有一块寄存器放到硬件上来处理这个的。SIMD、MMX、SSE、AVX、3D Now!、NEON

01

开发 | 低配硬件就不能运行深度神经网络了？手把手教你克服“杀牛用鸡刀”难题

如果对深度学习有所了解的小伙伴们想必都知道，深度学习需要使用强大的服务器、加速嵌入式平台(如NVIDIA的Jetson)来运行深度学习算法，然而这也同样意味着不菲的开支。那么问题来了，如果你想你想用

05

安卓so库你应该注意的事

在这公司那么久也没有弄过ndk开发，作为一个做刷卡头和蓝牙pos的安卓开发程序员这点还是很蛋疼，然后现在重新做一个新的项目，因为以前的so库是放在armeabi文件夹下面的，所以不管是安卓4.4以下还是5.0+是都可以用的，然后里面加了下分享的功能，微信和qq分享还好没有so库，但是新浪微博的就不一样了，里面有7中cpu架构文件，再加上百度的定位，操蛋的事情就发生了，如果删除其他文件夹然后新浪分享时异常，还好百度定位的没有崩溃，然后全部保留吧，硬件连接又出错，果断和硬件厂商联系了下，叫他们提供so库，因为so库为二进制码技术有限不能逆向再重新生成多so库。

02

AArch64教程第一章

AArch64是一个新的64位模式，它是ARMv8架构下的一部分，它于2011年随着ARM发布。它被逐步部署于智能手机和服务器。所以我认为现在学习一点关于此架构的知识是比较好的。

01

android开发加载so库的解析和出现的各种错误分析

早期的Android系统几乎只支持ARMv5的CPU架构，你知道现在它支持多少种吗？7种！

01

aarch64指令集_AArch64应用程序级编程模型

根据实现选择，体系结构支持多级执行特权，由从EL0到EL3的不同异常级别表示。EL0对应于最低的特权级别，通常被描述为无特权。应用层程序员模型是在EL0上执行软件的程序员模型。

02

华为工程师发布最新补丁，实现对 AArch64 硬件的 Linux 镜像内存支持

早在 2015 年，Linux 内核就已支持 x86/x86_64 的 UEFI 镜像内存功能，而对于华为来说，为 AArch64 添加该功能也是他们一直在努力的事情。4 月 14 日，华为工程师 Wupeng Ma 发布了最新补丁集，实现了对 AArch64 硬件的这种 Linux 镜像内存支持。

03

ARM64中的ASID地址空间标识符

从ARM32到ARM64不止将处理器从32位升级到了64位，还有许多性能的技术也得到了极大的提升，光是个头长了可不行啊！能耐也得跟着长啊！哈哈哈

01

AArch64 学习(一) 基础指令, 内存布局, 以及基础栈操作

ARM 是高级-RISC(精简指令集)-机器的缩写, 是精简指令集架构的家族. 同时 Arm Ltd. 也是开发和设计、授权这项技术的公司名称.

03

ARM深入理解-5.2-通往内核的大门(异常向量表_AArch64)

AArch64中，reset不再是异常向量表的一部分，它有专用的配置输入管脚和寄存器。其余的异常存储在异常向量表中。

01

AArch64 是什么

为了更广泛地向企业领域推进，需要引入 64 位构架。同时也需要在 ARMv8 架构中引入新的 AArch64 执行状态。AArch64 不是一个单纯的 32 位 ARM 构架扩展，而是 ARMv8 内全新的构架，完全使用全新的 A64 指令集。这些都源自于多年对现代构架设计的深入研究。更重要的是， AArch64 作为一个分离出的执行状态，意味着一些未来的处理器可能不支持旧的 AArch32 执行状态。虽然最初的 64 位 ARM 处理器将会完全向后兼容，但我们大胆且前瞻性地将 AArch64 作为在 ARMv8 处理器中唯一的执行状态。我们在这些系统中将不支持 32 位执行状态，这将使许多有益的实现得到权衡，如默认情况下，使用一个较大的 64K 大小的页面，并会使得纯净的 64 位 ARM 服务器系统不受遗留代码的影响。立即进行这种划分是很重要的，因为有可能在未来几年内将出现仅支持 64 位的服务器系统。没有必要在新的 64 位架构中去实现一个完整的 32 位流水线，这将会提高未来 ARM 服务器系统的能效。这样回想起来， AArch64 作为在 Fedora ARM 项目中被支持的 ARM 构架是一个很自然的过程： armv5tel、armv7hl、aarch64。新的架构被命名为：aarch64，这同 ARM 自己选择的主线命名方式保持一致，同时也考虑到了 ARM 架构名与 ARM 商标分开的期望。

06

armeabi-v7a架构(sv7a)

在ANE中如果SDK调用了so库，则需要把so库放到ANE下Android-ARM/lib/armeabi （调试模式）或者 armeabi-v7a（发行模式）下。可以贴个ADT代码说明问题:

01

Armv8架构虚拟化介绍

本文描述了Armv8-A AArch64的虚拟化支持。包括stage 2页表转换，虚拟异常，以及陷阱。本文介绍了一些基础的硬件辅助虚拟化理论以及一些Hypervisor如何利用这些虚拟化特性的例子。文本不会讲述某一具体的Hypervisor软件是如何工作的以及如何开发一款Hypervisor软件。通过阅读本文，你可以学到两种类型的Hypervisor以及它们是如何映射到Arm的异常级别。你将能解释陷阱是如何工作的以及其是如何被用来进行各种模拟操作。你将能描述Hypervisor可以产生什么虚拟异常以及产生这些虚拟异常的机制。理解本文内容需要一定基础，本文假定你熟悉ARMv8体系结构的异常模型和内存管理。

02

NEON技术如何实现移动端视频高效解码AV1?

https://medium.com/@ewoutterhoeven/how-arms-neon-enables-efficient-av1-decoding-on-mobile-5fcb3a4f6e7f

03

万字剖析 Armv8 架构虚拟化

综述本文描述了Armv8-A AArch64的虚拟化支持。包括stage 2页表转换，虚拟异常，以及陷阱。本文介绍了一些基础的硬件辅助虚拟化理论以及一些Hypervisor如何利用这些虚拟化特性的例子。文本不会讲述某一具体的Hypervisor软件是如何工作的以及如何开发一款Hypervisor软件。通过阅读本文，你可以学到两种类型的Hypervisor以及它们是如何映射到Arm的异常级别。你将能解释陷阱是如何工作的以及其是如何被用来进行各种模拟操作。你将能描述Hypervisor可以产生什么虚拟异常以及

03

Android Native Hook

Hook 直译过来就是“钩子”的意思，是指截获进程对某个 API 函数的调用，使得 API 的执行流程转向我们实现的代码片段，从而实现我们所需要得功能，这里的功能可以是监控、修复系统漏洞，也可以是劫持或者其他恶意行为。

02

【ARM架构】armv8 系统安全概述

一个安全或可信的操作系统保护着系统中敏感的信息，例如，可以保护用户存储的密码，信用卡等认证信息免受攻击。

02

视频编解码优化的几个概念[通俗易懂]

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/159788.html原文链接：https://javaforall.cn

03

深入理解Linux内核页表映射分页机制原理

操作系统用于处理内存访问异常的入口操作系统的核心任务是对系统资源的管理，而重中之重的是对CPU和内存的管理。为了使进程摆脱系统内存的制约，用户进程运行在虚拟内存之上，每个用户进程都拥有完整的虚拟地址空间，互不干涉。而实现虚拟内存的关键就在于建立虚拟地址(Virtual Address,VA)与物理地址(Physical Address,PA)之间的关系，因为无论如何数据终究要存储到物理内存中才能被记录下来。

01

海思uboot启动流程详细分析（一）

首先我们可以在u-boot.lds中看到ENTRY(_start)，即指定了入口_start，_start也就是整个start.S的最开始；

05

如何使用penguinTrace在硬件层面上显示代码运行状况

penguinTrace旨在帮助广大安全研究人员更好地理解程序代码是如何在硬件级别运行的，该工具提供了一种方法，可以查看代码会编译成什么指令，然后单步执行这些指令，查看它们如何影响机器状态，以及如何映射回原始程序中的变量。

02

Hypervisor Necromancy；恢复内核保护器(1)

--[ 0 - 简介直到最近，为了在运行时攻击者破坏整个系统发现并利用内核漏洞。这使他们能够执行各种动作；在内核上下文中执行恶意代码，修改内核数据结构以提升权限，访问受保护的数据，等已经引入了各种缓解措施来防止此类动作和管理程序也被使用，除了他们的为实现这一目标而使用传统的虚拟化支持。在里面 ARM 虚拟化促进了 Android 生态系统扩展，允许供应商/OEM 实施自己的保护功能/逻辑。另一方面，Android 设备已普遍成为主要的 PITA 由于引入的 OEM 和供应商种类繁多，

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭