开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

如何在ARM Cortex-a8中使用乘法和累加内在函数？

在ARM Cortex-A8架构中，使用乘法和累加内在函数可以通过以下方法实现：

乘法：

在ARM Cortex-A8架构中，可以使用SMULL指令来实现32位整数的乘法。SMULL指令将两个32位整数相乘，并将结果分为高32位和低32位存储在两个寄存器中。以下是SMULL指令的使用示例：

SMULL r0, r1, r2, r3

该指令将r2和r3相乘，并将结果的高32位存储在r0中，低32位存储在r1中。

累加：

在ARM Cortex-A8架构中，可以使用ADD指令来实现32位整数的累加。ADD指令将两个32位整数相加，并将结果存储在目标寄存器中。以下是ADD指令的使用示例：

ADD r0, r1, r2

该指令将r1和r2相加，并将结果存储在r0中。

内联函数：

内联函数是一种特殊的函数，它可以在编译时被替换为其函数体中的代码，以提高程序的执行效率。在ARM Cortex-A8架构中，可以使用__inline关键字来定义内联函数。以下是一个使用内联函数实现乘法和累加的示例：

__inline int32_t multiply_and_accumulate(int32_t a, int32_t b, int32_t c) {
    int32_t result;
    asm volatile (
        "smull %0, %1, %2, %3\n\t"
        "add %0, %0, %4\n\t"
        "add %1, %1, %4"
        : "=r"(result), "+r"(c)
        : "r"(a), "r"(b), "r"(c)
        : "cc"
    );
    return result;
}

该内联函数接受三个参数a、b和c，并使用SMULL指令将它们相乘，然后使用ADD指令将结果累加到c中。最后，函数返回累加后的结果。

需要注意的是，使用内联函数时需要谨慎，因为过多的内联函数可能会导致代码体积过大，影响程序的执行效率。

相关搜索:如何在r中不使用cumprod的情况下对向量进行累加乘法？当被乘数在累加器中时，如何在6502中使用加法和移位算法进行乘法运算？如何在iOS中使用Metal API中的计算函数进行乘法运算如何在jenkinsfile中定义和使用函数？AngularJS -使用集合中的id，如div标记和like函数参数中的id 如何在SICP ex1.32中用递归和迭代方法编写相同的累加函数雪花函数--如何在函数中声明变量和使用SQL语句如何在Angular中添加动画(如fadeIn和fadeOut) (使用ngx-owl-carousel-o)？如何在data.table中存储和使用函数？如何在matlab中调用和使用函数递归性如何在nodejs中检查设备系统信息(如RAM大小和实际使用情况)如何在Access VBA编码中同时使用Select Case和and函数？如何在Excel for Office 365中使用对象和VBA函数？如何在Spark 2.3.1中使用map和reduce函数进行分组和计数如何在JS中导入和使用另一个函数中的函数如何在数据框函数中的不同列上同时使用sum和count函数？如何在另一个函数中定义和使用数组？JavaScript -如何在变量中存储和使用函数的返回值如何在函数定义中同时使用rest和spread运算符？如何在R中同时使用计数函数和case_when？

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

ARM Cortex-A系列处理器性能分类与对比 | A53、A57、A73等

Cortex-A73包括128位 AMBR 4 ACE接口和ARM的big.LITTLE系统一体化接口，采用了目前最先进的10nm技术制造，可以提供比Cortex-A72高出30%的持续处理能力，非常适合移动设备和消费级设备使用...此外，A35还采用了A53的缓存、内存架构，可配置8-64KB一级指令和数据缓存、128KB-1MB二级缓存，加入了NEON/FP单元，改进了存储性能，支持完整流水线的双精度乘法，还为CPU核心、NEON...在某些特定的环境中，A17的性能已经可以和A15处于一个档次了，但是功耗更低、能效更高。虽然在命名上排在Cortex-A15之上，但其定位中端，而不是高端。　　...Cortex-A8 　　ARM Cortex-A8处理器，基于ARMv7-A架构，是目前使用的单核手机中最为常见的产品。...Cortex-A8 高性能处理器目前已经非常成熟，从手机到上网本、DTV、打印机和汽车信息娱乐，Cortex-A8处理器都提供了可靠的高性能解决方案。

13.3K3 1

Cortex-A8A76

Cortex-A8 关于Cortex-A8的微处理架构参考《ARM_Cortex-A8微处理器的架构和实现》其中关于NEON有两段话摘录如下： NEON媒体引擎拥有自己的10段流水线，它从ARM整数流水线结束处开始...由于ARM整数单元中已解决所有错误预测和异常，所以向NEON媒体引擎发送指令后，因为它不会产生异常，所以必须完成。...Cortex-A8 NEON单元不会并行发射两条数据处理指令，这样可避免复制数据处理函数块占用太多空间，同时可避免与读写寄存器端口复用相关的计时关键路径和复杂性。...几个ARM处理器内核：《ARM内核全解析，从ARM7,ARM9到Cortex-A7,A8,A9,A12,A15到Cortex-A53,A57》 Cortex-A76 《Arm Cortex-A76的微架构改进了什么...针对前端和fetch单元，为了提高带宽降低时延，把Fetch中的预测功能单独分立，所以在实际接受指令之前就进行Branch prediction，之后在Instruction Fetch上实现了每个周期

8612 0

ARM公司发布专注人工智能与机器学习的DynamIQ平台

近十年来，从Cortex-A8开始，ARM公司一直推动着移动设备向更高的性能发展，就像英特尔公司（AMD公司也在较小程度上）在个人电脑领域曾经所做的那样。...DynamIQ big.LITTLE平台采用“为每个任务分配适当的处理器”的方法，可将大处理器和LITTLE处理器配置在同一个计算集群中，这在以前是不可能的。...虽然这些内容听起来令人印象深刻，但很大部分的改善几乎肯定来自于ARM公司赋予其中央处理器操作的能力，如8倍速的8位运算操作或64位运算操作。...新的单指令多数据（SIMD）指令、更快的内存和缓存、以及用5年时间设计的新中央处理器核心的内在优势，有了这些条件，自然就能认为ARM公司能够在如此短的时间内获得了对具体工作负载的巨大优势(当然，受到能量和热量限制...ARM公司还增加了多核的灵活性，以便将工作负载分派给最适合的核。理论上可以集成的核的数量应该更多，用户就不需要再为了能够使用某种功能而在各核之间做出选择。

8095 0

FPGA中的DSP-Packing: 提高算法性能功耗和效率

但在许多应用场景中，乘法操作数在运行时变化，使得这种方法不可行。 Kalali和Van Leuken的方法：他们扩展了Mert等人的方法，通过使用查找表技术来存储分解后的常数。...论文中的新方法论文主要就是研究如何在单个DSP块中实现多个低精度乘法运算的技术： INT4-Packing简介 INT4-Packing是一种技术，它可以在单个DSP块中同时执行四个4位乘法运算。...近似错误校正：只使用DSP内部的累加器，不增加额外硬件成本，可将误差概率从37%降低至3%。...过打包引入的大误差由于低位的污染导致，但对于某些应用如卷积神经网络(CNNs)，这种误差是可以接受的，因为它们对量化和近似具有内在的鲁棒性。...不同的打包技术（如INT-N和过打包）在DSP资源利用率方面有不同的表现，过打包在利用DSP资源方面显示出优势，尤其是在增加乘法操作的数量和位宽方面。

4461 1

【专业技术】C语言里面丰富多彩的浮点运算

我们常常听到赢浮点和软浮点，这些到底说的是什么呢?下面我们就来一探究竟吧。在这里我们说的是ARM核浮点运算。...FPU 通常有一套额外的寄存器来完成浮点参数传递和运算。使用实际的硬件浮点运算单元(FPU)会带来性能的提升。...(2)软浮点(soft-float) 编译器把浮点运算转成浮点运算的函数调用和库函数调用，没有FPU的指令调用，也没有浮点寄存器的参数传递。浮点参数的传递也是通过ARM寄存器或者堆栈完成。...从图中我们可以知道，默认情况下，编译器使用的是软浮点，图中__aeabi_fadd这个函数是在浮点库中实现。如果想让代码能正常的运行，还需要在连接的时候静态连接一下浮点库。...浮点协处理器指令: ARM10 and ARM9: -mfpu=vfp(or vfpv1 or vfpv2) Cortex-A8: -mfpu=neon (2)

1.8K5 0

【知识】详细介绍 CUDA Samples 示例工程

simpleVoteIntrinsics 一个简单程序，展示了如何在 CUDA 内核中使用投票（__any_sync, __all_sync）内在函数。...simpleVoteIntrinsics_nvrtc 一个简单程序，展示了如何在 CUDA 内核中使用投票（any, all）内在函数，使用 NVRTC API 进行运行时编译。...cudaTensorCoreGemm CUDA 示例展示了使用 CUDA 9 中引入的 Warp 矩阵乘法和累加 (WMMA) API 进行 GEMM 计算。...dmmaTensorCoreGemm CUDA 示例展示了使用 CUDA 11 中在 Ampere 芯片家族张量核心中引入的双精度 Warp 矩阵乘法和累加 (WMMA) API 进行双精度...immaTensorCoreGemm CUDA 示例展示了使用 CUDA 10 中引入的 Warp 矩阵乘法和累加 (WMMA) API 进行整数 GEMM 计算。

1.7K1 0

常见的嵌入式linux学习和如何选择ARM芯片问答

常见的ARM嵌入式学习问答，设计者和学习者最关心的11个问题： 1. ARM嵌入式是学习硬件好还是学习软件好? 2. 嵌入式软件和硬件，哪一种职位待遇更高？...或者说，在设计中哪一个更重要？ 3. 学完51单片机后，想买ARM开发板继续学习，是买ARM7还是ARM9? 4....嵌入式软件和硬件，哪一种职位待遇更高？或者说，在设计中哪一个更重要？答：刚进入职场时，一般来说嵌入式软件的待遇会稍高一些。...例如S3C2440性价比极高，一般消费电子产品中应用较多，不适于在严苛的工控环境中使用。现在的ARM9内核芯片有S3C2440、CORTEX-A8内核芯片S5PV210等。...软件上主要学学习基于操作系统的应用层程序的编程和基于操作系统的驱动程序编程或者基于库函数的裸机程序编程等等。

1.2K3 0

嵌入式：数据处理指令详解

和CMN （5）TST和TEQ （6）乘法指令乘法指令的二进制编码汇编格式注意事项 ARM的数据处理指令主要完成寄存器中数据的算术和逻辑运算操作：数据处理指令分类数据处理指令二进制编码数据处理指令表...数据处理指令的特点所有操作数都是32位宽，或来自寄存器或来自指令中的立即数（符号或0扩展）如果数据操作有结果，则结果为32位宽，放在一个寄存器中（有一个例外是长乘指令的结果是64位的）； ARM数据处理指令中使用...如： TEQEQ R10，R9 注意事项：这些指令根据结果更新标志N、Z、C和V，但结果不放到任何寄存器中。（6）乘法指令乘法指令完成2个寄存器中数据的乘法。...RdHi:RdLo ←Rm*Rs 111 SMLAL 有符号长乘累加 RdHi:RdLo +=Rm*Rs 注：对于有符号和无符号操作数，结果的最低有效32位是一样的，所以对于只保留32位结果的乘法指令...早期的ARM处理器仅支持32位乘法指令（MUL和MLA)。ARM7版本（ARM7DM、ARM7TM等）和后续的在名字中有M的处理器才支持64位乘法器。

1.2K4 0

【嵌入式开发】ARM 芯片简介 (ARM芯片类型 | ARM处理器工作模式 | ARM 寄存器 | ARM 寻址)

Cortex-M3 略高, 但是高的有限; -- ARM9 和 ARM11 : ARM9 和 ARM11 与 Cortex-R4 性能类似, ARM11 不如 Cortex-A5, 远远比不上 Cortex-A8... 210 : 继续使用; 二....异常发生时, 主要用于记录函数返回地址; R15 寄存器 : PC 指针, 程序计数器; 3....如当前在 scv 模式中断, 将状态寄存器保存到 SPSR_svc 寄存器中, 中断执行完后, 将状态从 SPSR_svc 中写回到 CPRS 寄存器中; (2) CPSR 寄存器位简介 CRSR 寄存器简介...寄存器寻址寄存器寻址简介 : 利用寄存器中的数值作为操作数; -- 示例 : ADD R0, R1, R2; -- 示例解析 : 将 R1 和 R2 寄存器中的数字相加, 结果存放到 R0 中; 3.

1.9K3 0

stm32编程入门教程_零基础编程入门书籍

高性能的Cortex-A15、可伸缩的Cortex-A9、经过市场验证的Cortex-A8处理器和高效的Cortex-A7和Cortex-A5处理器均共享同一架构，因此具有完全的应用兼容性，支持传统的...处理器、Cortex-A5处理器、ARM11处理器、ARM9处理器、ARM7处理器，再往低的部分手机产品中基本已经不再使用。...Cortex-R 系列处理器通过已经在数以亿计的产品中得到验证的成熟技术提供极快的上市速度，并利用广泛的 ARM 生态系统、全球和本地语言以及全天候的支持服务，保证快速、低风险的产品开发。...ARM Cortex™-M ARM Cortex™-M处理器系列是一系列可向上兼容的高能效、易于使用的处理器，这些处理器旨在帮助开发人员满足将来的嵌入式应用的需要。...Cortex-M 系列针对成本和功耗敏感的MCU和终端应用（如智能测量、人机接口设备、汽车和工业控制系统、大型家用电器、消费性产品和医疗器械）的混合信号设备进行过优化。

7152 0

【STM32F429的DSP教程】第22章 DSP矩阵运算-放缩，乘法和转置矩阵

mod=viewthread&tid=94547 第22章 DSP矩阵运算-放缩，乘法和转置矩阵本期教程主要讲解矩阵运算中的放缩，乘法和转置。...注意事项：两个1.31格式的数据相乘产生2.62格式的数据，函数的内部使用了64位的累加器，最终结果要做偏移和饱和运算产生1.31格式数据。两个矩阵M x N和N x P相乘的结果是M x P....注意事项：两个1.15格式数据相乘是2.30格式，函数的内部使用了64位的累加器，34.30格式，最终结果将低15位截取掉并做饱和处理为1.15格式。...注意事项：两个1.31格式的数据相乘产生2.62格式的数据，函数的内部使用了64位的累加器，最终结果要做偏移和饱和运算产生1.31格式数据。两个矩阵M x N和N x P相乘的结果是M x P....注意事项：两个1.15格式数据相乘是2.30格式，函数的内部使用了64位的累加器，34.30格式，最终结果将低15位截取掉并做饱和处理为1.15格式。

1.1K2 0

【STM32F407的DSP教程】第22章 DSP矩阵运算-放缩，乘法和转置矩阵

mod=viewthread&tid=94547 第22章 DSP矩阵运算-放缩，乘法和转置矩阵本期教程主要讲解矩阵运算中的放缩，乘法和转置。...注意事项：两个1.31格式的数据相乘产生2.62格式的数据，函数的内部使用了64位的累加器，最终结果要做偏移和饱和运算产生1.31格式数据。两个矩阵M x N和N x P相乘的结果是M x P....注意事项：两个1.15格式数据相乘是2.30格式，函数的内部使用了64位的累加器，34.30格式，最终结果将低15位截取掉并做饱和处理为1.15格式。...注意事项：两个1.31格式的数据相乘产生2.62格式的数据，函数的内部使用了64位的累加器，最终结果要做偏移和饱和运算产生1.31格式数据。两个矩阵M x N和N x P相乘的结果是M x P....注意事项：两个1.15格式数据相乘是2.30格式，函数的内部使用了64位的累加器，34.30格式，最终结果将低15位截取掉并做饱和处理为1.15格式。

1.4K2 0

ARM 公布全新 Armv9 架构：10 年最大更新、不受制于美国出口管理条例

Armv9路线图引入了Arm保密计算架构（CCA），机密计算通过在基于硬件的安全环境中执行计算，保护部分代码和数据在使用中不被访问或修改，甚至不被特权软件访问或修改。...Arm CCA将引入动态创建Realms的概念，在一个与安全和非安全世界分开的区域中，所有应用程序都可以使用。...例如，在商业应用中，Realms可以保护商业敏感数据和代码，使其在使用、静止和传输中不受系统其他部分的影响。...值得一提的是未来几年，Arm除了在GPU和 NPU中不断进行AI创新外，还将进一步扩展其技术的AI能力，大幅提升CPU内的矩阵乘法。...我们期待看到基于Armv9 CPU的出色性能，它可以加强我们提供高质量和独特产品的能力，从而一如既往地更好地满足客户的需求。”

4.9K2 0

【STM32H7的DSP教程】第22章 DSP矩阵运算-放缩，乘法和转置矩阵

mod=viewthread&tid=94547 第22章 DSP矩阵运算-放缩，乘法和转置矩阵本期教程主要讲解矩阵运算中的放缩，乘法和转置。...注意事项：两个1.31格式的数据相乘产生2.62格式的数据，函数的内部使用了64位的累加器，最终结果要做偏移和饱和运算产生1.31格式数据。两个矩阵M x N和N x P相乘的结果是M x P....注意事项：两个1.15格式数据相乘是2.30格式，函数的内部使用了64位的累加器，34.30格式，最终结果将低15位截取掉并做饱和处理为1.15格式。...注意事项：两个1.31格式的数据相乘产生2.62格式的数据，函数的内部使用了64位的累加器，最终结果要做偏移和饱和运算产生1.31格式数据。两个矩阵M x N和N x P相乘的结果是M x P....注意事项：两个1.15格式数据相乘是2.30格式，函数的内部使用了64位的累加器，34.30格式，最终结果将低15位截取掉并做饱和处理为1.15格式。

1.3K3 0

用于ARM Cortex-M系列的芯片的神经网络推理库CMSIS-NN详解

1.Convolution(卷积)与Matrix Multiplication(矩阵乘法) 使用的16 bit的乘加SMID即SMLAD 1.1__SXTB16 数据扩展大部分NNFunctions使用的是...假设可以忽略扩展成16-bit的数据后的重排操作的话，流程如下图：图2 1.2 Matrix Multiplication 把矩阵乘法分成2×2，这样可以让部分数据可以重复使用进而减少加载数据的指令...累加器是int32(q_31_t)数据类型，加数和被加数都是int32(q_15_t)数据类型。给累加器的初始化是bias的数据，也就是先把bias加上去，计算是使用__SMLAD指令。...另外我个人对“为什么不提供int8×int8的矩阵乘法单元”的理解是：int8×int8的累加结果在int32的数据类型，而“+=”的操作，累加的次数多了非常容易溢出，int16×int16的累加存在了...CMSIS-NN还有arm_maxpool_q7_HWC这个实现，他是先做整个HW的x方向的pool，再做整个HW的y方向的pool，这个函数我是看懂了，但我发现tflie micro并没有使用这个函数

3K4 0

资源 | 让手机神经网络速度翻倍：Facebook开源高性能内核库QNNPACK

该内核库加速了许多运算，如深度类型的卷积，促进了神经网络架构的使用。QNNPACK 已经被整合进 Facebook 应用，部署到了数十亿台设备中。...链接：https://github.com/pytorch/QNNPACK 为了将最新的计算机视觉模型部署到移动设备中，Facebook 开发了一个用于低密度卷积的优化函数库——QNNPACK，用在最佳神经网络中...在量化矩阵-矩阵乘法中，8 位整数的乘积通常会被累加至 32 位的中间结果中，随后重新量化以产生 8 位的输出。常规的实现会对大矩阵尺寸进行优化——有时 K 太大无法将 A 和 B 的面板转入缓存中。...，因此研究中使用的是向量乘法以及额外的命令 (VEXT.8 on AArch32, EXT on AArch64)，以旋转矩阵 A 中的向量；三，在 8-bit 元素上执行乘法，则无法在乘法之前减去零点...在 QNNPACK 中，研究者计算所有 3×3 卷积核行和 3×3 输入行的结果，一次性累加到输出行，然后再处理下个输出行。

1.6K4 0

Elasticsearch: 向量相似性计算 - 极速

我们已经在Lucene中利用了外部内存支持来安全地访问映射的堆外索引数据。为什么不使用外部调用支持来调用已经优化的距离计算函数呢？...该配置使用ARM架构，让我们来看看我们如何为这个架构进行优化。我们用C语言和一些ARM Neon内置函数来编写我们的距离函数，比如点积。同样，我们将重点放在循环的内部主体上。...然后我们乘以下半部分并将结果存储在va16中 - 这个结果包含8个16位的值，操作隐含地处理了扩宽。对于上半部分也是类似的。最后，由于我们对所有原始的16个值进行了操作，使用两个累加器来存储结果更快。...vpadalq_s16加和累积内置函数知道如何在累积为4个32位值时隐含地扩宽。总之，我们每次循环迭代都对所有16个byte值进行了操作。很好！这个的汇编很干净，反映了上面的内置函数。...C内置函数使我们能够使用这些指令。在寄存器中密集打包的值的操作比我们可以用Panama Vector API做的要干净得多。

3722 0

iOS逆向工程之Hopper中的ARM指令

对栈操作的命令就是push和pop了，一般会成对出现，在函数开始时将该函数执行时要使用的寄存器中的值push入栈，然后在函数结束时将之前push到栈中的值在pop到相应的寄存器中。...下方就是push和pop的用法的一个实例。在下方函数开始执行前，将该函数要使用的寄存器r4, r5, r7, lr使用push进行入栈操作，lr是该函数执行后要返回的地址。...在函数执行完毕后，使用pop命令将函数执行前入栈的值在pop到相应的寄存器中。...(3)、乘法指令在ARM指令集中，乘法指令有两种第一个是MUL, 第二个是带累加的乘法MLA。当然，这两个指令使用起来都不复杂。...MUL: 乘法指令 MUL{条件}{S} R0, R1, R2 ;R0 = R1 * R2 MLA: 乘法累加指令 MLA{条件}{S} R0, R1, R2, R3 ;R0 = R1 *

1.4K7 0

DeepMind重磅：神经算术逻辑单元，Keras实现

研究人员开发了一种新的模块，可以与标准的神经网络结构（如LSTM或convnet）结合使用，但偏向于学习系统的数值计算。他们的策略是将数值表示为没有非线性的单个神经元。...神经算术逻辑单元（NALU）使用两个带有绑定权重的NAC来启用加/减（较小的紫色cell）和乘法/除法（较大的紫色cell），由门（橙色的cell）控制虽然加法和减法使得许多有用的系统泛化成为可能，...图2描述了这样一个单元：神经算术逻辑单元（NALU），它学习两个子单元之间的加权和，一个能够执行加法和减法，另一个能够执行乘法，除法和幂函数，如 ? 。...总之，这个单元可以学习由乘法，加法，减法，除法和幂函数组成的算术函数，其推断方式是在训练期间观察到的范围之外的数字。...我们已经展示了NAC和NALU是如何在广泛的任务领域中纠正这两个缺点的，它促进了数字表示和在训练过程中观察到的范围之外的数值表示函数。然而，NAC或NALU不太可能是每个任务的完美解决方案。

1.1K2 0

推倒万亿参数大模型内存墙！万字长文：从第一性原理看神经网络量化

最后，文中将介绍英伟达、AMD、英特尔、谷歌、微软、Meta、Arm、高通、 MatX和Lemurian Labs等硬件开发商在扩展⽬前流⾏的8位格式（如FP8和Int8）时将采⽤的技术。...需要消化的东西很多，但要点是，INT8xINT8累加和累加到定点（FX）的成本是最便宜的，并且是由乘法（mby）主导，⽽使⽤浮点的操作数或累加格式（通常是巨⼤的）主要是累加的成本（alignadd +normacc...而这很可能会导致，模型在训练时使用的格式与推理中使用的差异巨大。目前，市面上有很多工具可以实现格式的转换。...虽然可以将激活函数的梯度量化为INT8格式（例如使用SwitchBack或AQT技术），但权重梯度至今仍难以进行这样的量化，因此它必须保持在FP16或者是特殊格式的 FP8（1,5,2）中。...至于英伟达、AMD、英特尔、微软、Meta、Arm和高通，则都在聚焦于Microscaling（MX）格式的开发。

5061 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭