前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Arm Cortex-A77

Arm Cortex-A77

作者头像
用户9732312
发布于 2022-05-13 12:17:38
发布于 2022-05-13 12:17:38
1.2K0
举报
文章被收录于专栏:ADAS性能优化ADAS性能优化

从2016年的Cortex-A73到2020年的“ Hercules”设计,ARM承诺将计算性能提高2.5倍。通过Cortex-A76的重大微体系结构转变,更高的现代时钟速度以及从16到10的转变,以及现在的7nm制造和随后的5nm制造,可以完成这一巨大的计划。到去年,已经实现了路线图约1.8倍的增长,而Cortex-A77的IPC提升了约20%。尽管功率和热量预算有限的移动设备并不期望获得所有这些收益,但这使我们顺利达到了Arm的2.5倍目标。

相比之下,去年的Cortex-A76比Cortex-A75提升了约30-35%。今年,我们希望看到A77和A76之间的IPC增长更为柔和,但仍然非常重要。这是个好消息,因为它意味着在保持与以前相似的散热和功率约束的同时,还具有更高的性能。权衡是A77比A76大约17%,因此就硅面积而言将花费更多。如果您想与台式机领导者进行比较,AMD在Zen2和Zen +之间实现了15%的IPC提升,而英特尔的IPC多年来几乎保持不变。当然,我们在这里讨论的是不同的细分市场,但这证明了Arm的CPU设计团队在最近几代人中取得了令人瞩目的成就。

Cortex-A77的SoC提供20%的性能提升

这里的要点是,A76标志着微体系结构的一次重大转变,带来了巨大的性能提升,而我们又回到了A77的优化水平改进上。有了这些,我们就可以深入研究Arm Cortex-A77的新功能。

Cortex-A77建立在A76微架构上

理解Cortex-A77和A76之间区别的关键是要掌握“更广泛”的内核设计的含义。本质上,我们正在谈论在每个时钟周期执行更多指令的能力,这将增加内核的吞吐量。要做到这一点,有两个重要的部分-增加执行处理的执行单元的数量,并确保这些单元保持良好的数据供给。让我们从后一部分开始,并专注于SoC的调度,缓存和分支预测器部分。

Cortex-A77的调度宽度提高了50%,每个周期从A76的四个指令增加到六个指令。这意味着在每个时钟周期有更多的指令前往执行内核,从而具有更大的性能潜力。结果,乱序执行窗口也更大,增加到160个条目以显示更多的并行性。有一个熟悉的64K指令缓存,而保存分支预测变量地址的分支目标缓冲区(BTB)比以前处理并行指令增长时大33%。这里没什么不寻常的,它本质上是去年设计的更广泛的版本。

更具吸引力的前端添加是全新的1.5K MOP缓存,该缓存存储从解码单元反馈回来的宏操作(MOP)。Arm的CPU体系结构将来自用户应用程序的指令解码为较小的宏操作,然后进一步细分为执行核心可以理解的微操作。您可以在上面的图的“解码”部分中看到它。MOP缓存用于减少丢失的分支和刷新的成本,因为您保留了宏操作而不是再次对其进行解码,从而提高了内核的整体吞吐量。从MOP而不是i-cache进行的取回绕过了解码阶段,从而节省了一个周期。Arm指出,MOP缓存在一系列工作负载中的命中率可达到85%或更高,这使其成为标准i缓存的非常有用的补充。

移至CPU的执行核心部分,请注意添加了第四个ALU和第二个Branch单元。第四个ALU将处理器的通用数字处理带宽提高了50%。该附加的ALU能够执行基本的单周期指令(例如ADD和SUB)以及两周期的整数运算(例如乘法)。其他两个ALU只能处理基本的单周期指令,而最后一个单元则负责更高级的数学运算,例如除法,乘法累加等。执行内核中的第二个分支单元使同时分支跳转的次数加倍。内核可以处理,这在六个调度指令中有两个是分支跳转的情况下很有用。这听起来有些奇怪,但是Arm的内部测试表明,采用第二个组件可以提高性能。

Cortex-A77改进的并行性/预取缓存

对CPU内核的其他调整包括添加第二个AES加密管道。数据存储管道现在具有专用的发布端口,以使内存发布带宽增加一倍。这些端口以前与ALU共享,有时可能会成为瓶颈。还有一个下一代数据优化器,可以提高电源效率,同时增加系统DRAM的带宽。

Cortex-A77中该系统的一部分还具有全新的“ 系统意识”预取系统。这将基于广泛的CPU内核计数,高速缓存容量和延迟以及最终设备内部的内存子系统配置来提高内存性能。作为DynamIQ CPU集群的一部分与动态调度单元(DSU)进行通信的专用硬件,该集群监视共享L3缓存的使用情况。该内核具有动态距离和主动性级别,可在L3带宽受其他CPU内核限制的情况下降低缓存利用率。诸如Cortex-A77之类的高性能内核更可能使DSU对内存的访问饱和,而诸如A55之类的低功耗内核则不太可能。

Summary

Cortex-A77进行了许多小的改动,这些改动与之前的版本相比有一些实质性的区别。简而言之,A77 的新MOP缓存与更宽和更长的指令窗口相结合,有助于使功能强大的ALU,分支和存储器单元忙于要做的事情。强大的Cortex-A76设计已经扩展,可以通过A77进一步提高吞吐量,而无需依赖更高的时钟速度。

Cortex-A77的最大性能提升是以整数和浮点数学形式出现的。Arm的内部基准确认了这一点,该基准显示SPEC整数基准和浮点基准分别将性能提高20%至35%。内存带宽的改善介于15%到20%之间,再次强调最大的收益来自数字紧缩。总体而言,这些改进使A77平均比上一代提升了20%。

就智能手机而言,Cortex-A77供电的SoC将用于高性能旗舰产品。Arm完全希望看到动力室设计采用4 + 4 bit.LITTLE核心布置。鉴于A77的吞吐量提高和面积略有增加,我们很可能会看到SoC设计人员继续沿1 + 3 + 4或2 + 2 + 4趋势发展。具有一个或两个功能强大的大型内核,具有更大的缓存和更高的时钟,并由2个或3个A77内核(具有更小的缓存大小和更低的时钟)进行备份,以节省功耗和面积。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-12-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Android性能优化 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Arm's New Cortex-A78 and Cortex-X1
Cortex-A78几乎延续了Arm的传统设计理念,即严格按照性能,功率和面积(PPA performance, power, and area)之间的平衡进行制造。Arm能够以低功耗和小面积提供极具竞争力的性能。Cortex-A78承诺在相同的功率范围内将持续性能提高20%。这个数字是对产品性能的预测,结合了微体系结构的改进以及即将推出的5nm节点的改进。
用户9732312
2022/05/13
1.3K0
Arm's New Cortex-A78 and Cortex-X1
ARM CPU Cortex-X3,Cortex-A715,Cortex-A510 | GPU Immortalis-G715
去年5月,Arm发布了第一代基于64位ARMv9指令集的处理器IP:超大核心Cortex-X2、高性能大核心Cortex-A710,高能效小核心Cortex-A510。同时,Arm还发布了三款Mali GPU IP——ARM Mali GPU | G710、G610、G510、G310。
数字芯片社区
2022/09/19
2.1K0
ARM CPU Cortex-X3,Cortex-A715,Cortex-A510 | GPU Immortalis-G715
Arm新一代架构发布:CPU能效提升40%,GPU性能提升15%
机器之心报道 编辑:泽南 对于全球 Arm 生态来说,每年不变的常数就是 Arm 新发布的「公版」架构,其设计一直在引领移动和云端计算的发展。 在最近的台北 ComputeX 展会期间,Arm 展示了下一代 Cortex-A 和 Cortex-X 系列 CPU 内核 —— 以及新一代 GPU 设计,我们将看到它们从今年下半年到明年间成为产品。昨天的发布包括旗舰级 Cortex-X4 内核、中核 Cortex-A720、小核 Cortex-A520 以及新一代 GPU Immortalis-G720。 Arm
机器之心
2023/05/31
6720
Arm新一代架构发布:CPU能效提升40%,GPU性能提升15%
【ARM】ARM Cortex 处理器详细讲解
ARM Cortex处理器系列是ARM公司推出的一系列高性能、低功耗的处理器核心,广泛应用于不同类型的电子设备。Cortex处理器按应用需求分为三个主要系列:Cortex-A、Cortex-M和Cortex-R。以下是对这些系列的详细讲解。
LuckiBit
2024/12/11
1K0
Arm Mali-G77 GPU
当Mali-G76相比,下一代Mali-G77设备将Arm的图形性能提高了40%。该数字考虑了流程以及体系结构方面的改进。Mali-G77可以配置7到16个着色器内核,每个内核的大小几乎与G76内核完全相同。这意味着高端智能手机可能会采用与今天相同的GPU核心数量。
用户9732312
2022/05/13
2.1K0
Arm Mali-G77 GPU
高通865 华为麒麟990 三星 Exynos 990 on paper 比较
说到CPU功能,很明显,这三个品牌都提供了类似的方法。高通,华为和三星都采用了重型,中型和轻型CPU内核。从理论上讲,这可以为给定任务更好地平衡功率和效率。
用户9732312
2022/05/13
8320
Arm最强CPU及GPU内核发布:联发科天玑9400将首发!
5月30日消息,当地时间周三,Arm在其全面计算解决方案(CSS)取得成功的基础上,正式发布了首款面向客户端产品的 Arm 计算子系统 ——CSS for Client,以及新的 Arm Kleidi 软件,大大简化了运行 Android、Linux 和 Windows 的台式机、笔记本电脑、平板电脑处理器的开发和人工智能(AI)的部署。
芯智讯
2024/06/07
1.3K0
Arm最强CPU及GPU内核发布:联发科天玑9400将首发!
运维锅总详解CPU
本文从CPU简介、衡量CPU性能指标、单核及多核CPU工作流程、如何平衡 CPU 性能和防止CPU过载、为什么计算密集型任务要选择高频率CPU、超线程技术、CPU历史演进及摩尔定律等方面对CPU进行详细分析。希望对您有所帮助!
锅总
2024/07/11
3590
运维锅总详解CPU
Apple A13 Bionic vs Kirin 990 5G vs Snapdragon 855 Plus
新款Apple A13采用EUV 7nm制造工艺制造,与麒麟990 5G和Exynos 9825相同. 855 Plus采用较旧的7nm工艺制造 Apple A13使用两个Lightning Performance内核的Hexa-core CPU,运行频率为2.65GHz,比去年增加了6%,并且有四个power core内核称为Thunder。 相比之下,Apple A12还采用双集群Hexa-core CPU,配备2x Vortex核心@ 2.49 GHz和4x Tempest电源效率核心。Apple声称CPU速度提高20%,功率效率提高30%。
用户9732312
2022/05/13
5680
Apple A13 Bionic  vs Kirin 990 5G vs Snapdragon 855 Plus
详解高通骁龙X处理器:Oryon CPU和Adreno X1 GPU有何优势?
在近 8 个月前该公司在最近的 Snapdragon 峰会上首次详细介绍了 SoC,并在随后的几个月中多次披露了性能后,Snapdragon X Elite 和 Snapdragon X Plus 的发布即将到来。这些芯片已经发往高通的笔记本电脑合作伙伴,首批笔记本电脑将于下周发货。
芯智讯
2024/06/18
3.1K0
详解高通骁龙X处理器:Oryon CPU和Adreno X1 GPU有何优势?
Deep in qualcomm 888
Snapdragon 888对高通来说是一个巨大的飞跃,以至于他们已经偏离了这一代的常规命名方案,甚至完全跳过了87x系列。888很中国,而且还用于营销目的。
用户9732312
2022/05/13
5770
Deep in qualcomm 888
arm和mips架构区别_arm架构详解
1978年12月5日,物理学家赫尔曼·豪泽(Hermann Hauser)和工程师Chris Curry,在英国剑桥创办了CPU公司(Cambridge Processing Unit),主要业务是为当地市场供应电子设备。
全栈程序员站长
2022/11/04
3.4K0
嵌入式:ARM系列处理器详解与性能对比
其中,ARM7、ARM9、ARM9E和ARM10为4个通用处理器系列,每一个系列提供一套相对独特的性能来满足不同应用领域的需求。SecurCore系列专门为安全要求较高的应用而设计。
timerring
2022/12/09
4.1K0
嵌入式:ARM系列处理器详解与性能对比
安卓机皇也要来了!Pixel 6将搭载地表最强TPU,Google 首款超高端旗舰泄露
iPhone 13 刚激动完,安卓阵营也要迎来最强机皇 Pixel 6 系列了。作为安卓的爸爸,这也是 Google 首款面向超高端旗舰而准备的手机,并且今年可能会发布两款,Pixel 6 及 Pro 版本。
新智元
2021/10/12
4530
Google首款自研CPU竟是偷师三星:一个模子,仅次于麒麟9000
10月19号,Google正式发布了他们的旗舰手机Pixel 6和Pixel 6 Pro,这也是Pixel 系列手机发布以来变化最大的一款手机,除了名字没变,其他一切都变了。
新智元
2021/11/15
3610
Cortex-A8/A76
关于Cortex-A8的微处理架构参考《ARM_Cortex-A8微处理器的架构和实现》
闪电gogogo
2019/11/21
8830
国产最强开源RISC-V内核“昆明湖”解析:性能比肩Neoverse N2
当地时间8月27日,在Hot Chips 2024大会第二日活动上,国产第三代“香山”开源高性能RISC-V处理器核“昆明湖”正式亮相。
芯智讯
2024/08/30
7040
国产最强开源RISC-V内核“昆明湖”解析:性能比肩Neoverse N2
CPU性能分析与优化(三)
本章讲性能分析中的术语和指标。如果略过本章节,很难看懂linux perf 或者 intel vTune。Linux perf 是一个性能分析器,您可以使用它来查找程序中的热点、收集各种低级 CPU 性能事件、分析调用堆栈以及许多其他事情。为什么暂时没有使用vTune,因为vTune基于GUI,隐藏了复杂性。
王很水
2024/08/07
5910
CPU性能分析与优化(三)
台积电代工!Intel新AI PC芯片Lunar Lake发布:AI算力120TOPS!
6月4日,英特尔CEO帕特·基辛格在COMPUTEX 2024上发表主题演讲,正式公布了下一代面向AI PC的移动处理器Lunar Lake,不仅CPU、GPU、NPU性能全面提升,能耗也大幅降低,综合AI算力提升至120TOPS。
芯智讯
2024/06/07
1320
台积电代工!Intel新AI PC芯片Lunar Lake发布:AI算力120TOPS!
ARM:Cortex-R82 低功耗存储主控设计
UFS(Universal Flash Storage)和eMMC(embedded MultiMediaCard)是两种常见的嵌入式闪存存储技术,广泛应用于智能手机、平板电脑和其他移动设备。
数据存储前沿技术
2025/02/11
1430
ARM:Cortex-R82 低功耗存储主控设计
相关推荐
Arm's New Cortex-A78 and Cortex-X1
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档