Loading [MathJax]/jax/input/TeX/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >华为 达芬奇芯片 架构_寒武纪的AI架构

华为 达芬奇芯片 架构_寒武纪的AI架构

作者头像
全栈程序员站长
发布于 2022-10-04 07:18:25
发布于 2022-10-04 07:18:25
9860
举报

大家好,又见面了,我是你们的朋友全栈君。

达芬奇架构是基于AI计算功能设计的,并基于高性能3D Cube计算引擎,极大地提高了计算能力和功耗比。 根据达芬奇架构,进行了以下优化:

多核堆栈用于并行计算能力扩展 通过设计片上存储器 on-chip memory(高速缓存/缓冲区Cache/Buffer)以缩短Cube操作和存储距离,减少了对DDR的访问,并减轻了冯·诺依曼的瓶颈问题。 在计算和外部存储之间设计了高带宽片外存储器(HBM),以克服计算资源共享存储器的访问速度限制。 为了支持大规模的云侧神经网络训练,设计了超高频段网状网络(LSU),以互连多个多维数据集扩展芯片。 总而言之,达芬奇体系结构具有以下三个features: **

1. Unified Architecture

支持从tens of milliwatts to hundreds of watts 的全场景AI系列芯片。

2. Scalable Computing

  1. 每个AI内核可以在一个时钟周期内完成4096个MAC操作。
  2. 灵活的多核堆栈,可扩展的多维数据集:16 x 16 x N,N = 16/8/4/2/1
  3. 在训练和推理方案中支持多种混合精度(int8 / int32 / FP16 / FP32)和数据精度要求。
  4. 集成张量,矢量和标量计算单位。

3. 可扩展的片上互连Scalable Memory 用于特定和分布式,显式控制的内存分配设计

4 TByte / s L2缓冲区

1.2 TB / s HBM高带宽内存

4. 可扩展的片上互连******On-chip Interconnection

超高带宽片上网状网络[Ultra-high bandwidth on-chip mesh network (LSU)]

基于达芬奇的创新架构,华为首次发布了7 nm Ascend 910(Ascend-Max)和12 nm Ascend-Mini(Ascend 310)。 Ascend 910是世界上最大的单芯片计算密度。 支持在云端进行分布式大规模培训。 如果集成了1024个Ascend 910,则将创建全球最大的AI计算集群,提供256P的性能。 无论模型多么复杂,都可以轻松地对其进行训练。

基于达芬奇架构,华为还计划了适用于蓝牙耳机,智能手机和可穿戴设备的Ascend Ascend芯片系列(Nano,Tiny和Lite)。 将来,Ascend Ascend芯片系列将以IP模式与其他芯片集成在一起,以服务各种智能产品。

此外,达芬奇AI芯片架构还考虑了软件定义的AI芯片的功能。 CANN是用于芯片的高度自动化的操作员开发工具。 它是为神经网络定制的计算架构。 CANN将开发效率提高了三倍。 除效率外,还考虑了操作员绩效以适应AI应用程序的快速发展。

transfer from: https://forum.huawei.com/enterprise/en/huawei-da-vinci-ai-chip-architecture/thread/616780-895

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/196512.html原文链接:https://javaforall.cn

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022年9月6日 下,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
十大机器智能新型芯片:华为抢占一席,Google占比最多
当年,阿基米德爷爷说出“给我一个支点,我就能撬动地球”这句话时,估计没少遭受嘲讽。
AI科技大本营
2019/10/10
7550
十大机器智能新型芯片:华为抢占一席,Google占比最多
【AI系统】寒武纪介绍
中科寒武纪科技股份有限公司成立于 2016 年 3 月 15 日,其名字 Cambricon 是由 Cambrian(寒武纪)和 Silicon(硅)组合成。企业使命是:为客户创造价值,成为持续创新的智能时代领导者,企业愿景是让机器更好地理解和服务人类。寒武纪提供云边端一体、软硬件协同、训练推理融合、具备统一生态的系列化智能芯片产品和平台化基础系统软件。下面我们将重点展开寒武纪产品背后的相关芯片架构和模块。
用户11307734
2024/11/27
6460
转载:【AI系统】寒武纪介绍
中科寒武纪科技股份有限公司成立于 2016 年 3 月 15 日,其名字 Cambricon 是由 Cambrian(寒武纪)和 Silicon(硅)组合成。企业使命是:为客户创造价值,成为持续创新的智能时代领导者,企业愿景是让机器更好地理解和服务人类。寒武纪提供云边端一体、软硬件协同、训练推理融合、具备统一生态的系列化智能芯片产品和平台化基础系统软件。下面我们将重点展开寒武纪产品背后的相关芯片架构和模块。
聊月夜以予星辰
2024/12/11
6180
转载:【AI系统】寒武纪介绍
Ampere推出512核服务器处理器:内置定制AI引擎,支持HBM内存
8月1日,服务器芯片大厂Ampere 宣布将推出全新的 512 核 AmpereOne Aurora 处理器。这款新芯片具有定制的 Arm 内核和定制的网状网络和芯粒到芯粒互连。它还支持 HBM 内存和 Ampere 的下一代 AI 加速模块,但该公司尚未公布具体的发布时间。
芯智讯
2024/08/02
5380
Ampere推出512核服务器处理器:内置定制AI引擎,支持HBM内存
存算一体——后摩尔时代的AI芯片架构[通俗易懂]
存算一体,或存内计算,是指将传统冯诺依曼架构中以计算为中心的设计,转变为以数据存储为中心的设计,也就是利用存储器对数据进行运算,从而避免数据搬运产生的“存储墙”和“功耗墙”,极大提高数据的并行度和能量效率。这种架构特别适用于要求大算力、低功耗的终端设备,如可穿戴设备、移动设备、智能家居等。
全栈程序员站长
2022/10/04
5.1K0
存算一体——后摩尔时代的AI芯片架构[通俗易懂]
业界 | 华为「达芬奇计划」首曝光:自研云端芯片,将AI技术融入所有产品
每个月,华为的一位高管都会召集同事讨论如何将人工智能融入华为的所有产品和业务中,从通信基站、云数据中心到智能手机、监控摄像头等设备。这一努力被命名为「达芬奇计划」,据称该计划被一些华为高管称为「D 计划」。
机器之心
2018/07/26
5030
业界 | 华为「达芬奇计划」首曝光:自研云端芯片,将AI技术融入所有产品
AI芯片:高性能卷积计算中的数据复用
深度学习的发展过程中,较高的计算量是制约其应用的因素之一。卷积神经网络中,主要计算为三维的卷积计算(后简称为卷积),现有的主流处理器难以高性能,高效能的完成卷积计算。相比一般的通用计算,卷积计算中存在的大量数据复用以及计算的规则性,在硬件的微架构(后简称为架构)设计和计算优化上有很大的优化空间,由此诞生了众多针对深度学习加速的AI芯片。卷积计算过程可以表示如下
sea-wind
2019/09/11
2.5K0
AI芯片:高性能卷积计算中的数据复用
史上最大芯片诞生!1.2万亿晶体管超级巨无霸,专为AI设计
面积42225 平方毫米, 拥有1.2 万亿个晶体管,400000 个核心,片上内存18 Gigabytes,内存带宽19 PByte/s,fabric带宽100 Pbit/s。
新智元
2019/08/23
4960
史上最大芯片诞生!1.2万亿晶体管超级巨无霸,专为AI设计
寒武纪们再爆发?
持续亏损、落地困难、技术壁垒......这些年,当AI芯片行业越来越多的问题浮出水面时,从业者、投资方逐渐回归理性,开始重新审视这个行业,万能的AI芯片也一步步走下了神坛。
ToB行业头条
2020/07/28
5560
cpu架构知识
存取速度比较:L1缓分成两种,一种是指令缓存,一种是数据缓存。L2缓存和L3缓存不分指令和数据。L1和L2缓存在第一个CPU核中,L3则是所有CPU核心共享的内存。L1、L2、L3的越离CPU近就越小,速度也越快,越离CPU远,速度也越慢。再往后面就是内存,内存的后面就是硬盘。我们来看一些他们的速度:
没有故事的陈师傅
2021/07/21
7980
又一位英伟达"杀手"亮相:性能是H100数倍,成本仅1/10,支持万亿参数模型!
8月27日消息,在近日召开的Hot Chips 2024大会上,美国AI芯片初创公司SambaNova首次详细介绍了其新推出的全球首款面向万亿参数规模的人工智能(AI)模型的AI芯片系统——基于可重构数据流单元 (RDU) 的 AI 芯片 SN40L。
芯智讯
2024/08/29
2680
又一位英伟达"杀手"亮相:性能是H100数倍,成本仅1/10,支持万亿参数模型!
相关推荐
十大机器智能新型芯片:华为抢占一席,Google占比最多
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档