首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    【ARM攒机指南——AI篇】5大千万级设备市场技术拆解

    作者:重走此间路 编辑:闻菲 【新智元导读】单做算法无法挣钱,越来越多的公司都开始将核心算法芯片化争取更多市场和更大利益,一时间涌现出AI芯片无数。与CPU,GPU这样的通用芯片不同,终端AI芯片往往针对具体应用,能耗规格也千差万别。本文立足技术分析趋势,总结深度学习最有可能落地的5大主流终端市场——个人终端(手机,平板),监控,家庭,机器人和无人机,汽车,以及这些终端市场AI芯片的现状及未来。小标题以及着重部分是新智元转载时编辑增加,点击“阅读原文”了解更多。 近一年各种深度学习平台和硬件层出不穷,各种x

    06

    使用 CCIX进行高速缓存一致性主机到FPGA接口的评估

    摘要:长期以来,大多数分立加速器都使用各代 PCI-Express 接口连接到主机系统。然而,由于缺乏对加速器和主机缓存之间一致性的支持,细粒度的交互需要频繁的缓存刷新,甚至需要使用低效的非缓存内存区域。加速器缓存一致性互连 (CCIX) 是第一个支持缓存一致性主机加速器附件的多供应商标准,并且已经表明了即将推出的标准的能力,例如 Compute Express Link (CXL)。在我们的工作中,当基于 ARM 的主机与两代支持 CCIX 的 FPGA 连接时,我们比较了 CCIX 与 PCIe 的使用情况。我们为访问和地址转换提供低级吞吐量和延迟测量,并检查使用 CCIX 在 FPGA 加速数据库系统中进行细粒度同步的应用级用例。我们可以证明,从 FPGA 到主机的特别小的读取可以从 CCIX 中受益,因为其延迟比 PCIe 短约 33%。不过,对主机的小写入延迟大约比 PCIe 高 32%,因为它们携带更高的一致性开销。对于数据库用例,即使在主机-FPGA 并行度很高的情况下,使用 CCIX 也可以保持恒定的同步延迟。

    04

    RecoNIC 入门:SmartNIC 上支持 RDMA 的计算卸载-FPGA-智能网卡-AMD-Xilinx

    当今的数据中心由数千台网络连接的主机组成,每台主机都配有 CPU 和 GPU 和 FPGA 等加速器。 这些主机还包含以 100Gb/s 或更高速度运行的网络接口卡 (NIC),用于相互通信。 我们提出了 RecoNIC,这是一种基于 FPGA、支持 RDMA 的 SmartNIC 平台,旨在通过使网络数据尽可能接近计算来加速计算,同时最大限度地减少与数据副本(在以 CPU 为中心的加速器系统中)相关的开销。 由于 RDMA 是用于改善数据中心工作负载通信的事实上的传输层协议,因此 RecoNIC 包含一个用于高吞吐量和低延迟数据传输的 RDMA 卸载引擎。 开发人员可以在 RecoNIC 的可编程计算模块中灵活地使用 RTL、HLS 或 Vitis Networking P4 来设计加速器。 这些计算块可以通过 RDMA 卸载引擎访问主机内存以及远程对等点中的内存。 此外,RDMA 卸载引擎由主机和计算块共享,这使得 RecoNIC 成为一个非常灵活的平台。 最后,我们为研究社区开源了 RecoNIC,以便能够对基于 RDMA 的应用程序和用例进行实验

    01
    领券