首页
学习
活动
专区
圈层
工具
发布

软硬件融合视角:一文看懂高性能网络

1.4 网络拥塞控制 网络中如果存在太多的数据包,会导致包延迟,并且会因为超时而丢弃,从而降低传输性能,这称为拥塞。...IB的主要优点: 高性能,超算TOP500中一半左右采用IB; 低延迟,IB端到端测量延迟为1µs; 高效率,IB原生支持RDMA等协议,帮助客户提高工作负载处理效率。...IB传输层API即HCA网卡和CPU之间的软硬件接口。Socket API是传统TCP/IP网络的应用网络接口,而Verbs API是IB的应用网络接口。...RDMA接口驱动层:负责RDMA硬件的配置管理、队列和内存管理,负责工作请求添加到工作队列中,负责完成请求的处理等。接口驱动层和数据引擎层共同组成RDMA软硬件接口。...而eRDMA在实现中采用了自研的拥塞控制CC算法,容忍VPC网络中的传输质量变化(延迟、丢包等),在有损的网络环境中依然拥有良好的性能表现。 弹性扩展。

2K10

承载AI计算的数据中心网络和传统数据中心有何不同?

生成式AI正在风靡全球,不少企业开始研究如何在其业务流程中采用人工智能技术,更有一些企业客户开始考虑在数据中心和私有云中部署自己的AIGC和 GPU 扩展网络。...相反,企业应该部署一个网络编排平台,从一开始就在控制平面架构中提供一些有用的功能和性能洞察。...与传统的网络监控协议(如SNMP)相比,这些协议功能强大得多,有助于主动识别网络中存在的性能问题,在造成网络瘫痪或中断之前就开始补救。...RoCEv2:基于CEE/DCB能力,提供可与IB媲美的性能和同样无损的网络服务开放网络操作系统:星融元网络操作系统AsterNOS,SONiC企业级发行版,支持灵活的功能扩展、在线升级无缝对接云管:AsterNOS...利用简单易用的REST API,可轻松让第三方的云平台/控制器快速纳管专家级服务:专业、全面、可靠的研发、方案与服务团队,为客户提供小时级的快速响应服务关注vx公号“星融元Asterfusion”,获取更多技术分享和最新产品动态

1.4K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    PCIe Gen5 互联拓扑设计与经验

    机箱顶视图 PCIe 5.0 互联拓扑设计-Fig-2 机箱中没有额外的高性能CPU,数据控制流从计算节点(Copmute)通过PCIe交换机调取数据到GPU节点处理。 如何理解这里的 mCPU?...监控与管理:提供性能监控与错误检测功能,保障系统稳定运行。 管理接口:支持 Redfish® 标准和 RESTful API,便于自动化管理,同时提供图形用户界面(GUI),适合不同用户需求。...应用场景:节点内设备互联,如 GPU、NVMe 存储与 CPU 通信。 InfiniBand(IB) 性质:一种用于高性能计算(HPC)的网络通信协议,专为低延迟、高带宽的跨节点通信设计。...多功能设备:在单卡中集成 GPU、PCIe 交换机和 NIC,实现计算、网络和数据传输功能一体化。...BMC 或 mCPU 负责结构管理(Fabric Management),通过 I2C 接口提供带外控制。 三种管理路径的对比 在 数据中心和分布式系统 中,以太网路径 用于大规模、远程管理。

    1.4K00

    RDMA技术解析

    在此过程中,数据还会添加各种头部信息和校验和,如TCP/IP头部等。 网卡随后利用DMA技术将内核空间的数据复制到网卡内部缓冲区,并通过网络发送到计算机B。...所以CPU资源被大量消耗,网络延迟也高。 采用了RDMA技术后,CPU在两端的参与就变的非常少了,只会参与控制过程。...2.硬件基础:RDMA网卡(RNIC) RNIC不是传统的网卡,而是承接了协议转换处理、数据拷贝等功能的网卡。除了高速接口、还有IB/RoCE/iWarp等传输层引擎模块、队列管理器、DMA引擎等。...lTransport传输层:实现了绝大多数RDMA 传输功能,其中包含一个Congestion Control拥塞控制模块,以及一个Hardware Retransmission硬件重传模块。...它的带宽利用率、端到端延迟、CPU占用率等性能也是最好的;但需要支持技术的IB HCA网卡和交换机,独立布线,所以成本也是最高的。

    39510

    10G~800G Infiniband物理层吞吐量、线速度、编码开销、带宽整理

    Infiniband专为高性能计算设计,采用原生RDMA技术,提供超低延迟和高吞吐量,支持无阻塞Fat-Tree拓扑,在大型模型训练(如千卡GPU集群)中能显著减少通信瓶颈,但其有别于以太网的物理层标准...今天整理10G~800G IB物理层吞吐量、线速度、编码开销、带宽,为各位在IB设备选型提供快速参考。IB物理层通道数支持1/2/4/8/12通道,本次选取常用可插拔光模块的4/8通道数汇总。...在最新IB协议2.0中规定支持多种FEC模式,并且在低延迟模式下EDR和HDR支持RS-FEC(271,257),NDR支持RS-FEC(272,257+1),XDR支持RS-FEC(274,260),...转码功能(64B/66B转换成256B/257B)FEC模式必须在64B/66B编码下使用,每4个66比特位转换块为一个257比特位,转码块的第一个比特位用于定义转码块类型,区分数据转码块或控制转码块,...转码功能通过将转码块的第一个比特位设为1来指示数据转码块,通过设为0来指示控制转码块。计算公式请参考之前的文章。低延迟模式下请带入低延迟RS-FEC进行计算。

    24010

    RDMA - inline 内联提高小包性能-降低时延(减少两个 PCIe 往返延迟)

    通过 InfiniBand 发送消息的主要方法是通过 Verbs API。libibverbs 是此 API 的标准实现,由 Linux-RDMA 社区维护。...数据链路层使用数据链路层数据包 (DLLP) 确认 (ACK/NACK) 和基于信用的流控制机制确保所有事务的成功执行。只要发起者有足够的信用额度,它就可以发起事务。...为了提高此类情况下的通信性能,InfiniBand 提供了某些操作功能,我将在下一节中描述这些功能。...此补丁添加了在请求者中启用向 cqe 发送散射(强制启用)的功能,无需 sig_all,适用于不希望向所有 WR 发送信号的用户,而只希望向在 CQE 中找到其数据的 WR 发送信号...RDMA用户态驱动轮询完成队列时检查内联功能, 如果满足条件, 驱动将从CQE中拷贝内联数据到发送方指定地址中 mlx5_poll_cq -> poll_cq mlx5_stall_cycles_poll_cq

    2.1K31

    Modbus RTU转Profinet:AGV小车逆袭西门子1500PLC通信壁垒的仓储实战录

    该系统的核心控制器采用了高性能的以太网PLC(如西门子S7-1500),负责AGV的路径规划、任务调度和交通管理。...数据实时性要求高:AGV的导航与控制是闭环过程,激光传感器提供的定位数据需要以极低的延迟(通常在几十毫秒内)送达主控制器,任何延迟或数据丢失都可能导致AGV偏离路径、抖动甚至碰撞。 3.  ...网关功能简介: 双向协议转换:作为Modbus RTU与工业以太网(如Profinet)之间的“协议翻译官”。...将JM-PN-RTU网关添加为Profinet IO设备,并根据传感器数据量,为其分配一个足够大小的输入模块(用于接收传感器数据)和一个输出模块(用于向传感器发送指令,如重启)。...例如: 将传感器的“X坐标”寄存器(如HoldReg 40001)映射到PLC的输入字节IB0-IB3(一个32位浮点数)。

    22610

    IB领跑的计算网,UEC能否破局?

    节点间的Scale-Out互联网络,目前有IB/RoCE 方案,超以太网(UE)是基于Ethernet的基础设施; 4. 其他标准网络,如系统中的业务网、存储网、管理网等,通常基于百G内以太网。...UEC 现况 UEC 组织最新情况 超以太网架构 • 向后兼容 • 使用libfabric作为其北向API • 设计用于集成到现有的常用libfabric框架中 • 关键驱动力在于超以太网传输(...UET) • 根据配置文件,由可选功能和特性补充 图右是UEC架构图,从物理层到应用层需重新设计。...数据包传输:UEC支持乱序数据包交付并保证消息顺序完成,相比传统方法更灵活高效。 2. 安全性:UEC将高规模、现代安全性作为核心特性内置,而非外部添加。 3....多路径技术:UEC采用更细粒度的包级多路径(数据包喷射),提高网络利用率。 4. 拥塞控制:UEC实现了基于发送方和接收方的拥塞控制,可能提供更精确的流量管理。 5.

    36600

    优化 RDMA 代码的建议和技巧-rdma性能优化技巧-避坑指南-RDMA资源

    Soft-RoCE 通过标准以太网 NIC 提供 RDMA 功能。 内核中的上层协议(ULP)实现RDMA加速服务,例如IP(例如IPoIB)和存储(例如iSER、SRP)。...这些应用程序将从实施 RDMA 的网络中获益最多 IB InfiniBand(缩写为IB)是以太网和光纤通道的替代方案。IB 提供高带宽和低延迟。...与此同时,随着我们获得更快的存储选项(NVMe、各种类型的 NVDIMM(N、F、P)或英特尔的 3D XPoint),对超低延迟的需求也随之增加,这导致了围绕其功能的新架构。...避免在数据路径中使用控制操作 与保留在调用它们的同一上下文中(即不执行上下文切换)并且以优化方式编写的数据操作不同,控制操作(所有创建/销毁/查询/修改)操作非常昂贵, 因为: 大多数时候,他们执行上下文切换...有时他们分配或释放动态内存 有时他们参与访问 RDMA 设备 作为一般经验法则,应避免调用控制操作或减少其在数据路径中的使用。

    3.1K33

    ProfiNet 转 EthernetIP 案例分享:头部企业如何通过协议转换网关优化生产节拍与控制偏差

    环保设备监测:污水处理厂中,水泵的ProfiNet控制信号与Ethernet/IP水质分析仪的数据融合,实现加药过程的精准控制。...-IB31包含:关节角度(6×Float,IB0-IB23)、故障代码(DINT,IB24-IB27)异常处理机制:在网关中配置心跳监测:PLC每周期向QB127写入时间戳,机器人校验时差>5ms时触发重同步启用数据校验...经优化将Profinet周期压缩至1ms,并启用网关的数据预取功能——当PLC发送新指令时,网关提前读取机器人坐标数据,使延迟降至0.8ms,满足焊接工艺要求。...节能控制:网关边缘计算功能分析设备能耗数据,当检测到生产线空闲超5分钟时,自动切换机器人至低功耗模式(待机功率≤50W),较传统方案节能15%。...实时保障:1ms级同步精度满足高动态工艺(如激光焊接、高速分拣),数据丢包率控制在10⁻⁹以下。智能边缘化:网关内嵌Python运行时,可部署数据滤波、异常检测算法,减轻上位系统40%负载。

    40310

    Nvidia探索光交换OCS在数据中心及高性能计算集群中的应用

    然而,高速光交换面临硬件成熟度低、系统时钟同步复杂等挑战,尽管如此,谷歌近期工作推动了OCS在数据中心的部署,最新研究也聚焦于OCS在机器学习应用系统中的使用,如TPU V4的相关研究展示了新的架构优化...◆ OCS集成的位置与功能 在通用三级胖树拓扑中,OCS有多种集成点,如在叶层和脊层间添加OCS层(脊OCS层)可保持胖树拓扑并实现隔离、冗余和拓扑调整;用OCS替换核心和脊交换机(OCS...将SDN扩展到网络L1层 讲控制面软件扩展作为L1 SDN控制器,通过基于图的数据模型管理物理拓扑,包括对网络物理层连接性建模、监测网络元素状态、与L2 SDN控制器集成、实现多供应商OCS...控制平面互操作性、高效扩展到数千节点及低延迟操作等功能,还可根据应用场景增加故障检测与恢复、作业流量模式映射等功能。...本研究利用L1可编程数据平面和OCS,通过在交换层间添加OCS及冗余交换机,动态重配置网络实现高效自动故障恢复。

    1.8K11

    层级剖析:RoCE与IB协议栈的选择策略(一)

    RoCEv2中添加了IP Header和UDP Headrer,引入IP解决了扩展性问题。...RoCEv1中使用的是L2 Ethernet网络,依赖于以太网的MAC地址和VLAN标签进行通信,而不涉及网络层(IP层,即OSI模型的第三层)的路由功能,因此,RoCE v1数据包不能实现跨不同的IP...传输层RoCERoCE采用了IB的传输层。RoCEv2协议栈虽然包含UDP,但它仅借用了UDP的封装格式,传输层的连接、重传、拥塞控制等功能由IB传输层完成。...它是InfiniBand网络协议中L4传输层的基本头部,用于描述数据包传输的控制信息。格式如下,关键信息有:OpCode,操作码。由8个bit组成。...当然,无论在RoCE还是IB中,RDMA 连接的初始化、资源分配、队列对 (QP) 管理、以及一些控制路径上的操作(如连接建立、内存注册等)仍然依赖于软件栈。

    3.8K12

    InfiniBand与MPI

    它们不是基于传统的 TCP/IP 协议栈,而是使用自己的协议栈,以实现低延迟、高带宽的数据传输。...IB 和 RDMA 的主要特点包括:RDMA操作:RDMA 允许远程服务器直接访问本地内存,从而避免了数据在发送方和接收方之间的多次内存复制。这大大降低了数据传输的延迟和CPU开销。...这有助于进一步减少延迟,提高性能。专用硬件:IB 和 RDMA 通常需要专用的硬件支持,如网络适配器、交换机等。...综上所述,IB 和 RDMA 是一种高性能的网络技术,可以显著提高数据传输性能,但在使用时需要考虑硬件支持、协议选择和适当的库/框架。如何在我的C++项目中使用ibv_post_send?...MPI同步:虽然您已经计时了发送和接收操作,但在启动计时器之前添加MPI_Barrier(MPI_COMM_WORLD)可以确保所有进程同时启动。动态数据分配:数据大小硬编码为1GB。

    3.2K41

    DeepSeek发布最新论文,5大杀手锏让大模型训练、推理暴涨

    此外,在计算效率方面,传统计算架构难以满足大规模模型训练与推理中对高效性能的要求。网络互连带宽同样面临瓶颈,现有网络架构在传输大量数据时存在带宽不足和延迟过高的问题。...此外,在发送大量小数据包时,传统的控制平面处理器容易成为性能瓶颈,而GPU凭借其多线程并行能力,可将发送任务有效分摊到多个线程,避免了这一瓶颈问题。...虽然InfiniBand(IB)在延迟表现上优于基于融合以太网的RDMA(RoCE),因而成为延迟敏感型分布式训练和推理任务的首选方案,但IB的成本较高且扩展性存在局限。...相比之下,RoCE在经济性方面更具优势,有望成为IB的替代方案,但其当前在延迟和扩展能力上仍存在不足,难以满足大规模AI系统的严格需求。...针对RoCE的不足,DeepSeek提出了若干改进建议,包括采用专用的低延迟RoCE交换机、优化网络路由策略、增强流量隔离和改善拥塞控制机制等,以提升其性能和适用性。

    77210

    RDMA的内存管理(IB内核管理用户态内存) - ib_umem

    RDMA的内存管理(IB内核管理用户态内存) - ib_umem简介从内核模块暴露IB内存接口: ib_umem_get()/ib_umem_release() ,可让低级驱动程序控制何时调用 ib_umem_get...这可能稍后在 ib_umem_add_sg_table() 中解决,按需在 sql 中添加新块....在一些比较耗时的处理中如文件系统和内存回收的一些路径会调用cond_resched, 用cond_resched来进行检查是否具备调度时机, 对于非抢占式内核来说,在内核的很多地方,特别是文件系统操作和内存管理相关的一些耗时路径中...,都已经被内核开发者识别出来,并使用cond_resched来减小延迟, cond_resched() 函数,它的功能是主动放权,等待下一次的调度运行, 参考: https://www.zhihu.com...添加函数和数据结构来管理 HMC 为各种对象使用的支持页面的分配, 本文主要分析inux内核intel/hns3/mlx5等RDMA驱动上下文内存管理机制优缺点: https://zhuanlan.zhihu.com

    95810

    云存储硬核技术内幕——(36) 拥有无限未来的少年

    在上一期中,我们介绍了如何在虚拟化环境中,利用SPDK和vHost来充分发挥本地NVMe盘的性能。但是,当虚拟化进化到云计算时代,更多的场景是使用云网络中的远端云盘(虚拟化块存储)。...RDMA(Remote Direct Memory Access)最初是基于IB(InfiniBand)网络的,而IB网络设备掌控在Mallenox(现为NVidia的子公司),其垄断程度比FC有过之而无不及...RoCE (RDMA over Converged Ethernet)是在以太网上运行RDMA的一种方式,可以让远端主机的CPU无感知的情况下,读写远端主机授权的地址空间的数据。...让我们回顾一下关于RDMA的这张经典的架构图: 在支持RDMA的应用中,可以调用RDMA相关的API,给定远端主机的内存地址,从而绕过远端主机CPU对远端主机上指定的地址进行读写。...原来,我们只需要在远端主机操作系统初始化时,将NVMe盘控制器的PCIe配置空间映射的地址,授权给支持RoCE的网卡可读写,并在RDMA的命令字中,将远端主机上,NVMe盘控制器的PCIe配置空间的地址作为

    68210

    Intel E810ICE DPU RDMA 及MLX中断原理分析1(CEAE)

    E810 在 HMC 的功能私有内存空间中的 CQ 上下文数据结构中维护每个完成队列的上下文。CQ 的存储元素驻留在系统内存中。...使用案例: 高性能计算 (HPC):执行许多 RDMA 操作(例如批量数据传输)并且只需要完成某些关键操作时。 低延迟应用程序:在交易系统、数据库或其他低延迟系统中,有效管理完成通知至关重要。...概括: RDMA 中的请求完成 (SC)是仅在应用程序明确请求时才发布到完成队列的完成事件。此功能有助于减少不必要的通知、提高性能,并更好地控制应用程序何时接收完成事件。...dma_sync_single_for_cpu -> 确保DMA缓冲区中的数据与物理内存中的数据同步。...使用新的完成回调的驱动程序使用新的 ib_create_cq API 分配它的 CQ,除了 CQE 的数量和完成向量之外,它还采用我们如 何轮询 CQE 的模式。

    1K10
    领券