首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >网卡卸载(Nic Offload)-硬件卸载-DPU-智能网卡

网卡卸载(Nic Offload)-硬件卸载-DPU-智能网卡

原创
作者头像
晓兵
发布于 2024-01-28 15:28:50
发布于 2024-01-28 15:28:50
1.4K00
代码可运行
举报
文章被收录于专栏:DPUDPU
运行总次数:0
代码可运行

简介

为了降低CPU利用率, 将更多的CPU释放给业务使用, 大多数现代操作系统都支持某种形式的网络卸载,其中一些网络处理发生在网卡 NIC 而不是 CPU 上, 它可以释放系统其余部分的资源, 这样操作系统就能处理更多连接, 提高整体性能.

默认以太网最大传输单元 (MTU) 为 1500 字节,这是通常可以传输的最大帧大小。这可能会导致系统资源未得到充分利用,例如,如果有 3200 字节的数据需要传输,则意味着会生成三个较小的数据包。有几种称为卸载的选项,它们允许相关协议栈传输大于正常 MTU 的数据包。可以创建最大允许 64KiB 的数据包,并提供发送 (Tx) 和接收 (Rx) 选项。当发送或接收大量数据时,这可能意味着每发送或接收 64KiB 的数据处理一个大数据包,而不是处理多个较小的数据包。这意味着生成的中断请求更少,用于拆分或合并流量的处理开销更少,传输机会更多,从而导致吞吐量的整体增加。

卸载类型

  • TCP 分段卸载 (TSO) - TCP Segmentation Offload 使用 TCP 协议发送大数据包。使用NIC来处理分段,然后将TCP、IP和数据链路层协议头添加到每个分段。
  • UDP 碎片卸载 (UFO) - UDP Fragmentation Offload 使用UDP协议发送大数据包。使用 NIC 将大型 UDP 数据报的 IP 分段处理为 MTU 大小的数据包。
  • 通用分段卸载 (GSO) - Generic Segmentation Offload 使用 TCP 或 UDP 协议发送大数据包。如果 NIC 无法处理分段/碎片,GSO 会绕过 NIC 硬件执行相同的操作。这是通过尽可能晚地延迟分段来实现的,例如,当数据包由设备驱动程序处理时。
  • 大量接收卸载 (LRO) - Large Receive Offload 使用 TCP 协议。所有传入数据包在收到时都会重新分段,从而减少系统必须处理的分段数量。它们可以在驱动程序中或使用 NIC 进行合并。LRO 的一个问题是它倾向于重新分段所有传入数据包,通常会忽略标头和其他可能导致错误的信息的差异。当启用 IP 转发时,通常无法使用 LRO。LRO 与 IP 转发相结合可能会导致校验和错误。/proc/sys/net/ipv4/ip_forward如果设置为 1, 则启用转发。
  • 通用接收卸载 (GRO) - Generic Receive Offload 使用 TCP 或 UDP 协议。在对数据包进行重新分段时,GRO 比 LRO 更加严格。例如,它检查每个数据包的 MAC 标头,这些标头必须匹配,只有有限数量的 TCP 或 IP 标头可以不同,并且 TCP 时间戳必须匹配。重新分段可以由 NIC 或 GSO 代码处理。

使用 NIC 卸载

卸载应该用在传输或接收大量数据的高速系统上,并且优先考虑吞吐量而不是延迟。由于使用卸载极大地增加了驱动程序队列的容量,因此延迟可能成为一个问题。一个例子是系统使用大数据包传输大量数据,但也运行大量交互式应用程序。由于交互式应用程序按时间间隔发送小数据包,因此存在非常现实的风险,即这些数据包可能会“陷入”缓冲区中,而同时处理它们前面的较大数据包,从而导致不可接受的延迟。

要检查当前卸载设置,请使用该ethtool命令。某些设备设置可能会列为fixed,这意味着它们无法更改。

命令语法:ethtool -k 以太网设备名称, 如: 检查当前网卡卸载设置:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
ethtool -k em1
Features for em1:
rx-checksumming: on
tx-checksumming: on
tx-checksum-ipv4: off [fixed]
tx-checksum-ip-generic: on
tx-checksum-ipv6: off [fixed]
tx-checksum-fcoe-crc: off [fixed]
tx-checksum-sctp: off [fixed]
scatter-gather: on
tx-scatter-gather: on
tx-scatter-gather-fraglist: off [fixed]
tcp-segmentation-offload: on
tx-tcp-segmentation: on
tx-tcp-ecn-segmentation: off [fixed]
tx-tcp6-segmentation: on
udp-fragmentation-offload: off [fixed]
generic-segmentation-offload: on
generic-receive-offload: on
large-receive-offload: off [fixed]
rx-vlan-offload: on
tx-vlan-offload: on
ntuple-filters: off [fixed]
receive-hashing: on
highdma: on [fixed]
rx-vlan-filter: off [fixed]
vlan-challenged: off [fixed]
tx-lockless: off [fixed]
netns-local: off [fixed]
tx-gso-robust: off [fixed]
tx-fcoe-segmentation: off [fixed]
tx-gre-segmentation: off [fixed]
tx-ipip-segmentation: off [fixed]
tx-sit-segmentation: off [fixed]
tx-udp_tnl-segmentation: off [fixed]
tx-mpls-segmentation: off [fixed]
fcoe-mtu: off [fixed]
tx-nocache-copy: off
loopback: off [fixed]
rx-fcs: off
rx-all: off
tx-vlan-stag-hw-insert: off [fixed]
rx-vlan-stag-hw-parse: off [fixed]
rx-vlan-stag-filter: off [fixed]
l2-fwd-offload: off [fixed]
busy-poll: off [fixed]查看checksum卸载配置:
ethtool --show-offload  ethX
​
禁用:
ethtool --offload  ethX  rx off  tx off
或有些驱动加载的时候可以指定关闭参数, 如3Com 网卡:
rmmod 3c59x ; modprobe 3c59x hw_checksums=0

谁能解释一下 TCP 中的 TSO/LRO 硬件功能是什么以及这些功能是否也负责确认机制

您首先必须了解的是,在网络性能提升技术方面,TSO 只是相当大的冰山的一角, 除此之外还有其他方式提升网络性能

让我们考虑一下基本的网络接口。您的操作系统使用 PIO(编程输入/输出,即一次一个字(通常为 32 位))将整个数据包发送到 NIC(网络接口卡),因为它应该仅出现在线路上,不包括帧检查序列。

以下是数据传输速度的提升的方式:

因此,第一个速度提升是使用 DMA(直接内存访问),这允许处理器在硬件复制数据包的同时做其他事情。但操作系统仍然必须将数据包数据复制到内存中并生成标头和校验和。

第二个提升是让硬件为数据包的数据部分生成校验和,操作系统仍会将数据复制到其内存空间并将标头放在其前面。当操作系统生成标头时,它也可能始终生成标头的校验和。这看起来很复杂,但机制其实很简单。硬件被告知在到达位置 XX 时开始校验和,并将校验和放置在数据包缓冲区中的位置 yy 处。

第三个提升是使用分散/聚集(SGL)。这基本上意味着操作系统不会将数据复制到内存中,而是将标头和数据部分的位置传递给驱动程序,并允许驱动程序收集数据以发送它。这需要硬件校验和,如果操作系统需要对数据包进行校验和,那么它需要首先将其复制到内存中。

第四个(也是 Linux 中原生支持的最高级别)是 TSO。通过 TSO,操作系统为硬件提供标头模板,然后为硬件提供大块数据(不超过 64K)以供其分割和校验和,这意味着操作系统需要生成更少的标头,并且设置 DMA 时的任何开销也将大幅减少。当数据包在线路上传输时,它们符合数据包的正常规则,并且与它们所经过的任何交换机或路由器兼容。

接受处理则是另一回事。硬件校验和在这里更多的是猜测而不是确定,因此应该发生的是硬件将数据包和校验和分别传递给操作系统,并允许操作系统决定数据包是否正常。

分散/聚集对于接收来说几乎是多余的。

LRO(大量接收卸载),硬件没有简单的方法知道这些数据包的含义,因此 LRO 目前只是一个软件构造,数据包被传递到操作系统,然后操作系统决定是否连接数据并将大块传递给应用程序或传递许多较小的块。

“TSO 导致网卡将较大的数据块划分为 TCP 段。”“LRO 将传入的网络数据包重新组装到更大的缓冲区中,并将生成的较大但较少的数据包传输到网络堆栈主机或虚拟机”

软件应始终生成 ACK 数据包。唯一的原因是您的 NIC 上是否有 TOE(TCP 卸载引擎)

具有支持 TSO 的硬件的主机将 TCP 数据发送到 NIC,而无需在软件中对数据进行分段。NIC 将执行 TCP 分段(读取 - 它将把大数据块分成段)。支持 LRO 的 NIC 接收数据包并重新组装它们,然后再将数据传递到本地软件。

LRO/TSO 不直接对 ack 机制负责(尽管它确实依赖于 GBN(回退N步-go-back-n))。请注意,只要涉及的所有接口都支持该技术,LRO/TSO 就可以安全地在路由器和网桥上使用

  1. 大型接收卸载LRO的工作原理是,在将多个传入数据包传递到网络堆栈的更高层之前,将来自单个流的多个传入数据包聚合到更大的缓冲区中。它只是将它们聚合起来,而没有任何方式验证数据是否正确发送。在另一层有解决这个问题的算法。
  2. 如果我要告诉你 1509GB 的数据,你至少应该意识到这一点并准备一个 1509GB 的缓冲区。这就是 LRO/TSO 的简单规则

参考

红帽网卡卸载: https://access.redhat.com/documentation/en-us/red_hat_enterprise_linux/6/html/performance_tuning_guide/network-nic-offloads

wireshark_offload_checksum: https://wiki.wireshark.org/CaptureSetup/Offloading

TOE: https://en.wikipedia.org/wiki/TCP_offload_engine

谁能解释一下 TCP 中的 TSO/LRO 硬件功能是什么: https://stackoverflow.com/questions/7377209/can-anybody-explain-what-are-the-tso-lro-hardware-functions-in-tcp

网络硬件卸载: https://www.the-toffee-project.org/the-linux-channel/index.php?page=8-links-network-packet-processing-hardware-offload

晓兵(ssbandjl)

博客: https://cloud.tencent.com/developer/user/5060293/articles | https://logread.cn | https://blog.csdn.net/ssbandjl | https://www.zhihu.com/people/ssbandjl/posts

DPU专栏

https://cloud.tencent.com/developer/column/101987

晓兵技术杂谈(系列)

https://cloud.tencent.com/developer/user/5060293/video

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【重识云原生】第四章云网络4.9.2节——传统网络卸载技术
        大部分服务器都需要配置多个网络适配器端口以满足网络连通性。现在有越来越多的卸载技术,帮助CPU分担网络管理工作。
江中散人_Jun
2022/07/12
2.2K0
【重识云原生】第四章云网络4.9.2节——传统网络卸载技术
解决wireshark抓包校验和和分片显示异常
在使用wireshark抓取报文时,发现从10.81.2.92发过来的报文绝大部分标记为异常报文(开启IPv4和TCP checksum)
charlieroro
2020/03/24
2.5K0
解决wireshark抓包校验和和分片显示异常
jvm可达性分析算法_对点网络
IP层叫分片,TCP/UDP层叫分段。网卡能做的事(TCP/UDP组包校验和分段,IP添加包头校验与分片)尽量往网卡做,网卡不能做的也尽量迟后分片(发送)或提前合并片(接收)来减少在网络栈中传输和处理的包数目,从而减少数据传输和上下文切换所需要的CPU计算时间。
全栈程序员站长
2022/11/15
1.9K0
jvm可达性分析算法_对点网络
自动驾驶网络优化
在自动驾驶中,需要大量的sensor信息上传到服务器进行训练。即使在车辆的行驶过程中也需要相关的sensor信息进行融合,感知。而sensor的信息可能来自不同的域,这样就需要高速稳定的网络来提供基础服务。对RX 和TX 提供了下面技术,
用户9732312
2022/05/13
1.2K0
自动驾驶网络优化
图解网络Offload
网络应用程序如果要发送很大的数据包,经过内核协议栈的时,大包会被分片成多个不超过MTU长度的包。这个分片比较费CPU资源。Offload技术可以把这些分片和合并的工作进行优化处理,也可以直接Offload到网卡上。
虚拟化云计算
2021/03/25
4.1K0
Mysql报文理解mtu拆包依据(tso/gro)
测试过程:client上发1000字节的SQL到server,client上发超过1500字节的SQL到server
mingjie
2022/05/12
8440
Mysql报文理解mtu拆包依据(tso/gro)
Linux 命令(194)—— ethtool 命令
利用 ethtool 可以根据需要更改以太网卡的参数,包括自动协商、速度、双工和局域网唤醒等参数。
恋喵大鲤鱼
2022/11/05
3.5K0
一文讲清楚DPU和SmartNIC(智能网卡)
现在市场端,关于DPU和DPU卡、智能网卡的描述时常有些混乱,霞姐摘录了比较权威的四家观点,和大家分享一下它们关于DPU、智能网卡是怎么看的。相信大家看完后,就知道怎么分辨了。
霞姐聊IT
2025/05/30
4550
一文讲清楚DPU和SmartNIC(智能网卡)
Ansible-setup模块
setup模块用于收集远程主机的基本信息(如操作系统类型,主机名,ip,cpu信息,内存信息等)
星哥玩云
2022/09/15
9320
【重识云原生】第四章云网络4.9.1节——网络卸载加速技术综述
网络offload主要是指将原本在内核网络协议栈中进行的IP分片、TCP分段、重组、checksum校验等操作,转移到网卡硬件中进行,CPU的发包路径更短,消耗更低,提高处理性能。
江中散人_Jun
2022/07/12
3.4K0
【重识云原生】第四章云网络4.9.1节——网络卸载加速技术综述
Intel E810网卡芯片架构简介及以太内核驱动初始化源码分析
E810 基于 100G 以太网控制器核心模块,该模块用于多种英特尔产品。图 1-1 说明了控制器核心逻辑与组成完整 E810 设备的 I/O 和支持功能之间的关系
晓兵
2024/12/14
6840
Intel E810网卡芯片架构简介及以太内核驱动初始化源码分析
高性能网络 — SmartNIC、DPU演进与运行原理
Physical Interface(物理链路连接器)负责将双绞线网口(电口)或光模块(光口)或连接到网卡上。一个 Physical Interface 通常具有多个 Ethernet Ports。
通信行业搬砖工
2023/09/07
1.8K0
高性能网络 — SmartNIC、DPU演进与运行原理
怎么提高网络应用性能?让DPDK GRO和GSO来帮你!
目前,有大量的网络应用在处理数据包的时候只需要处理数据包头,而不会操作数据负载部分,例如防火墙、TCP/IP协议栈和软件交换机。对这类网络应用而言, 包头处理产生的开销(称为“per-packet overhead”)占了整体开销的大部分。因此,如何减少包头处理开销是优化这类应用性能的关键。
Linux阅码场
2020/07/22
3.4K0
怎么提高网络应用性能?让DPDK GRO和GSO来帮你!
Linux网络性能优化相关策略
1. rx-checksumming:校验接收报文的checksum。
glinuxer
2020/02/10
6.6K0
Linux网络性能优化相关策略
ansible 变量
和大多数编程语言一样,ansible变量名应该由字符、数字、下划线组成,变量名需要以字母开头,ansible内置的关键字不能作为变量名。
张琳兮
2019/03/14
2.4K0
流量控制--4.软件和工具
许多发行版都为内核提供了模块化或整体式的流量控制(QOS)。自定义的内核可能不会支持这些特性。
charlieroro
2020/11/24
1.3K0
流量控制--4.软件和工具
如何优化DPU上存储协议(NVMe Over TCP)卸载的性能?
NVMe-TCP 是一种基于 TCP 的高性能流水线存储协议,它抽象了对存储控制器的远程访问,为主机提供了本地存储的幻觉。在 NVMe-TCP 中,每个存储队列都映射到一个 TCP 套接字。读写 IO 操作都有一个唯一标识符,称为命令标识符 (CID),服务器可以无序处理 CID,以允许小 IO 绕过大 IO 并提高性能。此外,每个 PDU 都受发送方生成并在接收方验证的应用层 CRC 保护。
晓兵
2024/11/23
5000
如何优化DPU上存储协议(NVMe Over TCP)卸载的性能?
第二章·自动化运维工具-Ansible ad-hoc
-多年互联网运维工作经验,曾负责过大规模集群架构自动化运维管理工作。 -擅长Web集群架构与自动化运维,曾负责国内某大型金融公司运维工作。 -devops项目经理兼DBA。 -开发过一套自动化运维平台(功能如下): 1)整合了各个公有云API,自主创建云主机。 2)ELK自动化收集日志功能。 3)Saltstack自动化运维统一配置管理工具。 4)Git、Jenkins自动化代码上线及自动化测试平台。 5)堡垒机,连接Linux、Windows平台及日志审计。 6)SQL执行及审批流程。 7)慢查询日志分析web界面。
DriverZeng
2022/09/26
6910
第二章·自动化运维工具-Ansible ad-hoc
网络硬件卸载简介
OpenStack的Pike版本中引入了对switchdev的支持,实现了Open vSwitch硬件卸载offloading功能。本文简介一下网络硬件卸载。
虚拟化云计算
2020/03/11
3.3K0
CVE-2017-1000112-UFO 学习总结
今天看到有人发了CVE-2017-1000112-UFO的分析,就把之前的学习报告整理一下,做个对比学习。 别人的分析报告: https://securingtomorrow.mcafee.com/mcafee-labs/linux-kernel-vulnerability-can-lead-to-privilege-escalation-analyzing-cve-2017-1000112/
De4dCr0w
2019/02/27
2.4K1
相关推荐
【重识云原生】第四章云网络4.9.2节——传统网络卸载技术
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验