因此,我有一个传入的UDP流,它由272个字节的数据包组成,数据速率大约为5.12 of /s(大约每秒320e6个数据包)。此数据由基于FPGA的自定义电路板发送。在接收端,网络线程读取和解释这些数据包,并将其放在与缓冲线程共享的循环缓冲区中,缓冲线程会将此数据复制到GPU进行处理。接收端的上述设置可以使用简单的recv调用处理4096KB数据包(用于不同设计)的5.12 KB /s,但是,以当前的数据包大小,我很难跟上数据包流,太多的时间被“浪费”在上下文切换和将小数据段从内核空间复制到用户空间上所以我想知道是否有可