vLLM 作为目前最受欢迎的开源 LLM 推理和服务框架,近期发布了一系列重大更新。本文将详细解读 vLLM 团队在2025年12月密集发布的六项核心技术进展,涵盖路由负载均衡、推测解码、幻觉检测、多模态服务、语义路由及大规模部署等关键领域。
发布日期:2025年12月13日
在大规模生产环境中,高效管理请求分发至多个模型副本至关重要。传统负载均衡器往往缺乏对 LLM 推理有状态特性(如 KV 缓存)的感知,无法处理复杂的服务模式(如 Prefill/Decode 分离)。
vLLM Router 是一款专为 vLLM 打造的高性能、轻量级负载均衡器,采用 Rust 构建以实现最小开销。它作为智能、状态感知的负载均衡器,位于客户端和 vLLM 工作节点集群之间。

vLLM Router 架构示意图
vLLM Router 提供多种负载均衡算法:
策略 | 特点 |
|---|---|
一致性哈希 | 确保相同路由键的请求"粘性"路由到同一工作节点,最大化 KV 缓存复用 |
Power of Two | 低开销随机选择策略,提供优秀的负载分配 |
轮询 & 随机 | 无状态负载分配的标准策略 |
Router 作为 vLLM 最先进服务架构的编排层:

DeepSeek V3 基准测试
Llama 3.1 8B(8 Prefill pods + 8 Decode pods):
DeepSeek V3(TP8 配置):
发布日期:2025年12月13日 贡献团队:Red Hat AI 模型优化团队
推测解码允许 LLM 在单次前向传播中生成多个 token。它利用一个小型"草稿"模型与完整的"验证"模型配合工作:

Eagle3 架构
工作原理:
优势:
Speculators v0.3.0 提供 Eagle3 草稿模型的完整训练支持:

数据生成流程
训练流程包括:

隐状态生成器
训练完成后,只需简单命令即可在 vLLM 中运行:
vllm serve RedHatAI/Llama-3.1-8B-Instruct-speculator.eagle3
支持的模型:
发布日期:2025年12月14日
幻觉已成为 LLM 生产部署的最大障碍。跨行业场景中(法律、医疗、金融、客服),模型会生成看似权威但经不起推敲的虚假内容。

幻觉问题示例
典型场景:
{"built": "1887-1889", "height": "330 meters"}
HaluGate 架构
不是每个查询都需要幻觉检测。HaluGate Sentinel 是基于 ModernBERT 的分类器,判断提示是否需要事实验证:

Sentinel 工作流程
准确率达 **96.4%**,推理延迟仅 ~12ms。

Token级检测
与句子级分类器不同,token 级检测能精确识别哪些 token 不受上下文支持:
输入: [CLS] context [SEP] question [SEP] answer [SEP]
↓
ModernBERT 编码器
↓
Token 分类头 (每个 token 二分类)
↓
标签: 0 = 支持, 1 = 幻觉

NLI 解释层
为什么采用集成方法? Token 级检测单独仅达 59% F1;两阶段方法将平庸的检测器转化为可操作系统:LettuceDetect 提供召回率,NLI 提供精度和可解释性。

延迟对比
发布日期:2025年12月15日 贡献团队:vLLM 多模态工作流组
现代大型多模态模型(LMM)引入了独特的服务瓶颈:在任何文本生成开始之前,所有图像必须由视觉编码器(如 ViT)处理。

EPD 架构图
传统方案的问题:

工作流程图
E → P D (请求 1)
E → P D (请求 2)
E → P D (请求 3)
测试环境:4×A100 80G,模型:Qwen3-VL-4B-Instruct

短文本工作负载
短文本工作负载(~400 tokens):

长文本工作负载
长文本工作负载(~2000 tokens):

NPU 测试结果
硬件可移植性: 在华为昇腾 NPU(4×Ascend 910B 32G)上也展现了相同的架构级收益。
发布日期:2025年12月16日 贡献团队:AMD 与 vLLM 语义路由器团队

混合模型架构
在混合模型(Mixture-of-Models)世界中,企业 AI 栈通常包括:

VSR 核心功能

企业护栏

部署路径
两种部署方式:
发布日期:2025年12月17日
在 v0.11.0 中,vLLM V0 引擎的最后代码被移除,标志着向改进的 V1 引擎架构的完全迁移。这一成就离不开 vLLM 社区 1,969 位贡献者的努力。

Prefill 吞吐

Decode 吞吐
社区基准测试(Coreweave H200 集群,Infiniband + ConnectX-7 NICs)显示:

https://blog.vllm.ai/Wide-EP Token 路由
DeepSeek-V3 部署的两大考虑:

KV 缓存对比
Wide-EP 结合 EP 与数据并行(DP),最大化 MLA 架构的 KV 缓存效率。

DBO 优化前
优化前: MoE 调度/组合部分的通信开销占用大量时间

DBO 优化后
优化后: 微批次工作线程交替执行,重叠计算与通信,提升 GPU 利用率

MoE 专家层在训练时针对平衡负载优化,但推理时实际工作负载可能导致不均衡。EPLB 动态调整逻辑到物理专家的映射。

分离式服务
由于专家分布在各 rank 上,单个计算密集型 prefill 请求可能延迟整个 EP 组的前向传播。分离式服务放大了解耦的收益。
vLLM 在2025年12月的更新展现了其在大规模 LLM 推理领域的持续创新:
这些技术进展共同推动 vLLM 成为企业级 AI 基础设施的核心组件,为构建可扩展、可信赖、高性能的 AI 应用提供了坚实基础。
本文由 AI 辅助编写,基于 vLLM 官方博客https://blog.vllm.ai/内容整理。