首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >lmdeploy v0.11.0 发布:功能增强、性能优化与Bug修复详解

lmdeploy v0.11.0 发布:功能增强、性能优化与Bug修复详解

作者头像
福大大架构师每日一题
发布2025-12-19 09:36:48
发布2025-12-19 09:36:48
70
举报

2025年12月4日,lmdeploy 正式发布了 v0.11.0 版本。本次更新包含大量新功能、性能改进、Bug修复以及文档完善,同时增加了更多设备支持和开发便利性。以下为详细更新内容。

🚀 新功能(Features)

  • • 新增 /abort_request 接口,可用于中断正在进行的请求。
  • • 引入 Qwen3 系列支持,包括 Qwen3-VL 模型。
  • • 支持通过扁平化 bucket tensor 的方式同步权重。
  • • 支持面向 MoE(Mixture of Experts)模型的分组路由机制。
  • • 增加返回路由专家用于复用的功能,减少重复计算。
  • • 引入上下文并行(context parallel)支持,提高推理效率。
  • • 新增 fope 功能模块。
  • • 增加推测式解码(speculative decoding)支持。
  • • MoE 模型 bf16 精度执行引擎优化。

💥 性能改进(Improvements)

  • • 扩大垃圾回收(GC)阈值,减少频繁回收影响性能。
  • • 移除 EngineOutput 中的 num_tokens 字段。
  • • 取消 vocab_size 的遮掩策略。
  • • 在 response_format 中新增 json_object 支持。
  • /generate 接口支持 image_data 输入,提升多模态兼容性。
  • • 修复 RL 训练中所有 RayEngineWorker 都在节点 0 创建的问题。
  • • 优化 turbomind 后端的睡眠等级 1 模式,提高响应速度。
  • • 使 Ascend 后端支持 update_params 功能。
  • • 增强请求检查器的功能,提升稳定性。
  • • 重新设计数据并行(dp)与张量并行(tp)架构。
  • • 修复内核数值误差问题。
  • • 优化 ray put 释放机制,减少内存占用。
  • • 缩减缓存专家数量,在调整大小时减少资源占用。
  • • 支持在消息中交替插入文本与图像。
  • • 优化 RMS Norm 算法性能。
  • • 修复缓存淘汰策略问题,减少数据丢失风险。

🐞 Bug修复(Bug fixes)

  • • 修复类型提示错误。
  • • 修复输入数据分割问题。
  • • 补全 update_model_meta 更新逻辑。
  • • 修复在加载多模态 VL 模型时,PyTorch 后端的 update_params
  • • 解决 NoneType 转换为字符串引发的 TypeError
  • • 修复调度比例支持前缀缓存功能的 Bug。
  • • 移除 prefill free ratio threshold 限制。
  • • 修复 API 服务器节点被移除时的 KeyError 问题。
  • • 修正错误地将合法请求判定为错误请求的逻辑。
  • • 修复分布式配置键错误。
  • • 解决代理服务器在流式模式下缺少 media_type 的问题。
  • • 修复 logprobs 转 Tensor 的问题。
  • • 修复 CLI 帮助信息显示错误。
  • • 优化并修复 fill_kv_cache_quant 功能。
  • • 修复 CUDA 13 引入的包弃用问题。
  • • 当 Token 用尽时返回空列表,避免异常。
  • • 修复路由专家输出错误问题。
  • • 修正 qwen3-30-a3b 模型的评分问题。
  • • 修复 EP 部署问题。
  • • 禁用某些情况下 DLLM 使用 fa3 解码的行为。
  • • 修复量化过程中非元组解码输出的兼容问题。
  • • 修复 cu11 Docker 构建错误。
  • • 修复模型配置错误。
  • • 修复 LoRA 相关 Bug。
  • • 修复 CMake 检测 sm70、sm75 GPU 架构的逻辑问题。

📚 文档更新(Documentations)

  • • 更新模型评测指南,提升可读性与使用指导性。
  • • 新增权重更新指南,帮助用户快速掌握模型更新方法。

🌐 其他更新(Other)

  • • 新增用于构建开发镜像的 Dockerfile。
  • • 新增 Ascend A3 设备支持的 Dockerfile。
  • • 重构长文本基准测试流程。
  • • 默认启用性能监控指标。
  • • requirements 中替换 pynvmlnvidia-ml-py
  • • CI 流程中增加构建前释放磁盘空间和长会话参数测试。
  • • 增加 prefixcache 功能及性能测试。
  • • 优化 pipeline.close 方法并在 PR 测试中引入更多测试用例。
  • • 版本号正式更新为 v0.11.0

总结

代码地址:github.com/InternLM/lmdeploy

lmdeploy v0.11.0 在功能支持、性能优化与错误修复方面都进行了大规模更新,尤其是在多模态输入支持、MoE模型优化、推测式解码等方面有显著进展,同时增强了对 Ascend 等硬件的支持。这些改进不仅提升了推理速度和稳定性,也让开发者在部署和调试过程中更加高效。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-12-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 福大大架构师每日一题 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 🚀 新功能(Features)
  • 💥 性能改进(Improvements)
  • 🐞 Bug修复(Bug fixes)
  • 📚 文档更新(Documentations)
  • 🌐 其他更新(Other)
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档