首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >lmdeploy v0.10.0版本发布:新增Turbomind权重与KV缓存卸载、GLM-4.1支持、性能优化与大量Bug修复

lmdeploy v0.10.0版本发布:新增Turbomind权重与KV缓存卸载、GLM-4.1支持、性能优化与大量Bug修复

作者头像
福大大架构师每日一题
发布2025-12-18 11:25:30
发布2025-12-18 11:25:30
430
举报

2025 年 9 月 9 日,lmdeploy v0.10.0 正式发布,本次更新带来了多项重要功能增强,涵盖 推理性能优化、新模型支持、后端增强以及大量 Bug 修复。对于使用大模型推理部署的开发者而言,本次版本是一轮重要的升级,尤其在 Turbomind、Ray MP、PyTorchEngine、Ascend 等模块都有显著变化。

以下为 v0.10.0 的详细更新内容:


🚀 新功能

  • Turbomind 支持权重(weights)与 KV 缓存(kv_cache)卸载,降低显存占用,提高部署灵活性。
  • • 新增 PPU 后端 支持(随后版本中已移除)。
  • Turbomind 增加性能监控指标(metrics)。
  • PytorchEngine 支持 gpt-oss 模型的 BF16 精度推理。
  • PT Engine 支持 sleep/wakeup(暂停/唤醒)功能。
  • Ascend 平台支持在 A3 硬件运行 intern-s1 模型。
  • Turbomind 增加对 gpt-oss 的初步支持。
  • • 新增对 GLM-4-0414GLM-4.1V 模型的支持。
  • • 支持 internvl3.5 多模态模型。
  • • 更新 Turbomind 通讯库,提升稳定性。
  • Turbomind GEMM 库支持 MXFP4 格式。
  • • 针对 sm70 & sm75 架构自动分发 MXFP4 权重转换。

💥 改进优化

  • • 修复 Turbomind 在 CLI serve 模式下的后端配置问题。
  • • 移除已废弃代码。
  • • 重构 FP8 MoE GEMM 模块。
  • • 修复 rope 参数构建问题。
  • RMSNormhead_dim=128 下性能优化。
  • • 优化并简化 GEMM 模块接口。
  • • 优化 create_model_inputsschedule_decoding 流程,提高推理效率。
  • • 增加远程日志功能,并优化推理锁(forward lock)。
  • • 支持 deepgemm 新 API
  • • 移除基于 Gradio 的在线服务。
  • • 弃用 API Server 的交互模式(interactive mode)。
  • • 优化 Docker 构建脚本,提高构建效率。
  • • 用统一的 chat.py 替换各个引擎的独立实现。
  • • 新增 Ray MP engine 后端
  • • 支持使用 外部 Ray PG 与绑定(bundles)。
  • • 清理 PT Engine 中未使用的代码。
  • • 支持输出 logprobs(log 概率)。
  • • 预填充(prefill)预处理优化。
  • • 修复 flash-attn 的兼容性问题。
  • • 新增 图模式预热(Graph warmup) 功能。
  • • 优化 Turbomind 前缀缓存(prefix cache)。
  • • 支持 OpenAI API 兼容参数 max_completion_tokens
  • Ascend 平台新增环境变量控制 Ray 可见性,并可禁止预热。
  • • Turbomind 支持 cache_max_entry_count >= 1 配置。
  • • 调整部分默认参数值。
  • • 重构 chat_template,采用 tokenizer 自带的 apply_chat_template
  • • 使用 FA 2.8.3,兼容 PyTorch 2.8.0。
  • • 重构 Ascend Dockerfile 构建逻辑。

🐞 Bug 修复

  • • 修复 gemma3 模型相关问题。
  • • 修复 head_dim=None 导致的错误。
  • • 修复用户自定义 max_session_len 不生效的问题。
  • • 从 CLI 中移除 lmdeploy convert 命令。
  • • 修复大批量推理时的 EP 错误。
  • • 修复 internvl 模型 disable_vision_encoder 失效问题。
  • • 统一两个推理引擎的响应行为。
  • • 修复 qwen2vl 模型 text_config.tie_word_embedding 参数错误。
  • • 修复 v1 兼容协议问题。
  • • 修复 dlinfer 后端获取设备信息时的错误。
  • • 修复 internvl.py 模块问题(#3528)。
  • • 修复部分 rotary factor 计算错误。
  • • 修复 /chat/completions 流式模式下重复 token 问题。
  • • 修复 CLI 模式下多模态(VLM)模型无法正常聊天的问题。
  • • 修复 Windows 平台推理失败问题。
  • • 修复 CUDA 12.8 环境下预构建失败问题。
  • • 修复 cuBLAS 包装器未初始化成员导致的错误。
  • • 修复 flashmla 在 CUDA 12.4 下的编译问题。
  • • 修复 Ray MP Engine 在 Ascend 平台运行错误。
  • • 修复生成结果为空内容的问题。
  • • 修复 gpt-oss 支持带来的副作用问题。
  • • 修复 PyTorch 指标在 MP Engine 中不正确的问题。
  • • 修复唤醒操作(wake up)执行 30+ 次时的断言错误。
  • • 修复批量预填充(batched prefill)的问题。
  • • 修复对齐响应行为修改带来的副作用。
  • • 修复多进程模式下的环境检测问题。
  • • 修复 CLI 中 serve --help 无法正常使用的问题。
  • • 修复 PD 分布式模式下的多个 Bug(包括 p2p_initialize、metrics、uniexecutor)。
  • • 修复 sleep 接口在 level 参数为字符串时的崩溃问题。
  • • 修复 Docker cu11 中的 NCCL 配置问题。
  • • 在 dlinfer 设备中禁用多进程环境检查。
  • • 修复 nn layout 拼写错误与缩放比例问题。
  • • 修复 LoRA 适配器在聊天与预热模式下的异常。
  • • 修复 Ascend CI Docker 构建问题。
  • • 修复 internvl3 在 HF 版本下的兼容性问题。
  • • 修复 Docker 构建时 Ascend 标签名称错误。
  • • 将 eot_token 加入停止词(stop_words)中。

📚 文档更新

  • • 更新代理(proxy)相关文档。
  • • 补充缺失的文档内容。
  • • 修复文档中的错误。
  • • 更新新闻与引用内容。

🌐 其他更新

  • • 新增 Prometheus 客户端,支持推理服务监控。
  • • 为 PD 连接操作 增加 dummy_prefill 安全检查。
  • • 日志输出与日志等级的小幅优化。
  • • 增加 PytorchEngineConfig block size 参数的断言检查。
  • CI 测试中将 RESTful API 改为 OpenAI 格式,并增加更多用例。
  • • 移除 PPU 后端实现。
  • • 移除 CI 测试中 FlashAttention 的安装步骤。
  • Dlinfer 后端支持 Ray。
  • • 修复 get_all_requests 方法返回值类型标注。
  • • 升级 PyTorch 到 2.8.0,Triton 到 3.4.0
  • • 新增 Dlinfer README 文档。
  • • 将版本号更新为 v0.10.0。

总结: lmdeploy v0.10.0 在 模型支持、推理性能、硬件适配、部署易用性 上都有了显著增强,尤其 Turbomind 与 Ray MP 后端的升级意义重大。对于需要在多平台部署大模型并追求高性能的开发者,这一版本值得立即升级。

我们相信人工智能为普通人提供了一种“增强工具”,并致力于分享全方位的AI知识。在这里,您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。 欢迎关注“福大大架构师每日一题”,让AI助力您的未来发展。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-09-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 福大大架构师每日一题 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 🚀 新功能
  • 💥 改进优化
  • 🐞 Bug 修复
  • 📚 文档更新
  • 🌐 其他更新
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档