首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >lmdeploy v0.10.2版本更新详解:新特性、性能优化与重要修复

lmdeploy v0.10.2版本更新详解:新特性、性能优化与重要修复

作者头像
福大大架构师每日一题
发布2025-12-19 08:50:35
发布2025-12-19 08:50:35
130
举报

lmdeploy v0.10.2 已正式发布,本次更新带来了多个新功能、性能提升以及重要的 Bug 修复,同时在架构与依赖环境方面也进行了优化。以下为详细更新内容解析:


🚀 新功能

  1. 1. 新增 /generate API v0.10.2版本中新增了 /generate API,为开发者提供更便捷的文本生成接口,简化调用流程。
  2. 2. TurboMind 引擎的 xgrammar 引导解码 更新中加入了基于 xgrammar 的引导解码功能,适用于 TurboMind 引擎,可更精确控制生成输出结构。
  3. 3. PyTorch 引擎的 xgrammar 引导解码重实现 对 PyTorch 引擎的引导解码进行了重构,以统一与 TurboMind 引擎在功能逻辑上的一致性。

💥 性能与功能改进

  1. 1. Ascend 芯片支持 aclgraph 进一步提升在昇腾设备上的兼容性与推理性能。
  2. 2. 推理引擎与异步引擎之间增量输出性能优化 利用推理过程的增量输出能力,在推理引擎与异步引擎之间提升整体吞吐与响应速度。
  3. 3. 优化 multinomial 采样 改进采样算法,减少延迟,提高生成质量与效率。

🐞 Bug 修复

  • zmqrpc 限制为 localhost 修复通信绑定范围问题,提高安全性。
  • 修复 dp+tp 预热问题 消除分布式并行与张量并行预热过程中的异常。
  • 修复 dllm 长上下文问题 改善长上下文场景的稳定性与正确性。
  • 修复 GPT-OSS 流式工具调用解析错误 保证工具调用过程的解析与执行正确。
  • 调整资源释放逻辑至推理引擎 优化异步与推理引擎的资源管理,避免潜在泄露。
  • 修复引导解码过程中 tokenizer 解析错误 保证引导解码功能的稳定性。
  • 修复工具调用与多模态输入的 message content 字段处理问题 增强多模态与工具调用消息结构的正确性。
  • 修复 kimi-k2 构建问题 改善构建稳定性。
  • 跳过不必要的采样并修复随机偏移 减少冗余计算并解决偏移误差。
  • 修复 ignore_special_tokens 为 False 时 stop_token_string 重复问题 保证生成结果准确无重复。

🌐 其他更新

  • • 移除 CUDA 11.8 支持,升级 CI/CD 至 CUDA 12.6/12.8
  • • 删除 profile_generation.py 及相关测试用例
  • • 重构评测流程,将 eval 拆分为 API 评测,并新增 h800 测试工作流
  • • 新增 NVIDIA Jetson 平台的 Docker 镜像
  • • 重构 API 测试为 llm judger 评测
  • • 检查并优化颜色日志输出
  • • 更新 API 测试集,支持 HLE 与 LCB 数据集
  • • 更新昇腾环境依赖要求
  • • 版本号提升至 v0.10.2

总结

本次 lmdeploy v0.10.2 的更新不仅引入了用户期待的 /generate API 和引导解码功能,还在推理性能、采样效率以及兼容性方面都做了显著提升。同时通过系列 Bug 修复,进一步保证了在多场景下的稳定性与准确性。如果你正在使用 lmdeploy,建议尽快升级到 v0.10.2,以获得更好的体验与支持。

我们相信人工智能为普通人提供了一种“增强工具”,并致力于分享全方位的AI知识。在这里,您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。 欢迎关注“福大大架构师每日一题”,发消息可获得面试资料,让AI助力您的未来发展。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-11-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 福大大架构师每日一题 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 🚀 新功能
  • 💥 性能与功能改进
  • 🐞 Bug 修复
  • 🌐 其他更新
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档