

2025 年 9 月 9 日,lmdeploy v0.10.0 正式发布,本次更新带来了多项重要功能增强,涵盖 推理性能优化、新模型支持、后端增强以及大量 Bug 修复。对于使用大模型推理部署的开发者而言,本次版本是一轮重要的升级,尤其在 Turbomind、Ray MP、PyTorchEngine、Ascend 等模块都有显著变化。
以下为 v0.10.0 的详细更新内容:
head_dim=128 下性能优化。create_model_inputs 与 schedule_decoding 流程,提高推理效率。chat.py 替换各个引擎的独立实现。logprobs(log 概率)。max_completion_tokens。cache_max_entry_count >= 1 配置。apply_chat_template。head_dim=None 导致的错误。max_session_len 不生效的问题。lmdeploy convert 命令。disable_vision_encoder 失效问题。text_config.tie_word_embedding 参数错误。/chat/completions 流式模式下重复 token 问题。serve --help 无法正常使用的问题。level 参数为字符串时的崩溃问题。eot_token 加入停止词(stop_words)中。dummy_prefill 安全检查。block size 参数的断言检查。get_all_requests 方法返回值类型标注。总结: lmdeploy v0.10.0 在 模型支持、推理性能、硬件适配、部署易用性 上都有了显著增强,尤其 Turbomind 与 Ray MP 后端的升级意义重大。对于需要在多平台部署大模型并追求高性能的开发者,这一版本值得立即升级。
我们相信人工智能为普通人提供了一种“增强工具”,并致力于分享全方位的AI知识。在这里,您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。 欢迎关注“福大大架构师每日一题”,让AI助力您的未来发展。