



2025年12月4日,lmdeploy 正式发布了 v0.11.0 版本。本次更新包含大量新功能、性能改进、Bug修复以及文档完善,同时增加了更多设备支持和开发便利性。以下为详细更新内容。
/abort_request 接口,可用于中断正在进行的请求。Qwen3-VL 模型。fope 功能模块。EngineOutput 中的 num_tokens 字段。vocab_size 的遮掩策略。response_format 中新增 json_object 支持。/generate 接口支持 image_data 输入,提升多模态兼容性。update_params 功能。ray put 释放机制,减少内存占用。update_model_meta 更新逻辑。update_params。NoneType 转换为字符串引发的 TypeError。prefill free ratio threshold 限制。media_type 的问题。logprobs 转 Tensor 的问题。fill_kv_cache_quant 功能。qwen3-30-a3b 模型的评分问题。pynvml 为 nvidia-ml-py。prefixcache 功能及性能测试。v0.11.0。代码地址:github.com/InternLM/lmdeploy
lmdeploy v0.11.0 在功能支持、性能优化与错误修复方面都进行了大规模更新,尤其是在多模态输入支持、MoE模型优化、推测式解码等方面有显著进展,同时增强了对 Ascend 等硬件的支持。这些改进不仅提升了推理速度和稳定性,也让开发者在部署和调试过程中更加高效。