Loading [MathJax]/jax/output/CommonHTML/config.js
部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >lmdeploy v0.8.0发布!多项核心功能升级,性能爆表,打造AI部署新时代!

lmdeploy v0.8.0发布!多项核心功能升级,性能爆表,打造AI部署新时代!

作者头像
福大大架构师每日一题
发布于 2025-05-05 10:32:06
发布于 2025-05-05 10:32:06
20700
代码可运行
举报
运行总次数:0
代码可运行
在这里插入图片描述
在这里插入图片描述

大家期待已久的InternLM lmdeploy v0.8.0版本终于重磅上线!本次更新集合了社区诸多才俊的协作成果,带来了多项重磅功能提升与性能优化,同时修复了大量关键bug。无论你是AI模型研发人员、部署工程师,还是深度学习爱好者,都将在这次更新中发现极大提升和全新体验。

本文将全面解析lmdeploy v0.8.0的更新亮点,助你第一时间掌握新版本核心优势,快速玩转InternLM部署利器!

一、版本概述

lmdeploy作为InternLM核心的推理部署框架,致力于为大规模AI模型提供高效、灵活、跨平台支持。v0.8.0版本标志着该项目的一个重要里程碑,这次升级结合了社区与核心开发者的心血,涉及底层架构优化、算法支持拓展、多设备兼容及更优的资源管理策略,显著提升了模型推理的效率和稳定性。


二、核心新功能解析

  1. 1. 多设备分布式支持
  • Torch DP支持:支持PyTorch的Data Parallel(DP)机制,方便用户用熟悉的框架实现多GPU并行推理,极大提升小规模多卡部署体验。
  • 混合DP+TP模式:加入了混合的Data parallel与Tensor parallel机制,融合二者优势,实现更灵活、更高效的推理编排,满足复杂场景的需求。
  • Ascend多节点支持:针对华为Ascend AI芯片,实现了多节点分布式部署支持,充分发挥Ascend设备集群性能。
  • Ascend 310P优化:帮助优化了310P芯片的推理性能,为低功耗边缘设备带来更优的支持。
  1. 2. Qwen3系列全新支持
  • • 新增Qwen3及Qwen3MoE模型支持,由@lzhangzz和@CUHKSZxy推动,涵盖PyTorch引擎的全流程兼容,助力更丰富、更高效自然语言处理应用。
  • • Qwen3 fp8低精度支持,大幅降低计算资源需求同时确保精度。
  • • 支持Qwen3的AWQ量化,带来轻量化推理新选择。
  • • MoE门控优化,提升模型专家路由效率。
  1. 3. 深度运算与内核优化
  • DeepGEMM加速:采用TMA预分配策略,提升矩阵乘法性能,为大模型提供底层性能保障。
  • DeepSeekV2支持:新一代检索模块正式纳入Ascend设备加速。
  • FP8及混合精度:优化多种低精度计算内核,助推更快速更节能的推理流程。
  • Long Context优化:针对超长文本上下文的注意力机制做深度性能优化。
  • MoE门控和排序算法:带来更智能的专家选择,显著提升MoE模型整体效率。
  1. 4. 灵活API与推理体验提升
  • • /v1/interactive新参数spaces_between_special_tokens支持,满足更复杂的交互场景。
  • • 支持List[dict]类型输入,简化多轮对话和复杂Prompt处理。
  • • 支持min_p参数,助力更精细的推理控制。
  • • 完善的错误修正与日志增强,开发者调试更便捷。

三、性能与稳定性升级

  • 解码阶段EP优化:提升Bustling大规模解码效率,实现更流畅的实时推理体验。
  • Ray异步调用:利用分布式计算框架,Maximize吞吐量。
  • Caching与内存管理改进:专家模型与Transformer模块的内存交换更高效,避免内存瓶颈。
  • 自动调优与超参数默认调整:减少用户部署门槛,让AI推理开箱即用。

四、丰富的Bug修复,保障绝佳体验

本次版本特别关注稳定性和兼容性,修复了包括:

  • • 激活格网尺寸超限问题
  • • 多轮滑动窗口聊天崩溃
  • • Qwen2-VL及DeepSeek图像Token错误
  • • Flash Attention在特定Trition版本崩溃
  • • 多卡数据同步和CUDAGraph异常
  • • 多任务配置和完成标志错误
  • • 模板和解析错误,完善加载流程

这意味着,用户现在可以更安心、更高效地运行复杂业务应用。


五、文档和生态更新

  • • 新增Qwen2.5-VL-32B文档,详细介绍模型部署案例与调优指南
  • • 持续丰富测试用例覆盖各类模型和推理模式,确保代码质量和向后兼容
  • • 新增Hopper GPU Dockerfile支持,方便构建容器化环境

六、如何升级与快速入门

升级建议

请先备份现有配置,确保环境依赖满足cmake≥3.5。更新方式:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pip install --upgrade lmdeploy==0.8.0

或从源码拉取最新代码,执行编译安装。

快速体验Qwen3模型部署

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from lmdeploy import LMEngine

engine = LMEngine(model_name='Qwen3', device='cuda')
response = engine.chat("你好,介绍一下v0.8.0新版特性。")
print(response)

详细教程及示例可查阅官方文档:https://lmdeploy.internlm.ai/docs


七、总结

InternLM lmdeploy v0.8.0版本带来:

  • • 多设备、多节点并行推理支持
  • • Qwen3系列创新模型完美集成
  • • 深度内核优化与混合精度加速
  • • 灵活API和丰富参数极大提升开发体验
  • • 大量Bug修复保障稳定可靠
  • • 丰富文档和测试覆盖确保项目健壮性

升级到v0.8.0,让你的AI模型推理更快、更稳、更智能!赶紧行动,拥抱AI部署新时代!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 福大大架构师每日一题 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
DeepSeek R1推理
DeepSeek R1和DeepSeek V3的模型结构一致,参数量也一致,R1是基于V3做强化学习得来的。R1主要的创新点都用在训练过程,推理过程和V3是一样的。
aaronwjzhao
2025/02/06
2.6K1
基于LMDeploy部署大模型和量化
大模型具有庞大的参数量,内存开销大,7B模型仅权重就需要14+G内存,采用自回归生成token,需要缓存Attention 的k/v带来巨大的内存开销;动态shape,请求参数不固定,Token逐个生成,且数量不定,因此在部署上都存在一些挑战。
阿提说说
2024/03/01
1.6K0
基于LMDeploy部署大模型和量化
transformers v4.51.0 震撼发布!DeepSeek-V3、Qwen3 齐登场,AI 领域再迎巨变!
2025年4月6日,HuggingFace 正式发布了 Transformers v4.51.0,本次更新堪称 AI 界的“超级大礼包”!不仅新增了 Meta 的 Llama 4、微软的 Phi4-Multimodal、深度求索的 DeepSeek-V3 以及 Qwen3 四大重量级模型,还优化了多项功能,修复了诸多 Bug,让 AI 开发者们直呼“真香”!
福大大架构师每日一题
2025/04/07
6480
transformers v4.51.0 震撼发布!DeepSeek-V3、Qwen3 齐登场,AI 领域再迎巨变!
DeepSpeed v0.16.9重磅发布!解锁全新性能优化与多项关键功能,深度解析升级亮点与技术革新
作为大规模分布式深度学习训练框架的领先者,DeepSpeed持续为AI研发者带来卓越的性能提升和强大功能支持。2025年5月23日,DeepSpeed正式发布v0.16.9版本,此次更新不仅修复了多个关键问题,还引入了多项重要优化和新特性,进一步提升了训练效率和系统稳定性。
福大大架构师每日一题
2025/05/25
970
DeepSpeed v0.16.9重磅发布!解锁全新性能优化与多项关键功能,深度解析升级亮点与技术革新
《书生·浦语大模型实战营》第5课 学习笔记:LMDeploy 量化部署 LLM 实践
这种说法是片面的,虽然计算机计算定点数和整数比计算浮点数快,但是模型的参数仅仅是以定点或者整数的方式存储,在实际计算时,还需要把定点数和整数反量化为浮点数进行数值计算,再把计算的结果以定点数或整数进行存储,这一步的目的是最大化减少计算精度的损失。
流川疯
2024/07/01
5700
《书生·浦语大模型实战营》第5课 学习笔记:LMDeploy 量化部署 LLM 实践
ollama v0.6.6 震撼发布!推理能力翻倍、下载提速 50%,对比 vLLM/LMDeploy 谁更强
AI 开发者们注意了!Ollama v0.6.6 正式发布,带来多项重大优化,包括全新模型支持、下载速度提升、内存泄漏修复等,让本地大模型推理更高效、更稳定!
福大大架构师每日一题
2025/04/18
4480
ollama v0.6.6 震撼发布!推理能力翻倍、下载提速 50%,对比 vLLM/LMDeploy 谁更强
ollama v0.7.0 正式发布!性能大提升,NVIDIA GPU支持更完善,Windows体验全面优化!
2025年5月13日,备受期待的 Ollama v0.7.0 版本终于正式发布!作为 AI 模型运行与管理领域的重要工具,Ollama 持续以卓越的性能和创新功能赢得广大开发者和AI爱好者的青睐。本次 v0.7.0 版本,在稳定性、性能、兼容性多个层面进行了全面优化,尤其是针对 Windows 以及 NVIDIA GPU 运行环境的改进,极大提升了用户体验。此外,对于模型导入、日志管理、API响应等关键细节,也做了诸多细致打磨。本文将深度解读本次版本更新的每一项关键改进,帮助你全面掌握 Ollama v0.7.0 的强大变化!需要注意的是,此版本目前处于预发布状态,需要过几天才能正常使用。
福大大架构师每日一题
2025/05/17
4490
ollama v0.7.0 正式发布!性能大提升,NVIDIA GPU支持更完善,Windows体验全面优化!
NVIDIA发布TensorRT-LLM 0.8.0:加速最先进语言模型
NVIDIA上周宣布TensorRT-LLM版本0.8.0的发布!这个更新标志着在GPU加速推断方面取得了重大进展,使得部署最前沿的语言模型架构变得轻而易举。在TensorRT-LLM,NVIDIA的目标是为您提供极速的执行速度,以解决语言模型任务,而此版本带来了大量增强功能,正是为了实现这一目标。
GPUS Lady
2024/03/14
2820
NVIDIA发布TensorRT-LLM 0.8.0:加速最先进语言模型
企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型
vLLM(Virtual Large Language Model)是由加州大学伯克利分校团队开发的高性能大模型推理框架,其核心特点围绕显存优化、高吞吐量、灵活性和易用性展开。
wayn
2025/04/09
6840
企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型
入门生成式语言模型(Generative Language Models)
训练策略和模型之间有着密切的联系,尤其是在自然语言处理(NLP)和机器学习领域。以下是训练策略和模型的简要介绍:
857技术社区
2024/05/20
8010
入门生成式语言模型(Generative Language Models)
LLM 低成本 GPU 部署方案 lmdeploy 开源!
今天要介绍的是 lmdeploy,一个服务端场景下、transformer 结构 LLM 部署工具。
OpenMMLab 官方账号
2023/08/21
1.2K0
LLM 低成本 GPU 部署方案 lmdeploy 开源!
DeepSpeed v0.16.8震撼发布,支持CPU加速FP16和最新Torch 2.7,性能与兼容性大幅提升!
2025年5月20日,备受深度学习和大规模模型训练者关注的深度加速框架DeepSpeed迎来了v0.16.8版本的正式发布。本次更新不仅修复了多个核心问题,更引入了CPU端FP16数据类型加速支撑,并全面升级至Torch 2.7,极大增强了模型训练的性能和环境兼容性。本文将从版本更新亮点、技术细节深入解析、应用场景,以及未来发展方向等多个维度,为你详细揭秘DeepSpeed v0.16.8版本的强大魅力。
福大大架构师每日一题
2025/05/21
970
DeepSpeed v0.16.8震撼发布,支持CPU加速FP16和最新Torch 2.7,性能与兼容性大幅提升!
如何重现 DeepSeek 推理性能突破
DeepSeek-V3 在多个评测中展现出强大性能,成为当前最受关注的开源大模型之一。由于采用了大规模 MoE 架构,如何优化推理性能,是工程落地上的关键难点。DeepSeek 团队于 2 月相继开源了 DeepEP、DeepGEMM、FlashMLA、EPLB 等关键组件。在开源社区工作的基础上,我们在 RTP-LLM 上完成了优化工作,对齐了 DeepSeek 推理系统的性能。
深度学习与Python
2025/05/21
1270
如何重现 DeepSeek 推理性能突破
当开源创新遇上推理革命:SGLang如何炼就DeepSeek最强开源推理引擎?
2025 年开年,DeepSeek R1 和 V3 重磅发布,其超强的语言建模与推理能力,引爆了全球 AI 社区。与此同时,一个隐藏在超大规模模型身后的技术命题浮出水面:如何让千亿参数超大规模 AI 模型真正达到商业级推理速度?这一问题的答案,隐藏在推理引擎 SGLang 的代码仓库中。该项目由 LMSYS Org 发起,并受到 xAI、NVIDIA、AMD 等巨头的青睐,正在通过多项关键技术突破,重新定义 LLM 推理的效率边界。
机器之心
2025/03/07
3340
当开源创新遇上推理革命:SGLang如何炼就DeepSeek最强开源推理引擎?
NVIDIA TensorRT 10.0大升级!可用性、性能双飞跃,AI模型支持更强大!
仿佛昨日还在探讨NVIDIA TensorRT 8.5版本的新颖特性,而本周,NVIDIA已然推出了全新的TensorRT 10.0。这次也是大版本更新,让我们来扒一扒有哪些让人耳目一新的功能
GPUS Lady
2024/05/27
1.7K0
NVIDIA TensorRT 10.0大升级!可用性、性能双飞跃,AI模型支持更强大!
《书生大模型实战营第3期》进阶岛 第3关: LMDeploy 量化部署进阶实践
我们要运行参数量为7B的InternLM2.5,由InternLM2.5的码仓查询InternLM2.5-7b-chat的config.json文件可知,该模型的权重被存储为bfloat16格式
流川疯
2024/08/24
3270
《书生大模型实战营第3期》进阶岛 第3关: LMDeploy 量化部署进阶实践
DeepSeek 大模型基本认知(V3、R1、Janus、VL2 简单介绍以及本地部署)
“以开源精神和长期主义追求普惠 AGI” 是 DeepSeek 一直以来的坚定信念
山河已无恙
2025/02/25
1.2K0
DeepSeek 大模型基本认知(V3、R1、Janus、VL2 简单介绍以及本地部署)
揭秘 NVIDIA Dynamo:分布式AI推理的高效引擎
随着生成式AI模型规模的爆炸式增长,企业面临推理成本激增、分布式部署复杂度高、资源利用率低等挑战。传统推理框架在跨多节点扩展时,常因KV缓存重复计算、GPU负载不均、通信延迟等问题导致性能瓶颈。NVIDIA Dynamo作为新一代开源推理框架,专为大规模分布式环境设计,通过解耦式服务、智能路由、动态资源调度等创新技术,将推理吞吐量提升30倍以上。本文将深入解析其核心架构、技术优势及实际应用场景,帮助开发者高效部署生成式AI模型,降低推理成本并释放GPU潜能。
数据存储前沿技术
2025/03/29
9570
揭秘 NVIDIA Dynamo:分布式AI推理的高效引擎
ollama v0.6.7震撼发布!支持Meta Llama 4+微软Phi 4推理,性能大飞跃!
大家期待已久的ollama v0.6.7版本终于来了!本次升级带来了多项重磅新特性和性能优化,助力开发者和AI爱好者开启更加高效智能的新篇章。
福大大架构师每日一题
2025/05/04
3430
ollama v0.6.7震撼发布!支持Meta Llama 4+微软Phi 4推理,性能大飞跃!
ollama v0.6.8版本深度解析:性能飞跃、稳定性飞升,AI模型应用更流畅!
2024年伊始,AI技术的快速发展让我们看到了智能应用的无限可能。作为国内外备受关注的开源项目之一,ollama一直在模型优化和体验提升上持续发力。今天,我们带来令人激动的ollama v0.6.8版本更新详解,揭秘此次升级背后的技术亮点和实战优势。
福大大架构师每日一题
2025/05/06
5600
ollama v0.6.8版本深度解析:性能飞跃、稳定性飞升,AI模型应用更流畅!
推荐阅读
DeepSeek R1推理
2.6K1
基于LMDeploy部署大模型和量化
1.6K0
transformers v4.51.0 震撼发布!DeepSeek-V3、Qwen3 齐登场,AI 领域再迎巨变!
6480
DeepSpeed v0.16.9重磅发布!解锁全新性能优化与多项关键功能,深度解析升级亮点与技术革新
970
《书生·浦语大模型实战营》第5课 学习笔记:LMDeploy 量化部署 LLM 实践
5700
ollama v0.6.6 震撼发布!推理能力翻倍、下载提速 50%,对比 vLLM/LMDeploy 谁更强
4480
ollama v0.7.0 正式发布!性能大提升,NVIDIA GPU支持更完善,Windows体验全面优化!
4490
NVIDIA发布TensorRT-LLM 0.8.0:加速最先进语言模型
2820
企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型
6840
入门生成式语言模型(Generative Language Models)
8010
LLM 低成本 GPU 部署方案 lmdeploy 开源!
1.2K0
DeepSpeed v0.16.8震撼发布,支持CPU加速FP16和最新Torch 2.7,性能与兼容性大幅提升!
970
如何重现 DeepSeek 推理性能突破
1270
当开源创新遇上推理革命:SGLang如何炼就DeepSeek最强开源推理引擎?
3340
NVIDIA TensorRT 10.0大升级!可用性、性能双飞跃,AI模型支持更强大!
1.7K0
《书生大模型实战营第3期》进阶岛 第3关: LMDeploy 量化部署进阶实践
3270
DeepSeek 大模型基本认知(V3、R1、Janus、VL2 简单介绍以及本地部署)
1.2K0
揭秘 NVIDIA Dynamo:分布式AI推理的高效引擎
9570
ollama v0.6.7震撼发布!支持Meta Llama 4+微软Phi 4推理,性能大飞跃!
3430
ollama v0.6.8版本深度解析:性能飞跃、稳定性飞升,AI模型应用更流畅!
5600
相关推荐
DeepSeek R1推理
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验