前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >LLM 低成本 GPU 部署方案 lmdeploy 开源!

LLM 低成本 GPU 部署方案 lmdeploy 开源!

作者头像
OpenMMLab 官方账号
发布2023-08-21 18:45:26
发布2023-08-21 18:45:26
1.3K0
举报
文章被收录于专栏:OpenMMLabOpenMMLab

今天要介绍的是 lmdeploy,一个服务端场景下、transformer 结构 LLM 部署工具。

https://github.com/InternLM/lmdeploy

你可能要问,现在 LLM 周边工具这么多,为什么要用 lmdeploy 呢?

专注场景

lmdeploy 实现了 GPU 服务端部署,它有如下特点:

  • 速度有保障:这是 lmdeploy 吞吐量测试结果,已经超过一些常见框架。
  • 支持 Tensor Parallel:眼下 7B 精度是“按下葫芦起了瓢”,终究要运行更大模型。买不到 A100 不用怕,可以把 65B 或更大的模型,切分到多个 3090 上运行。
  • 多并发优化:后端服务必然考虑部署成本,lmdeploy 不止实现了多 batch,更完成了 kv cache 量化,有效降低单用户成本。

功能全面

不止是推理量化工具,lmdeploy 在服务化方面有更多特性:

  • 模型转换:只要是 transformer 结构(InternLM/LLaMa/Vicuna),无论 HuggingFace 或 Meta 格式,都可以转成需要的 bin
  • 交互推理:缓存历史会话的 cache feature,避免重复计算
  • 接入方式:lmdeploy 内部是统一的 API 接口,对外提供了 WebUI、命令行和 gRPC 客户端接入

质量保障

lmdeploy 和队友 OpenCompass(大模型评测一站式平台)合作良好,使得 lmdeploy 的浮点、定点版本,都能高并发执行大量数据集验证, 而非单一的 ppl 结果。只有充分测试,才能保障出优秀且稳定的对话体验。

欢迎使用 lmdeploy !

lmdeploy:(文末点击阅读原文可直达)

https://github.com/InternLM/lmdeploy

OpenCompass:

https://github.com/InternLM/opencompass

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-07-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 OpenMMLab 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档