Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >LLM推理后端性能大比拼,来自BentoML团队的深度评估!

LLM推理后端性能大比拼,来自BentoML团队的深度评估!

作者头像
OpenMMLab 官方账号
发布于 2024-06-17 05:26:55
发布于 2024-06-17 05:26:55
2.7K0
举报
文章被收录于专栏:OpenMMLabOpenMMLab

本文翻译自 BentoML 工程团队 原文链接:https://www.bentoml.com/blog/benchmarking-llm-inference-backends

选择适宜的推理后端来服务大型语言模型 (LLMs) 至关重要。它不仅可以确保用户通过快速生成速度获得最佳体验,还可以通过 token 的高生成率和资源利用率降本增效。如今,开发者可以选择多种由知名研究和行业团队创建的推理后端。但是,为特定用例选择最佳后端可能具有挑战性。

为了帮助开发者做出明智的决策,BentoML 工程团队在 BentoCloud 上,分别使用 vLLM、LMDeploy、MLC-LLM、TensorRT-LLM 和 Hugging Face TGI 搭建了 Llama 3 推理服务,并对推理性能进行了全面的基准测试。

这些推理后端使用以下两个关键指标进行评估:

  • Time to First Token (TTFT):首 token 延时,衡量从发送请求到生成第一个 token 所花费的时间,以毫秒为单位。对于需要即时反馈的应用(如交互式聊天机器人)来说,TTFT 非常重要。更低的延迟可以提高感知性能和用户满意度。
  • Token Generation Rate:token 生成率,评估模型在 decoding 阶段每秒生成的 token 数量,以 token 每秒为单位。token 生成率是衡量模型处理高负载能力的指标。较高的生成率表明模型能够高效地处理多个请求并快速生成响应,适合高并发环境。

1. Benchmark 核心洞见

我们在 BentoCloud 上使用 A100 80GB GPU 实例( gpu.a100.1x80 )对 Llama 3 8B 和 70B 4-bit 量化模型进行了基准测试,涵盖了三种不同的推理负载(10、50 和 100 个并发用户)。以下是我们的一些主要的发现:

Llama 3 8B

Llama 3 8B: 不同后端的 Time to First Token(TTFT)

Llama 3 8B: 不同后端的 token 生成速率

  • LMDeploy:在 token 生成率方面表现最佳。对于 100 个并发用户,每秒生成高达 4000 个 token。在 10 名用户的情况下实现了同类最佳的 TTFT。尽管随着用户数量的增加,TTFT 会逐渐增加,但始终保持在较低水平且在可接受的范围内。
  • MLC-LLM:实现了略低的 decoding 性能,对于 100 个用户而言,每秒可处理约 3500 个 token。然而,在运行基准测试 5 分钟后,性能有所下降,降至每秒约 3100 个 token。当用户数达到 100 时,TTFT 性能会显著下降。
  • vLLM:在所有并发用户级别上实现了同类最佳的 TTFT 性能。但是,其 decoding 性能与 LMDeploy 和 MLC-LLM 相比稍显逊色,每秒 decoding 2300-2500 个 token,与 TGI 和 TRT-LLM 类似。

LLama3 70B 4bit 量化

Llama 3 70B Q4: 不同后端的 Time to First Token (TTFT)

Llama 3 70B Q4: 不同后端的 Token 生成速率

  • LMDeploy:在服务 100 个用户时提供了最佳的 token 生成率,达到每秒 700 token,同时在所有并发用户级别上保持最低的 TTFT。
  • TensorRT-LLM:在 token 生成率方面表现出与 LMDeploy 相似的性能,在低并发用户数时保持了较低的 TTFT。但是,当并发用户数达到 100 时,TTFT 显著增加至 6 秒以上。
  • vLLM:在所有并发用户级别上都表现出了稳定的低 TTFT,这与我们在 8B 模型上看到的情况类似。相比于 LMDeploy 和 TensorRT-LLM,其生成 token 的速度较低,这可能是由于缺乏针对量化模型的推理优化所致。

我们发现,token 生成率与推理后端实现的 GPU 利用率之间存在很强的相关性。能够维持高 token 生成率的后端也显示出接近100%的 GPU 利用率。相反,GPU 利用率较低的后端似乎受到了 Python 进程的限制。

2. 性能之外

在为 LLMs 服务选择推理后端时,除了性能,还有其他一些重要考虑因素。以下是我们认为在选择理想推理后端时需要考虑的关键维度:

3. 开发者体验

用户友好的推理后端应该为在 LLMs 上运行的 AI 应用提供快速开发能力和代码的高可维护性。

稳定版本:LMDeploy、TensorRT-LLM、vLLM 和 TGI 均提供稳定版本。MLC-LLM 目前没有稳定的标记版本,只有夜间构建;一种可能的解决方案是从源代码构建。

模型编译:TensorRT-LLM 和 MLC-LLM 需要明确的模型编译步骤,这可能会在部署期间引入额外的冷启动延迟。

文档

  • LMDeploy、vLLM 和 TGI 的文档全面且包含示例,易于学习。
  • MLC-LLM 的学习曲线适中,这主要是因为需要了解模型编译步骤。
  • 在我们的基准测试中,TensorRT-LLM 的设置最具挑战性。由于没有足够的优质示例,我们不得不通读 TensorRT-LLM、tensorrtllm_backend 和 Triton Inference Server 的文档,转换模型,构建 TRT 引擎,并编写大量配置。

4. 概念

Llama 3

Llama 3 是 Llama LLM 系列的最新版本,有多种配置可供选择。我们在基准测试中使用了以下模型大小。

  • 8B:该模型拥有 80 亿个参数,在计算资源的管理上既强大又易于操作。使用 FP16 时,它需要大约 16GB 的内存(不包括 KV 缓存和其他开销),可以适配单个 A100-80G GPU 实例。
  • 70B 4位量化:将这个拥有 70 亿个参数的模型量化为 4 位,可以显著减少其内存占用。量化通过减少每个参数的位数来压缩模型,在保持性能损失最小的情况下,提供更快的推理速度和更低的内存使用量。使用 4 位 AWQ 量化后,在单个 A100-80G 实例上加载模型权重需要大约 37 GB 的 RAM。在单个 GPU 设备上服务量化后的权重通常可以实现模型的最佳吞吐量,而将模型服务于多个设备则效果不佳。

BentoML 和 BentoCloud

  • BentoML:一个统一的模型服务框架,允许开发者使用任何开源或自定义 AI 模型构建模型推理 API 和多模型服务系统。开发者可以将所有依赖项、运行时配置和模型打包成一个自包含的单元,称为 Bento。
  • BentoCloud:面向企业 AI 团队的 AI 推理平台,提供专为模型推理而定制的完全托管基础架构。开发人员可将其与 BentoML 结合使用,以可扩展且安全的方式部署 AI 模型,并具有自动扩展、内置可观察性和多模型编排等高级功能。

我们确保使用 BentoML 提供的推理后端与使用 Python 原生提供的推理后端相比,只增加了极小的性能开销。开销是由于提供了扩展、可观察性和 IO 序列化功能。使用 BentoML 和 BentoCloud 为我们提供了适用于不同推理后端的一致 RESTful API,从而简化了基准测试设置和操作。

推理后端(Inference backends )

不同的后端提供各种方式来服务 LLM,每种方式都有独特的功能和优化技术。我们测试的所有推理后端均遵循 Apache 2.0 许可证。

  • LMDeploy:推理后端专注于提供高 decoding 速度和高效处理并发请求。它支持各种量化技术,适合部署内存要求较低的大型模型。
  • vLLM:为服务 LLM 而优化的高性能推理引擎。它以高效利用 GPU 资源和快速 decoding 能力而闻名。
  • TensorRT-LLM:推理后端利用了 NVIDIA 的 TensorRT(一种高性能深度学习推理库)。它针对在 NVIDIA GPU 上运行大型模型进行了优化,提供快速推理并支持量化等高级优化。
  • Hugging Face Text Generation Inference (TGI):用于部署和服务 LLM 的工具包。它在 Hugging Face 的生产中用于为 Hugging Chat、推理 API 和推理端点提供支持。
  • MLC-LLM:适用于 LLM 的 ML 编译器和高性能部署引擎。它建立在 Apache TVM 之上,在提供模型之前需要进行编译和权重转换。

将 BentoML 与各种推理后端集成以自托管 LLM 非常简单。BentoML 社区在 GitHub 上提供了以下示例项目来协助您完成整个过程。

BentoVLLM:

https://github.com/bentoml/BentoVLLM

BentoMLCLLM:

https://github.com/bentoml/BentoMLCLLM

BentoLMDeploy:

https://github.com/bentoml/BentoLMDeploy

BentoTRTLLM:

https://github.com/bentoml/BentoTRTLLM

BentoTGI:

https://github.com/bentoml/BentoTGI

5. 基准测试设置

我们按如下方式设置测试环境。

模型

我们测试了 Meta-Llama-3-8B-Instruct 和 Meta-Llama-3-70B-Instruct 4-bit 量化模型。对于 70B 模型,我们执行了 4-bit 量化,以便它可以在单个 A100-80G GPU 上运行。如果推理后端支持本机量化,我们将使用推理后端提供的量化方法。例如,对于 MLC-LLM,我们使用 q4f16_1 量化方案。否则,我们使用 Hugging Face 的 AWQ 量化 casperhansen/llama-3-70b-instruct-awq模型。

请注意,除了启用常见的推理优化技术(例如连续批处理、flash attention 和前缀缓存)之外,我们没有针对每个后端微调推理配置(GPU 内存利用率、最大序列数、分页 KV 缓存块大小等)。这是因为随着我们服务的 LLM 数量越来越多,这种方法无法扩展。提供一组最佳的推理参数是后端性能和易用性的隐性衡量标准。

基准测试客户端

为了准确评估不同 LLM 后端的性能,我们创建了一个自定义基准测试脚本。该脚本通过改变用户负载并在不同并发级别下发送生成请求来模拟真实场景。

我们的基准客户端可以在 20 秒内生成目标数量的用户,之后它会通过发送带有随机选择提示词的并发生成请求来对 LLM 后端进行压力测试。我们测试了 10、50 和 100 个并发用户,以评估系统在不同负载下的表现。

每次压力测试都持续了5分钟,在此期间,我们每5秒收集一次推理指标。这个持续时间足以观察到潜在的性能下降、资源利用瓶颈或其他在较短测试中可能无法显现的问题。

欲了解更多信息,请查看我们基准测试客户端的源代码:https://github.com/bentoml/llm-bench

提示词数据集

我们的测试提示词是从 databricks-dolly-15k 数据集提取的。对于每个测试会话,我们从该数据集中随机选择提示词。我们还测试了有系统提示和无系统提示的文本生成。一些后端可能通过启用前缀缓存来优化常见的系统提示场景。

库版本(Library versions)

  • BentoML: 1.2.16
  • vLLM: 0.4.2
  • MLC-LLM: mlc-llm-nightly-cu121 0.1.dev1251 (No stable release yet)
  • LMDeploy: 0.4.0
  • TensorRT-LLM: 0.9.0 (with Triton v24.04)
  • TGI: 2.0.4

6. 建议

LLM 推理优化领域正在迅速发展,并得到了大量研究。当今最好的推理后端可能很快就会被新来者超越。根据我们在撰写本文时进行的基准测试和可用性研究,我们针对在各种情况下为 Llama 3 模型选择最合适的后端提出了以下建议。

Llama 3 8B

对于 Llama 3 8B 模型,LMDeploy 在所有用户负载下始终提供较低的 TTFT 和最高的 token 生成速度。它的易用性是另一个重要优势,因为它可以动态将模型转换为 TurboMind 引擎格式,从而简化部署过程。在撰写本文时,LMDeploy 对使用滑动窗口注意机制的模型(例如 Mistral 和 Qwen 1.5)提供有限的支持。

即使用户负载增加,vLLM 也能始终保持较低的 TTFT,这使其适用于保持低延迟至关重要的场景。vLLM 提供轻松集成、广泛的模型支持和广泛的硬件兼容性,所有这些都由强大的开源社区提供支持。

MLC-LLM 在较低用户负载下提供最低的 TTFT,并在最初保持较高的 decoding 速度。经过长时间的压力测试后,其 decoding 速度明显下降。尽管面临这些挑战,MLC-LLM 仍显示出巨大的潜力。解决这些性能问题并实施稳定版本可以大大提高其有效性。

Llama 3 70B 4-bit 量化

对于Llama 3 70B 4 bit 量化,LMDeploy 在所有用户负载下都展现出了令人印象深刻的性能,其 TTFT 最低。它还保持了较高的 token 生成速度,使其成为在需要低延迟和高吞吐量应用中理想的选择。LMDeploy 还因其易用性而脱颖而出,它可以在无需进行大量设置或编译的情况下快速转换模型,使其成为快速部署场景的理想选择。

TensorRT-LLM 在吞吐量方面与 LMDeploy 相当,但在高用户负载场景下的延迟表现不如 LMDeploy。由于 TensorRT-LLM 由 Nvidia 支持,我们预计这些差距将很快得到解决。然而,它对模型编译的内在需求以及对 Nvidia CUDA GPU 的依赖是有意的设计选择,这可能在部署时带来限制。

vLLM 能够在用户负载增加的情况下保持较低的 TTFT,其易用性对于许多用户来说是一个显著的优势。然而,截至撰写本文时,后端对于 AWQ 量化的优化不足,导致量化模型的 decoding 性能不尽理想。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 OpenMMLab 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
LLM 推理引擎之争:Ollama or vLLM ?
Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景 - 构建高效、灵活的计算架构的模型推理框架。
Luga Lee
2025/04/24
1790
LLM 推理引擎之争:Ollama or vLLM ?
2080 Ti就能跑70B大模型,上交大新框架让LLM推理增速11倍
原本需要一张16万元的80G A100干的活,现在只需要一张不到2万元的24G 4090就够了!
量子位
2023/12/21
1.5K0
2080 Ti就能跑70B大模型,上交大新框架让LLM推理增速11倍
使用TensorRT-LLM进行生产环境的部署指南
TensorRT-LLM是一个由Nvidia设计的开源框架,用于在生产环境中提高大型语言模型的性能。该框架是基于 TensorRT 深度学习编译框架来构建、编译并执行计算图,并借鉴了许多 FastTransformer 中高效的 Kernels 实现,并且可以利用 NCCL 完成设备之间的通讯。
deephub
2024/03/11
1.8K0
使用TensorRT-LLM进行生产环境的部署指南
A卡跑大模型,性能达到4090的80%,价格只有一半:陈天奇TVM团队出品
自预训练大模型兴起以来,人们面临的算力挑战就变得越来越大。为此,人们为大语言模型(LLM)提出了许多训练和推理的解决方案。显然,大多数高性能推理解决方案都基于 CUDA 并针对英伟达 GPU 进行了优化。
机器之心
2023/09/08
1.3K0
A卡跑大模型,性能达到4090的80%,价格只有一半:陈天奇TVM团队出品
DeepSeek R1推理
DeepSeek R1和DeepSeek V3的模型结构一致,参数量也一致,R1是基于V3做强化学习得来的。R1主要的创新点都用在训练过程,推理过程和V3是一样的。
aaronwjzhao
2025/02/06
2.6K1
大模型压缩量化方案怎么选?无问芯穹Qllm-Eval量化方案全面评估:多模型、多参数、多维度
最近,来自清华大学电子工程系、无问芯穹和上海交通大学的研究团队展开了一次量化方案的“大摸底”,在《Evaluating Quantized Large Language Models 》(Qllm-Eval)这项工作中评估了不同模型、量化不同张量类型、使用不同量化方法、在不同任务上的性能,本篇工作已被ICML'24接收。Qllm-Eval列举出很多大模型落地环节应当关注的模型能力,对产业中的模型量化工作实践,比如如何选取量化方法、针对哪些层或组件进行优化等问题具有指导意义。
机器之心
2024/06/27
3990
大模型压缩量化方案怎么选?无问芯穹Qllm-Eval量化方案全面评估:多模型、多参数、多维度
Llama2推理RTX3090胜过4090,延迟吞吐量占优,但被A800远远甩开
大型语言模型 (LLM) 在学界和业界都取得了巨大的进展。但训练和部署 LLM 非常昂贵,需要大量的计算资源和内存,因此研究人员开发了许多用于加速 LLM 预训练、微调和推理的开源框架和方法。然而,不同硬件和软件堆栈的运行时性能可能存在很大差异,这使得选择最佳配置变得困难。
机器之心
2023/12/28
1.1K0
Llama2推理RTX3090胜过4090,延迟吞吐量占优,但被A800远远甩开
LLM推理提速2.8倍,CMU清华姚班校友提出「投机式推理」引擎SpecInfer,小模型撬动大模型高效推理
机器之心专栏 机器之心编辑部 近日,来自卡耐基梅隆大学(CMU)的 Catalyst Group 团队发布了一款「投机式推理」引擎 SpecInfer,可以借助轻量化的小模型来帮助大模型,在完全不影响生成内容准确度的情况下,实现两到三倍的推理加速。 随着 ChatGPT 的出现,大规模语言模型(LLM)研究及其应用得到学术界和工业界的广泛关注。一方面,开源的 LLM 模型不断涌现,比如 OPT、BLOOM、LLaMA 等,这些预训练模型的推出极大地促进了 LLM 的相关研究,使得 LLM 可以被应用于解决
机器之心
2023/05/31
1.3K0
LLM推理提速2.8倍,CMU清华姚班校友提出「投机式推理」引擎SpecInfer,小模型撬动大模型高效推理
TensorRT-LLM:开启Jetson平台上大语言模型推理的新篇章
TensorRT-LLM for Jetson是针对Jetson平台优化的高性能大语言模型(LLM)推理库,专为Jetson AGX Orin等高性能计算设备设计。该库集成了先进的量化技术、注意力核函数以及分页键值(KV)缓存,旨在提供高效的LLM推理性能。
GPUS Lady
2024/11/28
3740
TensorRT-LLM:开启Jetson平台上大语言模型推理的新篇章
英伟达打脸AMD:H100在软件加持下,AI性能比MI300X快47%!
12月14日消息,AMD于本月初推出了其最强的AI芯片Instinct MI300X,其8-GPU服务器的AI性能比英伟达H100 8-GPU高出了60%。对此,英伟达于近日发布了一组最新的H100与MI300X的性能对比数据,展示了H100如何使用正确的软件提供比MI300X更快的AI性能。
芯智讯
2023/12/19
2840
英伟达打脸AMD:H100在软件加持下,AI性能比MI300X快47%!
比H100快20倍还更便宜!英伟达的“掘墓人”出现了?
6月27日消息,芯片初创公司Etched近日宣布推出了一款针对 Transformer架构专用的ASIC芯片 “Sohu”,并声称其在AI大语言模型(LLM)推理性能方面击败了英伟达(NVIDIA)最新的B200 GPU,AI性能达到了H100的20倍。这也意味着Sohu芯片将可以大幅降低现有AI数据中心的采购成本和安装成本。
芯智讯
2024/07/02
1220
比H100快20倍还更便宜!英伟达的“掘墓人”出现了?
比HuggingFace快24倍!伯克利神级LLM推理系统开源,碾压SOTA,让GPU砍半
过去2个月,来自UC伯克利的研究人员给大语言模型们安排了一个擂台——Chatbot Arena。
新智元
2023/08/05
1K0
比HuggingFace快24倍!伯克利神级LLM推理系统开源,碾压SOTA,让GPU砍半
揭秘 NVIDIA Dynamo:分布式AI推理的高效引擎
随着生成式AI模型规模的爆炸式增长,企业面临推理成本激增、分布式部署复杂度高、资源利用率低等挑战。传统推理框架在跨多节点扩展时,常因KV缓存重复计算、GPU负载不均、通信延迟等问题导致性能瓶颈。NVIDIA Dynamo作为新一代开源推理框架,专为大规模分布式环境设计,通过解耦式服务、智能路由、动态资源调度等创新技术,将推理吞吐量提升30倍以上。本文将深入解析其核心架构、技术优势及实际应用场景,帮助开发者高效部署生成式AI模型,降低推理成本并释放GPU潜能。
数据存储前沿技术
2025/03/29
6890
揭秘 NVIDIA Dynamo:分布式AI推理的高效引擎
使用TensorRT-LLM进行高性能推理
LLM的火爆之后,英伟达(NVIDIA)也发布了其相关的推理加速引擎TensorRT-LLM。TensorRT是nvidia家的一款高性能深度学习推理SDK。此SDK包含深度学习推理优化器和运行环境,可为深度学习推理应用提供低延迟和高吞吐量。而TensorRT-LLM是在TensorRT基础上针对大模型进一步优化的加速推理库,它号称可以增加4倍的推理速度。
deephub
2023/10/23
2.1K0
使用TensorRT-LLM进行高性能推理
iPhone、Mac上都能跑,刷屏的Llama 2究竟性能如何?
昨天凌晨,相信很多人都被 Meta 发布的 Llama 2 刷了屏。OpenAI 研究科学家 Andrej Karpathy 在推特上表示,「对于人工智能和 LLM 来说,这确实是重要的一天。这是目前能够把权重提供给所有人使用的最为强大的 LLM。」
机器之心
2023/08/08
4980
iPhone、Mac上都能跑,刷屏的Llama 2究竟性能如何?
00后华裔小哥哈佛辍学组团挑战英伟达,史上最快AI芯片Sohu推理性能超H100二十倍!
这一次,号称专为LLM推理加速打造的Sohu芯片,已经成超越Groq,成为最强AI芯片。
新智元
2024/06/27
2210
00后华裔小哥哈佛辍学组团挑战英伟达,史上最快AI芯片Sohu推理性能超H100二十倍!
史上最快AI芯片「Sohu」,速度10倍于B200,哈佛辍学生打造
今天凌晨,科技圈迎来了一个重要新闻。美国芯片创业公司 Etched 推出了自己的第一块 AI 芯片 Sohu,它运行大模型的速度比英伟达 H100 要快 20 倍,比今年 3 月才推出的顶配芯片 B200 也要快上超过 10 倍。
机器之心
2024/06/27
2080
史上最快AI芯片「Sohu」,速度10倍于B200,哈佛辍学生打造
KubeAI大模型推理加速实践|得物技术
最近我们在生产环境批量部署了大模型专用推理集群,并成功让包括70B在内的大模型推理速度提升50%,大幅缩减部署成本,稳定应用于生产环境。本文基于我们在部署大模型推理集群时的一些经验,分享一些有效提升大模型的推理速度方法。最后,我们在结尾处推荐了几个经过我们评测且表现优异的大模型推理框架。希望这些建议能帮助读者在项目中选择适合自己的推理框架。
得物技术
2024/05/21
4930
KubeAI大模型推理加速实践|得物技术
仅需Llama3 1/17的训练成本,Snowflake开源128x3B MoE模型
刚刚,数据管理和仓库提供商 Snowflake 宣布加入 LLM 混战,发布了一款专注于企业级应用的顶级大型语言模型(LLM)——Snowflake Arctic。
机器之心
2024/04/26
2520
仅需Llama3 1/17的训练成本,Snowflake开源128x3B MoE模型
全球最大开源模型再刷爆纪录!4800亿参数MoE击败Llama 3、Mixtral
就在刚刚,拥有128位专家和4800亿参数的Arctic,成功登上了迄今最大开源MoE模型的宝座。
新智元
2024/04/26
1990
全球最大开源模型再刷爆纪录!4800亿参数MoE击败Llama 3、Mixtral
推荐阅读
LLM 推理引擎之争:Ollama or vLLM ?
1790
2080 Ti就能跑70B大模型,上交大新框架让LLM推理增速11倍
1.5K0
使用TensorRT-LLM进行生产环境的部署指南
1.8K0
A卡跑大模型,性能达到4090的80%,价格只有一半:陈天奇TVM团队出品
1.3K0
DeepSeek R1推理
2.6K1
大模型压缩量化方案怎么选?无问芯穹Qllm-Eval量化方案全面评估:多模型、多参数、多维度
3990
Llama2推理RTX3090胜过4090,延迟吞吐量占优,但被A800远远甩开
1.1K0
LLM推理提速2.8倍,CMU清华姚班校友提出「投机式推理」引擎SpecInfer,小模型撬动大模型高效推理
1.3K0
TensorRT-LLM:开启Jetson平台上大语言模型推理的新篇章
3740
英伟达打脸AMD:H100在软件加持下,AI性能比MI300X快47%!
2840
比H100快20倍还更便宜!英伟达的“掘墓人”出现了?
1220
比HuggingFace快24倍!伯克利神级LLM推理系统开源,碾压SOTA,让GPU砍半
1K0
揭秘 NVIDIA Dynamo:分布式AI推理的高效引擎
6890
使用TensorRT-LLM进行高性能推理
2.1K0
iPhone、Mac上都能跑,刷屏的Llama 2究竟性能如何?
4980
00后华裔小哥哈佛辍学组团挑战英伟达,史上最快AI芯片Sohu推理性能超H100二十倍!
2210
史上最快AI芯片「Sohu」,速度10倍于B200,哈佛辍学生打造
2080
KubeAI大模型推理加速实践|得物技术
4930
仅需Llama3 1/17的训练成本,Snowflake开源128x3B MoE模型
2520
全球最大开源模型再刷爆纪录!4800亿参数MoE击败Llama 3、Mixtral
1990
相关推荐
LLM 推理引擎之争:Ollama or vLLM ?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档