Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >如何高效部署大模型?CMU最新万字综述纵览LLM推理MLSys优化技术

如何高效部署大模型?CMU最新万字综述纵览LLM推理MLSys优化技术

作者头像
机器之心
发布于 2024-01-17 11:19:42
发布于 2024-01-17 11:19:42
4190
举报
文章被收录于专栏:机器之心机器之心

机器之心专栏

机器之心编辑部

近日,CMU Catalyst 团队推出了一篇关于高效 LLM 推理的综述,覆盖了 300 余篇相关论文,从 MLSys 的研究视角介绍了算法创新和系统优化两个方面的相关进展。

人工智能(AI)的快速发展背景下,大语言模型(LLMs)凭借其在语言相关任务上的杰出表现,已成为 AI 领域的重要推动力。然而,随着这些模型在各种应用中的普及,它们的复杂性和规模也为其部署和服务带来了前所未有的挑战。LLM 部署和服务面临着密集的计算强度和巨大的内存消耗,特别是在要求低延迟和高吞吐量的场景中,如何提高 LLM 服务效率,降低其部署成本,已经成为了当前 AI 和系统领域亟需解决的问题。

来自卡内基梅隆大学的 Catalyst 团队在他们的最新综述论文中,从机器学习系统(MLSys)的研究视角出发,详细分析了从前沿的 LLM 推理算法系统的革命性变革,以应对这些挑战。该综述旨在提供对高效 LLM 服务的当前状态和未来方向的全面理解,为研究者和实践者提供了宝贵的洞见,帮助他们克服有效 LLM 部署的障碍,从而重塑 AI 的未来。

论文链接:https://arxiv.org/abs/2312.15234

该论文的第一作者是卡内基梅隆大学的 Xupeng Miao(苗旭鹏)博士后研究员,合作者还包括 Tianqi Chen 和 Zhihao Jia 助理教授。此外,其他学生作者也均来自于 CMU Catalyst Group 实验室,该实验室由 Zhihao Jia 与 Tianqi Chen(陈天奇)在 CMU 共同主持,致力于集成来自于机器学习算法、系统、硬件等多方面的优化技术,构造自动化的机器学习系统。此前,该实验室还推出了 SpecInfer, MLC-LLM, SpotServe [ASPLOS‘24] 等开源项目,推进 LLM 大模型相关系统的研究和应用。实验室主页:https://catalyst.cs.cmu.edu。

综述概览

该综述系统地审视了现有 LLM 推理技术,覆盖了 300 余篇相关论文,从算法创新系统优化两个方面展开介绍。论文以此为基础,对现有工作设计了一套清晰且详尽的分类法,突出了各种方法的优势和局限性,逐类别搜集整理并介绍了每种方法的相关论文。除此之外,论文还对当前的主流 LLM 推理框架在系统设计与实现方面进行了深入的对比和分析。最后,作者对未来如何继续提高 LLM 推理效率进行了展望,在技术层面提出了六大潜在发展方向

分类法

算法创新

这一节对提出的各种算法和技术进行了全面分析,旨在改进大规模 Transformer 模型推理的原生性能缺陷,包括解码算法架构设计、和模型压缩等等。

解码算法:在这一部分中,我们回顾了在图 2 中展示的几种 LLMs 推理优化过程的新颖解码算法。这些算法旨在减少计算复杂度,并提高语言模型推理在生成任务中的总体效率,包括:

  • 非自回归解码:现有 LLMs 的一个主要限制是默认的自回归解码机制,它逐个顺序生成输出 token。为解决这一问题,一种代表性的工作方向是非自回归解码 [97, 104, 108,271],即放弃自回归生成范式,打破单词依赖并假设一定程度的条件独立性,并行解码输出 token。然而,尽管这类方法解码速度有所提高,但大多数非自回归方法的输出质量仍不如自回归方法可靠。
  • 投机式推理:另一类工作是通过投机执行思想 [47] 实现并行解码。自回归 LLM 推理过程中的每个解码步骤都可以被视为带有条件分支的程序执行语句,即决定接下来生成哪个 token。投机式推理 [51, 155] 先使用较小的草稿模型进行多步解码预测,然后让 LLM 同时验证这些预测以实现加速。然而,将投机解码应用于 LLMs 时仍然存在一些实际挑战,例如,如何使解码预测足够轻量且准确,以及如何借助 LLMs 实现高效的并行验证。SpecInfer [177] 首次引入基于 tree-based speculative decoding 和 tree attention,并提出了一个低延迟 LLM 服务系统实现,该机制也被后续多个工作 [48, 118, 168, 185, 229, 236, 274, 310] 直接采用。
  • 提前退出:这类方法主要利用 LLMs 的深层多层结构,在中间层提前推出推理,中间层输出可以通过分类器转化成输出的 token,从而降低推理开销 [117, 147, 163, 167, 234, 272, 282, 291, 308],它们也被称为自适应计算 [68, 219]。
  • 级联推理:这类方法级联了多个不同规模的 LLM 模型,用于分别处理不同复杂度的推理请求,代表性工作包括 CascadeBERT [157] 和 FrugalGPT [53]。

架构设计:

  • 配置缩小:直接缩小模型配置。
  • 注意力简化:最近出现了很多研究工作,它们主要是将之前的长序列高效注意力机制 [240] 应用在 LLM 上,以缩短上下文,减少 KV 缓存,以及注意力复杂度,同时略微降低解码质量(如滑动窗口 [129, 299]、哈希 [198]、dilated [74]、动态选择等等)。表 1 中总结了一些近期的热门方法和之前的工作之间的对应关系。
  • 激活共享:这类方法主要是通过共享 attention 计算的中间激活来降低推理内存开销,代表性工作包括 MQA [220] 和 GQA [32]。
  • 条件计算:这类方法主要是指稀疏专家混合模型(Sparse MoE),比如最近大火的 Mistrial 7Bx8 模型就属于此类。
  • 循环单元:尽管 Transformer 已经替代了 RNN 模型,但考虑到注意力机制的二次复杂性,人们始终未曾放弃将 recurrent unit 机制重新引入 LLM 的尝试,比如 RWKV [200]、RetNet [235],以及状态空间模型 [91, 102, 103, 176] 等等。

模型压缩:

  • 知识蒸馏:这类方法以大型的教师模型为监督,训练一个小型的学生模型。大多数之前的方法都在探索白盒蒸馏 [106, 133, 214, 233, 255],需要访问整个教师模型的参数。由于基于 API 的 LLM 服务(如 ChatGPT)的出现,一些黑盒蒸馏模型吸引了很多关注 [238,59, 273, 201, 313],这些模型通常具有更少的模型参数,与原始 LLMs(如 GPT-4 [195])相比,在各种下游任务上表现出了相当的性能。
  • 网络剪枝:过去几年中,网络剪枝方法 [180, 215, 215] 已被广泛研究,但并非所有方法都可以直接应用于 LLMs,需要考虑重新训练可能带来的过高计算成本,以及评估剪枝是否可以在底层系统实现上取得效率提升。大致上可以分为结构化剪枝 [80, 149, 174, 216, 172] 和半结构化稀疏化 [40, 87, 232, 251, 276] 等。

系统优化

本节研究 LLM 推理系统优化技术,以加速 LLM 推理,而不改变 LLM 计算语义。这一工作的目标是通过改进用于大型语言模型推理的底层系统和框架来提高系统效率,包括低比特量化、并行计算内存管理、请求调度、和内核优化等等,详细内容可以参见论文原文。

软件框架

论文还对一些目前最先进的基于 GPU 的开源 LLM 推理系统进行了深入的分析,并从多个方面总结了它们在设计与实现伤的差异。

未来方向

  • 专用硬件加速器的发展:生成型 LLM 服务效率的显著提升可能在很大程度上依赖于专用硬件加速器的发展和提升,尤其是软硬协同设计方法。例如,让内存单元更加接近处理单元,或是针对 LLM 算法数据流优化芯片架构,这些硬件优化可以在很大程度上为 LLM 推理在软件层面带来便利和机会。
  • 高效有效的解码算法:开发更高效的解码算法可以显著提高服务效率。受对实时应用更快生成速度的需求驱动,一个有前途的方向是广义的投机式推理(generalized speculative inference),不仅会带来显著加速,同时保持相同的生成质量。正如 SpecInfer 中所指出的,广义的投机式推理中,用于生成草稿 token 的小模型可以被替换为任何快速的 token 生成方法,比如自定义函数、召回方法、甚至早停机制和非自回归解码等等。
  • 长上下文 / 序列场景优化:随着应用场景变得更加复杂,处理更长的上下文或序列的需求不断增长。服务长序列负载的 LLM 需要解决算法和系统两方面的挑战。在算法方面,它们依然面临长度泛化失效问题,甚至可能出现 “loss in the middle” 的情况。目前的解法主要是通过召回增强、序列压缩和缓存来尽可能缩短序列长度并保存相关信息。
  • 探索替代基础架构:尽管 Transformer 模型和自注意力机制目前主导着 LLM 领域,但探索替代架构是未来研究的一个有前景的方向。例如,一些最新研究探索了无注意力方法,使用纯 MLP(多层感知机)架构来替代注意力机制,可能会改变目前 LLM 推理优化的格局。
  • 在复杂环境中的部署探索:随着 LLM 应用的扩展,探索并优化它们在各种复杂环境中的部署成为一个关键的未来方向。这一探索不仅限于传统的基于云的部署,还包括边缘计算、混合计算(cloud+edge)、去中心化计算以及廉价的可抢占资源等。
  • 特定需求的自动适应:应用特定需求的多样性创造了一系列创新的 LLM 服务优化机会,例如模型微调(parameter-efficient fine-tuning)、向量数据库检索、多模态负载等等。这些独特的挑战也要求将 LLM 服务技术自动且顺利地集成到现有 IT 基础设施中,将优化空间扩展到整个 LLM 生命周期。

总结

总的来说,该综述不仅是对当前 LLM 服务优化研究的全面概述,也为未来在这一领域的探索和发展指明了方向。通过深入了解这些先进的解决方案,研究者和实践者可以更好地理解和应对在实际应用中部署大型语言模型时面临的挑战。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-01-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
微软WHQL认证有哪些步骤?驱动程序签名及发布
微软WHQL认证是指MicrosoftWindows Hardware Quality Labs(Windows硬件质量实验室)对硬件设备的检测认证,这个实验室主要从事计算机硬件产品、驱动程序与Windows操作系统的兼容性和稳定性测试。驱动程序通过WHQL认证,可以确保硬件设备能够在Windows系统中运行,保证了设备的兼容性和稳定性。
沃通WoTrus数字证书
2023/03/23
7090
微软WHQL认证有哪些步骤?驱动程序签名及发布
让安全启动更加安全
在上篇文章中,我们介绍了安全启动Secure Boot的几个核心的概念。在现实中,用户的计算机通常是加密的,使用TPM来保存加密口令是一个很好的解决方案——用户可以拥有一个加密磁盘,但不必在每次重启时重复输入口令。此外还可以确保当硬盘被恶意者从电脑上拔出来时,由于密钥保存在TPM中,密钥不会泄露。
绿盟科技研究通讯
2023/12/12
5940
让安全启动更加安全
代码签名证书买卖黑市的真实情况
代码签名证书 根据研究人员的调查发现,目前地下网络犯罪市场买卖代码签名证书的情况越来越频繁了,而这些伪造的代码签名证书可以帮助攻击者让自己的恶意软件绕过安全防护产品的检测。不过大家暂时还不用担心,因为这种伪造的代码签名证书价格比较昂贵,只有少数黑客能够负担得起。 众所周知,如果恶意软件使用了知名公司(信誉评级良好)所颁发的证书来给程序代码进行签名的话,这种恶意软件是目前最难检测到的了。而且长期以来,黑客一直都在不断从证书认证机构(CAs)、合法公司以及相关合作伙伴的网络系统中窃取这类代码签名证书。 绝大
FB客服
2018/03/22
1.3K0
代码签名证书买卖黑市的真实情况
EV代码签名证书
在互联网世界中,很多人都会通过下载各种软件进行工作、生活,这其中就会用到代码签名证书,否则将会被网站提示“软件不安全”。
柳絮云泡泡
2023/03/07
1.1K0
EV代码签名证书
SecureBoot101:初始安全启动
几十年来,个人电脑一直受到病毒、蠕虫和其他恶意软件的困扰。最早的一些个人电脑病毒是以引导扇区病毒的形式传播的:它们以代码形式存在于软盘的引导扇区中,当用户使用受感染的 DOS 软盘启动计算机时,病毒就会从一台计算机传播到另一台计算机。虽然随着软盘的淘汰和互联网连接的普及,其他病毒传播方式也逐渐受到重视,但预启动的恶意软件对系统安全仍造成巨大威胁。通过在操作系统内核获得计算机控制权之前执行,恶意软件可以 "隐藏 "起来,从而使病毒扫描程序几乎无法检测到恶意软件。
绿盟科技研究通讯
2023/12/05
7190
SecureBoot101:初始安全启动
关于代码签名证书的用途和类型讲解,这些知识需要了解
如今网站和软件的数量快速增长,这就会导致用户在使用软件的时候,需要先确定软件的合法性和正规性,避免下载到风险软件,代码签名证书能够保障软件来源合法,确定软件内容的原创性,关于代码签名证书的用途和类型介绍,使用代码签名证书有何益处?
用户8715145
2021/11/12
5340
BIOS与UEFI介绍与使用
描述:英特尔已经宣布计划在2020年之前将所有芯片组完全替换为UEFI,所以说BIOS即将迎来生命周期的最后一个周期;但是我们现在UEFI附带的新电脑仍将其称为“BIOS”,符合用户的叫法;
全栈工程师修炼指南
2022/09/28
4K0
BIOS与UEFI介绍与使用
《探秘计算机启动幕后英雄:BIOS/UEFI与GRUB/bootloader》
在我们日常使用计算机的过程中,按下电源键到操作系统界面出现,这看似瞬间的过程,背后却隐藏着一系列复杂且精妙的操作。其中,BIOS/UEFI与GRUB/bootloader扮演着举足轻重的角色,它们就像计算机启动流程中的幕后英雄,默默协作,确保系统顺利启动。今天,就让我们深入探寻它们的奥秘,揭开计算机启动的神秘面纱。
程序员阿伟
2025/04/26
1310
《探秘计算机启动幕后英雄:BIOS/UEFI与GRUB/bootloader》
如何给驱动程序签名?怎么做微软WHQL认证?
从 Windows Vista 开始,基于 x64 的 Windows 版本要求在内核模式下运行的所有软件(包括驱动程序)进行数字签名才能加载。未签名的驱动程序被系统阻止,数字签名可确保驱动程序已由受信任的开发人员或供应商发布,并且其代码未被修改。
沃通WoTrus数字证书
2023/03/14
1.2K0
如何给驱动程序签名?怎么做微软WHQL认证?
新规要求OV 代码签名证书私钥强制硬件存储,“软证书”即将停发!
根据CA /B论坛最新标准要求,从 2023 年 06 月 01 日 开始,OV代码签名证书私钥必须存储在FIPS 140 2级以上、Common Criteria EAL 4级以上或同等认证级别的硬件上,与 EV代码签名证书的私钥保护机制保持一致,目的是加强代码签名证书的私钥保护。详情请参阅代码签名基线要求最新版本。
沃通WoTrus数字证书
2023/03/31
8910
新规要求OV 代码签名证书私钥强制硬件存储,“软证书”即将停发!
2019年最新WHQL认证申请流程
WHQL是Windows Hardware Quality Lab.的简称, 翻译成中文是windows系统硬件质量实验室。实验室主要执行windows徽标计划,检验硬件产品和驱动程序在windows系统下的兼容性和稳定性。
安信WHQL实验室
2019/03/28
1.5K0
关于启动引导的那些事儿(下) : UEFI与GPT
MBR的缺点主要在于他是个程序。引导程序和磁盘分区原本是不太相关的两个事情,但是MBR却用一种及其原始的方式把它们混合在了一起。此外,MBR程序本身也带来了不少麻烦。由于MBR运行在实模式,因此它的编写与引导过程的其它程序有诸多不同。而且由于MBR是直接写在引导扇区的,并不是以文件的形式存在,因此对MBR进行管理也十分麻烦。缺少程序校验也使黑客可以通过更改MBR,让病毒在操作系统引导前就完成载入。总而言之,MBR的设计真的太过时了。
KAAAsS
2022/01/14
3.4K0
系统启动流程详解:从BIOS/UEFI到GRUB/Bootloader
这里推荐一篇实用的文章:《揭秘!Vue3.5响应式重构如何让内存占用减少56%》,作者:【前端欧阳】。
Echo_Wish
2024/11/19
3240
系统启动流程详解:从BIOS/UEFI到GRUB/Bootloader
笔记本重装Win7,进不U启的解决方法。
很多新型号的笔记本或台式机主板都开始支持UEFI模式,不过这种模式让很多打算给电脑换win7或win8的用户头疼不已,尤其是笔记本用户。比如,笔记本预装的是win8系统,用了一段时间后打算换成win7,可是在装系统的过程中会遇到类似这样的问题:无法进入U启,无法识别硬盘、系统无法正确引导……等问题。
李洋博客
2021/06/16
1.6K0
使用代码签名证书对EXE文件进行签名?
如果您想知道如何培养用户对您的应用程序或可执行文件的信任,对应用程序或可执行文件 (exe) 进行数字签名是确保这一点的最佳方法。
Gworg
2023/10/18
2K0
什么是代码签名证书?
用户信任他们开发的软件对于软件开发人员来说至关重要。用户完全有权知道他们正在下载的软件来自受信任的来源,而不是任何恶意的第三方。代码签名证书可帮助您获得同样的信任。
柳絮云泡泡
2023/03/28
8480
什么是代码签名证书?
代码签名证书
随着全社会网络安全意识的空前高涨,个人隐私及信息安全保护已经成为我们日常生活关注的焦点。我们日常使用的电脑软件,手机APP等都是需要关注防范的重点,稍有疏忽就可能成为泄露个人信息的罪魁祸首,因此,权威可信的软件是我们下载使用时的首选。由此一来,软件开发商为了让自己的软件具有高可信度,在软件公开发布前使用代码签名证书就显得十分必要。今天,我们就一起了解下软件使用代码签名证书的好处和必要性。
JoySSL
2023/03/09
5830
代码签名证书
不含 TPM 芯片?抱歉,你的电脑不能升级 Windows 11
作者 | SUZANNE HUMPHRIES  译者 | 王强 策划 | 罗燕珊  如果你最近一直在关注科技新闻的话,可能已经听说微软最新一代 Windows 11 操作系统列出的最低硬件要求引发了不小的骚动。新的基础硬件要求之一是 TPM 2.0 芯片。但究竟什么是 TPM 2.0 呢,为什么微软需要它来运行新一代 Windows? TPM(Trusted Platform Module,可信平台模块),它是一种安装在计算机主板上,用来提升安全性的芯片。在这篇文章中,我们深入研究了这个鲜为人知的组件,
深度学习与Python
2023/04/01
1.2K0
不含 TPM 芯片?抱歉,你的电脑不能升级 Windows 11
Google的Titan与可信计算
近日,谷歌宣称定制Titan芯片,为谷歌的重计算负载主机,提供硬件验证的启动和端到端认证的信任根。并声称在Google Cloud Platform中加固了服务器的各个层面,包括Google设计的硬件,受控的固件栈,OS镜像,加固过的hypervisor等。主要包括两个方面:secure boot的增强和基于硬件的身份加密。
段立功
2022/06/13
7470
代码签名证书的区别是什么?代码签名证书有什么用?
很多软件中都会存在代码签名证书,这些证书通常是作为保护软件内容而存在的,但是很多人会发现代码签名证书的数字认证厂商是非常多的,那么不同数字认证厂家的代码签名证书的区别是什么?代码签名证书到底有什么用呢
用户8715145
2021/11/11
6230
推荐阅读
相关推荐
微软WHQL认证有哪些步骤?驱动程序签名及发布
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档