前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >策略学习助力LLM推理效率:MIT与谷歌团队提出异步并行生成新范式

策略学习助力LLM推理效率:MIT与谷歌团队提出异步并行生成新范式

作者头像
机器之心
发布于 2025-05-22 02:00:15
发布于 2025-05-22 02:00:15
1170
举报
文章被收录于专栏:机器之心机器之心

金天,麻省理工学院(MIT)计算机科学与人工智能实验室(CSAIL)博士五年级学生,师从 Michael Carbin 和 Jonathan Ragan-Kelley。他主要研究机器学习与编程系统的结合。此前曾在 IBM Research 主导实现深度神经网络在 IBM 主机上的推理部署。本科毕业于 Haverford College,获计算机科学与数学双学位。

鄭鈺熹,麻省理工学院 CSAIL 博士三年级学生,师从 Michael Carbin。她的研究方向为编程语言与机器学习的交叉领域。

大语言模型(LLM)的生成范式正在从传统的「单人书写」向「分身协作」转变。传统自回归解码按顺序生成内容,而新兴的异步生成范式通过识别语义独立的内容块,实现并行生成。

如图所示,传统方法(下)按顺序生成所有内容,而异步生成(上)同时处理多个互不依赖的内容块。对比顺序生成,异步生成在 AlpacaEval 长度控制评测中实现 1.21-1.93× 的几何平均提速,对应生成质量变化(胜率)为 +2.2% 至 -7.1%。

MIT 与谷歌研究团队在最新研究 PASTA(PArallel STructure Annotation)中首次从策略学习(policy learning)角度探索异步生成范式的可能。

  • 论文标题:Learning to Keep a Promise: Scaling Language Model Decoding Parallelism with Learned Asynchronous Decoding
  • 论文地址:https://arxiv.org/abs/2502.11517

研究团队不依赖人工设计规则来识别异步生成机会,而通过策略学习让模型自主发现并标注这些机会,系统地优化质量与速度的平衡。这种方法使 LLM 根据内容特点自适应地确定最佳异步生成策略,为生成效率优化开创学习驱动的全新路径。

PASTA-LANG:划分独立内容的标记语言

研究人员首先开发了一种新的标记语言 PASTA-LANG,专为异步生成而设计。大模型使用它在生成过程中标记语义独立块,指示并行生成机会。这种语言包含三种核心标记:

  • <promise topic="..."/>:标记语义独立的内容块,通过 topic 属性总结内容主题,大模型用它表明「这部分将会由一个独立子线程异步生成」。
  • <async>...</async>:在 <promise> 后标识对应的异步生成的内容,表示这一部分由独立子线程负责生成。
  • <sync/>:在主线程标记同步点,表明后续内容生成将会依赖于之前的异步生成,主线程需等待所有异步线程完成后才能继续。

这些标记共同构成了一种「承诺-履行」的生成模式:大模型首先通过 <promise/> 标记「承诺」生成某些内容,推理系统再创建异步线程来「履行」这些承诺,最后在 <sync/> 处将异步内容组合。

如图所示的线段长度计算案例展示了这一机制:面对计算任务(A),大模型首先识别出「坐标提取」和「长度公式」两个可并行的独立部分,生成相应的 <promise/> 标记(B),随后用 <sync/> 标记(E)表明需要等待这些内容完成。图中红色和绿色区域(C、D)显示了两个异步线程并行生成的内容,最终在(F)处组合成完整解答。

这个新的标记语言简单,可扩展性强,开启了新的未来研究范式。

PASTA 训练:从标注到优化的双阶段学习

如图所示,PASTA 系统采用双阶段训练流程,使大模型自主学习使用上述标记语言,完成异步生成。

第一阶段:监督微调。研究团队首先选取 SlimOrca 指令跟随数据集,用 Gemini 1.5 Flash 为 100K 条样本添加 PASTA-LANG 标记,在样本回答中插入 <promise/><async><sync/> 标记,创建 PASTA 微调数据集。团队随后对 Gemma 7B 进行监督微调,得到能插入 PASTA-LANG 标记的 PASTA-SFT 模型。

第二阶段:偏好优化。为优化标注策略,团队设计了策略学习方案。团队对每个样本从 PASTA-SFT 模型采样多种标注方案,然后基于两项指标评估这些方案:理论加速比和内容质量(由 Gemini 1.5 Pro 评估)。根据评估结果,团队构建「拒绝采样数据集」,该数据集包含每个输入的最佳和最差标注方案。最后,团队用 BoNBoN 算法对 PASTA-SFT 模型进行偏好优化,得到最终的 PASTA 模型。

PASTA 推理系统:并行生成与缓存管理

推理系统设计难点。异步并行生成的主要挑战在于如何协调多个线程高效协作。传统方法通常需要为每个线程创建独立的 KV 缓存池——创建新线程时必须复制主线程的前缀内容到子线程缓存池,完成后再复制结果回主线程。这两次大规模矩阵复制操作严重限制了系统性能,使理论加速难以转化为实际收益。

KV 缓存的存储布局。PASTA 设计了交错式 KV 缓存布局,所有线程共享单一连续内存池。系统初始以连续方式存储用户输入,在推理过程中动态将不同线程在同一时间点生成的 token 交错存储在相邻位置。

注意力控制与位置编码。PASTA 通过两个机制确保大模型正确理解多线程交错存储的 KV 缓存:

  • 注意力掩码控制:限制子线程只能访问与自己相关的内容,在<sync/>后通过移除掩码使主线程能访问所有子线程生成的内容。
  • 位置编码调整:每个线程都使用独立且连续的位置编码,使线程处理自己的内容时,将交错存储的内容视为逻辑上连续的序列,确保模型能正确理解上下文。

这些设计共同确保 PASTA 能在提高速度的同时保持输出质量。

实验结果:Pareto 最优与可扩展性

PASTA 在性能与质量的平衡上取得了突破性成果,实验结果表明它不仅实现了显著加速,还在某些情况下提高了输出质量。研究团队在 AlpacaEval 基准上进行了全面评估,该基准包含 805 个具有代表性的指令跟随任务。

质量-速度平衡的 Pareto 前沿。如图所示,PASTA 通过调节质量权重参数生成了一系列的模型。在不同的生成质量的情况下,PASTA 均能提供非常可观的加速。结果显示,即使最注重质量的 PASTA 模型也能提供显著加速,而最快的模型则以一定的质量牺牲换取接近 2 倍的速度提升。与基于手动设计的异步生成方案(Skeleton-of-Thought, APAR)相比,PASTA 模型展现出全面优势。

可扩展性。研究结果展示了 PASTA 方法出色的可扩展性,如图所示。随着偏好优化不断推进,PASTA 模型的性能持续提升。图中清晰展示了从第一轮开始到第一轮结束,再到第二轮开始和第二轮后半程的整个优化过程,质量-速度的 Pareto 前沿大体持续向右上方推进。

这种稳定的改进趋势表明,PASTA 方法具有良好的可扩展性——随着投入更多计算资源,仍未饱和。与传统依赖固定规则的异步解码方法不同,PASTA 通过策略学习驱动的训练算法提供了可持续的优化路径,能够有效地将额外计算资源转化为更高的推理效率。

总结与展望

PASTA 首次证明,通过策略学习让 LLM 自主优化生成策略,能够突破传统自回归和基于规则的异步生成的效率极限。这一工作不仅为实时大模型应用提供了实用加速方案,更印证了未来 LLM 可能具备推理时自我优化能力的发展方向。

转载请联系本公众号获得授权

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
上交大等探索键值压缩的边界:MILLION开源框架定义模型量化推理新范式,入选顶会DAC 2025
在通用人工智能的黎明时刻,大语言模型被越来越多地应用到复杂任务中,虽然展现出了巨大的潜力和价值,但对计算和存储资源也提出了前所未有的挑战。在以 transformer 模型为基础的大模型中,键值缓存虽然用以存代算的思想显著加速了推理速度,但在长上下文场景中成为了存储瓶颈。例如,半精度的 LLaMA-2-7B 模型权重约 14GB,在上下文长度为 128K 时键值缓存占据 64GB,总和已经接近高端卡 NVIDIA A100 的 80GB 显存容量上限。键值量化可被用于压缩缓存,但往往受到异常值的干扰,导致模型性能的显著下降。为此,本文的研究者提出了 MILLION,一种基于乘积量化的键值缓存压缩和推理加速设计。
机器之心
2025/04/30
860
上交大等探索键值压缩的边界:MILLION开源框架定义模型量化推理新范式,入选顶会DAC 2025
vLLM 核心技术 PagedAttention 原理详解
本文是 vLLM 系列文章的第二篇,介绍 vLLM 核心技术 PagedAttention 的设计理念与实现机制。
Se7en258
2025/06/09
450
vLLM 核心技术 PagedAttention 原理详解
揭秘 NVIDIA Dynamo:分布式AI推理的高效引擎
随着生成式AI模型规模的爆炸式增长,企业面临推理成本激增、分布式部署复杂度高、资源利用率低等挑战。传统推理框架在跨多节点扩展时,常因KV缓存重复计算、GPU负载不均、通信延迟等问题导致性能瓶颈。NVIDIA Dynamo作为新一代开源推理框架,专为大规模分布式环境设计,通过解耦式服务、智能路由、动态资源调度等创新技术,将推理吞吐量提升30倍以上。本文将深入解析其核心架构、技术优势及实际应用场景,帮助开发者高效部署生成式AI模型,降低推理成本并释放GPU潜能。
数据存储前沿技术
2025/03/29
1.1K0
揭秘 NVIDIA Dynamo:分布式AI推理的高效引擎
LLM 推理引擎之争:Ollama or vLLM ?
Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景 - 构建高效、灵活的计算架构的模型推理框架。
Luga Lee
2025/04/24
3710
LLM 推理引擎之争:Ollama or vLLM ?
LLM推理提速2.8倍,CMU清华姚班校友提出「投机式推理」引擎SpecInfer,小模型撬动大模型高效推理
机器之心专栏 机器之心编辑部 近日,来自卡耐基梅隆大学(CMU)的 Catalyst Group 团队发布了一款「投机式推理」引擎 SpecInfer,可以借助轻量化的小模型来帮助大模型,在完全不影响生成内容准确度的情况下,实现两到三倍的推理加速。 随着 ChatGPT 的出现,大规模语言模型(LLM)研究及其应用得到学术界和工业界的广泛关注。一方面,开源的 LLM 模型不断涌现,比如 OPT、BLOOM、LLaMA 等,这些预训练模型的推出极大地促进了 LLM 的相关研究,使得 LLM 可以被应用于解决
机器之心
2023/05/31
1.3K0
LLM推理提速2.8倍,CMU清华姚班校友提出「投机式推理」引擎SpecInfer,小模型撬动大模型高效推理
【愚公系列】2023年12月 HarmonyOS教学课程 060-ArkTS语言基础类库(并发)
并发是指在一个时间段内,多个事件、任务或操作同时进行或者交替进行的方式。在计算机科学中,特指多个任务或程序同时执行的能力。并发可以提升系统的吞吐量、响应速度和资源利用率,并能更好地处理多用户、多线程和分布式的场景。常见的并发模型有多线程、多进程、多任务、协程等。
愚公搬代码
2025/06/02
610
【愚公系列】2023年12月 HarmonyOS教学课程 060-ArkTS语言基础类库(并发)
月之暗面:存储换算,倍增LLM推理效率
在AI大模型时代,用户对实时交互体验的要求与日俱增。大型语言模型(LLM)的推理延迟成为制约用户体验的核心痛点,其关键参数TTFT(首Token时延)和TBT(令牌间时延)直接决定着对话流畅度。传统系统在处理长上下文查询时面临三大困境:GPU算力不足、缓存复用率低、存储带宽瓶颈。
数据存储前沿技术
2025/03/17
6250
月之暗面:存储换算,倍增LLM推理效率
扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源
当前,强化学习(RL)方法在最近模型的推理任务上取得了显著的改进,比如 DeepSeek-R1、Kimi K1.5,显示了将 RL 直接用于基础模型可以取得媲美 OpenAI o1 的性能。
机器之心
2025/04/22
1480
扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源
只用图像也能思考,强化学习造就推理模型新范式!复杂场景规划能力Max
近年来,LLM 及其多模态扩展(MLLM)在多种任务上的推理能力不断提升。然而, 现有 MLLM 主要依赖文本作为表达和构建推理过程的媒介,即便是在处理视觉信息时也是如此 。
机器之心
2025/05/26
1320
只用图像也能思考,强化学习造就推理模型新范式!复杂场景规划能力Max
分享10篇最新论文:涉及大模型Prompt调优、LLM安全、推理增强、图学习等热门方向!
紧跟技术发展趋势,快速了解NLP领域最新动态。今天给大家分享10篇最新论文,其中涉及大模型应用、大模型Prompt调优、大模型安全、数学推理增强、预训练模型增强、LoRA改进、Mamba改进等热门研究方向。
ShuYini
2024/03/25
9810
分享10篇最新论文:涉及大模型Prompt调优、LLM安全、推理增强、图学习等热门方向!
QQ 9“傻快傻快”的?!带你看看背后的技术秘密
最新发布的 QQ 9 自上线以来,流畅度方面收获了众多用户好评,不少用户戏称 QQ 9 “傻快傻快”的,快到“有点不习惯了都”。
腾讯云开发者
2024/04/24
2.2K2
QQ 9“傻快傻快”的?!带你看看背后的技术秘密
DeepSeek-R1:强化学习驱动的LLM推理能力提升
本文主要介绍一种新的训练策略,通过纯强化学习显著提升了LLM的推理能力,主要包括下面几点:
三掌柜
2025/02/06
3180
DeepSeek-R1:强化学习驱动的LLM推理能力提升
推理大模型的后训练增强技术--LLM 推理模型的现状
提升大型语言模型(LLM)的推理能力无疑是 2025 年最火热的话题之一,而且理由很充分。更强的推理能力意味着 LLM 可以处理更复杂的问题,让它在各种任务上表现得更出色,更贴近用户的实际需求。
致Great
2025/03/13
2970
推理大模型的后训练增强技术--LLM 推理模型的现状
语言模型新范式:首个8B扩散大语言模型LLaDA发布,性能比肩LLaMA 3
本文由中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队和蚂蚁集团共同完成。共同一作聂燊和朱峰琪是中国人民大学高瓴人工智能学院的博士生,导师为李崇轩副教授,论文为二者在蚂蚁实习期间完成。蚂蚁集团张晓露、胡俊,人民大学林衍凯、李崇轩为共同项目负责人。李崇轩副教授为唯一通讯作者。LLaDA 基于李崇轩课题组的前期工作 RADD [1] 和 SMDM [2]。目前这两篇论文均已被 ICLR2025 接收。
机器之心
2025/02/19
1530
语言模型新范式:首个8B扩散大语言模型LLaDA发布,性能比肩LLaMA 3
后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
近日,一份围绕 LLM 后训练的综述报告收获了不少好评,其整理相关论文和工具的资源库已经收获了超过 700 star。
机器之心
2025/05/02
1160
后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
当开源创新遇上推理革命:SGLang如何炼就DeepSeek最强开源推理引擎?
2025 年开年,DeepSeek R1 和 V3 重磅发布,其超强的语言建模与推理能力,引爆了全球 AI 社区。与此同时,一个隐藏在超大规模模型身后的技术命题浮出水面:如何让千亿参数超大规模 AI 模型真正达到商业级推理速度?这一问题的答案,隐藏在推理引擎 SGLang 的代码仓库中。该项目由 LMSYS Org 发起,并受到 xAI、NVIDIA、AMD 等巨头的青睐,正在通过多项关键技术突破,重新定义 LLM 推理的效率边界。
机器之心
2025/03/07
3570
当开源创新遇上推理革命:SGLang如何炼就DeepSeek最强开源推理引擎?
田渊栋团队论文火了!连续思维链优于CoT,打开LLM推理新范式
随着 LLM 和 CoT 的兴起,语言已经成为机器推理的默认媒介 —— 但它真的是最佳方法吗?
机器之心
2025/02/14
1310
田渊栋团队论文火了!连续思维链优于CoT,打开LLM推理新范式
TACO-LLM发布!助力大模型极致加速
TACO-LLM 是基于腾讯云异构计算产品推出的一款大语言模型推理加速引擎,用于提高语言模型的推理效能。通过充分利用计算资源的并行计算能力,TACO-LLM能够同时处理更多的语言模型推理请求,已成功为客户提供了兼顾高吞吐和低时延的优化方案,吞吐性能提高了78%。TACO-LLM可以减少生成结果的等待时间,提高推理流程效率,助您优化业务成本。
腾讯云计算产品团队
2023/11/17
2K0
TACO-LLM发布!助力大模型极致加速
【AI系统】推理系统介绍
推理系统是一个专门用于部署神经网络模型,执行推理预测任务的 AI 系统。它类似于传统的 Web 服务或移动端应用系统,但专注于 AI 模型的部署与运行。通过推理系统,可以将神经网络模型部署到云端或者边缘端,并服务和处理用户的请求。因此,推理系统也需要应对模型部署和服务生命周期中遇到的挑战和问题。
用户11307734
2024/12/02
3520
阿里千问团队提出AutoIF,让LLMs学会自我指导,简单有效,性能显著
这篇论文试图解决的问题是如何自动构建高质量的训练数据,以增强大型语言模型(LLMs)遵循复杂自然语言指令的能力。具体来说,论文指出了以下几个关键问题:
zenRRan
2024/07/04
5880
阿里千问团队提出AutoIF,让LLMs学会自我指导,简单有效,性能显著
推荐阅读
上交大等探索键值压缩的边界:MILLION开源框架定义模型量化推理新范式,入选顶会DAC 2025
860
vLLM 核心技术 PagedAttention 原理详解
450
揭秘 NVIDIA Dynamo:分布式AI推理的高效引擎
1.1K0
LLM 推理引擎之争:Ollama or vLLM ?
3710
LLM推理提速2.8倍,CMU清华姚班校友提出「投机式推理」引擎SpecInfer,小模型撬动大模型高效推理
1.3K0
【愚公系列】2023年12月 HarmonyOS教学课程 060-ArkTS语言基础类库(并发)
610
月之暗面:存储换算,倍增LLM推理效率
6250
扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源
1480
只用图像也能思考,强化学习造就推理模型新范式!复杂场景规划能力Max
1320
分享10篇最新论文:涉及大模型Prompt调优、LLM安全、推理增强、图学习等热门方向!
9810
QQ 9“傻快傻快”的?!带你看看背后的技术秘密
2.2K2
DeepSeek-R1:强化学习驱动的LLM推理能力提升
3180
推理大模型的后训练增强技术--LLM 推理模型的现状
2970
语言模型新范式:首个8B扩散大语言模型LLaDA发布,性能比肩LLaMA 3
1530
后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
1160
当开源创新遇上推理革命:SGLang如何炼就DeepSeek最强开源推理引擎?
3570
田渊栋团队论文火了!连续思维链优于CoT,打开LLM推理新范式
1310
TACO-LLM发布!助力大模型极致加速
2K0
【AI系统】推理系统介绍
3520
阿里千问团队提出AutoIF,让LLMs学会自我指导,简单有效,性能显著
5880
相关推荐
上交大等探索键值压缩的边界:MILLION开源框架定义模型量化推理新范式,入选顶会DAC 2025
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档