前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >YOCO:全新Decoder-Decoder架构,内容减少6倍,推理速度提升30倍

YOCO:全新Decoder-Decoder架构,内容减少6倍,推理速度提升30倍

作者头像
zenRRan
发布2024-05-29 14:55:16
4140
发布2024-05-29 14:55:16
举报
文章被收录于专栏:深度学习自然语言处理

这篇论文介绍了一种名为YOCO(You Only Cache Once)的新型解码器-解码器架构,旨在提高大型语言模型的推理效率和性能。

EMNLP2024投稿群建立!

论文:You Only Cache Once: Decoder-Decoder Architectures for Language Models 地址:https://arxiv.org/pdf/2405.05254

摘要

  • 介绍: YOCO是一种新型的大型语言模型架构,它通过仅缓存一次键值对(KV pairs)来显著降低GPU内存需求,同时保持全局注意力(global attention)能力。
  • 组成: YOCO由自解码器(self-decoder)和交叉解码器(cross-decoder)组成,自解码器生成全局KV缓存,交叉解码器通过交叉注意力(cross-attention)重用这些缓存。
  • 性能: 实验结果显示,YOCO在不同模型大小和训练令牌数量的设置下,与Transformer相比,在推理内存、预填充延迟和吞吐量方面有显著提升。

引言 (Introduction)

  • 背景: 论文讨论了语言模型的发展,包括仅编码器模型(如BERT)、编码器-解码器模型(如T5)和仅解码器模型(如GPT)。
  • 问题: 随着服务令牌数量的增加,KV缓存占用大量GPU内存,导致大型语言模型的推理受到内存限制。
  • YOCO架构: 论文提出了YOCO架构,它通过仅缓存一次KV对来解决这个问题,并允许更高效的分布式长序列训练。

YOCO架构

  • 设计目的: YOCO旨在进行自回归建模,如大型语言模型(LLMs)。
  • 架构组成: YOCO由自解码器和交叉解码器组成,自解码器生成全局KV缓存,交叉解码器使用交叉注意力重用这些缓存。
  • 自解码器: 使用高效的自注意力机制,如滑动窗口注意力(sliding-window attention)。
  • 交叉解码器: 使用全局交叉注意力来关注自解码器输出的共享KV缓存。

实验

  • 语言建模评估: 作者训练了一个3B大小的YOCO语言模型,并与强大的基于Transformer的语言模型进行了比较。
  • 可扩展性: 论文展示了YOCO在不同模型大小下的扩展性,并通过实验结果证明YOCO在模型大小上的可扩展性。
  • 长上下文评估: 作者将YOCO-3B的上下文长度扩展到1M令牌,并评估了其长序列建模能力。

推理优势

  • GPU内存和吞吐量: YOCO在GPU内存占用和推理吞吐量方面相比Transformer有显著优势。
  • 预填充时间: YOCO减少了预填充时间,使得长上下文模型的用户体验得到改善。

结论

  • 贡献: YOCO通过显著提高推理效率和保持竞争性能,为大型语言模型提供了一种新的架构。
  • 未来工作: 论文提出了将YOCO与其他技术结合以进一步降低部署成本和优化KV缓存模块的可能方向。

这篇论文提出了一种新的架构,通过减少键值对缓存的次数来优化大型语言模型的内存使用和推理速度,同时保持了模型的性能。通过一系列实验,作者证明了YOCO在多个方面相比现有Transformer模型的优势。

本文主要来自kimi解读,具体了解请阅读原论文。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 深度学习自然语言处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 摘要
  • 引言 (Introduction)
  • YOCO架构
  • 实验
  • 推理优势
  • 结论
相关产品与服务
GPU 云服务器
GPU 云服务器(Cloud GPU Service,GPU)是提供 GPU 算力的弹性计算服务,具有超强的并行计算能力,作为 IaaS 层的尖兵利器,服务于生成式AI,自动驾驶,深度学习训练、科学计算、图形图像处理、视频编解码等场景。腾讯云随时提供触手可得的算力,有效缓解您的计算压力,提升业务效率与竞争力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档