这篇论文介绍了一种名为YOCO(You Only Cache Once)的新型解码器-解码器架构,旨在提高大型语言模型的推理效率和性能。
论文:You Only Cache Once: Decoder-Decoder Architectures for Language Models 地址:https://arxiv.org/pdf/2405.05254
这篇论文提出了一种新的架构,通过减少键值对缓存的次数来优化大型语言模型的内存使用和推理速度,同时保持了模型的性能。通过一系列实验,作者证明了YOCO在多个方面相比现有Transformer模型的优势。
本文主要来自kimi解读,具体了解请阅读原论文。