前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >LSTM一作新作xLSTM架构:大幅领先Transformer和状态空间模型(SSM)

LSTM一作新作xLSTM架构:大幅领先Transformer和状态空间模型(SSM)

作者头像
zenRRan
发布2024-05-11 14:12:42
1.1K0
发布2024-05-11 14:12:42
举报

这篇论文介绍了一种名为xLSTM(Extended Long Short-Term Memory)的新型递归神经网络架构,旨在解决传统LSTM(Long Short-Term Memory)网络的一些局限性,并提高其在语言建模等任务中的性能。

论文:xLSTM: Extended Long Short-Term Memory 链接:https://arxiv.org/pdf/2405.04517

下面是对论文各部分的详细解读。

摘要

  • 背景:LSTM在1990年代被提出,用以解决循环神经网络(RNN)的梯度消失问题。LSTM在多种领域取得了成功,但随着Transformer技术的出现,其地位受到了挑战。
  • 问题:作者提出了一个问题:如果将LSTM扩展到数十亿参数,并利用现代大型语言模型(LLM)的技术,同时克服LSTM的已知限制,我们能在语言建模上走多远?
  • 贡献:论文介绍了两种新的LSTM变体:sLSTM(具有标量记忆和更新)和mLSTM(具有矩阵记忆和协方差更新规则),并将它们集成到残差块中,形成xLSTM架构。

引言

  • LSTM原理:介绍了LSTM的核心原理,包括恒定误差旋转(constant error carousel)和门控机制。
  • LSTM应用:LSTM在文本生成、序列到序列翻译、程序评估等任务中表现出色。
  • LSTM局限性:指出LSTM的三个主要局限性:无法修订存储决策、有限的存储容量、缺乏可并行化。

扩展的长短期记忆

  • sLSTM:引入了指数门控和新的存储混合技术,允许LSTM修订其存储决策。
  • mLSTM:将LSTM的记忆单元从标量扩展到矩阵,提高了存储容量,并引入了协方差更新规则,使得mLSTM可以完全并行化。
  • xLSTM架构:通过将sLSTM和mLSTM集成到残差块中,构建了xLSTM架构。

记忆单元

  • 恒定误差旋转ct = ft * ct-1 + it * zt,其中ct是单元状态,ft是遗忘门,it是输入门,zt是经过激活函数的输入。
  • 门控:包括输入门it、遗忘门ft和输出门ot,控制信息的流动。

sLSTM

  • 指数门控:引入指数激活函数到输入和遗忘门中。
  • 标准化和稳定化:通过规范化器状态来平衡门控的激活值。

mLSTM

  • 矩阵记忆:使用矩阵来存储和检索信息,提高了存储容量。
  • 协方差更新规则:使用协方差矩阵来更新记忆单元。

xLSTM架构

  • 残差块:xLSTM架构通过残差堆叠构建,利用预层归一化(preLayerNorm)残差骨干。
  • 并行化:mLSTM的设计允许并行化,而sLSTM由于内存混合而无法并行化。

实验

  • 合成任务和长距离竞技场:测试了xLSTM在处理形式语言和长序列任务上的能力。
  • 方法比较和消融研究:在SlimPajama数据集上训练并比较了xLSTM和其他方法的性能。
  • 大型语言模型:在更大的数据集上训练xLSTM,并评估其作为大型语言模型的潜力。

相关工作

  • 线性注意力:讨论了几种旨在降低Transformer注意力机制复杂度的方法。
  • 状态空间模型:最近在语言建模中变得流行的方法,它们在上下文长度上是线性的。

结论

  • 性能:xLSTM在语言建模任务上与现有的Transformer和状态空间模型相比表现出色。
  • 潜力:xLSTM有潜力成为强化学习、时间序列预测或物理系统建模等领域的重要工具。

限制

  • 并行化:sLSTM的内存混合阻止了并行化操作。
  • 计算复杂性:mLSTM的矩阵记忆具有高计算复杂性。
  • 初始化:遗忘门的初始化需要谨慎选择。
  • 内存限制:矩阵记忆可能在长序列上下文中超载。

这篇论文的每个部分都详细介绍了xLSTM架构的设计原理、数学公式和实验结果,展示了其在语言建模任务中的潜力。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 深度学习自然语言处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 摘要
  • 引言
  • 扩展的长短期记忆
  • 记忆单元
  • sLSTM
  • mLSTM
  • xLSTM架构
  • 实验
  • 相关工作
  • 结论
  • 限制
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档