Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >谁将替代 Transformer?

谁将替代 Transformer?

作者头像
AI科技评论
发布于 2024-04-11 08:53:17
发布于 2024-04-11 08:53:17
7890
举报
文章被收录于专栏:AI科技评论AI科技评论

非 Transformer 面临的共同考验依然是证明自己的天花板有多高。

作者丨张进

编辑丨陈彩娴

2017年谷歌发表的论文《Attention Is All You Need》成为当下人工智能的一篇圣经,此后席卷全球的人工智能热潮都可以直接追溯到 Transformer 的发明。

Transformer 由于其处理局部和长程依赖关系的能力以及可并行化训练的特点,一经问世,逐步取代了过去的 RNN(循环神经网络)与 CNN(卷积神经网络),成为 NLP(自然语言处理)前沿研究的标准范式。

今天主流的 AI 模型和产品——OpenAI 的ChatGPT、谷歌的 Bard、Anthropic 的 Claude,Midjourney、Sora到国内智谱 AI 的 ChatGLM 大模型、百川智能的 Baichuan 大模型、Kimi chat 等等——都是基于Transformer 架构。

Transformer 已然代表了当今人工智能技术无可争议的黄金标准,其主导地位至今无人能撼动。

在Transformer 大行其道的同时,出现了一些反对的声音,如:“Transformer 的效率并不高”;“Transformer 的天花板很容易窥见”;“Transformer 是很好,但并不能实现 AGI,实现一个world model(世界模型)”。

这是因为 Transformer 的强大之处同时也是它的弱点:Transformer 中固有的自注意力机制(attention)带来了挑战,主要是由于其二次复杂度造成的,这种复杂度使得该架构在涉及长输入序列或资源受限情况下计算成本高昂且占用内存

简单点说,这意味着当 Transformer 处理的序列长度(例如,段落中的单词数量或图像的大小)增加时,所需的算力就会按该序列的平方增加,从而迅速变得巨大,因此有说法认为“Transformer 效率不高”。这也是当下人工智能热潮引发了全球算力短缺的主要原因。

基于 Transformer 的局限性,许多非 Transformer 架构顺势提出,其中包括中国的 RWKV、Meta 的 Mega、微软亚研的 Retnet、Mamba、DeepMind 团队的 Hawk 和 Griffin 等——它们都是在 Transformer 一统大模型研发江湖之后陆续被提出来的。

他们大多在原来的 RNN 基础上,针对 Transformer 的缺陷和局限性来做改进,试图研究出所谓的「高效 Transformer」(efficient Transformer)结构,一个更像人类思考的架构。

其中 efficient Transformer 是指占用的内存更小、训练和推理过程中的计算成本更小的模型,试图来推翻Transformer 的霸权。

1

当前的非 Transformer

架构研究正走向何方?

现在主流的非 Transformer 研究基本都是针对 attention 机制去优化 full attention 的部分,然后想办法将这一部分变成一个 RNN 模型,以此提高推理的效率。

attention 是 Transformer 的核心——Transformer 模型之所以如此强大,是因为它抛弃了之前广泛采用的循环网络和卷积网络,而采用了一种特殊的结构——注意力机制(attention)来建模文本。

attention 使模型能够考虑单词之间的关系、不管它们相距多远,并确定段落中哪些单词和短语最值得关注。

这种机制使得 Transformer 实现了语言处理的并行化,即同时分析特定文本中的所有单词,而不是按顺序分析。Transformer 的并行化使它们对所读所写的文本有了更全面、更准确的理解,也使得它们比 RNN 具有更高的计算效率和可扩展性。

相比之下,循环神经网络(RNNs)面临梯度消失的问题,使得它们难以对长序列进行训练,此外,在训练过程中无法在时间上并行化,进而限制了其可扩展性;卷积神经网络(CNNs)只擅长捕捉局部模式,在长程依赖方面还很欠缺,而这对于许多序列处理任务至关重要。

但是 RNNs 的优势在于 RNN 模型做推理时,复杂度是恒定的,所以内存和计算需求是呈线性增长,相对于 Transformer 在序列长度上的内存和计算复杂性呈二次方增长,RNN 的内存与计算需求更低。因此,今天很多非 Transformer 研究都循着“保留 RNN 优势的同时,试图达到 Transformer 性能”的方向去努力。

基于这一目标,今天的非 Transformer 技术研究主要分为两个流派:

流派一是以 RWKV、 Mamba 和 S4 为代表,它们完全用 recurrent(循环)结构去替代 attention。这种思路是用一个固定的内存记住前面的信息,但目前看来虽然可以记住一定长度,但要达到更长的长度是有难度的。

还有一个流派是把 full attention 这种密集结构变得稀疏,例如 Meta 的 Mega,在之后的计算中不再需要算所有 attention 矩阵中的每一个元素,模型效率也随之变高。

具体分析各个非 Transformer 模型,其中 RWKV 是国产开源的首个非 Transformer 架构的大语言模型,目前已经迭代至第六代 RWKV-6。RWKV 的作者彭博在 2022 年 5 月开始训练 RWKV-2,当时只有 1 亿(100M)参数规模,后续在 2023 年 3 月又训练出了 RWKV-4 140亿(14B)的参数版本。

彭博曾告诉 AI 科技评论,为什么他要做一个跟 Transformer 架构不同的模型:

“因为这个世界本身就不是基于 Transformer 的逻辑去做推理来运转的,这个世界的运转规律是基于类似 RNN 结构的——这个世界的下一秒,不会跟你过去所有的时间、所有的信息相关联,只会跟你的上一秒相关联。而 Transformer 要辨认所有的 token,这是不合理的。”

所以 RWKV 用 linear attention(线性注意力机制) 去近似 full attention,试图结合 RNN 和 Transformer 的优点,同时规避两者的缺点,来缓解 Transformer 所带来的内存瓶颈和二次方扩展问题,实现更有效的线性扩展,同时提供并行训练和可扩展性,类似于 Transformer。简而言之,主打高性能、低能耗、占用内存小。

而此前讨论较多的 Mamba,其论文作者有两位,一位是卡内基梅隆大学机器学习系助理教授 Albert Gu,另一位是Together.AI 首席科学家的 Tri Dao。

他们在论文中称,Mamba是一个新的 SSM 架构,在语言建模方面,无论是预训练还是下游评估,他们的 Mamba-3B 模型都优于同等规模的 Transformer 模型,并能与两倍于其规模的 Transformer 模型相媲美,还可以随上下文长度的增加实现线性扩展,其性能在实际数据中可提高到百万 token 长度序列,并实现 5 倍的推理吞吐量提升。

一位非 Transformer 研究者告诉AI科技评论,Mamba 完全只用 recurrent(循环)结构,不用 attention,所以它在做下一个 token 的预测时,其内存大小永远固定,并不会随时间增加而增加;但它的问题在于滚动的过程中 memory 非常小,即其外推能力也比较弱。

上述研究者认为,微软亚研提出的 RetNet,走的也是完全 recurrent 思路。RetNet 引入了一种多尺度 retention 机制来替代多头注意力,它有三种计算范式:并行、循环和分块循环表征。

论文中称,RetNet 的推理成本与长度无关。对于 7B 模型和 8k 序列长度,RetNet 的解码速度是带键值缓存的 Transformers 的 8.4 倍,内存节省 70%。

在训练过程中,RetNet 也能够比标准 Transformer 节省 25-50% 的内存,实现 7 倍的加速,并在高度优化的 FlashAttention 方面具有优势。此外,RetNet 的推理延迟对批大小不敏感,从而实现了巨大的吞吐量。

Meta 提出的 Mega 则代表了非 Transformer 研究的第二种技术路线。Mega 的思路是把 recurrent 和变稀疏的attention 矩阵结合起来。

Mega 的核心研究人员之一 Max 告诉 AI 科技评论,attention 有它不可替代的作用,只要把它的复杂度限制在一定范围内,就能达到想要的效果。Mega 用了很长时间研究如何把 recurrent 和 attention 结合在一起才能最高效。

所以 Mega 还是采用了 attention 结构,只不过把 attention 限制在了一个固定的 window(窗口)范围内,同时结合了类似 Mamba 的滚动记忆形式,只不过 Mega 的滚动形式要简化许多,所以整个计算速度很快。

「滚动记忆」是指,所有的 efficient Transformer 都是把 recurrent 循环结构引入到 Transformer 中,类似于模型先看一段历史、记住,再看下一段历史,更新记忆,可能第一段历史记忆就没必要都记住了,忘掉一些,再把第二段需要记住的加到整个历史中,以此不断往前滚动着记忆。

这样记忆的好处是模型可以有一个固定长度的滚动记忆,不会随着时间增加而让 memory 也要增加,但它的问题是很多时候,某些特殊任务在最后时刻都不知道前面记忆中有哪些是有用的、哪些是没用的,这种滚动式记忆就很难完成。

Mega 在跟 llama 同样的数据上训练,再跟 llama2 去做公平的比较,发现在同样的数据情况下,Mega2 的效果比llama2 要好很多。同时 Mega 预训练采用 32K 窗口大小,Transformer 用同样 32K 的窗口大小速度比 Mega2 慢很多,如果 window size 再变大,Mega 优势会越来越明显。目前 Mega2 已经训到了 7B 大小。

DeepMind 团队提出的 Hawk 和 Griffin 同样认为没有 attention 是不行的,属于 gated linear RNN,跟 Mega 一样属于混合模型。

除 RWKV,国内岩芯数智也发布了非 Attention 机制的通用自然语言大模型——Yan 模型。岩芯数智 CTO 刘凡平称,Yan 跟线性的 Attention 和 RNN 没有任何关系,Yan 架构的大模型去除了 Transformer 中高成本的注意力机制,代之以计算量更小、难度更低的线性计算,提高了建模效率和训练速度,实现了效率的提升和成本的降低。

2

Transformer 能否被颠覆?

虽然当下非 Transformer 研究提出的并不少,从测评效果上来看,跟同等规模大小的 Transformer 相比,表现普遍超过 Transformer,但它们共同面临的考验和质疑是:当它们的规模被放大到今天 Transformer 模型的大小时,是否还能继续展示出强大的性能和效率提升?

其中参数最大的 RWKV 有 140 亿参数,背靠 Meta 的 Mega 有 70 亿参数,而 GPT-3 有 1750 亿参数,GPT-4 传闻有 1.8 万亿参数,这意味着非 Transformer 急需训练出一个千亿模型来证明自己。

非 Transformer 研究中最具代表性的 RWKV,已经走得非常靠前——其背后的元始智能目前已经完成了上千万元的种子轮融资;据了解国内已经有一些公司在尝试用 RWKV 来训练模型;过去的一年里,RWKV 在 To C、To B 也有局部落地。

然而,有多位投资人告诉 AI 科技评论曾纠结是否要投 RWKV,赌一下非 Transformer 时,因为内部分歧太大——不敢坚信非 Transformer 能跑出来,最后都放弃了。

现阶段来看,基于现有硬件的算力基础,用 Transformer 去做端侧大模型的难度很高,还是需要在云上完成计算推理等工作,而且应答速度不如人意,终端用户很难接受。

有业内人士告诉 AI 科技评论,“在端侧,RWKV并不一定是最优解,因为随着半导体发展,AI 芯片越来越进化,未来在硬件、算力、能源上的成本,最终都会被摊平,未来大模型可以轻松地直接跑在终端上,不再需要花费大力气从底层架构来做出改变。未来有一天会达到这样一个临界点的。”

RWKV 的方式是从框架层操作,把框架轻量化了以后,可以让模型在本地运算。但也有一位投资人提出观点,认为非 Transformer 的理想状态是必须达到 OpenAI 的水平再来讲轻量化,“而不是为了小而小,为了本地化而本地化”。

上述投资人评价 RWKV “麻雀虽小,五脏俱全”,总体体验感能达到 GPT-3.5 的 60 分,但并不知道最后能否达到 GPT 的 80 分、90 分。这也是非 Transformer 的问题所在,即如果舍弃了框架的复杂度、可能会牺牲上限的天花板。

有接近 OpenAI 的人士告诉 AI 科技评论,OpenAI 内部其实曾经测试过 RWKV,但后面还是放弃了这一路线,因为“可能从长期来看它的天花板还未显现,实现 AGI 的可能性不大”。

证明自己的天花板有多高,成为了所有非Transformer 架构需要共同面临的考验。

一些模型研究人员称,Transformer 做文本大模型还没有达到它的天花板,毕竟 scaling law 还没有失效,Transformer 的瓶颈或许还是在生成序列长度更长的领域,例如在视频生成的多模态领域,而多模态是未来实现 AGI 的必经之路,如此看来,上下文窗口依然是 Transformer 的一个瓶颈。

如果像 OpenAI 一样不怕花钱,可以继续推高 Transformer 的 scaling law,但问题在于序列每长两倍就要花四倍的钱,花的时间也是四倍,平方级别的增长使 Transformer 在长序列问题的处理上效率太低,而且资源有上限。

据了解,国内前列的大模型公司,基本用的都是 Transformer。但也有猜测称,GPT-5 是否还是沿用 Transformer 架构是个未知,理由是从 GPT-2 之后没再继续开源。但大家更愿意相信 Transformer 的天花板还远。所以国内想要继续追赶 GPT-4、GPT-5,走Transformer 这条路也未必是错的。大模型时代,大家都在赌。

但实现 AGI,Transformer 是否是唯一的路径,也未可知。目前能够确定的,是 Transformer 形成的垄断很难被打破,无论是从资源还是生态,当下的非 Transformer 研究都比不过。

据了解,目前研究大模型非 Transformer 新架构的团队,要么在学术界,要么是如 RWKV 这样的创业团队,很少有大公司投入一个大的团队来研究新架构,所以在资源上,跟 Transformer 相比,非Transformer 研究的差距还很大。

此外,挡在前面最大的阻碍是 Transformer 日益坚固的生态护城河。

现在,无论是硬件、系统、应用,都是围绕 Transformer 做适配、优化,使得开发其他架构的性价比降低,导致想要开发新的架构越来越难。

在测评这块,许多测评设计任务的方式,都在偏向 Transformer 架构,意思是它设计的任务可能只有 Transformer 的模型能做出来,非Transformer 做不出来、或者难度加大。这种设计能够展示 Transformer 的优势,但对其他架构并不友好。

MIT的博士生、flash-linear-attention 项目负责人杨松霖就曾告诉 AI 科技评论,当下非 Transformer 研究面临的阻碍之一是评估方式——单纯看Perplexity(困惑度),非 transformer 其实跟 Transformer 的模型相比没有差距,但很多实际能力 (如in-context copy and retrieval)依然差距很大。她认为当前的非 Transformer 模型缺乏更全面的评估方式,方能改进与 Transformer 之间能力的差距。

毫无疑问,当下 Transformer 的地位依然无可撼动,依然是当下最强大的 AI 架构,然而,在回音室效应之外,开发下一代人工智能架构的工作正如火如荼进行着。

打破垄断固然不易,但根据科技发展的规律,很难有一个架构能永远一统江湖。未来,非 Transformer 需要继续证明自己的天花板有多高,Transformer 架构也同样如此。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-03-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Transformer 模型的工作原理
在人工智能里,Transformer 模型宛如一颗耀眼的巨星,自诞生起便光芒四射,引领着整个领域不断向前发展。让我们一同深入探索Transformer模型的奇妙世界,感受其独特魅力。
javpower
2025/06/13
4600
Transformer 模型的工作原理
RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多
Eagle 7B在多语言基准测试中,击败了所有的同级别模型,在单独的英语测试中,也和表现最好的模型基本打平。
新智元
2024/02/26
1920
RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多
Transformer后继有模!MSRA提出全新大模型基础架构:推理速度8倍提升,内存占用减少70%
论文提出新的Retention机制来代替Attention。来自微软亚研院和清华的研究人员,毫不讳言“野心”,大胆放话:
量子位
2023/08/05
2720
Transformer后继有模!MSRA提出全新大模型基础架构:推理速度8倍提升,内存占用减少70%
谷歌Transformer过时了?清华姚班校友等三连击,爆改注意力!
他们提出的新架构参数减少40%,训练速度较RNN提升5-8倍,在某些任务上性能甚至Transformer好7.2%!
新智元
2025/06/08
1600
谷歌Transformer过时了?清华姚班校友等三连击,爆改注意力!
万“模”霜天竞自由!开源大模型的春天来了?
在当代人工智能领域中,如果将算力比作是AI的燃料,那么大模型则相当于AI的发动机。算力充当着AI体系运作的根基,使得复杂的算法和模型得以运行,大模型则将这些算力转换为具体的智能输出。而开源大模型则是人人都能用得上的发动机。
数据猿
2024/04/30
2670
万“模”霜天竞自由!开源大模型的春天来了?
不是RNN的锅!清华团队深入分析长上下文建模中的状态崩溃,Mamba作者点赞
比如Mamba,内部状态大小始终保持不变,计算随序列长度线性增长,吃得多,消化快。
新智元
2025/02/15
1200
不是RNN的锅!清华团队深入分析长上下文建模中的状态崩溃,Mamba作者点赞
五倍吞吐量,性能全面包围Transformer:新架构Mamba引爆AI圈
在别的领域,如果你想形容一个东西非常重要,你可能将其形容为「撑起了某领域的半壁江山」。但在 AI 大模型领域,Transformer 架构不能这么形容,因为它几乎撑起了「整个江山」。
机器之心
2023/12/05
1.4K0
五倍吞吐量,性能全面包围Transformer:新架构Mamba引爆AI圈
无限长又来了!Meta | 提出MEGA LODON架构:参数7B,已开源!
Transformers 的二次复杂度和弱长度外推限制了它们扩展到长序列的能力,虽然存在线性注意力和状态空间模型等次二次解决方案,但从以往的经验来看,它们在预训练效率和下游任务准确性方面表现不佳。
ShuYini
2024/04/19
3160
无限长又来了!Meta | 提出MEGA LODON架构:参数7B,已开源!
对话丨周伯文:通用大模型如何突破垂直行业场景?
ChatGPT横空出世搅动乾坤,如同一声春雷惊醒各行各业的从业者,让他们都不约而同地听到,AGI走进现实的脚步声。
AI科技评论
2023/08/08
3110
对话丨周伯文:通用大模型如何突破垂直行业场景?
ICML2024高分!魔改注意力,让小模型能打两倍大的模型
ICML 2024高分论文,彩云科技团队构建DCFormer框架,替换Transformer核心组件多头注意力模块(MHA),提出可动态组合的多头注意力(DCMHA)。
量子位
2024/06/04
4460
ICML2024高分!魔改注意力,让小模型能打两倍大的模型
Meta出招了!Megalodon LLM对Transformer架构发起挑战!
前两天,科技新闻网站VentureBeat上放出了Ben Dickson的一篇文章,名字就叫“Meta 携 Megalodon LLM 挑战 Transformer 架构”。
程序员吾真本
2024/04/21
1940
Meta出招了!Megalodon LLM对Transformer架构发起挑战!
再超Transformer!Google| 提出两个新模型(Griffin、Hawk),强于Mamba,更省资源
我们知道,循环神经网络(RNN)在深度学习和自然语言处理研究的早期发挥了核心作用,并在许多应用中取得了实功,包括谷歌第一个端到端机器翻译系统。不过近年来,深度学习和 NLP 都以 Transformer 架构为主,该架构融合了多层感知器(MLP)和多头注意力(MHA)。
ShuYini
2024/03/11
4390
再超Transformer!Google| 提出两个新模型(Griffin、Hawk),强于Mamba,更省资源
Mamba详细介绍和RNN、Transformer的架构可视化对比
Transformer体系结构已经成为大型语言模型(llm)成功的主要组成部分。为了进一步改进llm,人们正在研发可能优于Transformer体系结构的新体系结构。其中一种方法是Mamba(一种状态空间模型)。
deephub
2024/02/23
3.9K0
Mamba详细介绍和RNN、Transformer的架构可视化对比
DeepSeek和月之暗面的论文撞车了!!
昨天下午,DeepSeek 发布了一篇新论文,提出了一种改进版的注意力机制 NSA;加上还有创始人兼 CEO 梁文锋亲自参与,一时之间吸引眼球无数,参阅报道《 刚刚!DeepSeek团队丢出注意力新机制重磅论文》。
小白学视觉
2025/02/20
2210
DeepSeek和月之暗面的论文撞车了!!
在Transformer时代重塑RNN,RWKV将非Transformer架构扩展到数百亿参数
机器之心报道 机器之心编辑部 Transformer 模型在几乎所有自然语言处理(NLP)任务中都带来了革命,但其在序列长度上的内存和计算复杂性呈二次方增长。相比之下,循环神经网络(RNNs)在内存和计算需求上呈线性增长,但由于并行化和可扩展性的限制,很难达到与 Transformer 相同的性能水平。本文提出了一种新颖的模型架构,Receptance Weighted Key Value(RWKV),将 Transformer 的高效可并行训练与 RNN 的高效推理相结合。实验证明,RWKV 的性能与相同
机器之心
2023/05/31
6250
在Transformer时代重塑RNN,RWKV将非Transformer架构扩展到数百亿参数
RetNet:万众期待的 Transformers 杀手
Transformer 已成为大语言模型上的架构,因为它有效地克服了循环神经网络 (RNN) 的顺序训练问题。然而,Transformer也并不完美,因为它们仅解决了所谓“impossible triangle”的两条臂。微软的 RetNet 声称位于这个“impossible triangle”的正中心,胜过了所有尝试过但未能实现这一壮举的方法。突破:
数据科学工厂
2023/09/18
6730
RetNet:万众期待的 Transformers 杀手
DeepMind携Mamba华人作者推Transformer革命之作!性能暴涨媲美Llama 2,推理能效大幅碾压
这次的挑战者来自大名鼎鼎的谷歌DeepMind,并且一口气推出了两种新架构,——Hawk和Griffin。
新智元
2024/03/05
3580
DeepMind携Mamba华人作者推Transformer革命之作!性能暴涨媲美Llama 2,推理能效大幅碾压
Mamba 作者谈 LLM 未来架构
这个挑战者就是一项名为【Mamba】的研究,其在语言、音频和基因组学等多种模态中都达到了SOTA性能。在语言建模方面,无论是预训练还是下游评估,Mamba-3B模型都优于同等规模的Transformer模型,并能与两倍于其规模的 Transformer 模型相媲美。
JOYCE_Leo16
2024/03/19
2700
Mamba 作者谈 LLM 未来架构
Transformer挑战者出现!斯坦福CMU联合团队,开源模型及代码,公司已创办
处理长文本算力消耗巨大,背后原因是Transformer架构中注意力机制的二次复杂度。
量子位
2023/12/05
5870
Transformer挑战者出现!斯坦福CMU联合团队,开源模型及代码,公司已创办
Transformer取代者登场!微软、清华刚推出RetNet:成本低、速度快、性能强
LLM 的成功,某种程度上要归功于 Transformer 架构在自然语言处理任务上的突破。该架构最初是为了克服循环模型的 sequential training 问题而提出的。这些年来,Transformer 已经成为 LLM 普遍采用的架构。
机器之心
2023/08/08
4070
Transformer取代者登场!微软、清华刚推出RetNet:成本低、速度快、性能强
推荐阅读
Transformer 模型的工作原理
4600
RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多
1920
Transformer后继有模!MSRA提出全新大模型基础架构:推理速度8倍提升,内存占用减少70%
2720
谷歌Transformer过时了?清华姚班校友等三连击,爆改注意力!
1600
万“模”霜天竞自由!开源大模型的春天来了?
2670
不是RNN的锅!清华团队深入分析长上下文建模中的状态崩溃,Mamba作者点赞
1200
五倍吞吐量,性能全面包围Transformer:新架构Mamba引爆AI圈
1.4K0
无限长又来了!Meta | 提出MEGA LODON架构:参数7B,已开源!
3160
对话丨周伯文:通用大模型如何突破垂直行业场景?
3110
ICML2024高分!魔改注意力,让小模型能打两倍大的模型
4460
Meta出招了!Megalodon LLM对Transformer架构发起挑战!
1940
再超Transformer!Google| 提出两个新模型(Griffin、Hawk),强于Mamba,更省资源
4390
Mamba详细介绍和RNN、Transformer的架构可视化对比
3.9K0
DeepSeek和月之暗面的论文撞车了!!
2210
在Transformer时代重塑RNN,RWKV将非Transformer架构扩展到数百亿参数
6250
RetNet:万众期待的 Transformers 杀手
6730
DeepMind携Mamba华人作者推Transformer革命之作!性能暴涨媲美Llama 2,推理能效大幅碾压
3580
Mamba 作者谈 LLM 未来架构
2700
Transformer挑战者出现!斯坦福CMU联合团队,开源模型及代码,公司已创办
5870
Transformer取代者登场!微软、清华刚推出RetNet:成本低、速度快、性能强
4070
相关推荐
Transformer 模型的工作原理
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档