Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >BERT 之后,Transformer 还会出现高光时刻吗?

BERT 之后,Transformer 还会出现高光时刻吗?

作者头像
AI科技评论
发布于 2020-03-31 02:40:28
发布于 2020-03-31 02:40:28
2.7K0
举报
文章被收录于专栏:AI科技评论AI科技评论

文 | Sergi Castella Sapé

译 | 丛末

2019 年这一年,称得上是“BERT 年”。相信这句话大家已经听过很多遍了。

而众所周知,BERT 的基本框架——Transformer 自 2017年中提出以来,已然成为了NLP 领域的经典之作。

老实说,Transformer 对 NLP 研究界产生的影响,真算不上高估:长短期记忆网络(LSTM) 虽然现在听起来有点过时,然而2019年研究者们逐步发表了大量高水平的相关论文,与此同时,谷歌发布的 BERT 能够以史无前例最快的速度将NLP 产品化。

而上述这些成果,也让迁移学习( Transfer Learning)成为 NLP 领域中“最酷的孩子”。

迄今为止,NLP 领域围绕这些模型取得了显著的发展,然而是否就能说Transformer已经到达顶峰了呢?我们接下来该重点关注哪些领域呢?基于注意力机制的网络在 2020 年又将取得哪些令人兴奋的成果呢?

1 模 型

2019年见证了Transformer模型在架构变体上的激增,研究者们甚至很难跟上这一发展速度:大堂兄弟有Transformer-XL、GPT-2,、Ernie、 XLNet、RoBERTa 和 CTRL;小堂兄弟有ALBERT和DistilBERT;最近出生的侄子则有Reformer、Compressive Transformer等等。

显而易见,现在这些新出现的模型依旧能够成功改进在很多任务上的性能,但是它们改进的价值又到底有多大?模型在维持性能的情况下变得越来越小,已经成为 2019 年模型发展的趋势,2020 年势必也还将保持这一趋势。然而除模型剪枝或蒸馏以外,2020年是否有可能出现一些创新的方法呢?

而如今已无处不在的Transformer开发库的开发者—— HuggingFace 研究人员,现在又通过对 DistilBERT的训练方法,展现了令人耳目一新的趋势。

“学习信号”对于人类发展智能,至关重要。图源自:Rachel

诞生便自带光环的新架构会引发很多关注和讨论的声音(双关语),但是在 ML 领域,学习信号从后台运行演示。从广义上讲,模型的性能受到模型表达能力和训练信号质量(强化学习中的目标或奖励、深度学习中的损失)组合中最弱因素的限制。

以在 student-teacher 的设置下训练 DistilBERT为例,在该设置中,student 网络(更小的)尝试模仿teacher 网络(原始的)。通过增加这一设置而不是仅仅在原始的语言建模任务上训练,student 网络的损失函数会更加丰富,从而让网络更具表现力地学到很多。

如果你对此存疑,不妨回想一下2014年 GAN 发生了什么:当这个简单的网络耦合到一个有趣的损失函数(另一个网络)时,产生了神奇的魔法效应!

自监督和语言建模作为语言任务的通用训练信号,应该像架构革命一样,被视作 NLP 领域取得巨大进展的“功臣”。2020 年,希望这一领域再出现创新成果!

2 任务和数据集

你可能听说过,磁北极和地球磁极并不是完全对齐的;实际上,磁极年复一年地在不停地摆动。不过,如果你地处荷兰附近,想前往“真正”的北极,传统的指南针将是一个极好的向导;至少比没有要好。然而,当你离目的地越来越近时,指南针的偏斜会越来越明显,它的向导作用就越来越小了。

类比到人工智能研究中,可以清楚地发现:客观测量是科学发展的基石,即使是有偏的测量也往往比完全没有要好。

如何测量进展,是一个领域如何发展以及最终选择研究什么问题的重要驱动力;这正是我们需要根据引导最佳发展的激励因素,全面设计测量指标的原因。

在过去几年中,标准的 NLP 任务一直都是研究的指向标。然而,越是快要解决一个数据集问题的时候,它作为进展的一个测量指标表现就越差,这也是为什么非常期待在2020 年能够出现取得里程碑式进展的新基准的原因。

2020年2月份GLUE 基准排行榜,Source: gluebenchmark.com

例如,Facebook 研究院的研究人员正在为长句式的问答开发新的数据集和基准:ELI5 (Explain to Me Like I’m 5)。这个新的数据集旨在推动开放域问答领域的研究进展,突破Transformer当前擅长的任务的界限。

[…]长句式问答数据集主要面临着在长源文档中分离相关信息和针对复杂、多样化的问题生成段落长度的解释的双重挑战。

另一个关于新数据集的有意思的案例是DeepMind 发布的语言建模基准PG-19,该基准携手另一个Transformer 的变体—— Compressive Transformer,可用于书本级的长上下文语言建模。此外,该任务还有望帮助Seq2Seq模型克服在处理(非常)长期的依赖关系时当前所面临的局限性。

即便是无处不在的GLUE基准,现在也在进行必要的整改。其中SuperGLUE 就是它的一个强有力的竞争者,近期有望成为语言理解的通用基准。不仅如此,SuperGLUE 还囊括了其他更具挑战性的任务和更复杂的人类基线。

如果不提到我最近最喜欢的一篇论文——François Chollet的《测量智慧》,这一部分就不能称之为完整了。针对测量智慧这一问题,论文颇具哲学论调,不过还是提出了一个具体的建议:抽象推理语料库以及更具挑战性的 Kaggle 挑战赛。

希望这样具有创新性的论文,接下来会出现更多。

3 更好的理解

迄今为止,我们还没有完全理解系统的神秘之处。我们对算法中智能的感知,往往与我们对其机制的理解程度成反比。

不久前,人们曾认为,掌握国际象棋需要智力;而在1996年“深蓝”在国际象棋比赛中击败了 Gary Kasparov后,我们明白了:机器掌握国际象棋,并不需要智力。

围绕“为什么会出现这样问题”建立一个坚实的理解,对于一个领域取得进展至关重要,这就是为什么即便模型在任务排行榜上看起来很不错,我们也不应该在没有仔细调查其内部原理的情况下就对其能力过早地下结论。

现在已经有很多工作将这一理念纳入到Transformer 范畴中,致力于解释他们提出的这些模型的工作原理为什么跟Transformer 一样。不过最近的文献还没有完全趋同到一个明确的结论上。

例如,在研究BERT的预训练模型的行为时,“BERT正在看什么?”(相关论文:https://arxiv.org/pdf/1906.04341.pdf)的结论是:某些注意力负责检测语言现象。然而与许多直觉相反的是,“注意力不是一种解释”的观点(相关论文:https://arxiv.org/pdf/1902.10186.pdf)坚称注意力不是解释 BERT理解了什么的可靠信号。

“揭示BERT的黑暗秘密”的论文(链接:https://www.aclweb.org/anthology/D19-1445.pdf)则为模型在微调过程中发生的行为提供了有价值的见解,不过其结论的广度也是有限的:注意力没有捕获到清晰的语言现象,BERT严重地过度参数化(令人惊讶!?),而事实上,BERT解决大多数任务都不需要变得非常聪明。

这种定性的探索很容易被忽略,因为它不会出现在度量标准中,但是我们应该时刻关注这种探索。

总之,关于Transformer为什么厉害还有一众秘密待揭晓,这也是为什么在2020年等待这个领域出现新的研究是令人兴奋的。

以上是我最想表达的观点,尽管还有许多其他值得关注的主题也应当在本文中提及,比如像Transformer 这样的框架将如何继续发展来推动研究工作,如何扩展迁移学习的能力,或者有哪些新方法能够有效结合符号推理与深度学习方法。

via:https://towardsdatascience.com/beyond-bert-6f51a8bc5ce1?gi=942c3f7b7a38

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-03-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
势如破竹!169 篇论文带你看 BERT 在 NLP 中的 2019 年!
2019 年,可谓是 NLP 发展历程中具有里程碑意义的一年,而其背后的最大功臣当属 BERT !
AI科技评论
2020/02/21
6170
势如破竹!169 篇论文带你看 BERT 在 NLP 中的 2019 年!
BERT与Transformer模型
自然语言处理(NLP)作为人工智能(AI)的一个重要分支,致力于让计算机理解、生成和处理人类语言。近年来,随着深度学习技术的飞速发展,特别是Transformer架构的提出,NLP领域取得了显著进展。特别是BERT(Bidirectional Encoder Representations from Transformers)模型的出现,它彻底改变了NLP任务的处理方式,并在多个标准数据集上达到了前所未有的性能。
LucianaiB
2025/02/10
3480
NLPer复工了!先看看这份2019机器学习与NLP年度盘点吧
本文介绍了 2019 年中 机器学习和自然语言处理领域 10 个影响巨大的有趣研究方向。
机器之心
2020/02/24
3460
NLPer复工了!先看看这份2019机器学习与NLP年度盘点吧
MIT课程全面解读2019深度学习最前沿 | 附视频+PPT
人类公元纪年2019年伊始,深度学习技术也同样处在一个新的“开端”,宜review、宜展望。
量子位
2019/04/24
7230
MIT课程全面解读2019深度学习最前沿 | 附视频+PPT
受启于做梦,DeepMind 提出压缩 Transformer,并开源书本级数据集PG-19
论文链接:https://arxiv.org/pdf/1911.05507.pdf
AI科技评论
2020/02/21
9630
一文看尽2019全年AI技术突破
最近,Analytics Vidhya发布了2019年AI技术回顾报告,总结了过去一年中,AI在不同技术领域取得的进展,并展望了2020年的新趋势。
OpenCV学堂
2020/02/21
6380
「自然语言处理NLP」的“高光时刻” --- 28篇标志性论文
自然语言处理专家elvis在medium博客上发表了关于NLP在2019年的亮点总结。对于自然语言处理(NLP)领域而言,2019年是令人印象深刻的一年。在这篇博客文章中,我想重点介绍一些我在2019年遇到的与机器学习和NLP相关的最重要的故事。我将主要关注NLP,但我还将重点介绍一些与AI相关的有趣故事。标题没有特别的顺序。故事可能包括论文,工程工作,年度报告,教育资源的发布等。
深度学习技术前沿公众号博主
2020/05/18
6570
「自然语言处理NLP」的“高光时刻” --- 28篇标志性论文
NLP任务非Transformer不可?谷歌大规模研究发现预训练卷积模型往往更优
选自arXiv 机器之心编译 编辑:Panda 在当前 NLP 领域,基于 Transformer 的模型可谓炙手可热,其采用的大规模预训练方法已经为多项自然语言任务的基准带来了实质性的提升,也已经在机器翻译等领域得到了实际应用。但之前却很少有研究者思考:预训练是否也能提升卷积在 NLP 任务上的效果?近日, 资源雄厚的 Google Research 的一项大规模实证研究填补了这一空白。结果发现,在许多 NLP 任务上,预训练卷积模型并不比预训练 Transformer 模型更差。本文将重点关注该研究的
机器之心
2023/03/29
2400
NLP任务非Transformer不可?谷歌大规模研究发现预训练卷积模型往往更优
CNN+Transformer=SOTA!CNN丢掉的全局信息,Transformer来补
在计算机视觉技术发展中,最重要的模型当属卷积神经网络(CNN),它是其他复杂模型的基础。
新智元
2021/04/14
1.3K0
Transformer 架构—Encoder-Decoder
最初的Transformer是基于广泛应用在机器翻译领域的Encoder-Decoder架构:
JOYCE_Leo16
2024/03/19
1.1K0
Transformer 架构—Encoder-Decoder
ACL 2019年度回顾:自然语言处理发展趋势
今年7月底,计算语言学协会年会(ACL)在风景优美的佛罗伦萨召开。会场设在了一座古老的Medici家族的城堡中。
大数据文摘
2019/08/20
6940
ACL 2019年度回顾:自然语言处理发展趋势
不只有BERT!盘点2018年NLP令人激动的10大想法
最近,爱尔兰的NLP研究科学家Sebastian Ruder写一篇文章,基于12篇经典论文盘点了2018年NLP领域令人激动的十大想法。
量子位
2018/12/28
7010
2020年这10大ML、NLP研究最具影响力:为什么?接下来如何发展?
2020 年因为新冠疫情,很多人不得不在家工作和学习,大量人工智能学术会议也转为线上。不过在去年我们仍然看到了很多 AI 技术领域的进展。DeepMind 研究科学家 Sebastian Ruder 近日帮我们对去年的机器学习社区进行了一番总结。
机器之心
2021/01/27
5230
2020年这10大ML、NLP研究最具影响力:为什么?接下来如何发展?
在深度学习顶会ICLR 2020上,Transformer模型有什么新进展?
ICLR是机器学习社群最喜爱的会议平台之一。如今,机器学习领域的会议已成为预印本里论文质量的标志和焦点。但即使这样,论文的发表数量还是越来越庞大,这使得紧跟最新进展变得困难。
大数据文摘
2020/05/19
7100
在深度学习顶会ICLR 2020上,Transformer模型有什么新进展?
从 ACL 2019 看 NLP 未来发展趋势
随着自然语言处理领域的顶级盛会 ACL 2019 落幕,亚马逊 Alexa AI 的机器学习科学家 Mihail Eric 对本次会议进行了一次比较全面的回顾。从奇闻轶事到学术前沿,本文一网打尽,自然语言处理领域的小伙伴们不要错过!
AI科技评论
2019/08/19
8100
从 ACL 2019 看 NLP 未来发展趋势
2019,不可错过的NLP“高光时刻”
谷歌AI 提出了 ALBERT 模型,这是 BERT 模型的简化版本,用于语境化语言表示的自监督学习。相较于 BERT,其在模型更加精练的同时更有效地分配了模型的容量。该模型在12个 NLP任务中都达到了最优效果。
AI科技大本营
2020/02/12
5680
2019,不可错过的NLP“高光时刻”
Transformer架构的演进:从BERT到GPT-5的技术突破
Transformer架构自2017年被提出以来,已成为自然语言处理(NLP)领域的核心架构。从BERT到GPT-5,这一架构经历了不断的优化和创新,推动了AI技术的快速发展。本文将深入探讨Transformer架构的演进历程,分析从BERT到GPT-5的技术突破,并提供详细的代码示例。
江南清风起
2025/03/28
2810
自然语言处理五年技术革新,快速梳理 NLP 发展脉络
机器之心发布 机器之心编辑部 机器之心《2020-2021 全球 AI 技术趋势发展报告》节选:顶会趋势(NeurIPS)分析。 2021 年伊始,机器之心发布《2020-2021 全球 AI 技术趋势发展报告》,基于顶会、论文及专利等公共数据、机器之心专业领域数据仓库,通过数据挖掘定位七大趋势性 AI 技术领域。 此外,该报告还邀请了近 100 位专家学者通过问卷调查,形成对这七大技术领域近年发展情况、成熟度与未来趋势的综合总结,并基于 2015-2020 年间的开源论文与专利语料,结合机器之心自有的新闻
机器之心
2023/03/29
1.2K0
自然语言处理五年技术革新,快速梳理 NLP 发展脉络
谷歌研究院出品:高效 Transformer 模型最新综述
近年来,基于自注意力机制的 Transformer 模型在自然语言处理、计算机视觉、强化学习等领域的学术研究中取得了巨大进展。例如,在自然语言处理领域,Transformer 已经成为了现代深度学习技术体系中不可或缺的重要组件。
AI科技评论
2021/01/08
1.9K0
谷歌研究院出品:高效 Transformer 模型最新综述
原创 | 从ULMFiT、Transformer、BERT等经典模型看NLP 发展趋势
自然语言处理(Natural Language Process,简称NLP)是计算机科学、信息工程以及人工智能的子领域,专注于人机语言交互,探讨如何处理和运用自然语言。自然语言处理的研究,最早可以说开始于图灵测试,经历了以规则为基础的研究方法,流行于现在基于统计学的模型和方法,从早期的传统机器学习方法,基于高维稀疏特征的训练方式,到现在主流的深度学习方法,使用基于神经网络的低维稠密向量特征训练模型。
数据派THU
2020/11/03
1.1K0
原创 | 从ULMFiT、Transformer、BERT等经典模型看NLP 发展趋势
推荐阅读
相关推荐
势如破竹!169 篇论文带你看 BERT 在 NLP 中的 2019 年!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档