Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Transformer六周年:当年连NeurIPS Oral都没拿到,8位作者已创办数家AI独角兽

Transformer六周年:当年连NeurIPS Oral都没拿到,8位作者已创办数家AI独角兽

作者头像
机器之心
发布于 2023-08-07 00:44:13
发布于 2023-08-07 00:44:13
3240
举报
文章被收录于专栏:机器之心机器之心

机器之心报道

机器之心编辑部

有的人加入 OpenAI,有的人成立创业公司,也有的坚守谷歌 AI。当年正是他们共同开启了今天的 AI 大发展时代。

ChatGPT 到 AI 画图技术,人工智能领域最近的这波突破或许都要感谢一下 Transformer。

今天是著名的 transformer 论文提交六周年的日子。

论文链接:https://arxiv.org/abs/1706.03762

六年前,一篇名字有点浮夸的论文被上传到了预印版论文平台 arXiv 上,「xx is All You Need」这句话被 AI 领域的开发者们不断复述,甚至已经成了论文标题的潮流,而 Transformer 也不再是变形金刚的意思,它现在代表着 AI 领域最先进的技术。

六年后,回看当年的这篇论文,我们可以发现很多有趣或鲜为人知的地方,正如英伟达 AI 科学家 Jim Fan 所总结的那样。

「注意力机制」并不是 Transformer 作者所提出的

Transformer 模型抛弃了传统的 CNN 和 RNN 单元,整个网络结构完全是由注意力机制组成。

虽然 Transformer 论文的名字是《Attention is All You Need》,我们也因它而不断推崇注意力机制,但请注意一个有趣的事实:并不是 Transformer 的研究者发明了注意力,而是他们把这种机制推向了极致。

注意力机制(Attention Mechanism)是由深度学习先驱 Yoshua Bengio 带领的团队于 2014 年提出的:

《Neural Machine Translation by Jointly Learning to Align and Translate》,标题比较朴实。

在这篇 ICLR 2015 论文中,Bengio 等人提出了一种 RNN +「上下文向量」(即注意力)的组合。虽然它是 NLP 领域最伟大的里程碑之一,但相比 transformer,其知名度要低得多,Bengio 团队的论文至今已被引用 2.9 万次,Transformer 有 7.7 万次。

AI 的注意力机制,自然是仿照人类的视觉注意力而来。人类大脑里有一种天生能力:当我们看一幅图时,先是快速扫过图片,然后锁定需要重点关注的目标区域。

如果不放过任何局部信息,必然会作很多无用功,不利于生存。同样地,在深度学习网络中引入类似的机制可以简化模型,加速计算。从本质上说,Attention 就是从大量信息中有筛选出少量重要信息,并聚焦到这些重要信息上,忽略大多不重要的信息。

近年来,注意力机制被广泛应用在深度学习的各个领域,如在计算机视觉方向用于捕捉图像上的感受野,或者 NLP 中用于定位关键 token 或者特征。大量实验证明,添加了注意力机制的模型在图像分类、分割、追踪、增强以及自然语言识别、理解、问答、翻译中任务中均取得了明显的性能提升。

引入了注意力机制的 Transformer 模型可以看做一种通用序列计算机(general-purpose sequence computer),注意力机制允许模型在处理输入序列时根据序列中不同位置的相关性分配不同的注意力权重,这使得 Transformer 能够捕捉到长距离的依赖关系和上下文信息,从而提高序列处理的效果。

但在当年,不论是 Transformer 还是最初的 attention 论文都没有谈到通用序列计算机。相反,作者们认为它是解决一个狭窄而具体的问题 —— 机器翻译的机制。所以未来的我们追溯起 AGI 的起源时,说不定可以追溯到「不起眼」的谷歌翻译。

虽然被 NeurIPS 2017 接收,但连个 Oral 都没拿到

Transformer 这篇论文虽然现在影响力很大,但在当年的全球顶级 AI 会议 NeurIPS 2017 上,连个 Oral 都没拿到,更不用说拿到奖项了。当年大会共收到 3240 篇论文投稿,其中 678 篇被选为大会论文,Transformer 论文就是被接收的论文之一,在这些论文中,40 篇为 Oral 论文,112 篇为 Spotlight 论文,3 篇最佳论文,一篇 Test of time award 奖项,Transformer 无缘奖项。

虽然无缘 NeurIPS 2017 论文奖项,但 Transformer 的影响力大家也是有目共睹的。

Jim Fan 评价说:在一项有影响力的研究变得有影响力之前,人们很难意识到它的重要性,这不是评委的错。不过,也有论文足够幸运,能够第一时间被发现,比如何恺明等人提出的 ResNet,当年获得了 CVPR 2016 最佳论文,这一研究当之无愧,得到了 AI 顶会的正确认可。但在 2017 年那个当下,非常聪明的研究者也未必能够预测现在 LLM 带来的变革,就像 20 世纪 80 年代一样,很少有人能预见到 2012 年以来深度学习带来的海啸。

八位作者,人生各自精彩

当时这篇论文的作者共有 8 位,他们分别来自谷歌和多伦多大学,五年过去了,大部分论文作者都已离开了原机构。

2022 年 4 月 26 日,一家名为「Adept」的公司官宣成立,共同创始人有 9 位,其中就包括 Transformer 论文作者中的两位 Ashish Vaswani 和 Niki Parmar。

Ashish Vaswani 在南加州大学拿到博士学位,师从华人学者蒋伟(David Chiang)和黄亮(Liang Huang),主要研究现代深度学习在语言建模中的早期应用。2016 年,他加入了谷歌大脑并领导了 Transformer 的研究,2021 年离开谷歌。

Niki Parmar 硕士毕业于南加州大学,2016 年加入谷歌。工作期间,她为谷歌搜索和广告研发了一些成功的问答和文本相似度模型。她领导了扩展 Transformer 模型的早期工作,将其扩展到了图像生成、计算机视觉等领域。2021 年,她也离开谷歌。

在离开之后,两人参与创立了 Adept,并分别担任首席科学家(Ashish Vaswani)和首席技术官(Niki Parmar)。Adept 的愿景是创建一个被称为「人工智能队友」的 AI,该 AI 经过训练,可以使用各种不同的软件工具和 API

2023 年 3 月,Adept 宣布完成 3.5 亿美元的 B 轮融资,公司估值超过 10 亿美元,晋升独角兽。不过,在 Adept 公开融资的时候,Niki Parmar 和 Ashish Vaswani 已经离开了 Adept,并创立了自己的 AI 新公司。不过,这家新公司目前还处于保密阶段,我们无法获取该公司的详细信息。

另一位论文作者 Noam Shazeer 是谷歌最重要的早期员工之一。他在 2000 年底加入谷歌,直到 2021 年最终离职,之后成为了一家初创企业的 CEO,名字叫做「Character.AI」。

Character.AI 创始人除了 Noam Shazeer,还有一位是 Daniel De Freitas,他们都来自谷歌的 LaMDA 团队。此前,他们在谷歌构建了支持对话程序的语言模型 LaMDA。

今年三月,Character.AI 宣布完成 1.5 亿美元融资,估值达到 10 亿美元,是为数不多有潜力与 ChatGPT 所属机构 OpenAI 竞争的初创公司之一,也是罕见的仅用 16 个月时间就成长为独角兽的公司。其应用程序 Character.AI 是一个神经语言模型聊天机器人,可以生成类似人类的文本响应并参与上下文对话。

Character.AI 于 2023 年 5 月 23 日在 Apple App Store 和 Google Play Store 发布,第一周下载量超过 170 万次。2023 年 5 月,该服务增加了每月 9.99 美元的付费订阅,称为 c.ai+,该订阅允许用户优先聊天访问,获得更快的响应时间和早期访问新功能等特权。

Aidan N. Gomez 早在 2019 年就已离开谷歌,之后担任 FOR.ai 研究员,现在是 Cohere 的联合创始人兼 CEO。

Cohere 是一家生成式 AI 初创公司,于 2019 年成立,其核心业务包括提供 NLP 模型,并帮助企业改进人机交互。三位创始人分别为 Ivan Zhang、Nick Frosst 和 Aidan Gomez,其中 Gomez 和 Frosst 是谷歌大脑团队的前成员。2021 年 11 月,Google Cloud 宣布他们将与 Cohere 合作,Google Cloud 将使用其强大的基础设施为 Cohere 平台提供动力,而 Cohere 将使用 Cloud 的 TPU 来开发和部署其产品。

值得注意的是,Cohere 刚刚获得 2.7 亿美元 C 轮融资,成为市值 22 亿美元的独角兽。

Łukasz Kaiser在 2021 年离开谷歌,在谷歌工作了 7 年零 9 个月,现在是 OpenAI 一名研究员。在谷歌担任研究科学家期间,他参与了机器翻译、解析及其他算法和生成任务的 SOTA 神经模型设计,是 TensorFlow 系统、Tensor2Tensor 库的共同作者。

Jakob Uszkoreit 于 2021 年离开谷歌,在谷歌工作时间长达 13 年,之后加入 Inceptive,成为联合创始人。Inceptive 是一家 AI 制药公司,致力于运用深度学习去设计 RNA 药物。

在谷歌工作期间,Jakob Uszkoreit 参与了组建谷歌助理的语言理解团队,早期还曾从事过谷歌翻译的工作。

Illia Polosukhin 于 2017 年离开谷歌,现在是 NEAR.AI(一家区块链底层技术公司)的联合创始人兼 CTO。

唯一还留在谷歌的是 Llion Jones,今年是他在谷歌工作的第 9 年。

如今,距离《 Attention Is All You Need 》论文发表已经过去 6 年了,原创作者们有的选择离开,有的选择继续留在谷歌,不管怎样,Transformer 的影响力还在继续。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-06-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
美国「AI四小龙」堵大厂门口挖人,大牛组团跑路跳槽
---- 新智元报道   编辑:如願 好困 【新智元导读】以Inflection AI为首的四家家财万贯、大名鼎鼎的AI新势力,不约而同的做了一件惊为天人的大事——从各个大厂,尤其是老东家那里,挖走了具有卓越科技背景的人工智能科学家。 有一不是传言的传言:很多AI大牛都辞去了谷歌、Meta、OpenAI和DeepMind等公司的高级职位,并加入了初创企业。 这又是为什么呢?难不成是这些AI大家们想去尝试钻一钻牛角尖吗? 答案自然是:「非也,非也!」 情况是这样的..... 国外坊间传闻啊,有那么四家
新智元
2022/06/14
8470
美国「AI四小龙」堵大厂门口挖人,大牛组团跑路跳槽
AI综述专栏 | “博彩众长,自成一家”的神经机器翻译
在科学研究中,从方法论上来讲,都应先见森林,再见树木。当前,人工智能科技迅猛发展,万木争荣,更应系统梳理脉络。为此,我们特别精选国内外优秀的综述论文,开辟“综述”专栏,敬请关注。
马上科普尚尚
2020/05/14
8050
AI综述专栏 | “博彩众长,自成一家”的神经机器翻译
Transformer 框架论文作者:AI行业被困在了六七年前的原型上
编者按: 3 月 21 日,GTC AI 大会,黄仁勋对话 7 位 Transformer 框架论文作者。他们认为,AI 行业被困在了六七年前的原型上,这个世界需要更好的模型。 “我认为世界需要比 Transformer 更好的东西。我觉得现在与六七年前的情况相似。”“所以尽管原始模型可能不是现在可拥有的最强大的东西,但我们仍然固守在原来的模型上。” Transformer 架构的诞生源于自然语言处理(NLP)领域的迫切需求。在过去,传统的循环神经网络(RNN)和卷积神经网络(CNN)在处理序列数据时面临一些挑战。RNN 虽然能够捕捉序列中的依赖关系,但由于其顺序处理的方式,导致计算效率低下,并且难以处理长距离依赖。而 CNN 虽然可以并行计算,但在处理变长序列时不够灵活。 为了克服这些挑战,2017 年,谷歌的 8 名研究人员联合发表了名为《你所需要的是注意力》(Attention Is All You Need)的论文,并在这篇论文中提出了 Transformer 架构,它能真正地解决 RNN 和 CNN 在处理序列数据时存在的问题。 Transformer 采用了自注意力机制(Self-Attention Mechanism),使得模型能够同时关注序列中的所有位置,从而捕捉长距离依赖关系。此外,Transformer 还采用了多头注意力(Multi-Head Attention)和位置编码(Positional Encoding)等技术,进一步提高了模型的性能。这项具有划时代意义的技术变革彻底改变了技术发展路径。技术背后,这 8 位一同提出该理论的研究人员有的已经离开了谷歌,有的已经创办了自己的公司或是加入了新团队。 近日,国外知名杂志《连线》的资深编辑史蒂文·利维(Steven Levy)近期撰写了一篇文章,为我们揭秘了 Transformer 架构诞生背后的故事。
深度学习与Python
2024/03/26
4590
Transformer 框架论文作者:AI行业被困在了六七年前的原型上
Transformer全新里程碑!诞生6年,开山之作被引近8万,没夺下NeurIPS最佳论文,却彻底改变AI界
2017年6月12日,Attention is All You Need,一声炸雷,大名鼎鼎的Transformer横空出世。
新智元
2023/08/05
3040
Transformer全新里程碑!诞生6年,开山之作被引近8万,没夺下NeurIPS最佳论文,却彻底改变AI界
Transformer 五年引用超四万,六位作者创立五家创业公司,仅一位作者还留在谷歌
机器之心报道 编辑:张倩、蛋酱 时隔五年,Transformer 的八位作者仅有一位还留在谷歌。 如果你在一家大厂做出了一份行业里程碑式的研究,那么接下来的职场生涯你会怎么走?继续留在这家大厂?换一家待遇更好的大厂?还是创业或加入有前景的创业公司? Transformer(出自论文《Attention Is All You Need》)几位作者的选择或许有一定的代表性:其中六人选择创业或加入创业公司,只有一人选择继续留在谷歌,还有一位去了 OpenAI。 图源:推特用户 @Nathan Benaich。
机器之心
2022/05/12
7240
Transformer 五年引用超四万,六位作者创立五家创业公司,仅一位作者还留在谷歌
Transformer论文「重磅更新」!八子全部离职,谷歌删除Attention Is All You Need所有作者邮箱
就在昨天,网友发现谷歌已经把「Attention Is All You Need」论文中的所有作者的邮箱全部「划线」删除。
新智元
2023/09/09
2330
Transformer论文「重磅更新」!八子全部离职,谷歌删除Attention Is All You Need所有作者邮箱
Transformer作者公开承认参与Q*!|八位作者专访总结
二、Transformer的诞生背景与早期研发 1. 谷歌应对Siri挑战:2011年底,苹果Siri的问世引发谷歌高层对搜索业务的担忧,认为其可能分流谷歌搜索流量。为此,谷歌于2012年启动了一个旨在直接在搜索结果页提供问题答案的项目,这一需求催生了Transformer架构的研发。
朱晓霞
2024/03/27
2190
Transformer作者公开承认参与Q*!|八位作者专访总结
2022年,26位谷歌AI专家出走:大部分下海创业,最高融资15亿
机器之心报道 编辑:蛋酱、小舟 只从 2022 年算起,谷歌就向社会输送了至少 26 位高端 AI 人才。 2022 年,人工智能在 AIGC、AI for science 等领域持续发展,一些工作也在知识型模型方面做出了探索。除了这些研究成果,我们还会发现这一年人工智能从业者的工作情况也有比较大的变化。 例如,Meta 等大型科技公司进行了大规模的裁员,让很多 AI 从业者考虑新的就业方向。另一方面,多位 AI 专家选择离开大型科技公司,投身 AI 创业。 根据 Business Insider 的一项调
机器之心
2023/03/29
2440
2022年,26位谷歌AI专家出走:大部分下海创业,最高融资15亿
Transformer作者出走谷歌创业,专攻通用人工智能,已获得6500万美元投资
丰色 发自 凹非寺 量子位 | 公众号 QbitAI 最近,一家AI初创公司引起了不少人的注意。 在推特上宣布成立之时,有不少人为其点赞和转发。 一上来就要搞通用人工智能,什么来头? 我们看了一下它的创始人名单: Ashish Vaswani和Niki Parmar,这不是大名鼎鼎的Transformer论文作者吗? 这篇开山之作引用次数已高达4万,浏览新论文时经常会看到“(Vaswani et al., 2017)”的字样,以至于这个名字都快被刻进DNA了。 他们这是,离开谷歌了? Transfo
量子位
2022/05/05
8530
Transformer作者出走谷歌创业,专攻通用人工智能,已获得6500万美元投资
Transformer论文引用破4万,两位作者离开谷歌创业
机器之心报道 编辑:张倩 「在谷歌,我们训练出了越来越大的 Transformer,梦想着有朝一日构建一个通用模型来支持所有 ML 用例。但是,这其中有一个明显的局限:用文本训练出的模型可以写出很棒的散文,但它们无法在数字世界中采取行动。你不能要求 GPT-3 给你订机票,给供应商开支票,或者进行科学实验。」 在一场轰轰烈烈的「炼大模型」运动之后,全世界都在给这些模型寻找应用途径和场景,原谷歌大脑研究人员、Transformer 重要作者 Ashish Vaswani、 Niki Parmar 也不例外。
机器之心
2022/04/29
5220
Transformer论文引用破4万,两位作者离开谷歌创业
中文实录全网首发!黄仁勋集齐Transformer论文七大作者,对话一小时,干货满满
2017年,一篇具有里程碑意义的论文——《Attention is All You Need》横空出世,它首次引入了基于自注意力机制的Transformer模型,这一创新架构摆脱了传统的RNN和CNN的束缚,通过并行处理的注意力机制,有效克服了长距离依赖的难题,并显著提升了序列数据处理的速度。Transformer的编码器-解码器结构和多头注意力机制在人工智能领域掀起了一场风暴,大热的ChatGPT正是基于这一架构构建的。
小腾资讯君
2024/03/21
2250
Transformer一作再创业!新获4亿融资,谷歌英伟达AMD参与,此前长期隐身发展
Transformer作者创立的大模型公司,再获5650万美元投资,换算成人民币有四亿多。
量子位
2023/12/14
1880
Transformer一作再创业!新获4亿融资,谷歌英伟达AMD参与,此前长期隐身发展
Transformer七子重聚GTC,老黄亲自赠送签名版DGX-1!7年奠基之作背后佚事揭秘
演讲前一个半小时,现场门外就挤满了人。许多人早早排起了长队,期待着这场别致的访谈。
新智元
2024/03/25
1520
Transformer七子重聚GTC,老黄亲自赠送签名版DGX-1!7年奠基之作背后佚事揭秘
Transformer作者创业后首个成果亮相!用文本指挥AI做表格发邮件,这是先给自己造了个员工?
明敏 发自 凹非寺 量子位 | 公众号 QbitAI 集结了Transformer作者、前OpenAI工程副总裁的创业团队,不到半年就亮出首个大模型—— Action Transformer(ACT-1)。 简单来说,这是一个会使用浏览器、Excel等软件工具的AI。 基于Transformer的自然语言处理能力,它能理解人类给出的命令,并完成相应操作。 比如,想要在Excel表格中加上利润、利润率,只需把这段话输入给AI,它就能自己在对应行列创建公式完成任务了。 想要在网上找房子,也不用自己搜索再设置各
量子位
2022/09/27
2670
Transformer作者创业后首个成果亮相!用文本指挥AI做表格发邮件,这是先给自己造了个员工?
要说创业之源,还得是谷歌!今年26位AI专家自立门户,投资人追着给钱
像DALL-E 2和最近发布的ChatGPT这样热闹的新一代AI工具的大火,至少说明了一点:AI不仅还在以惊人的速度发展,而且还在加速。
新智元
2023/01/09
4760
要说创业之源,还得是谷歌!今年26位AI专家自立门户,投资人追着给钱
谷歌·Bard“史诗级”更新:定制化的中文服务,开放图像分析功能
今年三月份,谷歌宣布生成式AI Bard推出Beta测试版,当时的版本只面向美国和英国用户开放公测,且暂时只支持英语。
大数据文摘
2023/08/08
3660
谷歌·Bard“史诗级”更新:定制化的中文服务,开放图像分析功能
LLM之战,谷歌输了!越来越多顶尖研究员跳槽OpenAI
---- 新智元报道   编辑:Britta Aeneas 【新智元导读】如今,谷歌最具开创性论文的许多主要贡献者已经离开,或是加入了OpenAI等竞争对手,或是创办了自己的公司。LLM之战,谷歌终是输了? 前几天,谷歌差点遭遇一场公关危机,Bert一作、已跳槽OpenAI的前员工Jacob Devlin曝出,Bard竟是用ChatGPT的数据训练的。 随后,谷歌火速否认。 而这场争议,也牵出了一场大讨论:为什么越来越多Google顶尖研究员跳槽OpenAI?这场LLM战役它还能打赢吗? 知友回复
新智元
2023/04/06
3390
LLM之战,谷歌输了!越来越多顶尖研究员跳槽OpenAI
Excel 太强大了,干啥都行:用Excel 学习 ChatGPT 工作原理
苹果据称正在与Google进行讨论,准备将Google的Gemini模型接入到iPhone
统计学家
2024/03/26
3440
Excel 太强大了,干啥都行:用Excel 学习 ChatGPT 工作原理
首周下载量碾压ChatGPT!谷歌20年老员工叛逃,创立第二个OpenAI?
这支名叫Character Technologies的独角兽的核心力量,来自前谷歌LaMDA团队。
新智元
2023/08/07
3040
首周下载量碾压ChatGPT!谷歌20年老员工叛逃,创立第二个OpenAI?
Transformer作者离职创业的公司,想从老东家谷歌再拿2亿美元融资
据《华尔街日报》报道,知情人士透露,Alphabet 旗下谷歌公司正在就向人工智能初创公司 Cohere 投资至少 2 亿美元进行谈判,这是该领域大型科技公司军备竞赛升级的又一个迹象。
机器之心
2022/12/15
3970
Transformer作者离职创业的公司,想从老东家谷歌再拿2亿美元融资
推荐阅读
美国「AI四小龙」堵大厂门口挖人,大牛组团跑路跳槽
8470
AI综述专栏 | “博彩众长,自成一家”的神经机器翻译
8050
Transformer 框架论文作者:AI行业被困在了六七年前的原型上
4590
Transformer全新里程碑!诞生6年,开山之作被引近8万,没夺下NeurIPS最佳论文,却彻底改变AI界
3040
Transformer 五年引用超四万,六位作者创立五家创业公司,仅一位作者还留在谷歌
7240
Transformer论文「重磅更新」!八子全部离职,谷歌删除Attention Is All You Need所有作者邮箱
2330
Transformer作者公开承认参与Q*!|八位作者专访总结
2190
2022年,26位谷歌AI专家出走:大部分下海创业,最高融资15亿
2440
Transformer作者出走谷歌创业,专攻通用人工智能,已获得6500万美元投资
8530
Transformer论文引用破4万,两位作者离开谷歌创业
5220
中文实录全网首发!黄仁勋集齐Transformer论文七大作者,对话一小时,干货满满
2250
Transformer一作再创业!新获4亿融资,谷歌英伟达AMD参与,此前长期隐身发展
1880
Transformer七子重聚GTC,老黄亲自赠送签名版DGX-1!7年奠基之作背后佚事揭秘
1520
Transformer作者创业后首个成果亮相!用文本指挥AI做表格发邮件,这是先给自己造了个员工?
2670
要说创业之源,还得是谷歌!今年26位AI专家自立门户,投资人追着给钱
4760
谷歌·Bard“史诗级”更新:定制化的中文服务,开放图像分析功能
3660
LLM之战,谷歌输了!越来越多顶尖研究员跳槽OpenAI
3390
Excel 太强大了,干啥都行:用Excel 学习 ChatGPT 工作原理
3440
首周下载量碾压ChatGPT!谷歌20年老员工叛逃,创立第二个OpenAI?
3040
Transformer作者离职创业的公司,想从老东家谷歌再拿2亿美元融资
3970
相关推荐
美国「AI四小龙」堵大厂门口挖人,大牛组团跑路跳槽
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档