前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >ChatGPT前世今生的真实版本(之一)

ChatGPT前世今生的真实版本(之一)

作者头像
木羊
发布于 2023-09-09 01:20:16
发布于 2023-09-09 01:20:16
2840
举报
文章被收录于专栏:睡前机器学习睡前机器学习

ChatGPT真的很火,真的。虽然ChatGPT两个月前发布就已经让我大受震撼,但年后突然涌出一大批ChatGPT的介绍文章,一看发布者,居然全是荐股号、投资号,再次让我大受震撼。

ChatGPT怎样拉动AIGC的投资价值,又会让谁先丢饭碗,高端话题留给专业人士。我研究人工智能,不过,值得说道的地方也看到不少。有文章出现了ChatGBT、ChatGTP等等名字,不知道是笔误还是把G*P当成辈分。有文章说“基于ChatGPT-3.5模型”,这是没搞清背景,以讹传讹结果把ChatGPT和GPT-3.5合二为一。会者不难,就怕不会。更重要的是,大多数文章有意无意都把聚光灯打在了ChatGPT身上,读完一种感觉:OpenAI玩战术憋大招,突然就点出了谷歌未敢设想的道路。

这是误导。我知道,讲故事要有戏剧张力,一蹴而就很有张力,但不是现实,要研究人工智能,只能冰冻三尺非一日之寒。再炸裂的新闻,背后一定都能回溯出一条漫长曲折的发展路线。ChatGPT正是典型代表。

谷歌这次有点措手不及,但原因和很多文章说的不太一样。很多人以为谷歌漏点一条科技树,现在要被偷水晶了。不是,最早搞出高水平对话模型的,可能正是谷歌。很多人以为ChatGPT是“黑科技”,OpenAI瞒着所有人自己蹲家里憋出来的。不是,ChatGPT基于GPT,GPT基于Transformer,而这个Transformer不是别人正是谷歌家的研究成果,而且5年前就公开发表了论文,你感兴趣现在就可以上Arxiv查看。

ChatGPT头顶的光环太耀眼了,光环下的误传三言两语反而讲不清楚。无论是为了正确做研究,还是为了正确做投资,我想,都有必要捋一捋ChatGPT前世今生的现实版本

GPT产品线

先从ChatGPT的名字说起。这个名字有讲究,是由Chat+GPT两部分组成,意思是用GPT模型来做Chat(对话任务)。OpenAI用GPT模型构建了一条产品线,即使未来发布新产品,名字可能会叫某某GPT,而肯定不是GBT或者GTP。

GPT是什么意思呢?在网上直接搜“GPT”,大概会得到两类结果。一类叫GUID Partition Table,是一种磁盘分区表,也简称GPT。另一类才是我们下面要讲的GPT模型。

GPT是一款基于Transformer的深度模型,也不是什么最近才憋出来的隐藏大招,早在2018年OpenAI就发布了GPT模型,然后一直在迭代,目前已经迭代了三代半,分别叫GPT-1、GPT-2、GPT-3和GPT-3.5。同时,OpenAI还围绕GPT不断打造产品线,也就是基于GPT模型构建不同领域的解决方案。本文的主角ChatGPT,就是基于GPT-3.5模型打造的智能对话产品。

我们关注AI,更多关注的是OpenAI推了什么新技术,但OpenAI还有另一个值得关注的点,产品意识。OpenAI一直固执地以GPT模型为核心打造产品线,从技术的角度看,GPT并非一直是最优选择,但现在回头再看,这是OpenAI的阳谋。用投资的话讲,OpenAI是以GPT模型在构筑护城河

GPT模型是怎样发展到今天的呢?还得从谷歌家的Transformer说起。

Transformer

Transformer和OpenAI没啥关系,但和GPT大有关系。有件事很有意思,现在天天都说ChatGPT可能要干掉谷歌,不过,如果当年谷歌没有发布Transformer,今天可能也不存在什么ChatGPT。

很多文章对Transformer只是一笔带过,顶多也就提一句“GPT是基于Transformer”。但我认为,Transformer才是一切的起点。搞不清楚Transformer,就搞不清楚GPT,最后也就搞不清楚ChatGPT。

一切还要从一篇题目非常中二的论文说起。2017年,谷歌研究团队发表了一篇的论文,题目《Attention is All You Need》,提出一款基于自注意力机制的深度模型框架,名叫Transformer。

这篇论文现在名气非常大,已经有点中本聪的那篇创世论文的意思。但在当时,我和很多人一样,都觉得这篇论文只是谷歌和另一家研究团队,当时叫FAIR,也就是脸书的AI研究团队怄气才写出来的东西。

问题的根子,出在RNN身上。深度学习是当前人工智能最热门的研究分支,有两大研究方向,一个叫自然语言处理(NLP),主要是做文本,一个叫计算机视觉(CV),主要是做图像。2017年以前,深度学习非常单纯,做文本就用RNN模型,做图像就用CNN模型,这是当时深度学习的楚河汉界。

为什么?因为文本是序列信息,也就是你得一个字一个字地读下去,才知道这段话说的是什么意思。循环神经网络(RNN)用循环来模拟“逐字读”这个效果,CNN没有这个本事。

但是,RNN成也循环败也循环,循环太费时了。于是,FAIR开始琢磨怎样能用快得多的CNN来做文本。我想,FAIR琢磨这事还有另一个原因,Yann LeCun,对,就是现在炮轰ChatGPT啥都不是的那位Yann LeCun。Yann LeCun有两重身份:CNN之父、FAIR首席科学家。CNN之父作为首席科学家领导FAIR研究如何用CNN跨界做文本,听着多么顺耳,当然,这是我瞎猜。

不管怎样,FAIR还真的找到了办法,2017年5月发表论文《Convolutional Sequence to Sequence Learning》。CNN成功跨界,当时学界也是大受震撼。说真的,虽然都说春江水暖鸭先知,但这些年AI领域大受震撼的事太多,圈内人早都震麻了。正如开篇所说,我知道ChatGPT很热,但热到喷火的地步,是直到荐股号投资号纷纷改聊ChatGPT的技术原理才有真切感受。

FAIR以为自己是主攻,没想到很快变成了助攻。仅仅一个月后,对家的谷歌研究团队发表了那篇《Attention is All You Need》,标题不仅中二,而且还有正面刚的意思。

这里“Attention”是指深度学习中的一个机制,中文译作“注意力(机制)”。FAIR用CNN做序列文本,其实是用“CNN+注意力”的混合结构。现在谷歌直接说,“有注意力就够了,别整那些没用的”。你品,你细品。当然,这也是我瞎猜。

抛开八卦不谈,对ChatGPT、对NLP、乃至对整个AI领域,《Attention is All You Need》最大的贡献就是提出了Transformer。

过去深度学习的研究边界是十分清晰的,不但NLP和CV楚河汉界,连NLP下面的不同子任务也圈地自萌。Transformer打破了这些条条框框,现在学界开始倡议,应该把这类模型称为“基础模型”。

最开始Transformer只是在NLP领域大杀特杀,后来通过ViT等一众变体,把火也烧到了CV领域,正在和原来的扛把子CNN打得有来有回。Transformer是第一款不用大改就能即做文本又做图像的模型,所以,很多人看好它,称之为“大一统模型”。注意,这里说的“大统一模型”和强人工智能(AGI)是两个意思。过去深度学习是用不同模型做不同事情,而大一统模型则是用一种模型去做全部事情。

还有一件事,对现在NLP的研究产生了颠覆性影响,也就是最近常提到的“范式改变”,但在当时来说可能只是无心插柳。插的“柳”就是Transformer的一项“隐藏属性”,元优化能力。

目前学界已经公认,基于Transformer构建的语言模型,一旦模型参数规模超过某个阈值,就会出现“能力涌现”现象。过去一般认为,模型的参数规模和能力呈正比关系,也即“缩放定律”。但现在发现,大模型能够打破缩放定律,只要参数突破临界值,就会出现一些小模型所不具备的新能力。有一篇论文絮絮叨叨用好长一段话来描述能力涌现,用我们的话其实就一句,那就是量变可以达到质变。

为什么会出现能力涌现?这是一项非常前沿的研究课题,答案肯定就出在Transformer里面,但具体是什么学界还在苦苦寻觅。有一项研究提出观点,说这是因为Transformer具备元优化能力,不需要显式调用传统的梯度下降,也能够实现梯度下降类似的优化效果。这可能正是ChatGPT让人大受震撼的关键。

从各种意义上看,谷歌的Transformer都是GPT模型的基石。现在,基石已经铺就,GPT可以开始它坎坷而璀璨的旅程了。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-02-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 睡前机器学习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
ChatGPT的前世今生:OpenAI的技术「执拗」与「豪赌」
机器之心专栏 作者:追一科技 本文全方位地介绍了 ChatGPT 的能力特征、发展历程以及 OpenAI 一路走来所坚守的技术路线,并对 ChatGPT 出现之后 NLP 领域的范式转换进行了展望,即 ChatGPT 开启「文本生成 + 指令」的范式。 1、ChatGPT,不再「愚蠢」的人工智能 ChatGPT 的相关话题应该算是继 AlphaGo 以来,最出圈的人工智能热点了。简单来说,它是一个可以用自然语言对话的机器人,你可以问它任何问题(当然它有可能会答错,但你可以引导并纠正它),它都会以非常流畅、
机器之心
2023/02/27
6490
ChatGPT的前世今生:OpenAI的技术「执拗」与「豪赌」
一文读懂 OpenAI
OpenAI 是一家美国人工智能(AI)研究实验室,由非营利性 OpenAI Incorporated(OpenAI Inc.)及其营利性子公司 OpenAI Limited Partnership(OpenAI LP)组成。OpenAI 进行 AI 研究的目的是促进和开发友好的 AI。OpenAI 系统运行在世界上第五强大的超级计算机上。该组织于 2015 年由 Sam Altman、Reid Hoffman 在旧金山成立,杰西卡·利文斯顿(Jessica Livingston)、埃隆·马斯克(Elon Musk)、伊利亚·萨茨克维尔(Ilya Sutskever)、彼得·泰尔(Peter Thiel)等人共同认捐了 10 亿美元。马斯克于 2018 年辞去董事会职务,但仍是捐助者。微软在 2019 年向 OpenAI LP 提供了 10 亿美元的投资,并于 2023 年 1 月向其提供了第二笔多年期投资,据报道为 100 亿美元。
李维亮
2023/05/16
1.2K0
AI术语大全:AGI、LLM、GenAI、GPT、ChatGPT和AIGC是什么意思?
自2022年底ChatGPT在全球AI界闪亮登场以后,你是不是经常听到AGI、LLM、GenAI、GPT和AIGC这几个词,但总是分不清它们到底是什么意思?
程序员吾真本
2024/04/15
11.8K0
AI术语大全:AGI、LLM、GenAI、GPT、ChatGPT和AIGC是什么意思?
一篇不枯燥的ChatGPT闲谈
导语|是的,这又是一篇ChatGPT有关的文章,虽然已经有很多篇讲ChatGPT的文章。不过,还是要写一下,毕竟过去的一个月发生了那么多新的故事。 文章总共有三部分:先科普一下ChatGPT中的GPT是什么,然后介绍从GPT3到ChatGPT的过程,最后进行一些个ChatGPT闲谈。如果不想看技术,可以直接跳到闲谈。 鉴于已经有非常多的优秀创作者进行总结和分析,本文将会包含非常多的论文原文以及资源链接,都是值得一阅的好文,再次感谢这些优秀的创作者们。 本文作者:shutianma,腾讯TEG用户研究 Cha
腾讯大讲堂
2023/04/06
1.1K0
一篇不枯燥的ChatGPT闲谈
从GPT-1到GPT-4,再到未来的GPT-5,一文带你了解GPT的前世今生和未来!
ChatGPT爆火的余热还没退去,GPT-4又横空出世,各大媒体都争相报道,朋友圈也在不断刷屏,打工人更是感叹饭碗要被AI夺走了!作为一名理性吃瓜群众我们还是得去了解一下GPT的过去、现在和未来,正所谓知己知彼,百战不殆,只有充分了解"对手",我们才能驾驭AI为我所用!话不多说,立马开始!
itvv
2023/03/23
9.1K0
《AIGC辅助软件开发》001-AI智能化编程助手:ChatGPT
文章链接:https://cloud.tencent.com/developer/article/2465713
愚公搬代码
2024/11/15
1850
为什么ChatGPT这么强?—— 一文读懂ChatGPT原理!
笔者工作和学历均与AI无关,对NLP的理解比较有限,因此无法保证本文中所有内容都是正确的。笔者非常欢迎大家能够指出文中的错误。
Atum
2022/12/22
2.5K1
为什么ChatGPT这么强?—— 一文读懂ChatGPT原理!
以色列总统,为ChatGPT“带盐”
近期,生成式AI又点燃了人工智能的火炬,科技圈也刮起了一股名叫“ChatGPT”的风。
数据猿
2023/03/03
8150
以色列总统,为ChatGPT“带盐”
2023年!自然语言处理(NLP)10 大预训练模型
语言模型是构建NLP应用程序的关键。现在人们普遍相信基于预训练模型来构建NLP语言模型是切实有效的方法。随着疫情阴霾的散去,相信NLP技术会继续渗透到众多行业中。在此过程中,肯定有很多同学会用到或者学习NLP预训练模型,为此作者整理了目前2023年NLP的十大预训练模型及论文,模型效果不分先后。
ShuYini
2023/03/06
6.7K1
2023年!自然语言处理(NLP)10 大预训练模型
AIGC技术研究与应用 ---- 下一代人工智能:新范式!新生产力!(2.4 -大模型发展历程 之 多模态)
多模态生成, 指将一种模态转换成另一种模态, 同时保持模态间语义一致性 。主要集中在文字生成图片 、文字生成视频及图片生成文字。
流川疯
2023/10/13
6330
AIGC技术研究与应用 ---- 下一代人工智能:新范式!新生产力!(2.4 -大模型发展历程 之 多模态)
谁将替代 Transformer?
2017年谷歌发表的论文《Attention Is All You Need》成为当下人工智能的一篇圣经,此后席卷全球的人工智能热潮都可以直接追溯到 Transformer 的发明。
AI科技评论
2024/04/11
5720
谁将替代 Transformer?
追溯XLNet的前世今生:从Transformer到XLNet
正当 GPT-2 还拿着 15 亿参数的模型吊着人们的胃口时,XLNet 带着开源的代码和 20 项 SOTA 的成绩悄悄发布了。从 BERT 到 XLNet,大一统预训练模型的成功,无疑昭示着行业的快速进步。现在是最好的时机。回到正题,本文虽篇幅较长,但能提供不一样的视角,帮你迅速理清模型的细节。废话不多说,笔者这就将带你快速品读,XLNet 诞生之路上最重要的三篇论文:
AI科技大本营
2019/07/16
1.5K0
追溯XLNet的前世今生:从Transformer到XLNet
震撼,支持多模态模型的ChatGPT 4.0发布了
最近几个月,互联网和科技圈几乎ChatGPT刷屏了,各种关于ChatGPT的概念和应用的帖子也是围绕在周围。当去年年底ChatGPT发布的那几天,ChatGPT确实震撼到了所有人,原来AI还可以这么玩,并且对国内的那些所谓的人工智能公司更是旁敲侧击。
xiangzhihong
2023/03/17
2.6K0
震撼,支持多模态模型的ChatGPT 4.0发布了
chatgpt的前世今生 |小智ai
ChatGPT|ChatGPT丨小智ai丨chatgpt丨人工智能丨OpenAI丨聊天机器人丨AI语音助手丨GPT-3.5丨开源AI平台
用户10544499
2023/05/09
1.2K0
chatgpt的前世今生 |小智ai
两会代表热议采用ChatGPT指导论文写作:防范抄袭的探索与思考
随着深度学习、高性能计算、数据分析、数据挖掘、LLM、PPO、NLP等技术的快速发展,ChatGPT得到快速发展。ChatGPT之所以引起关注,在于它作为一个大模型,有效结合了大数据、大算力、强算法。
液冷服务器
2023/03/16
5420
两会代表热议采用ChatGPT指导论文写作:防范抄袭的探索与思考
大模型训练的两个关键雷点 | 技术创作特训营第一期
因为看到网上挺多人对大模型存在误解,而我从事神经网络编写已经十年以上,故写一下我的看法,和大家互相学习。
李泽鹏
2023/08/11
4280
仅5天注册用户超百万的爆火ChatGPT是什么
作者:qizailiu,腾讯 IEG 应用研究员 导读 OpenAI 近期发布聊天机器人模型 ChatGPT,迅速出圈全网。它以对话方式进行交互。以更贴近人的对话方式与使用者互动,可以回答问题、承认错误、挑战不正确的前提、拒绝不适当的请求。高质量的回答、上瘾式的交互体验,圈内外都纷纷惊呼。 为什么有如此高的评价?理论支撑是什么?背后的技术原理是什么?待解决的问题和方案有哪些?资本怎么看待这件事?本文的目标是将这些问题详细的给大家讲清楚。 1 ChatGPT 是什么? ChatGPT 本质是一个应用在对话场景
腾讯技术工程官方号
2022/12/13
2K0
仅5天注册用户超百万的爆火ChatGPT是什么
长文梳理!近年来GPT系列模型的发展历史:从GPT-1到GPT-4o(前世、今生)
随着ChatGPT的发布,大语言模型的关注度和数量都在不断上升,它引领了人类进入了大模型时代,并且随着一轮一轮的迭代,最新模型已经进化到了GPT-4o。在众多大语言模型中,GPT系列因其代表性而备受关注,其发展历程和技术革新值得深入探讨。那么今天带大家回顾一下近年来GPT系列模型的发展。【参考中国人民大学《大语言模型》】
ShuYini
2024/06/19
3.3K0
长文梳理!近年来GPT系列模型的发展历史:从GPT-1到GPT-4o(前世、今生)
ChatGPT的过去、现在与未来
依据Wiki百科的介绍,ChatGPT是一种尚处于原型阶段的人工智能聊天机器人。ChatGPT由OpenAI公司在2022年11月30日发布。在同样由OpenAI开发的GPT-3.5模型基础上,ChatGPT通过监督学习与强化学习技术进行微调,并提供了客户端界面,支持用户通过客户端与模型进行问答交互。ChatGPT不开源,但通过WebUI为用户提供免费的服务。
绿盟科技研究通讯
2023/02/22
1.3K0
ChatGPT的过去、现在与未来
Transformer六周年:当年连NeurIPS Oral都没拿到,8位作者已创办数家AI独角兽
从 ChatGPT 到 AI 画图技术,人工智能领域最近的这波突破或许都要感谢一下 Transformer。
机器之心
2023/08/07
3240
Transformer六周年:当年连NeurIPS Oral都没拿到,8位作者已创办数家AI独角兽
推荐阅读
相关推荐
ChatGPT的前世今生:OpenAI的技术「执拗」与「豪赌」
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档