社区首页 >专栏 >ChatGPT前世今生的真实版本（之一）

ChatGPT前世今生的真实版本（之一）

木羊

发布于 2023-09-09 01:20:16

2840

ChatGPT真的很火，真的。虽然ChatGPT两个月前发布就已经让我大受震撼，但年后突然涌出一大批ChatGPT的介绍文章，一看发布者，居然全是荐股号、投资号，再次让我大受震撼。

ChatGPT怎样拉动AIGC的投资价值，又会让谁先丢饭碗，高端话题留给专业人士。我研究人工智能，不过，值得说道的地方也看到不少。有文章出现了ChatGBT、ChatGTP等等名字，不知道是笔误还是把G*P当成辈分。有文章说“基于ChatGPT-3.5模型”，这是没搞清背景，以讹传讹结果把ChatGPT和GPT-3.5合二为一。会者不难，就怕不会。更重要的是，大多数文章有意无意都把聚光灯打在了ChatGPT身上，读完一种感觉：OpenAI玩战术憋大招，突然就点出了谷歌未敢设想的道路。

这是误导。我知道，讲故事要有戏剧张力，一蹴而就很有张力，但不是现实，要研究人工智能，只能冰冻三尺非一日之寒。再炸裂的新闻，背后一定都能回溯出一条漫长曲折的发展路线。ChatGPT正是典型代表。

谷歌这次有点措手不及，但原因和很多文章说的不太一样。很多人以为谷歌漏点一条科技树，现在要被偷水晶了。不是，最早搞出高水平对话模型的，可能正是谷歌。很多人以为ChatGPT是“黑科技”，OpenAI瞒着所有人自己蹲家里憋出来的。不是，ChatGPT基于GPT，GPT基于Transformer，而这个Transformer不是别人正是谷歌家的研究成果，而且5年前就公开发表了论文，你感兴趣现在就可以上Arxiv查看。

ChatGPT头顶的光环太耀眼了，光环下的误传三言两语反而讲不清楚。无论是为了正确做研究，还是为了正确做投资，我想，都有必要捋一捋ChatGPT前世今生的现实版本。

GPT产品线

先从ChatGPT的名字说起。这个名字有讲究，是由Chat+GPT两部分组成，意思是用GPT模型来做Chat（对话任务）。OpenAI用GPT模型构建了一条产品线，即使未来发布新产品，名字可能会叫某某GPT，而肯定不是GBT或者GTP。

GPT是什么意思呢？在网上直接搜“GPT”，大概会得到两类结果。一类叫GUID Partition Table，是一种磁盘分区表，也简称GPT。另一类才是我们下面要讲的GPT模型。

GPT是一款基于Transformer的深度模型，也不是什么最近才憋出来的隐藏大招，早在2018年OpenAI就发布了GPT模型，然后一直在迭代，目前已经迭代了三代半，分别叫GPT-1、GPT-2、GPT-3和GPT-3.5。同时，OpenAI还围绕GPT不断打造产品线，也就是基于GPT模型构建不同领域的解决方案。本文的主角ChatGPT，就是基于GPT-3.5模型打造的智能对话产品。

我们关注AI，更多关注的是OpenAI推了什么新技术，但OpenAI还有另一个值得关注的点，产品意识。OpenAI一直固执地以GPT模型为核心打造产品线，从技术的角度看，GPT并非一直是最优选择，但现在回头再看，这是OpenAI的阳谋。用投资的话讲，OpenAI是以GPT模型在构筑护城河。

GPT模型是怎样发展到今天的呢？还得从谷歌家的Transformer说起。

Transformer

Transformer和OpenAI没啥关系，但和GPT大有关系。有件事很有意思，现在天天都说ChatGPT可能要干掉谷歌，不过，如果当年谷歌没有发布Transformer，今天可能也不存在什么ChatGPT。

很多文章对Transformer只是一笔带过，顶多也就提一句“GPT是基于Transformer”。但我认为，Transformer才是一切的起点。搞不清楚Transformer，就搞不清楚GPT，最后也就搞不清楚ChatGPT。

一切还要从一篇题目非常中二的论文说起。2017年，谷歌研究团队发表了一篇的论文，题目《Attention is All You Need》，提出一款基于自注意力机制的深度模型框架，名叫Transformer。

这篇论文现在名气非常大，已经有点中本聪的那篇创世论文的意思。但在当时，我和很多人一样，都觉得这篇论文只是谷歌和另一家研究团队，当时叫FAIR，也就是脸书的AI研究团队怄气才写出来的东西。

问题的根子，出在RNN身上。深度学习是当前人工智能最热门的研究分支，有两大研究方向，一个叫自然语言处理（NLP），主要是做文本，一个叫计算机视觉(CV)，主要是做图像。2017年以前，深度学习非常单纯，做文本就用RNN模型，做图像就用CNN模型，这是当时深度学习的楚河汉界。

为什么？因为文本是序列信息，也就是你得一个字一个字地读下去，才知道这段话说的是什么意思。循环神经网络(RNN）用循环来模拟“逐字读”这个效果，CNN没有这个本事。

但是，RNN成也循环败也循环，循环太费时了。于是，FAIR开始琢磨怎样能用快得多的CNN来做文本。我想，FAIR琢磨这事还有另一个原因，Yann LeCun，对，就是现在炮轰ChatGPT啥都不是的那位Yann LeCun。Yann LeCun有两重身份：CNN之父、FAIR首席科学家。CNN之父作为首席科学家领导FAIR研究如何用CNN跨界做文本，听着多么顺耳，当然，这是我瞎猜。

不管怎样，FAIR还真的找到了办法，2017年5月发表论文《Convolutional Sequence to Sequence Learning》。CNN成功跨界，当时学界也是大受震撼。说真的，虽然都说春江水暖鸭先知，但这些年AI领域大受震撼的事太多，圈内人早都震麻了。正如开篇所说，我知道ChatGPT很热，但热到喷火的地步，是直到荐股号投资号纷纷改聊ChatGPT的技术原理才有真切感受。

FAIR以为自己是主攻，没想到很快变成了助攻。仅仅一个月后，对家的谷歌研究团队发表了那篇《Attention is All You Need》，标题不仅中二，而且还有正面刚的意思。

这里“Attention”是指深度学习中的一个机制，中文译作“注意力（机制）”。FAIR用CNN做序列文本，其实是用“CNN+注意力”的混合结构。现在谷歌直接说，“有注意力就够了，别整那些没用的”。你品，你细品。当然，这也是我瞎猜。

抛开八卦不谈，对ChatGPT、对NLP、乃至对整个AI领域，《Attention is All You Need》最大的贡献就是提出了Transformer。

过去深度学习的研究边界是十分清晰的，不但NLP和CV楚河汉界，连NLP下面的不同子任务也圈地自萌。Transformer打破了这些条条框框，现在学界开始倡议，应该把这类模型称为“基础模型”。

最开始Transformer只是在NLP领域大杀特杀，后来通过ViT等一众变体，把火也烧到了CV领域，正在和原来的扛把子CNN打得有来有回。Transformer是第一款不用大改就能即做文本又做图像的模型，所以，很多人看好它，称之为“大一统模型”。注意，这里说的“大统一模型”和强人工智能（AGI）是两个意思。过去深度学习是用不同模型做不同事情，而大一统模型则是用一种模型去做全部事情。

还有一件事，对现在NLP的研究产生了颠覆性影响，也就是最近常提到的“范式改变”，但在当时来说可能只是无心插柳。插的“柳”就是Transformer的一项“隐藏属性”，元优化能力。

目前学界已经公认，基于Transformer构建的语言模型，一旦模型参数规模超过某个阈值，就会出现“能力涌现”现象。过去一般认为，模型的参数规模和能力呈正比关系，也即“缩放定律”。但现在发现，大模型能够打破缩放定律，只要参数突破临界值，就会出现一些小模型所不具备的新能力。有一篇论文絮絮叨叨用好长一段话来描述能力涌现，用我们的话其实就一句，那就是量变可以达到质变。

为什么会出现能力涌现？这是一项非常前沿的研究课题，答案肯定就出在Transformer里面，但具体是什么学界还在苦苦寻觅。有一项研究提出观点，说这是因为Transformer具备元优化能力，不需要显式调用传统的梯度下降，也能够实现梯度下降类似的优化效果。这可能正是ChatGPT让人大受震撼的关键。

从各种意义上看，谷歌的Transformer都是GPT模型的基石。现在，基石已经铺就，GPT可以开始它坎坷而璀璨的旅程了。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2023-02-08，如有侵权请联系 cloudcommunity@tencent.com 删除

深度学习