前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ChatGPT前世今生的真实版本(之一)

ChatGPT前世今生的真实版本(之一)

作者头像
木羊
发布2023-09-09 09:20:16
2380
发布2023-09-09 09:20:16
举报
文章被收录于专栏:睡前机器学习睡前机器学习

ChatGPT真的很火,真的。虽然ChatGPT两个月前发布就已经让我大受震撼,但年后突然涌出一大批ChatGPT的介绍文章,一看发布者,居然全是荐股号、投资号,再次让我大受震撼。

ChatGPT怎样拉动AIGC的投资价值,又会让谁先丢饭碗,高端话题留给专业人士。我研究人工智能,不过,值得说道的地方也看到不少。有文章出现了ChatGBT、ChatGTP等等名字,不知道是笔误还是把G*P当成辈分。有文章说“基于ChatGPT-3.5模型”,这是没搞清背景,以讹传讹结果把ChatGPT和GPT-3.5合二为一。会者不难,就怕不会。更重要的是,大多数文章有意无意都把聚光灯打在了ChatGPT身上,读完一种感觉:OpenAI玩战术憋大招,突然就点出了谷歌未敢设想的道路。

这是误导。我知道,讲故事要有戏剧张力,一蹴而就很有张力,但不是现实,要研究人工智能,只能冰冻三尺非一日之寒。再炸裂的新闻,背后一定都能回溯出一条漫长曲折的发展路线。ChatGPT正是典型代表。

谷歌这次有点措手不及,但原因和很多文章说的不太一样。很多人以为谷歌漏点一条科技树,现在要被偷水晶了。不是,最早搞出高水平对话模型的,可能正是谷歌。很多人以为ChatGPT是“黑科技”,OpenAI瞒着所有人自己蹲家里憋出来的。不是,ChatGPT基于GPT,GPT基于Transformer,而这个Transformer不是别人正是谷歌家的研究成果,而且5年前就公开发表了论文,你感兴趣现在就可以上Arxiv查看。

ChatGPT头顶的光环太耀眼了,光环下的误传三言两语反而讲不清楚。无论是为了正确做研究,还是为了正确做投资,我想,都有必要捋一捋ChatGPT前世今生的现实版本

GPT产品线

先从ChatGPT的名字说起。这个名字有讲究,是由Chat+GPT两部分组成,意思是用GPT模型来做Chat(对话任务)。OpenAI用GPT模型构建了一条产品线,即使未来发布新产品,名字可能会叫某某GPT,而肯定不是GBT或者GTP。

GPT是什么意思呢?在网上直接搜“GPT”,大概会得到两类结果。一类叫GUID Partition Table,是一种磁盘分区表,也简称GPT。另一类才是我们下面要讲的GPT模型。

GPT是一款基于Transformer的深度模型,也不是什么最近才憋出来的隐藏大招,早在2018年OpenAI就发布了GPT模型,然后一直在迭代,目前已经迭代了三代半,分别叫GPT-1、GPT-2、GPT-3和GPT-3.5。同时,OpenAI还围绕GPT不断打造产品线,也就是基于GPT模型构建不同领域的解决方案。本文的主角ChatGPT,就是基于GPT-3.5模型打造的智能对话产品。

我们关注AI,更多关注的是OpenAI推了什么新技术,但OpenAI还有另一个值得关注的点,产品意识。OpenAI一直固执地以GPT模型为核心打造产品线,从技术的角度看,GPT并非一直是最优选择,但现在回头再看,这是OpenAI的阳谋。用投资的话讲,OpenAI是以GPT模型在构筑护城河

GPT模型是怎样发展到今天的呢?还得从谷歌家的Transformer说起。

Transformer

Transformer和OpenAI没啥关系,但和GPT大有关系。有件事很有意思,现在天天都说ChatGPT可能要干掉谷歌,不过,如果当年谷歌没有发布Transformer,今天可能也不存在什么ChatGPT。

很多文章对Transformer只是一笔带过,顶多也就提一句“GPT是基于Transformer”。但我认为,Transformer才是一切的起点。搞不清楚Transformer,就搞不清楚GPT,最后也就搞不清楚ChatGPT。

一切还要从一篇题目非常中二的论文说起。2017年,谷歌研究团队发表了一篇的论文,题目《Attention is All You Need》,提出一款基于自注意力机制的深度模型框架,名叫Transformer。

这篇论文现在名气非常大,已经有点中本聪的那篇创世论文的意思。但在当时,我和很多人一样,都觉得这篇论文只是谷歌和另一家研究团队,当时叫FAIR,也就是脸书的AI研究团队怄气才写出来的东西。

问题的根子,出在RNN身上。深度学习是当前人工智能最热门的研究分支,有两大研究方向,一个叫自然语言处理(NLP),主要是做文本,一个叫计算机视觉(CV),主要是做图像。2017年以前,深度学习非常单纯,做文本就用RNN模型,做图像就用CNN模型,这是当时深度学习的楚河汉界。

为什么?因为文本是序列信息,也就是你得一个字一个字地读下去,才知道这段话说的是什么意思。循环神经网络(RNN)用循环来模拟“逐字读”这个效果,CNN没有这个本事。

但是,RNN成也循环败也循环,循环太费时了。于是,FAIR开始琢磨怎样能用快得多的CNN来做文本。我想,FAIR琢磨这事还有另一个原因,Yann LeCun,对,就是现在炮轰ChatGPT啥都不是的那位Yann LeCun。Yann LeCun有两重身份:CNN之父、FAIR首席科学家。CNN之父作为首席科学家领导FAIR研究如何用CNN跨界做文本,听着多么顺耳,当然,这是我瞎猜。

不管怎样,FAIR还真的找到了办法,2017年5月发表论文《Convolutional Sequence to Sequence Learning》。CNN成功跨界,当时学界也是大受震撼。说真的,虽然都说春江水暖鸭先知,但这些年AI领域大受震撼的事太多,圈内人早都震麻了。正如开篇所说,我知道ChatGPT很热,但热到喷火的地步,是直到荐股号投资号纷纷改聊ChatGPT的技术原理才有真切感受。

FAIR以为自己是主攻,没想到很快变成了助攻。仅仅一个月后,对家的谷歌研究团队发表了那篇《Attention is All You Need》,标题不仅中二,而且还有正面刚的意思。

这里“Attention”是指深度学习中的一个机制,中文译作“注意力(机制)”。FAIR用CNN做序列文本,其实是用“CNN+注意力”的混合结构。现在谷歌直接说,“有注意力就够了,别整那些没用的”。你品,你细品。当然,这也是我瞎猜。

抛开八卦不谈,对ChatGPT、对NLP、乃至对整个AI领域,《Attention is All You Need》最大的贡献就是提出了Transformer。

过去深度学习的研究边界是十分清晰的,不但NLP和CV楚河汉界,连NLP下面的不同子任务也圈地自萌。Transformer打破了这些条条框框,现在学界开始倡议,应该把这类模型称为“基础模型”。

最开始Transformer只是在NLP领域大杀特杀,后来通过ViT等一众变体,把火也烧到了CV领域,正在和原来的扛把子CNN打得有来有回。Transformer是第一款不用大改就能即做文本又做图像的模型,所以,很多人看好它,称之为“大一统模型”。注意,这里说的“大统一模型”和强人工智能(AGI)是两个意思。过去深度学习是用不同模型做不同事情,而大一统模型则是用一种模型去做全部事情。

还有一件事,对现在NLP的研究产生了颠覆性影响,也就是最近常提到的“范式改变”,但在当时来说可能只是无心插柳。插的“柳”就是Transformer的一项“隐藏属性”,元优化能力。

目前学界已经公认,基于Transformer构建的语言模型,一旦模型参数规模超过某个阈值,就会出现“能力涌现”现象。过去一般认为,模型的参数规模和能力呈正比关系,也即“缩放定律”。但现在发现,大模型能够打破缩放定律,只要参数突破临界值,就会出现一些小模型所不具备的新能力。有一篇论文絮絮叨叨用好长一段话来描述能力涌现,用我们的话其实就一句,那就是量变可以达到质变。

为什么会出现能力涌现?这是一项非常前沿的研究课题,答案肯定就出在Transformer里面,但具体是什么学界还在苦苦寻觅。有一项研究提出观点,说这是因为Transformer具备元优化能力,不需要显式调用传统的梯度下降,也能够实现梯度下降类似的优化效果。这可能正是ChatGPT让人大受震撼的关键。

从各种意义上看,谷歌的Transformer都是GPT模型的基石。现在,基石已经铺就,GPT可以开始它坎坷而璀璨的旅程了。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-02-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 睡前机器学习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • GPT产品线
  • Transformer
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档