AI大热下,大量的知识和概念突然出现在我们生活中,大模型、LLM、生成式、ChatGPT的原理是计算下一个词的概率等等,在无法深入到公式层面的前提下,如何理解这些概念呢,似乎很难。
但是,我在金融时报发现的这个网站(https://ig.ft.com/generative-ai/),以非常巧妙的交互方式,十分生动地解释了大模型推理的原理,其中对于概念的解释堪称一绝。
我认为是我见过最佳的科普生成式AI的网站,没有之一。
强烈建议可以查阅原网站,网站的交互设计也是我见过最好的。
下面让我们一起进入大模型的世界。
1、生成式AI之所以能出现,是因为Transformer的出现!
"Transformer"是一篇非常重要的论文,标题为《Attention Is All You Need》,由Vaswani等人于2017年发表。
在过去的几年里,我们在长达数十年的构建智能机器的探索中取得了巨大的飞跃:大型语言模型(LLM,large language model)的出现。
这项技术基于试图模拟人类大脑的研究,催生了一个被称为生成人工智能的新领域——可以在模仿人类能力的水平上创建合理且复杂的文本、图像和计算机代码的软件。
那么到底Transformer是怎么运作的?为什么以此为基础的LLM可以像人类一样理解并生成内容?
2、Token化:另一个角度理解文字
人类理解文字是通过学习单词、语法从而来理解和记住文字的“排列组合”。
那么计算机如何理解文字?
一个单词块被分解成Tokens——可以编码的基本单位。标记通常表示单词的小部分,但我们会将每个完整的单词转换为标记。
分成Tokens后,为了“抓住”每个单词代表的含义,LLM会在大量的训练数据里观察每个Token附近的单词。这些训练数据来自于整个互联网,成千上亿的数据量!
最终,LLM得到了大量的和某个单词(比如这里是work)相关的数据,同样也有很多和work无关的数据。
3、词嵌入:将Token用序列表征,量化单词的含义
模型在处理这一组单词时时,会使用一个数组Vector,也就是向量化。这里面有两种表示方式,离散表示(one-hot representation)和分布式表示(distribution representation),又被称为词向量。本质上是一个降维的过程,感兴趣可以深入了解NLP。
这个数组也被称为词嵌入(word embedding)。
最终一个word embedding可以有数百个值,每个数值代表了单词的某种含义,也可以理解为特征,比如使用红色、品牌、发动机、轮胎等来描述一辆汽车。
词嵌入可以量化单词的语言特征(虽然有时候并不知道某个数值具体代表什么特征)。
虽然不知道数值含义或者代表什么,但是我们经常说的同义词具有类似或者大体相同的word embedding。
就像上图中的sea和ocean,一般是不会同时出现在,但是他们含义彼此接近,而词嵌入量化后,可以让们直观的感受这两个词语的亲密程度。
假设我们将代表单词含义的向量列表中数值减少到2个值,就可以在熟悉的平面象限中来观察他们——观察他们之间的距离。
显而易见,我们可能会发现“名词”在一起,然后“运输方式”在一起。
而能够以这种方式量化单词是模型能够生成文本的第一步。
4、Transformer:大模型之所以能聪明的关键所在
上面我们量化了单词,可以通过,比如二维空间的距离,来观察各个单词的含义。
但是,LLM之所以能像今天看起来这么聪明,依赖于一种叫做“Transformer”的机制,是Transfromer从根本上增强了计算机理解语言的能力和方式。
Transformer可以看作是生成式人工智能时代的开始。
而Transformer中一个关键的概念就是自注意力机制Self-Attention。
Self-attention会查看文本中的每个标记,并决定哪些其他标记对于理解含义最重要。
在自注意力机制出现之前,NLP自然语言处理最先进的方法是循环神经网络RNN——一种依次扫描并按顺序处理句子信息的方法。
通过Self-attention,Transformer可以同时计算和关注句子中的所有单词。捕获上下文这种能力给LLMs提供了更复杂的语言解析能力。
在这个下面例子中,Transformer可以通过上下文准备的理解,两个interest的含义。
并且,即使我们将这两个词语所在的句子组合起来,模型依然能够理解正确的含义,这得益于随附文本Accompanying Text。
比如,对于第一个interest,no和in是模型最为关注的。
这个功能对于生成高质量的文本内容至关重要。
如果没有他,在某些上下文中可以互换,但在其他上下文中不能互换的单词可能会被错误的使用。实际上,当你想要撰写的是和利率interest相关的文章时,模型将不会enthusiasm出现。
这种能力,超越了单词,比如上文中的interest,具有多种意义。比如在下面的例子中,模型对于it的理解,在第一句中很大概率会把it理解为dog狗,而在第二句中,it将被理解为bone。
所以,训练数据规模越大,Self-attention对于语言处理的好处越明显。自注意力机制允许LLMs可以从某个句子边界之外获取上下文资料,使模型更好地理解单词的使用方法和使用时机。
5、ChatGPT,GPT-4的能力为何如此强悍?
ChatGPT为何能够根据你输入的“提示词”,输出你最想要的结果?
模型在对提示词进行编码,通过Token化、词嵌入Word embedding和自注意力机制Self-Attention后,变成了机器可以理解的数据块,这些不同数值代表了提示词之间的含义、位置和各个单词之间的关系。
显而易见,模型最简单的就是预测这个序列的下一个单词是什么?
比如about是概率最高的下个单词。
然后模型预测完成第一个单词后,将所有结果输入,然后继续下一个单词。
但是这样做带来一个问题,就是虽然每个单词都是上一个单词后面的大概率单词,但是整个句子来看的话,可能并不合适,甚至不是很相关。
Transformer使用多种方法来解决此问题,其中一个方法是波束搜索。
它不是只关注下一个单词的概率,而是着眼于整个更大句子标记集合的概率。比如下面就有四种可能性。
并且这四种可能性也都有各自的概率。通过beam search,模型能够考虑多条路线,并找到最佳的概率选择。
这样,模型就会生成更好的结果,最终产生更连贯、更接近人类的文本。
6、幻觉:概率越大就正确吗?
虽然模型通过一系列操作可以根据提示词生成内容了,但是结果并不是总能符合预期。
虽然GPT生成的文本“读起来”合理并且连贯,但是这些内容并不一定总是“正确”。
这是因为LLMs并不是查找“事实”的搜索引擎,而是一种模式识别引擎——猜测序列中的下一个最佳选项。
所以,LLMs会产生被研究院称之为“幻觉”(hallucination)的信息。
GPT会虚构数字、名称、日期,甚至是整篇文章。
研究人员认为幻觉不可能完全消除,但是OpenAI、Google等大公司正在努力通过一种叫做“接地”的过程来限制幻觉——这涉及到使用网络搜索结果来交叉验证LLMs的输出,并向用户提供引文citations以便用户进行验证。
当然,人类自身也被用来提供反馈并填补信息空白——这一过程被称为人类反馈强化学习RLHF,有点像《流浪地球2》中的Moss所说的人在回路——以便进一步提高内容输出质量。
7、多模态:不仅仅是文本,他可以做任何事情
尽管存在幻觉的诸多限制,Transformer还是催生了目前最为领先的大模型,比如ChatGPT、Bard等。
但是Transformer真正的力量超越了文本语言——发明者发现Transformer可以识别和预测任何图像或者模式。
于是DALL-E、Midjourney和Stable Diffusion等图像生成AI诞生;
Github Copilot代码生成器诞生;
甚至可以用来预测音乐中音符;
用来设计蛋白质中的DNA来帮助发明药物。
总结:
Take this simple model that predicts the next word and it . . . can do anything
Aidan Gomez, chief executive of AI start-up Cohere, and a co-author of the transformer paper.
Transformer的作者之一表示,采用这种预测下一个单词的简单模型,可以做到任何事情。
现在GPT或者未来的什么模型,是可以在整个互联网上进行训练,这将会产生出比以往任何模型都更好的模型。
这才是这个故事最神奇的部分。
*以上所有非内容解释图片都是由DALL·E生成
领取专属 10元无门槛券
私享最新 技术干货