从 2022 年 ChatGPT 发布开始,科技世界的聊天话题总是离不开 AI,很多原本不从事 AI 业务的公司也开始研究大语言模型,进行新时期的业务转型。AI 像“洪水猛兽”般向全世界涌来。
ChatGPT 从发布到日活用户突破 100 万,仅仅只用了五天时间,直至今日,ChatGPT 已经拥有了超过 18000 万的活跃用户。那么,大语言模型到底是怎么工作的呢?如何才能与大语言模型好好相处呢?
01
随机鹦鹉
如何开口
大语言模型并没有蕴含什么魔法,无论是从计算机科学底层原理还是其所基于的数学原理来看,它实际上还是一只“随机鹦鹉”,这也是业界目前很流行的一种说法。它就跟学人讲话的鹦鹉一样,并不清楚文字背后的含义,只是因为一直在听到我们所说的话(被高频投喂了这些语料),而硬性地把它重复、组合然后发音表达出来。
它是如何做到的呢?这就需要从大语言模型的底层宇宙说起。
在讨论大语言模型时,人们通常都会提到「Token」。在自然语言处理领域,Token 是一种常见的概念,它是文本处理的最小基本单元。为了能让计算机更好地处理和识别这些字符,我们需要对我们的语言进行编码,在进行自然语言处理时,将输入的文本拆分为一个个 Token,并以此进行后续的文本分析及应用。Token 对应的可以是一个中文字符、一个英文单词、一个标点符号、一个数字等等。
以 OpenAI 为例,“你”对应的数字是“57668”,那么当模型遇到“你”时,它就会将其映射到数字 57668。处理完输入的全部文本后,就会得到得到一串连续的,与输入文本对应的数字,这个编码的过程,就是为了能将我们的语言转换成计算机可理解的数学表达,通常也会被称为「向量化」。而这一串数字就会作为模型的输入,然后大语言模型再根据输入计算输出,这就是大语言模型解析和理解文本的方式。这也是为什么会说,大语言模型并不能真正理解原始文本,因为 Token 是我们语言的数学表达。
为了能让这只“鹦鹉”说话,还需要让“鹦鹉学舌”,而“学舌”就是大语言模型思考的过程,这就需要提到 2017 年那篇对自然语言处理领域产生了深远影响的论文《Attention Is All You Need》。GPT 中的“T”代表的“Transformer”就是在这篇论文中提出并且实现的,最终促成了 GPT 和 BERT 这类语言模型的诞生,它也成为了许多自然语言处理任务的首选模型。它的出现,它的出现,将大语言模型的思考过程变成了一个文字接龙游戏(也被称为自回归生成)。
通常我们在进行聊天、即兴演讲、自由答题时,并不像读书一样对于讲过的话和即将讲的话有一个全景的认知,而是根据习惯逐字逐句想出来的。大语言模型也是在这样的思考模式下“学舌”的,你给它一段文本,它会通过计算预测下一个最适合出现的字,然后不断通过这个过程,以已经存在的字作为上下文,再次预测下一个字,直至大语言模型觉得该停下来为止。
而同一个字在文本中通常有着不同的含义,这时候 GPT 会对它进行特征分析。特征分析的过程,可以理解为给它赋予一种颜色,每累加一个特征即对应一个色块,完成所有特征的累加之后,会得到一种混合出来的颜色,不同语义下的字词对应的颜色一定会存在偏移。以下图为例,在思考第一行的「行」字时,假设大语言模型将名词对应淡黄色,将与名词一同出现对应与黄色相关的橙色,以此类推,就可以获得一系列「行」字所对应的各种语言含义的色块,再把这一系列色块混合最终得到一个偏深红的颜色。
一个字是一个颜色的话,一段文本对应的则是一串五颜六色的编码条,类似一段 DNA 的碱基序列,GPT 在进行文本处理时,实际上是在找字与词的 DNA 编码,并把这个编码拿去计算。在这样“数字+颜色”编码规范下,大语言模型可以精准地识别输入的文本,并在既定的语料中寻找答案。
需要注意的是,大语言模型本身并不存储知识,它只是学会了知识编写的规则。当大语言模型提供搜索引擎功能的时候,它其实并不理解这些知识,它能回答出这些问题,是因为我们给到的语料当中有这些知识的存在,它只是在模仿既定语料中的行文规则进行输出。这也是为什么除了学习这些知识之外,大语言模型还能对文本进行总结、润色,转写等操作,因为我们提供的模版对续写和仿写进行了规范。我们在做指令微调时,实际上是在扭曲大语言模型所在的宇宙。例如下图所示,通过微调改变了“你”后面出现“今”这个字的权重,所以大语言模型最终能够输出“你今天xxx”的文本。
02
如何
激发智能
绝大多数大语言模型擅长的事情是扩增、原语、编码、解码、转译和变换。而在实际的交互中,大语言模型所要处理的事情可能超出了六大领域范围。这就是为什么使用过 ChatGPT 的人对它有着“容易犯蠢、胡编乱造、不听话、不会数学运算和逻辑推理”的印象。因为大语言模型本质是基于概率产生内容的,因此在交互过程中,不可避免的会出现“一本正经地胡说八道”的情况(往往也被称为“幻觉”),这时候,大语言模型就变成了一只活在幻觉里的,患有虚谈症的“随机鹦鹉”,它并不知道知识和语言的含义,只是通过规律推导出来接下来适合这样造句。如何利用好这种规律智能,成为了如今大部分人思考的问题。
这就要提到很多关于大语言模型的技术分享中都会讲到的「提示词工程」了,和大语言模型一样,「提示词工程」并没有什么魔法,它就是一种提问的艺术。天才数学家陶哲轩在进行数学研究时,就得到了来自 GPT-4 的神助攻,他说“它给我提供了最终的解题思路,接下来我只需要继续计算就行”。在陶哲轩放出的聊天记录中,我们可以看到,他把问题表达得非常清楚(我是谁,我在做什么,做了什么失败尝试,现在有什么困境,希望得到什么结果)。在这样的提示下,GPT-4 给到了它合理的建议。
除了详细清楚的结构化提问之外,我们还可以通过人工构造规律和样本的方式给大语言模型提供参考,以此来影响结果生成的概率。针对重叠的上下文,我们需要对任务进行拆分,避免干扰,因此当你发现模型“变笨”时,就需要把聊天记录删掉。最后,我们可以约束大语言模型的输出,比如告诉模型“如果你不知道,那么就不要做出任何响应了”,避免它无脑输出一些结果。
在这基础之上,我们可以将提示词作为积木,通过搭积木的方式构建和延展这种智能。在 Agent 智能体的帮助下,基于提示词将知识进行转化,并通过 API 调用集成视觉感知、搜索引擎、浏览器等功能。这时候的大模型就不仅仅只是会回答问题或者续写,而是以自然语言为交互界面进行了能力的拓展,将 AI 智能覆盖到更多地方。这里的 Agent 模拟出具有社会学特征的个体,比如斯坦福打造的 AI小镇,模拟了真实的人类生活,其中由 ChatGPT 扮演的人物角色可以像人类工作、生活,可以相互协作,也可以彼此交流(交流时用的也是人类语言哦)。
此外,大语言模型的多模态能力也是未来的发展重点。OpenAI 最新的 ChatGPT 就在增强文本生成能力的基础上,还支持了多模态能力,包括图像读取与理解、语音对话和语音生成等。举例来说,一个具备图像识别能力的机械臂,可以通过上述的「提示词工程」,结合「视觉感知」的 API,配合相关指令,就可以通过输入输出自然语言实现对物品拾捡的动作。未来,我们或许可以让一个 GPT 代替我们参加会议并生成纪要,或许可以让 GPT 自动完成运维信息的搜集,大模型会开始走进生活工作的方方面面。
普通人在生活中可能会觉得大语言模型还比较远,因为大部分人接触到的已经是大语言模型应用的最终形态,但其实它的底层宇宙已经千变万化。当然,大语言模型的发展还在继续,人们仍在前行,探索着大语言模型下更多未知的奥秘,打开未来智能世界的画卷。
领取专属 10元无门槛券
私享最新 技术干货