Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >ChatGPT是如何工作的?ChatGPT团队给出的解释

ChatGPT是如何工作的?ChatGPT团队给出的解释

作者头像
用户5166556
发布于 2024-04-30 07:52:40
发布于 2024-04-30 07:52:40
1680
举报

ChatGPT 如何运作?

对于我们这些过去几年没有从头开始构建 ChatGPT 的人来说,它是如何工作的?

当您向 ChatGPT 询问问题时,会发生以下几个步骤:

  • 输入: 我们从文本输入中获取您的文本。
  • 代币化: 我们将其分成令牌。一个令牌大致映射到几个 unicode 字符。你可以把它想象成一个词。
  • 创建嵌入: 我们将每个标记转换为数字向量。这些称为嵌入。
  • 将嵌入乘以模型权重: 然后,我们将这些嵌入乘以数千亿的模型权重。
  • 对预测进行采样: 在此乘法结束时,数字向量表示下一个最可能的标记的概率。下一个最有可能的标记是从 ChatGPT 中吐出的接下来的几个字符。

让我们想象一下这些步骤。前两个很简单:

当您向 ChatGPT 提问时会发生什么情况的步骤 1 和 2

请注意,标记化并不一定意味着将文本拆分为单词,标记也可以是单词的子集。

嵌入 是大型语言模型 (LLM) 的核心,我们在下一步中从标记创建它们:

当您向 ChatGPT 提问时发生的情况的第 3 步 。嵌入将标记表示为向量。上述嵌入中的值是示例

嵌入是令牌的多维表示。我们明确地训练 我们的一些模型 ,以明确地允许捕获单词或短语之间的语义和关系。例如,“狗”和“小狗”的嵌入在多个维度上比“狗”和“计算机”的嵌入更接近。这些多维嵌入可以帮助机器更有效地理解人类语言。

模型权重 用于计算加权嵌入矩阵,该矩阵用于预测下一个可能的标记。对于这一步,我们需要使用 OpenAI 的权重矩阵(它由数千亿个权重组成),并将其乘以我们根据嵌入构建的矩阵。这是一个计算密集型乘法。

在我们进行数十亿次乘法之后,对预测进行采样 。最终向量表示下一个最可能的标记的概率。抽样是指我们选择下一个最有可能的令牌并将其发送回用户。 ChatGPT 吐出的每个单词都是同样的过程,每秒重复多次。

步骤 5. 我们最终得到下一个最可能的标记(大约是一个单词)的概率。我们 根据预先训练的数据、提示和迄今为止生成的文本对下一个最可能的单词进行采样。图片来源: ChatGPT 正在做什么以及它为何有效?

预训练和推理

我们如何生成这组复杂的模型权重,其值编码了大部分人类知识?我们通过一个称为 预训练的过程来做到这一点。目标是建立一个模型,可以预测互联网上所有单词的下一个标记(您可以将其视为一个单词)。

在预训练过程中,权重通过梯度下降逐渐更新 ,这是一种数学优化方法。梯度下降的一个类比是一个徒步旅行者被困在山上,他试图下山。然而,由于大雾,他们无法看到整座山的全景,这将他们的视野限制在周围的一小部分区域。梯度下降意味着从徒步旅行者当前位置开始观察斜坡的陡度,然后朝最陡下降的方向前进。我们可以假设通过简单的观察,陡度并不明显,但幸运的是,这位徒步旅行者有一个测量陡度的仪器。然而,进行一次测量需要时间,而且他们希望在日落之前下山。因此,这位徒步旅行者需要决定停下来测量陡度的频率,这样他们仍然可以在日落之前下山。

一旦我们有了模型,我们就可以对其进行 推理 ,也就是当我们用文本提示模型时。例如,提示可以是:“为务实工程师写一篇客座文章。”然后,此提示要求模型 预测下一个最可能的标记(单词)。它根据过去的输入进行预测,并且它会不断地重复发生,一个词接一个词,一个词一个词,直到它吐出你想要的内容!

ChatGPT 的工作原理并不神奇,值得理解。 和大多数人一样,我对尝试 ChatGPT 的第一反应是它感觉很 神奇。我输入问题并得到答案,感觉就像来自人类! ChatGPT 与人类语言的配合非常好,并且能够获取比任何人能够处理的更多的信息。它也擅长解决与编程相关的问题,有一次我质疑 ChatGPT 是否 比人类更有能力 ,即使是在编程等人类迄今为止做得更好的领域?

要了解 ChatGPT 的局限性,您需要了解它的工作原理。 ChatGPT 和其他法学硕士并不像人类一样“思考”和“理解”。然而,ChatGPT 确实会根据下一个最可能的单词、查看输入以及迄今为止生成的所有内容来生成单词。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-04-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 云原生技术爱好者社区 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
这就是ChatGPT!
首先要解释的是,ChatGPT始终试图做的基本上是产生当前文本的“合理延续”,所谓“合理延续”是指“我们可以预期在看到人们在数十亿个网页等地写的内容后,他们可能会写什么”。
yeedomliu
2023/09/03
3730
这就是ChatGPT!
万字长文解释 ChatGPT 在做什么,以及为什么它能发挥作用?
ChatGPT 是由 OpenAI 开发的顶尖 AI 模型,旨在基于人们输入的内容生成类似的人类语言,凭借其强大的语言理解和文本生成能力,一经发布就引爆全球技术圈。Wolfram 语言之父 Stephen Wolfram 更是在博客发布万字长文(上百张配图)来解释 ChatGPT 强大功能的背后。 本文借助 DeepL 对原文进行了编译,感兴趣的小伙伴也可以移步到原文:https://writings.stephenwolfram.com/2023/02/what-is-chatgpt-doing-and
AI科技大本营
2023/02/23
1.3K0
万字长文解释 ChatGPT 在做什么,以及为什么它能发挥作用?
为什么对ChatGPT、ChatGLM这样的大语言模型说“你是某某领域专家”,它的回答会有效得多?(三)
“ ChatGPT 的 Transformer 神经网络架构,以及海量的数据训练让它能够像人类一样进行写作。”
技术人生黄勇
2024/07/19
1380
为什么对ChatGPT、ChatGLM这样的大语言模型说“你是某某领域专家”,它的回答会有效得多?(三)
图解BERT:通俗的解释BERT是如何工作的
在本文中,我将进一步介绍BERT,这是最流行的NLP模型之一,它以Transformer为核心,并且在许多NLP任务(包括分类,问题回答和NER)上均达到了最先进的性能。
deephub
2021/04/16
2.9K0
ChatGPT 的工作原理:深入探究
接着,文章详细阐述了训练过程,分为预训练和微调两个阶段。在预训练阶段,模型学习理解文本数据,包括词汇、语法、事实等;在微调阶段,模型使用具有限制性任务的数据集来调整,以获得更准确的输出。作者还提到了训练数据的来源,强调了在大量网络文本数据中获取知识的重要性。
前端小智@大迁世界
2023/05/23
9440
ChatGPT 的工作原理:深入探究
自注意力中的不同的掩码介绍以及他们是如何工作的?
在研究自注意力时,有很多的名词需要我们着重的关注,比如填充掩码,前瞻掩码等等,但网上没有太多注意力掩码的教程和它是如何工作的信息,另外还有以下的细节需要详细的解释:
deephub
2022/11/11
1.1K0
自注意力中的不同的掩码介绍以及他们是如何工作的?
GPT 模型的工作原理 你知道吗?
当我使用 GPT 模型编写我的前几行代码时是 2021 年,那一刻我意识到文本生成已经到了一个拐点。在此之前,我在研究生院从头开始编写语言模型,并且我有使用其他文本生成系统的经验,所以我知道让它们产生有用的结果是多么困难。作为我在 Azure OpenAI 服务中发布 GPT-3 的公告工作的一部分,我很幸运能够及早使用 GPT-3,并且我尝试了它以准备它的发布。我让 GPT-3 总结了一份长文档,并尝试了少量提示。我可以看到结果比以前的模型先进得多,这让我对这项技术感到兴奋,并渴望了解它是如何实施的。而现在后续的 GPT-3.5、ChatGPT 和 GPT-4 模型正在迅速获得广泛采用,该领域的更多人也对它们的工作原理感到好奇。虽然其内部运作的细节是专有且复杂的,但所有 GPT 模型都共享一些不太难理解的基本思想。我这篇文章的目标是解释一般语言模型的核心概念,特别是 GPT 模型,并针对数据科学家和机器学习工程师进行解释。
数据科学工厂
2023/08/10
5200
GPT 模型的工作原理 你知道吗?
从零开始构建大语言模型(MEAP)
像 ChatGPT 这样的大型语言模型(LLM)是在过去几年中开发的深度神经网络模型。它们引领了自然语言处理(NLP)的新时代。在大型语言模型出现之前,传统方法擅长于分类任务,如电子邮件垃圾分类和可以通过手工制作的规则或简单模型捕获的简单模式识别。然而,在需要复杂理解和生成能力的语言任务方面,例如解析详细说明、进行上下文分析或创建连贯且上下文适当的原始文本时,它们通常表现不佳。例如,以前的语言模型无法根据关键字列表编写电子邮件-这对于当代 LLM 来说是微不足道的任务。
ApacheCN_飞龙
2024/05/24
1.3K0
从零开始构建大语言模型(MEAP)
超详细总结之Word2Vec(一)原理推导[通俗易懂]
本章是介绍Word2Vec的原理推导部分,后面还会有基于TensorFlow的Word2Vec代码实现讲解。
全栈程序员站长
2022/08/30
2.3K0
超详细总结之Word2Vec(一)原理推导[通俗易懂]
5分钟 NLP 系列: Word2Vec和Doc2Vec
Doc2Vec 是一种无监督算法,可从可变长度的文本片段(例如句子、段落和文档)中学习嵌入。它最初出现在 Distributed Representations of Sentences and Documents 一文中。
deephub
2021/12/28
9990
5分钟 NLP 系列: Word2Vec和Doc2Vec
随机梯度下降优化算法_次梯度下降
对于样例xi,如果给一组参数W,得到的预测结果与实际标记Yi一致,则损失L趋低。我们现在将介绍第三个,也是最后一个关键部件:最优化。优化是寻找最小化损失函数的参数W集合的过程。
全栈程序员站长
2022/09/30
6590
随机梯度下降优化算法_次梯度下降
Shreya Gherani:BERT庖丁解牛(Neo Yan翻译)
BERT是双向转换器(Bi-Transformer)的缩写。这是谷歌在2018年末开发并发布的一种新型语言模型。BERT等经过预处理的语言模型在问答、命名实体识别、自然语言推理、文本分类等自然语言处理任务中发挥着重要作用。
CreateAMind
2019/08/13
1.1K0
Shreya Gherani:BERT庖丁解牛(Neo Yan翻译)
RNN示例项目:详解使用RNN撰写专利摘要
我第一次尝试研究RNN时,我试图先学习LSTM和GRU之类的理论。在看了几天线性代数方程之后(头疼的要死),我在Python深度学习中发生了以下这段话:
AiTechYun
2018/12/12
1.8K0
RNN示例项目:详解使用RNN撰写专利摘要
Transformer 架构逐层功能介绍和详细解释
来源:Deephub Imba本文共2700字,建议阅读5分钟本文能让你对Transformer的整体架构有所了解。 多年来,深度学习一直在不断发展。深度学习实践高度强调使用大量参数来提取有关我们正在处理的数据集的有用信息。通过拥有大量参数,我们可以更容易地分类/检测某些东西,因为我们有更多的可以清楚地识别的数据。 目前为止深度学习中,特别是在自然语言处理领域的一个显着里程碑是语言模型的引入,它极大地提高了执行各种 NLP 任务的准确性和效率。 seq2seq模型是一种基于编码器-解码器机制的模型,它接收输
数据派THU
2022/03/04
2.2K0
nlp-with-transformers系列-03_剖析transformers模型
在第2章中,我们看到了微调和评估一个Transformer所需要的东西。 现在让我们来看看它们在引擎盖下是如何工作的。 在本章中,我们将探讨Transformer模型的主要组件以及如何使用PyTorch实现它们。 我们还将提供关于如何在TensorFlow中做同样事情的指导。 我们将首先专注于建立注意力机制,然后添加必要组件,使Transformer编码器工作。 我们还将简单了解一下编码器和解码器模块之间的结构差异。 在本章结束时,你将能够自己实现一个简单的Transformer模型!
致Great
2023/08/25
3410
nlp-with-transformers系列-03_剖析transformers模型
能模仿韩寒小四写作的神奇递归神经网络(附代码)
引言 在离人工智能越来越近的今天,研究界和工业界对神经网络和深度学习的兴趣也越来越浓,期待也越来越高。 我们在深度学习与计算机视觉专栏中看过计算机通过卷积神经网络学会了识别图片的内容——模仿人类的看,而工业界大量的应用也证明了神经网络能让计算机学会听(比如百度的语音识别),于是大量的精力开始投向NLP领域,让计算机学会写也一定是非常有意思的事情,试想一下,如果计算机通过读韩寒和小四的小说,就能写出有一样的调调的文字,这是多带劲的一件事啊。 你还别说,还真有这么一类神经网络,能够在NLP上发挥巨大的
大数据文摘
2018/05/24
1.5K0
NLP系列学习:DBOW句向量
最近在看这一篇文章,在网上也看到了很好的翻译,总结一下,写一下自己的看法,不足之处还是多多指教~
云时之间
2019/02/26
9360
ChatGPT面临销毁?GPT-4被曝逐字照抄原文,OpenAI或将赔偿数十亿美元
指控内容是,OpenAI和微软未经许可,就使用纽约时报的数百万篇文章来训练GPT模型,创建包括ChatGPT和Copilot之类的AI产品。
新智元
2024/01/04
2500
ChatGPT面临销毁?GPT-4被曝逐字照抄原文,OpenAI或将赔偿数十亿美元
ChatGPT为啥这么强:万字长文详解 by WolframAlpha之父
ChatGPT 发自 凹非寺 量子位 | 公众号 QbitAI Wolfram语言之父Stephen Wolfram,又来给ChatGPT背书了。 上个月,他还专门写过一篇文章,力荐自家的计算知识搜索引擎WolframAlpha,希望能跟ChatGPT来个完美结合。 大概表达的意思就是,“你计算能力不达标,那可以把我的’超能力’注入进去嘛”。 而时隔一个多月,Stephen Wolfram围绕“ChatGPT是什么”和“为什么它能这么有效”两个问题,再次发表万字长文做了番深入浅出的详解。 (为了保证阅读
量子位
2023/02/23
6370
ChatGPT为啥这么强:万字长文详解 by WolframAlpha之父
Transformers 4.37 中文文档(十二)
🤗 Transformers 是一个预训练的最先进模型库,用于自然语言处理(NLP)、计算机视觉以及音频和语音处理任务。这个库不仅包含了 Transformer 模型,还有像现代卷积网络这样的非 Transformer 模型,用于计算机视觉任务。如果你看一下今天最流行的消费产品,比如智能手机、应用和电视,很可能背后都有某种深度学习技术。想要从智能手机拍摄的照片中移除背景物体?这就是一个全景分割任务的例子(如果你还不知道这是什么,不用担心,我们将在接下来的部分中描述!)。
ApacheCN_飞龙
2024/06/26
6250
Transformers 4.37 中文文档(十二)
推荐阅读
相关推荐
这就是ChatGPT!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档