前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >这就是ChatGPT!

这就是ChatGPT!

作者头像
yeedomliu
发布于 2023-09-03 05:38:44
发布于 2023-09-03 05:38:44
3630
举报
文章被收录于专栏:yeedomliuyeedomliu

思维导图

ChatGPT在做什么

一次添加一个词

首先要解释的是,ChatGPT始终试图做的基本上是产生当前文本的“合理延续”,所谓“合理延续”是指“我们可以预期在看到人们在数十亿个网页等地写的内容后,他们可能会写什么”。

当ChatGPT像写一篇文章这样的事情时,它实际上只是一遍一遍地问“在给定的文本之前,下一个词应该是什么?”,每次都添加一个词。

有人可能认为它应该是“排名最高”的单词(即赋予最高“概率”的单词)。但是在这里有一点巫术开始蔓延。因为由于某种原因,可能有一天我们会以科学的方式理解,如果我们总是选择排名最高的单词,我们通常会得到一篇非常“平淡”的文章

但是,如果有时(随机地)选择排名较低的单词,我们会得到一篇“更有趣”的文章。

有一个特定的所谓“温度”参数,它决定了使用排名较低的单词的频率,对于文章生成来说,0.8的“温度”似乎效果最佳。(值得强调的是,这里没有使用任何“理论”,只是在实践中已经发现有效。例如,“温度”的概念存在,是因为在统计物理学中熟悉的指数分布。

  1. 提取底层的“语言模型”神经网络
  1. 请求模型说应该跟随在后面的前5个按概率排序的词语:这将结果转换为一个显式格式化的“数据集”

概率从何而来

我们可以对维基百科上关于“猫”(cats)的文章进行字母统计

我们也可以对“狗”(dogs)做同样的统计

如果我们对英文文本进行足够大的抽样,我们最终可以得到至少相当一致的结果:字符频率

如果我们只根据这些概率生成一串字母,我们会得到以下样本:

我们可以将这个分成"单词",通过添加空格来代替某些字母的概率:

通过强制“单词长度”的分布与英语中的分布一致,我们可以做得更好一点:

我们需要做的不仅仅是随机选择每个字母。例如,我们知道如果有个“q”,下一个字母基本上必须是“u”。这是字母自己的概率的绘图:

这是英语文本中成对字母(“二元组”)概率的绘图。可能的第一个字母显示在每行的顶部,第二个字母显示在每列的左侧:

我们看到,例如,“q”列是空白(零概率),除了“u”行

我们的“词汇”一个字母一个字母地生成,我们以每次查看两个字母的方式使用这些“2-gram”概率。以下是结果的一个样本,它恰好包含一些“实际单词”:

通过足够多的英文文本,我们不仅可以很好地估计单个字母和两个字母(2-gram)的概率,还可以估计更长的字母序列的概率。如果我们使用越来越长的-gram概率生成“随机单词”,我们会发现它们会变得越来越“真实”:

就像ChatGPT一样——我们处理的是完整的单词,而不是字母。英语中大约有4万个常用词。通过查看大量的英文文本语料库(比如几百亿个单词的几百万本书),我们可以估计每个词汇的常见程度。利用这个信息,我们可以开始生成“句子”,其中每个单词都是以与其在语料库中出现的概率相同的概率独立随机选择的。

重要的想法是建立一个模型,使我们能够估计序列出现的概率,即使我们从未在我们查看的文本语料库中明确看到过这些序列。而ChatGPT的核心正是一个被称为“大型语言模型”(LLM)的模型,它被构建来很好地估计这些概率。

什么是模型

你使用的任何模型都具有特定的基本结构,然后有一组“可以调节的旋钮”(即可设置的参数)来拟合你的数据。在 ChatGPT 的情况下,使用了大量这样的“旋钮”——实际上有 1750 亿个。

神经网络

关键词

描述

人脑模仿

通过多个处理层进行输入图像的分析和分类

权重调整

学习从输入到输出的映射,并进行合理的泛化或插值

神经网络

ChatGPT由数十亿个简单元素组成

神经网是在1940年代发明的,与今天使用的形式非常接近,可以被看作是大脑工作方式的简化理念。人类大脑有大约1000亿个神经元(神经细胞),每个神经元可以每秒产生一次电信号。这些神经元以复杂的网络连接在一起,每个神经元都有像树枝一样的分支,允许它向成千上万的其他神经元传递电信号。

当我们“看到一幅图像”时,光子从图像上方向我们眼睛后部的光感受器细胞上落下,这些细胞会在神经元中产生电信号。像这样神经网络的“数学化”版本。

  1. 第一层是图像输入,一个大小为1x28x28的数组;
  2. 第二层是卷积层,一组数组;
  3. 第三层是斜坡层,一组数组;
  4. 第四层是池化层,一组数组;
  5. 第五层是卷积层,一组数组;
  6. 第六层是斜坡层,一组数组;
  7. 第七层是池化层,一组数组;
  8. 第八层是展开层,一个向量;
  9. 第九层是线性层,一个向量;
  10. 第十层是斜坡层,一个向量;
  11. 第十一层是线性层,一个大小为1的交叉熵函数向量;输出是类别。

本质上,我们一直在努力找到一组权重,使神经网络能够成功地复现我们给出的示例。然后我们依赖神经网络以“合理”的方式在这些示例之间进行“插值”(或“泛化”)。

对于每组可能的权重,神经网络将计算某些功能。提供大量的“输入-输出”示例供其“学习”,然后尝试找到能够复制这些示例的权重。

机器学习和神经网络的训练

对于“类人任务”来说,通常最好的做法是直接尝试训练神经网络。

『嵌入』的概念

将嵌入理解为通过一系列数字来尝试表示某个事物的“本质”,使得“相近的事物”用相近的数字表示。例如,我们可以将单词嵌入视为在某种“意义空间”中布局单词的方式,在该嵌入中,“意义相近的单词”会聚在一起。

ChatGPT内部原理

总体目标是根据其通过训练所看到的内容以“合理”的方式继续文本(该训练包括查看来自网络等的数十亿页文本)。所以在任何给定的时刻,它都有一定数量的文本,其目标是找到适当的选择来添加下一个令牌。

它有三个基本阶段的操作。

  1. 首先,它获取对应于到目前为止的文本的令牌序列,并找到表示这些令牌的嵌入(即数值数组)。然后,它对这个嵌入进行操作——以“标准神经网络方式”,值“连续通过”网络的各个层次——产生一个新的嵌入(即新的数值数组)。
  2. 然后,它取新嵌入的最后一部分令牌,这个数组并从中生成约50,000个值,这些值是不同可能的下一个标记的概率。

实际上除了整体架构之外,没有任何东西是“明确设计”的;一切都只是从训练数据中“学到”的

attention head:是一种在令牌序列中“回头看”的方式(即迄今为止生成的文本),并以对寻找下一个令牌有用的方式“打包过去”。

真正让ChatGPT发挥作用的是什么

一个拥有与大脑神经元数量相当的连接的纯粹人工神经网络能够出奇地很好地生成人类语言。

ChatGPT到底 在做什么?

ChatGPT中神经网络由非常简单的元素组成,尽管这些元素有数十亿个。神经网络的基本操作也非常简单,基本上是将迄今为止生成的文本所派生的输入“通过其元素”一次(没有任何循环等)传递给每个新单词(或单词的一部分)。

利用Wolfram

ChatGPT

Wolfram|Alpha

适用范围

文本生成、自然语言处理

结构化计算、数学模型、数据分析

主要能力

生成自然语言

内置计算知识和完整计算语言体系

互补性

生成用于结构化计算的自然语言

将自然语言转化为精确代码

缺点

结构化计算不适用

不专注于自然语言处理

ChatGPT和Wolfram

Wolfram语言拥有大量的内置计算知识,这是我们多年来的工作成果,精心编纂了大量不断更新的数据,实现(并经常发明)了各种方法、模型和算法,并系统地建立了一个完整的计算语言体系。

基于像ChatGPT这样的AI系统,在需要进行结构化计算的情况下并不适用。

前方的路

一种很好的方法来解决这个问题——将ChatGPT与Wolfram|Alpha及其计算知识“超能力”相连接。在Wolfram|Alpha内部,一切都被转化为计算语言,并且转换为精确的Wolfram语言代码,因为在某种程度上,这些代码必须“完美”才能可靠地有用。但是关键点在于ChatGPT不需要生成这些代码。它可以生成通常的自然语言,然后Wolfram|Alpha可以利用其自然语言理解能力将该自然语言翻译为精确的Wolfram语言。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-08-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 yeedomliu 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
chatGPT技术体系梳理+本质探寻
这周时间看了两本书,一本是大神斯蒂芬·沃尔弗拉姆学的《这就是ChatGPT》,另外一本则是腾讯云生态解决方案高级架构师宋立恒所写的《AI制胜机器学习极简入门》,收获还是很大的。
机器学习AI算法工程
2024/03/05
4090
chatGPT技术体系梳理+本质探寻
ChatGPT为啥这么强:万字长文详解 by WolframAlpha之父
ChatGPT 发自 凹非寺 量子位 | 公众号 QbitAI Wolfram语言之父Stephen Wolfram,又来给ChatGPT背书了。 上个月,他还专门写过一篇文章,力荐自家的计算知识搜索引擎WolframAlpha,希望能跟ChatGPT来个完美结合。 大概表达的意思就是,“你计算能力不达标,那可以把我的’超能力’注入进去嘛”。 而时隔一个多月,Stephen Wolfram围绕“ChatGPT是什么”和“为什么它能这么有效”两个问题,再次发表万字长文做了番深入浅出的详解。 (为了保证阅读
量子位
2023/02/23
6280
ChatGPT为啥这么强:万字长文详解 by WolframAlpha之父
为什么对ChatGPT、ChatGLM这样的大语言模型说“你是某某领域专家”,它的回答会有效得多?(二)
“ 介绍神经网络的基本概念和结构,讨论训练实践、技巧以及网络规模的大小对模型能力的影响。同时介绍嵌入(Embeddings)概念,将高维数据映射到低维空间。通过本文,您将对神经网络有更深入的理解,有助于后面理解 ChatGPT 是怎么做的,为什么它有效。”
技术人生黄勇
2024/07/19
1550
为什么对ChatGPT、ChatGLM这样的大语言模型说“你是某某领域专家”,它的回答会有效得多?(二)
ChatGPT 的工作原理:深入探究
接着,文章详细阐述了训练过程,分为预训练和微调两个阶段。在预训练阶段,模型学习理解文本数据,包括词汇、语法、事实等;在微调阶段,模型使用具有限制性任务的数据集来调整,以获得更准确的输出。作者还提到了训练数据的来源,强调了在大量网络文本数据中获取知识的重要性。
前端小智@大迁世界
2023/05/23
9340
ChatGPT 的工作原理:深入探究
万字长文解释 ChatGPT 在做什么,以及为什么它能发挥作用?
ChatGPT 是由 OpenAI 开发的顶尖 AI 模型,旨在基于人们输入的内容生成类似的人类语言,凭借其强大的语言理解和文本生成能力,一经发布就引爆全球技术圈。Wolfram 语言之父 Stephen Wolfram 更是在博客发布万字长文(上百张配图)来解释 ChatGPT 强大功能的背后。 本文借助 DeepL 对原文进行了编译,感兴趣的小伙伴也可以移步到原文:https://writings.stephenwolfram.com/2023/02/what-is-chatgpt-doing-and
AI科技大本营
2023/02/23
1.3K0
万字长文解释 ChatGPT 在做什么,以及为什么它能发挥作用?
读书笔记之《这就是ChatGPT》
这本书名为《这就是ChatGPT》(What Is ChatGPT Doing...and Why Does It Work? ),由Stephen Wolfram著。全书分为两个主要部分,探讨了ChatGPT的工作原理、它为何有效,以及它对未来的影响。
AIGC部落
2024/12/09
1200
读书笔记之《这就是ChatGPT》
为什么对ChatGPT、ChatGLM这样的大语言模型说“你是某某领域专家”,它的回答会有效得多?(一)
“ 太长不看总结版:LLM大模型的本质在于计算某个词汇后面应该跟着哪些词汇的概率。当问题给定了特定的限定范围后,它能够找到一条相对明确的计算路径,从一系列概率分布中挑选出所需的答案。否则,它会根据最常见且最高概率的组合方式生成回答内容。”
技术人生黄勇
2024/07/19
1640
为什么对ChatGPT、ChatGLM这样的大语言模型说“你是某某领域专家”,它的回答会有效得多?(一)
一文详解 Word2vec 之 Skip-Gram 模型(结构篇)
这次的分享主要是对Word2Vec模型的两篇英文文档的翻译、理解和整合,这两篇英文文档都是介绍Word2Vec中的Skip-Gram模型。下一篇专栏文章将会用TensorFlow实现基础版Word2Vec的skip-gram模型,所以本篇文章先做一个理论铺垫。 原文英文文档请参考链接: - Word2Vec Tutorial - The Skip-Gram Model http://t.cn/Rc5RfJ2 - Word2Vec (Part 1): NLP With Deep Learning with T
AI研习社
2018/03/19
3.2K0
一文详解 Word2vec 之 Skip-Gram 模型(结构篇)
ChatGPT是如何工作的?ChatGPT团队给出的解释
当您向 ChatGPT 提问时发生的情况的第 3 步 。嵌入将标记表示为向量。上述嵌入中的值是示例
用户5166556
2024/04/30
1550
ChatGPT是如何工作的?ChatGPT团队给出的解释
为什么对ChatGPT、ChatGLM这样的大语言模型说“你是某某领域专家”,它的回答会有效得多?(三)
“ ChatGPT 的 Transformer 神经网络架构,以及海量的数据训练让它能够像人类一样进行写作。”
技术人生黄勇
2024/07/19
1180
为什么对ChatGPT、ChatGLM这样的大语言模型说“你是某某领域专家”,它的回答会有效得多?(三)
CBOW最强理解_创造之最强C位
翻译自:https://iksinc.online/tag/continuous-bag-of-words-cbow/
全栈程序员站长
2022/10/04
4330
CBOW最强理解_创造之最强C位
吴恩达course5-序列模型学习笔记
「日常感谢 Andrew Ng 的视频 ! 部分截图来自 udacity 深度学习课程」
caoqi95
2019/03/27
8150
吴恩达course5-序列模型学习笔记
NAACL 2019最佳论文:量子概率驱动的神经网络(附代码&文献)
今天要介绍的文章与当前大火的 BERT 同获最佳论文,摘得 NAACL 2019 最佳可解释NLP论文(Best Explainable NLP Paper)。NAACL 与 ACL 和 EMNLP 并称之为 NLP 三大顶会,去年 ELMO 获得 outstanding paper,今年一共有五篇最佳论文,分别是 Best Thematic Paper,Best Explainable NLP Paper,Best Long Paper 以及最佳短文和最佳 resource 论文。
数据派THU
2019/06/17
1.1K0
NAACL 2019最佳论文:量子概率驱动的神经网络(附代码&文献)
ChatGPT基本原理详细解说
在人工智能领域,自然语言处理(NLP)一直是研究的热点之一。随着技术的发展,我们见证了从简单的聊天机器人到复杂的语言模型的演变。其中,ChatGPT作为一项突破性技术,以其强大的语言理解和生成能力,引起了广泛的关注。本文将对ChatGPT的基本原理进行解说。
正在走向自律
2024/12/18
3600
ChatGPT基本原理详细解说
【Bengio领衔】DeepMind、谷歌大脑核心研究员2017深度学习最新报告(PPT)
【新智元导读】 深度学习领军人物 Yoshua Bengio 主导的蒙特利尔大学深度学习暑期学校目前“深度学习”部分的报告已经全部结束。 本年度作报告的学术和行业领袖包括有来自DeepMind、谷歌大脑、蒙特利尔大学、牛津大学、麦吉尔大学、多伦多大学等等。覆盖的主题包括:时间递归神经网络、自然语言处理、生成模型、大脑中的深度学习等等。现在全部PPT已经公开,是了解深度学习发展和趋势不可多得的新鲜材料。 蒙特利尔大学的深度学习暑期学校久负盛名,在深度学习领军人物Yoshua Bengio 号召下,每年都聚集了
新智元
2018/03/27
7660
【Bengio领衔】DeepMind、谷歌大脑核心研究员2017深度学习最新报告(PPT)
从0到1带你了解ChatGPT原理
2022年底,ChatGPT(Generative Pre-trained Transformer)横空出世,迅速火遍大江南北,与过往传统的聊天机器人不同,ChatGPT拥有更为出色的自然语言理解与生成能力,能够为用户提供更为高效、准确、愉悦的交互体验,刷新了人们对于人工智能(Artificial Intelligence,简称AI)的认识,引起了全社会广泛的讨论。那么,ChatGPT为何能做到如此智能呢?本文将以最通俗、最浅显的的语言从0到1带你了解ChatGPT背后的工作原理。
MIchaelWang
2023/11/16
2.6K3
从0到1带你了解ChatGPT原理
字节跳动 AI Lab 总监李航:语言模型的过去、现在和未来
作者 | 李航 编译 | 李梅、黄楠 编辑 | 陈彩娴 从俄国数学家 Andrey Markov (安德烈·马尔可夫)提出著名的「马尔科夫链」以来,语言建模的研究已经有了 100 多年的历史。近年来,自然语言处理(NLP)发生了革命性的变化。2001年,Yoshua Bengio 用神经网络进行参数化的神经语言模型,开启了语言建模的新时代。其后,预训练语言模型如 BERT 和 GPT 的出现再次将 NLP 提高到一个新的水平。 最近,字节跳动 AI Lab 的总监李航博士在《ACM通讯》(The Commu
AI科技评论
2022/07/12
1.1K0
字节跳动 AI Lab 总监李航:语言模型的过去、现在和未来
全面解读用于文本特征提取的神经网络技术:从神经概率语言模型到GloVe
选自arXiv 作者:Vineet John 机器之心编译 参与:吴攀、李亚洲、蒋思源 文本特征提取是自然语言处理的核心问题之一,近日,加拿大滑铁卢大学的 Vineet John 在 arXiv 发布
机器之心
2018/05/07
1.7K0
全面解读用于文本特征提取的神经网络技术:从神经概率语言模型到GloVe
一文看懂AI的 Transformer 架构!
转换器,一种将输入序列转换或更改为输出序列的神经网络架构。它们通过学习上下文和跟踪序列组件之间的关系来做到这一点。例如,请考虑以下输入序列:“天空是什么颜色的?” 转换器模型会使用内部数学表示法来识别颜色、天空和蓝色这三个词之间的相关性和关系。利用这些知识,它会生成输出:“天空是蓝色的。”
JavaEdge
2024/07/22
1.8K0
一文看懂AI的 Transformer 架构!
大语言模型-1.1-语言模型发展历程
本博客内容是《大语言模型》一书的读书笔记,该书是中国人民大学高瓴人工智能学院赵鑫教授团队出品,覆盖大语言模型训练与使用的全流程,从预训练到微调与对齐,从使用技术到评测应用,帮助学员全面掌握大语言模型的核心技术。并且,课程内容基于大量的代码实战与讲解,通过实际项目与案例,学员能将理论知识应用于真实场景,提升解决实际问题的能力。
用户2225445
2025/03/15
1180
大语言模型-1.1-语言模型发展历程
推荐阅读
相关推荐
chatGPT技术体系梳理+本质探寻
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档