Loading [MathJax]/jax/output/CommonHTML/config.js

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >专栏 >GPT-4参数将达10兆！这个表格预测全新语言模型参数将是GPT-3的57倍

GPT-4参数将达10兆！这个表格预测全新语言模型参数将是GPT-3的57倍

代码医生工作室

发布于 2021-07-16 08:02:09

发布于 2021-07-16 08:02:09

1.4K0

举报

文章被收录于专栏：相约机器人相约机器人

【新智元导读】GPT-4将会有高达10兆个参数？近日，有网友在分析了GPT-3和其他语言模型之后大胆预测，GPT-4将会达到GPT-3的57倍！而「开源版本」则会达到和GPT-3同等的规模。

对于机器学习来说，参数可以算得上算法的关键：它们是历史的输入数据，经过模型训练得来的结果，是模型的一部分。

一般来说，在NLP领域，参数数量和复杂程度之间具有正相关性。而OpenAI的GPT-3则是迄今为止最大的语言模型之一，有1750亿个参数。

那么，GPT-4会是什么样子的？

近日有网友就对GTP-4及其「开源版」GPT-NeoX进行了大胆的预测。

作者认为，GPT-4的参数或许可以达到10T，是现在GPT-3模型的57倍还多，而GPT-NeoX的规模则可以和GPT-3持平。

等下，如果是这样，程序员们还能不能在GPT-NeoX上愉快地调参了？

模型	发布时间	Tokens	参数	占1.75T的百分比	训练文本
GPT-2(OpenAI)	Feb 2019	10B	1.5B	0.09%	40GB
GPT-J(EleutherAI)	Jun 2021	400B	6B	0.34%	800GB
GPT-3(OpenAI)	May 2020	499B	175B	10.00%	570GB
PanGu (Chinese)	Apr 2021	40B	200B	11.43%	1.1TB
HyperCLOVA (Korean)	May 2021	560B	204B	11.66%	1TB?
Wudao 2.0 (Chinese)	Jun 2021	500B?	1.75T	100.00%	2.4TB
LaMDA(Google)	Jun 2021	1T?	200B?	11.43%	1TB?
GPT-4(OpenAI)	TBA	20T?	10T?	571.43%	5TB?
GPT-NeoX(EleutherAI)	TBA	500B?	175B?	10.00%	825GB?

数据集分析

目前应用最广的GPT-3的训练语料库来自于规模巨大的结构文本。其中所有数据集都被索引，分类，过滤和加权，而且还针对重复的部分也做了大量的删减。

专门为Openai开发并由Microsoft Azure托管的世界最强超算之一完成了对GPT-3的训练。超算系统有超过285,000个CPU核心，超过10,000个 GPU，并且以400Gbps的速度运行。

GPT-3

Wikipedia DataSet是来自于Wikipedia的英文内容。由于其质量，写作风格和广度，它是语言建模的高质量文本的标准来源。

WebText数据集（以及扩展版本WebText2）是来自从Reddit出站的大于4500万个网页的文本，其中相关的帖子会有两个以上的支持率（upvotess）。

由于具有大于4.3亿的月活用户，因此数据集中的内容可以被认为是最「流行」网站的观点。

Books1和Books2是两个基于互联网的书籍数据集。类似的数据集包括：

BookCorpus，是由未发表的作者撰写的免费小说书籍的集合，包含了至少10,000本书。
Library Genesis (Libgen)，一个非常大的科学论文、小说和非小说类书籍的集合。

Common Crawl是一个包含了超过50亿份网页元数据和提取文本的开源存档开放的数据平台：

八年来PB级的数据（数以千计的TB，数以百万计的GB）。
25B个网站。
数以万亿计的链接。
75%英语，3%中文，2.5%西班牙语，2.5%德语等。
排名前10域名的内容：Facebook、谷歌、Twitter、Youtube、Instagram、LinkedIn。

GPT-3使用的数据集

GPT-Neo和GPT-J

今年3月，Eleuther AI在GitHub上推出了GPT-Neo开源项目，可以在Colab上进行微调。

虽然GPT-Neo与GPT-3比，参数量仍然很小（1.3B和2.7B），但开源又免费，仍然得到了「同性好友们」的认可。

今年6月Eleuther AI再次推出GPT-J-6B，它可以说是GPT-Neo的增强版本，顾名思义，模型的参数量增加到了6B。

GPT-J的训练也是基于The Pile数据库——一个825GB的多样化开源语言建模数据集，由22个较小的、高质量的数据集合组成。

The Pile除了专业论坛和知识库，如HackerNews、Github和Stack Exchange，论文预印本网站ArXiv以外，还包括如Youtube字幕，甚至安然邮件（Enron Emails）语料库。

GPT-Neo和GPT-J使用的数据集

在zero-shot任务上，GPT-J性能和67亿参数的GPT-3相当，也是目前公开可用的Transformer语言模型中，在各种下游zero-shot任务上表现最好的。

这么看来，确实可以期待一下和GPT-3相同规模的GPT-NeoX的表现了。

网友评论

GPT-4怎么这么大？

「GPT-3已经接近理论上每个token的最大效率了。如果OpenAI模型的工作方式是正确的，更大的模型只是对算力的浪费。」

有网友解答说：「规模确实可以带来改善。因为本质上是一种关系隐喻模型，『了解更多的关系』意味着能够对更多的事情或以更细微的方式做出反应。当然，这也同时是一个营销的方式。」

参考资料：

https://lifearchitect.com.au/ai/models/#contents

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2021-07-14，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自相约机器人微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

暂无评论

200亿参数GPT-NeoX即将开源：96块A100训练三个月，野生GPT家族再添一员

开源 https 网络安全 api

经历了长达数月的芯片短缺导致的出货延迟、技术试验以及反复调试之后，EleutherAI 在今天官宣了最新的 200 亿参数开源语言模型「GPT-NeoX-20B」。

机器之心

2022/02/23

2.1K0

200亿参数GPT-NeoX即将开源：96块A100训练三个月，野生GPT家族再添一员

EleutherAI 推出 200亿参数的类 GPT 模型：不像 GPT-3，它免费开放

神经网络深度学习人工智能 NLP技术

独立科学家有福了。作者｜郑宇宏编辑｜陈彩娴近日，「黑客组织」EleutherAI 在打破 OpenAI 对 GPT-3 的垄断上又迈出了关键的一步：发布全新 200 亿参数模型，名曰「GPT-NeoX-20B」。众所周知，自 2020 年微软与 OpenAI 在 GPT-3 源代码独家访问权上达成协议以来，OpenAI 就不再向社会大众开放 GPT-3 的模型代码（尽管 GPT-1 和 GPT-2 仍是开源项目）。出于对科技巨头霸权的「反叛」，一个由各路研究人员、工程师与开发人员志愿组成的计算机

AI科技评论

2022/03/24

1.3K0

27亿参数的「野生版」GPT-3开源，GitHub项目2.9K Star量

开源 NLP技术 https 网络安全

GPT-3 是 2020 年 OpenAI 推出的具有 1750 亿参数的自回归语言模型，它在许多自然语言基准上都取得了出色的成绩。GPT-3 能够执行答题、翻译、写文章等任务，甚至还带有一些数学计算的能力。

机器之心

2021/03/30

2.1K0

27亿参数的「野生版」GPT-3开源，GitHub项目2.9K Star量

CMU创建一个开源的AI代码生成模型，C语言表现优于Codex

NLP技术开源 github git python

机器之心报道编辑：杜伟 CMU 对现有开源和未开源的 AI 代码生成模型进行了全面深入的系统性评估，并分析了它们在 C、C++、Python 等 12 中不同编程语言中的代码自动完成表现。最近，语言模型（Language Model, LM）在建模编程语言源代码方面展现出了令人印象深刻的性能。这些模型擅长代码自动生成以及从自然语言描述中生成代码等下游任务。当前 SOTA 大规模语言代码模型（如 Austin et al. (2021)）在基于 AI 的编程辅助领域已经取得了重大进展。此外，OpenAI

机器之心

2022/03/16

9360

ChatGPT开源替代来了！参数量200亿，在4300万条指令上微调而成

开源机器人基础模型数据

机器之心报道编辑：张倩 OpenChatKit 是一个类 ChatGPT 开源工具包，内含一个 20B 参数量的大模型，而且该模型在 4300 万条指令上进行了微调。 2023 年，聊天机器人领域似乎只剩下两个阵营：「OpenAI 的 ChatGPT」和「其他」。 ChatGPT 功能强大，但 OpenAI 不太可能将其开源。「其他」阵营表现欠佳，但不少人都在做开源方面的努力，比如前段时间 Meta 开源的 LLaMA。除此之外，一个名为 EleutherAI 的开源 AI 研究团队也一直在贡献开源大

机器之心

2023/03/29

6090

ChatGPT开源替代来了！参数量200亿，在4300万条指令上微调而成

ChatGPT 数据集之谜

https 网络安全 NLP技术

以下文章来源于OneFlow，作者Alan D. Thompson 半个月以来，ChatGPT这把火越烧越旺。国内很多大厂相继声称要做中文版ChatGPT，还公布了上线时间表，不少科技圈已功成名就的大佬也按捺不住，携巨资下场，要创建“中国版OpenAI”。不过，看看过去半个月在群众眼里稍显窘迫的Meta的Galactica，以及Google紧急发布的Bard，就知道在短期内打造一个比肩甚至超越ChatGPT效果的模型没那么简单。让很多人不免感到诧异的是，ChatGPT的核心算法Transformer最

AI科技评论

2023/02/23

7890

华人本科生发布zero-shot最强的GPT-J！会算数，会编程，运行速度碾压GPT-3

gpt zero 编程模型性能

---- 新智元报道来源：reddit 编辑：LRS 【新智元导读】GPT又又又有新成员了！这次是宾夕法尼亚大学的一个本科生带来的模型GPT-J。采用JAX库编写，并行效率显著提升，并且也是公开模型中zero-shot性能最强的！ GPT家族又添了一个新成员GPT-J！在zero-shot任务上，这个GPT-J的性能和67亿参数的GPT-3（中等模型）相当，也是目前公开可用的Transformer语言模型中，在各种下游zero-shot任务上表现最好的。与 Tensorflow + TPU

新智元

2023/05/22

1.2K0

华人本科生发布zero-shot最强的GPT-J！会算数，会编程，运行速度碾压GPT-3

训练ChatGPT的必备资源：语料、模型和代码库完全指南

开源 chatgpt 工具模型数据

大数据文摘授权转载自夕小瑶的卖萌屋作者：python 近期，ChatGPT成为了全网热议的话题。ChatGPT是一种基于大规模语言模型技术（LLM， large language model）实现的人机对话工具。但是，如果我们想要训练自己的大规模语言模型，有哪些公开的资源可以提供帮助呢？在这个github项目中，人民大学的老师同学们从模型参数（Checkpoints）、语料和代码库三个方面，为大家整理并介绍这些资源。接下来，让我们一起来看看吧。资源链接： https://github.com/RUCAI

大数据文摘

2023/04/10

3.3K0

训练ChatGPT的必备资源：语料、模型和代码库完全指南

CMU 研究人员开源“PolyCoder”：具有 2.7B 参数的基于机器学习的代码生成器

编程算法开源 NLP技术 python

语言模型 (LM) 通常用于自然语言文献中，以将概率分配给标记序列。LM 最近在用编程语言编写的源代码建模方面表现出出色的性能。这些模型特别擅长代码完成和从自然语言描述生成代码等工作。对于基于 AI 的编程支持，当前最先进的代码大语言模型已显示出巨大的改进。其中最大的模型之一 Codex 已被实现为 IDE 内的开发人员助手，可根据用户的上下文在真实世界的生产工具 GitHub Copilot 中自动编写代码。

代码医生工作室

2022/04/14

1.7K0

CMU 研究人员开源“PolyCoder”：具有 2.7B 参数的基于机器学习的代码生成器

单机训练200亿参数大模型：Cerebras打破新纪录

NLP技术硬件开发神经网络深度学习人工智能

机器之心报道编辑：泽南不仅参数量要卷，训练效率也要卷。本周，芯片创业公司 Cerebras 宣布了一个里程碑式的新进展：在单个计算设备中训练了超过百亿参数的 NLP（自然语言处理）人工智能模型。由 Cerebras 训练的 AI 模型体量达到了前所未有的 200 亿参数，所有这些都无需横跨多个加速器扩展工作负载。这项工作足以满足目前网络上最火的文本到图像 AI 生成模型——OpenAI 的 120 亿参数大模型 DALL-E。 Cerebras 新工作中最重要的一点是对基础设施和软件复杂性的要求降低

机器之心

2022/06/27

5250

单机训练200亿参数大模型：Cerebras打破新纪录

【大模型】基于AI和全球化进程的权衡：开源大模型与闭源大模型

开源进程开发模型数据

实际上关于开源or闭源，一直以来都是颇有争议的话题，人们争执于数据的隐私性和共享性，到底哪一方能获得的收益更大。而对于开源与闭源哪个更好实际上也就是说是隐私更好还是公开更好。

Skrrapper

2024/06/18

3740

【大模型】基于AI和全球化进程的权衡：开源大模型与闭源大模型

Stable Diffusion 背后的故事：独辟蹊径，开源和社区驱动的 AI 独角兽 | 创始人专访

人工智能开源工作模型数据

整理丨李梦佳、牛梦琳今日，AI文生图模型Stable Diffusion背后的公司Stability AI宣布获得了1.01亿美元超额融资，此轮融资后，Stability AI 估值已到达 10 亿美元，成为新晋独角兽。领投公司为以支持开源著称的Coatue、Lightspeed以及O'Shaughnessy Ventures。其资金将用于开发图、文、视频、音频和3D等多模态开源模型。除了Stable Diffusion外，音乐生成算法和工具Dance Diffusion也已经曝光。算力（公司目前在AW

AI科技评论

2023/04/12

3.5K0

Stable Diffusion 背后的故事：独辟蹊径，开源和社区驱动的 AI 独角兽 | 创始人专访

大羊驼LLaMa竞品来了：AI画图最火公司开源语言模型，最小30亿参数

开源工具科技模型数据

机器之心报道编辑：泽南直接开源，随便试用。出 Stable Diffusion 的公司也出语言大模型了，效果还挺好。本周三，StableLM 的发布引来了科技圈的关注。 Stability AI 是近期势头正盛的创业公司，因为开源的 AI 画图工具 Stable Diffusion 而饱受好评。在周三的发布中，该公司宣布其语言大模型现已可供开发人员在 GitHub 上使用和改编。与业内标杆 ChatGPT 一样，StableLM 旨在高效地生成文本和代码。它在名为 Pile 的开源数据集的更大版本

机器之心

2023/04/21

4100

大羊驼LLaMa竞品来了：AI画图最火公司开源语言模型，最小30亿参数

小语言模型的崛起

数学深度学习开源模型数据

大语言模型(LLM)的强大能力在过去几年中有了极大的进步。这些多才多艺的人工智能工具实际上是用大规模数据集训练的深度学习人工神经网络，它能利用数十亿的参数(或机器学习变量)来执行各种自然语言处理(NLP)任务。

云云众生s

2024/03/28

2790

GPT调教指南：让你的语言模型性能时时SOTA，资源已公开

NLP技术腾讯云测试服务

在这一过程中，会用到某种形式的「序列到序列」这一王者模型，如语言模型——应用语言模型根据前面的句子预测接下来的单词。

新智元

2021/07/29

1.3K0

Transformer速查宝典：模型、架构、训练方法的论文都在这里了

pdf 架构论文模型数据

AI 发展迅速，这对于刚刚入门或是正想跟上「潮流」的新手们来说并不友好。如果有一份详细全面的知识列表可能会帮助他们更快走上「正途」。

机器之心

2023/09/08

4760

Transformer速查宝典：模型、架构、训练方法的论文都在这里了

真·大语言模型Stable Diffusion时刻？StableLM开源，70亿参数在线体验

开源开发模型数据性能

---- 新智元报道编辑：编辑部【新智元导读】Stability AI也有大语言模型了，现在已有3B和7B的版本。大语言模型的Stable Diffusion时刻，是真来了。大语言模型之战，Stability AI也下场了。近日， Stability AI宣布推出他们的第一个大语言模型——StableLM。划重点：它是开源的，在GitHub上已经可用。模型从3B和7B参数开始，随后会有15B到65B的版本。并且， Stability AI还发布了用于研究的RLHF微调模型。项目地址

新智元

2023/05/09

3340

真·大语言模型Stable Diffusion时刻？StableLM开源，70亿参数在线体验

Stable Diffusion公司开源大语言模型StableLM，网友：不是我想要的！

开源博客高性能模型数据

整理 | 朱珂欣出品 | CSDN（ID：CSDNnews）众所周知，去年初创公司 Stability AI 发布的 AI 图像生成工具 Stable Diffusion，成为一种革命性的图像模型，也使 AI“文生图”实现了飞速的发展。满载着大家对其“不再局限于开发图像生成”和“开源”的期待，在 4 月 20 日， Stability AI 宣布推出开源大型语言模型（LLM）—— StableLM。（图源：Stability AI 官方博客截图）小参数大训练，开源备受热捧据 Stabil

AI科技大本营

2023/05/08

3620

Stable Diffusion公司开源大语言模型StableLM，网友：不是我想要的！

开源大型语言模型(llm)总结

人工智能开源模型效率 LLM

大型语言模型（LLM）是人工智能领域中的一个重要研究方向，在ChatGPT之后，它经历了快速的发展。这些发展主要涉及以下几个方面：

deephub

2023/08/30

5970

开源大型语言模型(llm)总结

GPT-3没有亲自上手，不如展望一下GPT-4？

NLP技术深度学习编程算法 https 网络安全

近日，GPT-3在国内外引起了火爆的关注，各路大神都对它玩起了图灵测试，不知道小伙伴们有没有亲手实践一波，但是据说GPT-3的API申请列表早已满了，需要做维护才能后期开放。

AI科技评论

2020/08/10

1.3K0

GPT-3没有亲自上手，不如展望一下GPT-4？

相关推荐

200亿参数GPT-NeoX即将开源：96块A100训练三个月，野生GPT家族再添一员

更多 >

代码医生工作室0

LV.0

代码医生工作室全体成员

作者相关精选

目录

【新智元导读】GPT-4将会有高达10兆个参数？近日，有网友在分析了GPT-3和其他语言模型之后大胆预测，GPT-4将会达到GPT-3的57倍！而「开源版本」则会达到和GPT-3同等的规模。

对于机器学习来说，参数可以算得上算法的关键：它们是历史的输入数据，经过模型训练得来的结果，是模型的一部分。

一般来说，在NLP领域，参数数量和复杂程度之间具有正相关性。而OpenAI的GPT-3则是迄今为止最大的语言模型之一，有1750亿个参数。

加入讨论

的问答专区 >

相关课程

一站式学习中心 >

AI驱动的TDSQL-Cserverless实战营

云原生数据库 TDSQL-C

数字化IT从业者知识体系

EMR实时数仓建设实战营

大数据解决方案

弹性 MapReduce