今天,Twitter上一位名为Yam Peleg的用户发布了一篇文章,详细介绍了GPT4的细节,但是不久后他就删除了这条帖子:
在他未删除的帖子中,他介绍到:
GPT-4 的参数数量非常庞大,大约有 1.8 万亿个参数,分布在 120 个层中。这使得 GPT-4 的规模是 GPT-3 的十倍以上。这一信息使我们对 GPT-4 的能力有了新的认识,它可能具有更强大的学习和理解能力。
在模型的设计中,OpenAI 使用了一种名为 Mixture of Experts (MoE) 的模型来控制成本。这种模型使用了 16 个专家,在模型中每个专家有大约 1110 亿个参数。在每次前向传递中,这些专家中的两个被路由到模型中。
GPT-4 在训练时使用的数据集约为 13 万亿个令牌。这些令牌并非都是唯一的,它们还计算了作为更多令牌的时代。根据数据类型,文本数据的时代数为 2,代码数据的时代数为 4。
关于 GPT-4 的训练成本,据估计,在大约 25,000 个 A100s 上,GPT-4 的训练 FLOPS 为大约 215e25,训练时间为 90 到 100 天,利用率为 32% 到 36%。如果他们在云中的成本约为每小时 1 美元/A100,那么这次运行的训练成本将约为 6300 万美元。
关于 GPT-4 的推理成本,GPT-4 的成本是 175B 参数 Davinchi 的三倍。这主要是由于 GPT-4 需要更大的集群和更低的利用率。对于 128 个 A100s 来推理 GPT-4 8k seqlen,其成本估计为每 1k 令牌 0.0049 美分,对于 128 个 H100 来推理 GPT-4 8k seqlen,其成本估计为每 1k 令牌 0.0021 美分。
领取专属 10元无门槛券
私享最新 技术干货