作者按:这是《从零理解ChatGPT》系列的第一篇。这个系列源自我阅读Sebastian Raschka的《Build a Large Language Model from Scratch》后的学习笔记整理,希望用通俗易懂的方式,把ChatGPT背后的技术讲清楚
2022年11月,ChatGPT发布,两个月内用户破亿,成为历史上增长最快的消费级应用。
但很少有人知道,ChatGPT背后的大语言模型(LLM)技术,已经走过了5年多的演进之路。从2018年的GPT-1到今天的GPT-4,OpenAI是如何一步步走到今天的?
今天,我们从时间线说起。
模型 | 发布时间 | 参数量 | 关键创新 |
|---|---|---|---|
GPT-1 | 2018年6月 | 1.17亿 | 开创性的预训练+微调范式 |
GPT-2 | 2019年2月 | 15亿 | 更大模型、Zero-shot能力初现 |
GPT-3 | 2020年6月 | 1750亿 | In-Context Learning、Few-shot |
ChatGPT | 2022年11月 | 未公开 | RLHF对齐、对话优化 |
GPT-4 | 2023年3月 | 未公开 | 多模态、复杂推理 |
背景:2018年之前,NLP领域主要依赖"监督学习"——每个任务都需要大量标注数据。机器翻译需要百万级平行语料,情感分析需要人工标注的句子...
GPT-1的核心思想:Language Modeling + Transfer Learning
OpenAI在论文《Improving Language Understanding by Generative Pre-Training》中提出:
与其为每个任务从头训练,不如先在一个大规模无标签文本上进行"预训练",学习通用语言表示,然后在特定任务上"微调"。
技术细节:
历史意义:GPT-1证明了"预训练+微调"范式的可行性,奠定了后续LLM发展的基础。
背景:OpenAI认为,如果模型足够大、数据足够多,LLM可能直接具备Zero-shot能力——无需微调,直接prompt就能完成任务。
GPT-2的核心数据:
关键观察:OpenAI发现,GPT-2在多个任务上展现出惊人的Zero-shot能力,比如写作文、问答等。虽然效果参差不齐,但这为后来的发展指明了方向。
争议:由于担心被滥用,OpenAI最初没有公开GPT-2的完整权重(后来分阶段公开)。
GPT-3的震撼数据:
GPT-3的核心能力:In-Context Learning
这是GPT-3最关键的创新。以前的模型需要Few-shot(几个示例)来学习任务,而GPT-3可以在Zero-shot的情况下理解指令:
输入:你是一个翻译专家。把下面句子翻译成中文:
Hello, how are you?
输出:你好,你好吗?用户只需要在Prompt中给出指令(Instruction),模型就能理解任务,无需任何微调。
规模法则(Scaling Law):
OpenAI在论文《Language Models are Few-Shot Learners》中验证了一个重要规律:
随着模型规模(参数)、数据量、计算量的指数级增长,模型的"智能"也在稳步提升,没有出现瓶颈。
这就是后来所有大模型厂商拼命"暴力堆参数"的理论依据。
背景:GPT-3虽然能力强大,但输出"有毒"、有害信息的风险很高。OpenAI需要解决一个问题:如何让模型"听话"?
RLHF:让AI对齐人类价值观
ChatGPT背后的核心技术是RLHF(Reinforcement Learning from Human Feedback):
ChatGPT的效果:经过RLHF后,模型学会了:
GPT-4的核心升级:
关于参数:OpenAI选择不公开GPT-4的具体参数规模,有传言说超过1万亿。
2018.06 GPT-1 (117M) → 预训练+微调范式
2019.02 GPT-2 (1.5B) → Zero-shot潜力
2020.06 GPT-3 (175B) → In-Context Learning
2022.11 ChatGPT → RLHF对齐人类
2023.03 GPT-4 → 多模态+复杂推理1. 规模的力量:从1亿到1750亿,模型能力发生了质变
2. 预训练范式:先学通用知识,再学专用技能——这在AI领域被证明极其有效
3. 对齐的重要性:模型能力不等于模型价值——让AI"听话"和让AI"能干"同样重要
4. 开源与封闭:GPT-2选择公开权重推动了整个开源LLM社区的繁荣;GPT-4选择封闭也带来了商业价值