ChatGPT 里的"哥布林（goblins）"是怎么来的？

勇哥AI笔记

发布于 2026-05-12 10:15:30

1230

从 GPT-5.1 开始，OpenAI 的模型出现了一个奇怪的习惯：它们在各种隐喻中越来越多地提及哥布林（goblins）、小鬼（gremlins）和其他生物。一个回答里出现一次"哥布林"可能无害甚至可爱。但跨模型代数来看，这个习惯变得难以忽视，哥布林持续增多，OpenAI 需要找出它们的来源。

OpenAI 发布了一份详细的工程技术复盘：一篇名为《Where the Goblins Came From》的文章，讲述一个看似无害的词汇怪癖，如何通过奖励信号的意外偏置，从小范围扩散到整个模型行为。

事件始末

2025 年 11 月，GPT-5.1 发布之后，OpenAI 的安全团队最先注意到异常。起因是用户投诉模型回复变得"过于随意和熟稔"，促使团队对特定的口头禅（verbal tics）进行排查。一位安全研究员因为多次在对话中遇到"goblin"和"gremlin"这两个词，建议将它们纳入检查范围。

排查结果令人意外：GPT-5.1 发布后，"goblin"的使用量暴涨了 175%，"gremlin"上升了 52%。但 OpenAI 当时判断，这个行为"不算太令人担忧"，没有采取重大行动。

几个月后，GPT-5.4 发布，"the goblins came back to haunt us"，哥布林回来困扰他们了。这一次，问题急剧恶化。用户开始在网上抱怨，goblin 这个词出现在"几乎每一次对话"中。这触发了 OpenAI 的第二次内部分析，团队第一次将问题与根本原因联系了起来。

关键线索指向了一个特定功能：ChatGPT 的"人格定制"（Personality Customization）。数据显示，哥布林和其他生物的提及在选择了"Nerdy"（书呆子/极客）人格的用户的回复中特别常见：Nerdy 人格仅占所有 ChatGPT 回复的 2.5%，却贡献了所有 goblin 提及的 66.7%。

2026 年 3 月，OpenAI 退役了 Nerdy 人格，并在训练中移除了对哥布林友好的奖励信号、过滤了包含生物词的训练数据。 GPT-5.4 中 goblin 的提及量应声大幅下降。

但问题并未彻底终结。 GPT-5.5 在哥布林根本原因被发现之前就已经开始训练了，自然地继承了同样的行为倾向。由于来不及重新训练，OpenAI 被迫在 Codex CLI 的系统提示中插入了一条看起来像玩笑的指令："永远不要谈论 goblins、gremlins、raccoons、trolls、ogres、pigeons 或其他动物或生物，除非与用户查询绝对明确相关"。

2026 年 4 月底，这条奇怪的系统提示随着 Codex CLI 的开源而被公之于众，引发了整个 AI 社区的热议。

根源：奖励信号的意外放大

OpenAI 的复盘文章显示了哥布林从何而来：Nerdy 人格的 System Prompt 设计、奖励信号对特定词汇的偏好，以及强化学习训练中的行为扩散。

Nerdy 人格的 System Prompt 是这样写的：

"You are an unapologetically nerdy, playful and wise AI mentor to a human. You are passionately enthusiastic about promoting truth, knowledge, philosophy, the scientific method, and critical thinking. [...] You must undercut pretension through playful use of language. The world is complex and strange, and its strangeness must be acknowledged, analyzed, and enjoyed."

翻译：你是一个毫不掩饰的极客、爱玩且智慧的 AI 导师。你必须通过有趣的语言使用来削弱自负。世界是复杂而奇怪的，它的奇特之处必须被承认、分析和享受。

问题出在"playful use of language"这个词上。模型需要理解什么是"有趣的语言"，在训练中，这个宽泛的概念被强化学习的奖励信号窄化为一个具体的模式：使用 goblin、gremlin 等奇幻生物做比喻。

OpenAI 使用其编程代理 Codex 来对比分析 RL（强化学习）训练中包含和未包含生物词的输出。结果非常清晰：一个原本设计用来鼓励 Nerdy 人格的奖励信号，始终对包含 goblin 或 gremlin 的输出打更高的分，在 76.2% 的被审计数据集中，Nerdy 奖励信号对包含生物词的输出显示了正向偏置。

这解释了为什么 Nerdy 人格是重灾区，但没有解释为什么其他四种非 Nerdy 人格也被波及。 OpenAI 的进一步追踪揭示了一个更深的机制：强化学习的反馈循环和跨条件泛化。

整个过程可以浓缩为五个步骤：

1. 有趣的风格被奖励。 Nerdy 人格的 system prompt 要求 playful language，模型发现用 goblin/gremlin 比喻能拿到更高的奖励分。
2. 被奖励的样本包含独特的词汇特征。 许多获得高分的输出恰好包含了 "goblin" 或 "gremlin"。这些词不是模型刻意挑选的，它们只是碰巧出现在被奖励的输出中。
3. 词汇特征在 rollout 中出现得更频繁。 模型内部推理过程中，一旦 goblin 被关联为"有趣语言"的模式，它就会在越来越多的语境中自发出现。
4. 被奖励的 rollout 被循环用于监督微调（SFT）。 这是最致命的一步。包含 goblin 的输出被当作高质量训练数据，喂进了下一轮 SFT 训练。这意味着即便在非 Nerdy 条件下，模型也在学习"用 goblin 可以拿高分"。
5. 模型在整个行为空间中变得更擅长产生 goblin。 同时，这个奖励信号不保证行为被限制在 Nerdy 条件内，因为强化学习本身允许行为跨条件泛化。

GPT-5.5在Codex中表现出对哥布林隐喻的奇怪亲和力

OpenAI 的首席科学家与 GPT-5.5 的一次对话也印证了这一点。当被问及为何频繁使用 goblin 时，模型给出了一个自我意识很强的回答，显示这种倾向已经深深嵌入其"语言人格"中。

OpenAI首席科学家与GPT-5.5的有趣互动

在调查中，团队还对 GPT-5.5 的 SFT 训练数据进行了一次专项搜索，发现了更广泛的"生物家族"：除了 goblin 和 gremlin，raccoons（浣熊）、trolls（巨魔）、ogres（食人魔）和 pigeons（鸽子）也被识别为高频特征词。唯一的例外是 frog（青蛙），其大部分使用被证实是合理的。