OpenAI Jason wei解读o1:思维链的“顿悟时刻”,大模型不再鹦鹉学舌

文章来源：企鹅号 - AI寒武纪

OpenAI的研究员Jason Wei（o1思维链核心开发人员）点出了一个关键但容易被忽视的问题：思维链在o1出现前后发生了巨大的变化，虽然只是名称上多了个"o1"，但这背后的含义却远不止如此

o1之前：模仿秀，不是真思考

在o1范式出现之前（即思维链提示的早期阶段），思维链的实际运作方式与我们期望的之间存在着很大的差异。我们希望思维链能够反映模型真正的思考过程，但实际上，模型只是在模仿它在预训练数据中看到的推理路径，例如数学作业的解答。

这类数据的最大问题在于，它们是事后诸葛亮式的总结，作者在其他地方完成了所有思考过程后才写下的答案，而不是真正的思维过程记录。因此，这些答案的信息密度往往很低，一个极端的例子就是“答案是5，因为……”，其中“5”这个词承载了几乎所有的新信息量，而前面的铺垫却冗长而低效

o1之后：内心独白，信息量爆炸

o1范式出现后，你会发现思维链看起来与教科书式的数学解答截然不同。这些思维链更像是模型的“内心独白”或“意识流”。你会看到模型进行回溯、修正，它会说“或者，让我们试试……”、“等等，但是……”之类的话，体现了真正的思考和探索过程

Jason Wei虽然没有进行直接的测量，但他敢打赌（心理语言学朋友应该能够证实），o1思维链的信息密度比互联网上的平均文本要均匀得多！这意味着信息在整个推理过程中分布更加均衡，而不是集中在最后的答案上

不知道大家怎么看？这是不是有点玄学了？

Jason Wei说他“打赌o1思维链的信息密度比互联网上的平均文本要均匀得多”，但并没有提供任何数据支持。如果用熵来衡量信息密度的话，这应该是一个很容易测量的事实，只需要比较o1思维链的平均熵和互联网文本的平均熵就可以了。与其“打赌”，不如直接测量来得更科学、更有说服力

关于Jason Wei

⭐星标AI寒武纪，好内容不错过⭐

用你的赞和在看告诉我～

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货