OpenAI发表论文,讲述了大型语言模型结合强化学习,应用于竞争性编程任务的效果。
结果显示,经强化学习训练的大型推理模型能显著提升复杂编码和推理任务的性能!
讲人话就是:大模型+强化学习训练,让AI在复杂编程任务下能力大大提升!达到了竞赛中金牌水平!
论文具体讲了什么?
论文对比了OpenAI的o1、o1 - ioi和o3三个模型在相关测试和现实编码任务中的表现。
竞争性编程是检验推理和编码能力的重要标准。解决复杂算法问题需要高水平思维和解题能力。
此前研究表明,通用大型语言模型能根据自然语言指令生成Python脚本,模型越大性能越好,微调可提高准确性。
早期专注代码的Codex助力GitHub Copilot,AlphaCode用代码生成和推理解决编程任务,在CodeForces平台排85位。
OpenAI o1
OpenAI o1 是一个经过强化学习训练的大型语言模型,能够解决复杂的推理任务。通过在回答之前生成扩展的内部思维链,o1 就像一个有条不紊地一步步解决难题的人。
强化学习完善了这一思路链过程,帮助模型识别和纠正错误,将复杂的任务分解为可管理的部分,并在方法失败时探索替代解决方案路径。这些情境推理能力大大提高了 o1 在各种任务上的整体表现。
o1 还接受了使用外部工具的训练,尤其是在安全环境中编写和执行代码。这使 o1 能够验证其生成的代码是否编译、是否通过提供的测试用例以及是否满足其他正确性检查。通过测试和改进其输出,o1 在单个样本的过程中不断改进其解决方案。
在 CodeForces 基准测试中,o1 的表现显著优于非推理 LLM(GPT-4O),其 CodeForces 评分为 1673(第 89 个百分位),为 AI 在竞技编程中的表现树立了新的里程碑。
OpenAI o1-ioi
o1-ioi 是一个经过微调的系统,专为参加 2024 年国际信息学奥林匹克(IOI)而量身定制,并使用与 AlphaCode 系统类似的测试时间策略。
o1-ioi 在编码任务上进行了额外的强化学习训练,增强了模型规划、实施和调试更复杂解决方案的能力。该模型能够编写和执行 C++ 程序,并通过迭代运行和改进解决方案来改进其推理能力。
在 IOI 2024 比赛中,o1-ioi 系统参加了比赛,参赛条件与人类选手相同。它有十个小时来解决六个具有挑战性的算法问题,每个问题最多允许提交 50 份答案。
该模型得分为 213 分,在比赛中排名第 49 位。当提交限制放宽至每个问题 10,000 次时,模型的性能显著提高,获得了 362.14 分,超过了金牌门槛。
OpenAI o3
o3 是一个进一步发展的模型,经过更多的强化学习训练,能够自主开发和执行测试时间推理策略。
o3 不依赖于人为设计的测试时间策略,而是通过端到端的强化学习自然地发展出复杂的测试时间推理策略。
在 CodeForces 基准测试中,o3 的表现显著优于 o1 和 o1-ioi,其评分达到了 2724(第 99.8 个百分位),反映出竞争性编程性能的显著飞跃。
在 IOI 2024 基准测试中,o3 在相同六个问题上的表现也显著优于 o1-ioi,即使在 50 次提交的限制下也超过了金牌门槛,得分为 395.64 分。
DeepSeek 和 kimi
论文中也强调了kimi和DeepSeek是独立研究出了O1和O3所用的推理和思维链技术,并说这种技术对于数学和编程提高多么有效!
结论
研究表明,通过扩展通用强化学习,而不是依赖特定领域的技术,可以在推理领域(如竞争性编程)中实现最先进的 AI。
说人话:强化学习 + 思维链可以打造目前最强的AI!
领取专属 10元无门槛券
私享最新 技术干货