前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >又又又史上最强?OpenAI的草莓:OpenAI-o1,推理更难的科学、编码和数学模型

又又又史上最强?OpenAI的草莓:OpenAI-o1,推理更难的科学、编码和数学模型

作者头像
技术人生黄勇
发布2024-09-17 15:54:20
1120
发布2024-09-17 15:54:20
举报
文章被收录于专栏:技术人生黄勇

OpenAI的o1模型的发布带来了超凡的推理能力,但它在实际使用中表现如何?从一个用户角度出发,我们来看看“草莓” o1的实际应用效果。看看它不同推理任务中的表现,包括语言理解、问题解答等,实现原理等等。

01—简介

网上传了很久OpenAI的代号为“草莓”🍓的新模型,今天终于在正式官网发布了 o1 系列模型,包括 o1-preview 和 o1-mini。‍‍‍‍‍‍‍‍‍

“训练这些模型花更多时间思考问题,然后再做出反应,就像人类一样。通过训练,它们学会完善自己的思维过程,尝试不同的策略,并认识到自己的错误。

对于复杂的推理任务来说,这是一个重大进步,代表了人工智能能力的新水平。鉴于此,我们将计数器重置为 1,并将该系列命名为 OpenAI o1。

在一系列不同的人工考试和 ML 基准上测试了模型。结果表明,在绝大多数推理能力较强的任务中,o1 的表现明显优于 GPT-4o。”

“与人类在回答难题之前会长时间思考的方式类似,o1 在尝试解决问题时会使用思路链。通过强化学习,o1 学会磨练其思路链并改进其使用的策略。

它学会识别和纠正错误。它学会将棘手的步骤分解为更简单的步骤。它学会在当前方法不起作用时尝试不同的方法。这个过程极大地提高了模型的推理能力。”

在 2024 年的 AIME 考试中,GPT-4o 的平均成绩只有 12%(1.8/15),而 o1 的平均得分却达到了 74%(11.1/15)。在只用一个答案的情况下,o1 在 64 个样本上的平均正确率达到了 83%(12.5/15)。当使用学习算法对 1000 个样本进行优化排序后,o1 的得分进一步提高到 93%(13.9/15)。这个成绩相当于进入全国前 500 名学生的水平,甚至超过了美国数学奥林匹克的入围标准。

上面这个评测结果确实对比很明显,也令人印象深刻。也怪不得一些新闻稿用了“引领AI推理新时代”之类的词藻。‍‍

o1的其他主要特色应用功能包括,可以直接翻译一个不健全的句子自动补全缺失内容;可根据提示自动编写复杂的视频小游戏;擅长解决超复杂、冗长的推理问题。

安全方面,o1也有了大幅的提升。OpenAI采用了全新的安全训练方法,利用模型的推理能力使其遵守安全和对齐指南。通过在上下文中推理安全规则,模型能够更有效地应用这些规则。‍‍

在一项针对模型“越狱”(绕过安全规则)的测试中,GPT-4o得分为22(满分100),而o1-preview模型的得分高达84。

02—如何使用

o1-preview:旨在解决各个领域复杂问题的推理模型,128k 上下文,32k 最大输出。训练数据截止于 23 年 10 月

o1-mini:一种更快速、更经济的推理模型,特别擅长编程、数学和科学。128k 上下文,64k 最大输出。训练数据截止于 23 年 10 月

ChatGPT用户:ChatGPT Plus和团队用户可以在模型选择器中手动选择o1-preview和o1-mini模型。初始阶段,o1-preview每周限额为30条消息,o1-mini为50条。

开发者:符合API使用等级5的开发者可以在API中试用这两个模型,速率限制为每分钟20次请求。

免费用户:正计划向所有ChatGPT免费用户提供o1-mini的访问权限。

从价格上看,o1 的价格是 4o 的 6 倍,每百万tokens输入15美元,每百万输出 tokens 60美元,。

但是由于o1 是个推理模型,其中间思考过程所消耗的 token也会被计入费用,并被视作输出 tokens,这意味着 100 tokens 的内容输出,可能会被按数倍或者数10倍的tokens 计费。‍

按前一阵子国内厂家降价的降价,免费的免费,估计等到国内大模型能力提升后,也会打成白菜价吧。‍‍‍‍‍‍

根据一些网上测试的内容显示,o1模型的最终输出并不能达到标示的长度。‍‍‍‍‍‍‍‍‍‍‍‍‍

例如:让 o1 写一部不少于2万字的小说,返回的内容只有1000多字。‍‍‍‍

网上的API调用测试表明:

  • system 字段:400 报错
  • tools 字段:400 报错
  • 图片输入:400 报错
  • json_object 输出:500 报错
  • structured 输出:400 报错
  • logprobs 输出:403 报错
  • stream 输出:400 报错
  • o1系列:20 RPM,150,000,000 TPM,很低,随时429报错
  • 其他:temperature, top_p and n 被固定为1;presence_penalty 和 frequency_penalty 被固定为 0.

03—表现‍‍

新模型出来后,它通过了一系列大模型翻车的问题测试。例如:‍

9.9和9.1哪个大?‍‍

Strawberry有几个字母r?

同学们在户外探险中发现了一个百宝箱,箱子上写着:“从4957283980中划去三个数字,使剩下的七个数字重新排列后组成一个最小的七位数,这个七位数就是开锁的密码。”这个密码是?(正确答案:2034578)

有兴趣有账号的朋友可以试试。‍‍‍‍

04—实现原理‍

思维链的推理模式是这个版本的大模型 o1的特点,与之前chat-gpt系列不同,它在回答问题之前会进行深入的思考,生成一个较长的内部思维链。这种思维链的产生使得 o1 能够更好地理解问题的本质,分析问题的各个方面,从而给出更准确和合理的答案。

o1使用了谷歌训练时计算类似的技术,随着训练时计算资源的增加和测试时思考时间的延长,o1 的性能会不断提升。这表明,通过增加计算资源的投入,可以进一步挖掘 o1 的潜力,使其在各种任务中表现得更加出色。

这个技术便是谷歌DeepMind很早之前便进行过解读称为——训练时计算(Test-time computation)。其核心技术主要使用了密集型、流程导向的验证奖励模型搜索,以及自适应地更新模型对响应的概率分布两种方法。

这个也是很有意思的事,谷歌自家的大模型核心技术,例如多头注意力机制,大模型的架构transformer,没有在这一轮科技浪潮中领先,反而在墙外开花结果。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

前一段时间谷歌CEO还在一次大学分享中吐槽谷歌员工没有OpenAI的员工那么卷。这位CEO不是应该反思一下自己的工作是不是有什么做得不对的地方么:

本来都是自家技术,自己员工,出去搞了一个新公司,新公司的产品比自己家的产品还能打。难道不是公司的管理出了问题,CEO还在访谈中吐槽员工不够卷。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

至于OpenAI新推出的新模型o1,也不是什么划时代,里程碑的东西。早在7月份,开源模型 Llama3.1 就采用了名为"Reflection-Tuning"的创新训练技术。

这种技术使模型能够自主检测推理过程中的错误并及时纠正,从而在多项基准测试中创下了优异成绩。该模型不仅能够主动纠正自己的错误,避免幻觉问题,还在多个数据集中进行了测试,与业界最好的闭源模型如GPT-4、GPT-4o和Claude 3.5 Sonnet性能不相上下。‍‍‍‍‍‍

llama 的开源推理系统:https://github.com/meta-llama/llama-stack-apps。在这里,大胆推测一下:也许,大概,可能,o1参考借鉴了这个推理系统?

国内最早的大模型 MOSS 团队也在MOSS 2的训练方案中有类似的技术方向:探索在实用、多元、复杂场景下,研发工具增强、跨模态融合的智能体。‍‍‍‍‍‍‍‍‍

有观点认为:这次的「草莓」,与其说是模型优化,不如说是工程优化。‍‍

证据之一:从训练数据,以及训练时间来看,o1-preview,o1-mini,4o,4o-mini 的训练数据,都是截止到 2023 年 10 月(而更早的 gpt-4-0125 和 gpt-4-turbo 则是截止到 2023 年 12 月)

并且推测:这个其实是大模型的一个推理智能体 Agent,而且是一个匆忙上线,不够完善的版本。因为在博主的一些问题测试中:无论是语言识别、意图识别还是指令遵循,都非常的不尽如人意。

官方的介绍文字中,下面两小段,也侧面证实了上面的推测:

“由于 o1-mini 专注于 STEM 推理能力,其关于日期、传记和琐事等非 STEM 主题的事实知识可与 GPT-4o mini 等小型 LLM 相媲美。”‍‍‍‍‍

“因此,在权衡了用户体验、竞争优势以及是否要继续进行思路链监控等多种因素后,我们决定不向用户展示原始思路链。”

参考

https://mp.weixin.qq.com/s/-DeHD6vjf0Tt5bwmeeQuXA

https://mp.weixin.qq.com/s/SbLbPvTv1gdXc1MViezxSw

https://mp.weixin.qq.com/s/YNgJh6BfcmMMUf1881djeA

https://openai.com/index/introducing-openai-o1-preview/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-09-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 技术人生黄勇 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云服务器利旧
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档