前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >OpenAI怒斥Scaling撞墙论!o1已产生推理直觉潜力巨大

OpenAI怒斥Scaling撞墙论!o1已产生推理直觉潜力巨大

作者头像
新智元
发布于 2025-02-15 01:57:35
发布于 2025-02-15 01:57:35
370
举报
文章被收录于专栏:新智元新智元

新智元报道

编辑:Aeneas

【新智元导读】Scaling Law撞墙了吗?OpenAI高级研究副总裁Mark Chen正式驳斥了这一观点。他表示,OpenAI已经有o系列和GPT系列两个模型,来让模型继续保持Scaling。

最近,OpenAI高级研究副总裁Mark Chen在炉边谈话中,正式否认「Scaling Law撞墙论」。

他表示,并没有看到Scaling Law撞墙,甚至OpenAI还有两个范例——o系列和GPT系列,来保持这种Scaling。

用他的话说,「我们准确地掌握了需要解决的技术挑战」。

o1不仅是能力提升,也是安全改进

从经济角度看,OpenAI已经是最有价值的科技公司之一,因为他们为真实用户提供了数十亿美元的价值。

两年前,AI最前沿的任务还是小学数学题;而今天,它们已经可以做最难的博士生题目。

因此,我们正处于这样一个阶段:AI模型能够解决人类有史以来最困难的考试。

一旦这些模型解决了博士级别的问题,下一步,即使为世界提供实用性和价值。

当所有基准测试饱和之后,需要考虑的就是是否为最终用户提供了价值。

虽然今天AI通过了基准测试,但它并没有完全捕捉到AGI应该做的事。

好在,在过去一年里,OpenAI内部发生了最令人兴奋的进展——o1诞生了。

这不仅是一种能力上的提升,从根本上来说也是一种安全改进。

为什么这么说?

想象我们试图对一个模型进行越狱,旧的GPT系统必须立即做出回应,所以可能更容易被触发。

但当我们有一个推理器时,模型却会反思:这个问题是不是试图让我做一些与我要做的不一致的事?

此时,它获得的额外思考和反思的时间,会让它在很多安全问题上更稳健。

这也符合OpenAI研究者最初的预期。

当我们谈到推理时,这是一个广泛的概念,不仅仅用于数学或编程。

在编程中使用的推理方法,可能也适用于谈判,或者玩一个很难的游戏。

而说到基准测试,在安全性上也有同样的挑战。

安全性有点类似于这种对抗性攻击框架。在这种情况下,攻击是非常强烈的,因此我们在这方面还有很长的路要走。

如何到达五级AGI

AGI从一级到五级,关键推动因素是什么呢?

OpenAI提出的框架中,定义了AGI的不同级别,具体来说,就是从基本推理者发展到更智能的系统,再到能在现实世界里采取行动的模型,最终到达更自主、完全自主的系统。

在这个过程中,稳健性和推理能力是关键。

今天我们还不能依赖很多智能体系统,原因是它们还不够可靠。这就是OpenAI押注推理能力的原因。

OpenAI之所以大量投资,就是对此极有信心:推理能力将推动可靠性和稳健性。

所以,我们目前正处于哪一阶段呢?

OpenAI研究者认为,目前我们正从第一阶段向第二阶段过渡,朝着更智能系统的方向发展。

虽然目前,许多智能体系统仍然需要人类监督,但它们已经变得越来越自主。模型可以自行原作,我们对于AI系统的信任也在逐渐增加。

合成数据的力量

合成数据,就是不由人类直接产生的数据,而是模型生成的数据。

有没有什么好的方法,来生成用于训练模型的合成数据呢?

我们在数据稀缺或数据质量较低的数据集中,可以看到合成数据的力量。

比如,在训练像DALL-E这样的模型时,就利用了合成数据。

训练图像生成模型的一个核心问题是,当我们去看互联网上带标题的图片时,标题和它所描述的图片之间通常关联性很低。

你可能会看到一张热气球的照片,而标题并不是描述气球本身,而是「我度过最好的假期」之类的。

在OpenAI研究者看来,在这种情况下,就可以真正利用合成数据,训练一个能为图片生成高保真标题的模型。

然后,就可以为整个数据集重新生成捕获了,OpenAI已经证明,这种方法非常有效。

数据集中某方面较差的其他领域,也可以采用这个办法。

Scaling Law没有撞墙

最近很火热的一个观点是,Scaling Law已经撞墙了,许多大型基础实验室都遇到了预训练的瓶颈。

果真如此吗?

Mark Chen的观点是,虽然的确在预训练方面遇到一些瓶颈,但OpenAI内部的观点是,已经有了两种非常活跃的范式,让人生成无限希望。

他们探索了一系列模型的测试时Scaling范式,发现它们真的在迅速发展!

在推理模型的Scaling上,也没有同样的障碍。

其实,从早期入职OpenAI后,研究者就一直遇到多个技术挑战。现在这些挑战已经非常具体,在Mark Chen看来,没有什么是完全无法应对的。

在OpenAI内部,大家经常说推理范式已经达到了一定的成熟度。有些产品已经有了与市场的契合点,虽然进展仍然非常缓慢。

过去几周内,最令人惊讶的使用场景,莫过于和o1进行头脑风暴了。

o1和GPT-4的对比,让人感受到了全新的深度:人类仿佛终于有了一个真正能互动的陪练伙伴,而非仅仅对自己的想法进行评论。

它仿佛一个真正的实体,非常有参与感。

o1的推理直觉,是如何产生的

OpenAI的研究者,是如何想到o1中的推理直觉的呢?

这是一个集体努力的结果,不过他们也进行了很长时间的工作,进行了一些探索性的重点尝试。

在两年前,他们就觉得,AI虽然非常聪明,但在某些方面是不足的。不知为什么,总是感觉不太像AGI。

当时他们假设,原因在于,这是因为AI被要求立即做出回应。

就算我们要求一个人类立即做出回应,ta也未必能给出最好的答案。

一个人可能会说,我需要思考一会,或者我需要做一些研究,明天再答复你。

就在这里,OpenAI研究者发现了亮点!

其实这里缺少的,是连接系统一和系统二之间的鸿沟。

快速思考有,知识也有,但却没有慢速思考,核心假设就在这里。

研究者做了许多不同尝试,来解决这个挑战。

一群非常具有探索精神的研究者,获得了一些生命迹象。

围绕这些迹象,他们组建了研究团队,扩大的项目规模,投入了大量的数据生成工作。

从快速进展中获取预测结果,是整个案例中最难的部分。

开始时,就像登月计划一样,会遭遇很多失败。

有三四个月,他们完全没取得多少有意义的进展。

好在最终,总会有人获得重大突破。这也就给了他们足够的动力来投入更多资源,往前推动一点。

从o1推出几个月后,OpenAI和许多外部合作伙伴进行了交流。

最酷的一件事就是,他们发现它比使用微调方法要好得多——它已经不太容易被问题难倒了。

很多应用已经超出了研究者之前关注的数学和科学领域。当看到AI的推理能力能泛化到这些领域,真的令人惊喜。

比如在医学领域,模型在医学症状的判断上,涉及形成假设、验证,随后再形成新的假设。

即使在研究者没有特别关注的领域,模型也进展得很快,比如医学、法律推理。

而他们也确信,在未来还会有其他还未测试过的领域,AI会有重大进展。

OpenAI仍然注重安全

Mark Chen肯定地说,目前OpenAI仍然像早期那样,致力于研究和安全。

为此,他管理着一个非常庞大的研究项目组合。并且一直在思考着应该分配多少资源和力量来进行探索性研究,而不是短期的即时项目。

不过,在这方面,OpenAI和很多大型基础实验室不同。

这些大实验室有很多优秀的研究者,可以没有方向地进行研究,自由地去做任何事。

但对OpenAI来说,他们比这些实验室的规模都要小,因此需要更有方向性。

他们选择了一些非常有信心的探索性项目,在这些领域内,给了研究者很大的自由度。

也就是说,OpenAI并不会进行毫无目标的探索,而且充分利用了自己规模小的优势。

现在是AI创业的好时机

OpenAI的研究者也认为,现在是基于AI创立初创公司的好时机。

基础模型的玩家专注的是通用性。

但像OpenAI这样的公司,不可能涉足每一个垂直领域。

在特定领域定制一个模型,有很多空间和可能性。

现在,我们已经可以看到一个丰富的初创企业生态系统,这些企业在OpenAI的基础上构建了各种类型的应用。

通常情况下,初创企业之所以能够成功,是因为他们知道并坚信某个秘密,而市场上的其他人并不知道这个秘密。

在AI领域,实际上就是在一个不断变化的技术栈上进行构建,我们无法预测下一个模型会何时出现。

表现最好的初创企业,就是那些有直觉,在刚刚开发发挥作用的边缘技术上进行构建的企业,它们有一种生命力。

当我们拥有AGI,就是相当强大的形式,真正释放了全部潜力。

想象一个人在一周内,就能创建一个带来巨大价值的大型初创公司。

一个人在几天内产生巨大影响的想法,已经不仅限于商业领域。

这种怀旧的感觉就像17世纪,科学家们在探讨物理学一样。

我们能否回到那种氛围,一个人能做出医学、物理学或计算机科学领域的重大发现?

而这些,都是因为AI。

参考资料:

https://x.com/tsarnick/status/1860458274195386658

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-11-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
好玩的单机游戏_附近哪里好玩
大家好,又见面了,我是你们的朋友全栈君。 米国时间2月24日,Esri联邦GIS大会在华盛顿召开,会上,Esri总裁杰克•丹杰蒙德宣布了这一消息。他说:“无人机的出现促使相关技术为许多工业领域带来革命性的颠覆。我们为ArcGIS开发Drone2Map,就是希望人们能够处理、使用和分享影像信息,而这一切功能都被一体化地集成在ArcGIS平台上。” Drone2Map for ArcGIS是Esri推出的一款支持多线程的64位桌面端的APP,它以ArcGIS平台为支撑,通过与Pix4D专业算法集成,提供了从无人机原始数据到高质量镶嵌正射产品、DSM产品、3D网格纹理产品等生产全流程。
全栈程序员站长
2022/09/21
1.8K0
好玩的单机游戏_附近哪里好玩
跟我一起复制一款基于ESP-Drone无人机控制板[通俗易懂]
ESP无人机是基于ESPRESIF ESP32/ESP32-S2 Wi-Fi芯片的开源解决方案,可通过Wi-Fi连接到手机应用程序或游戏控制台。ESP无人机具有简单的硬件、清晰和可扩展的代码体系结构,因此该项目可用作为STEAM(科学、技术、工程、数学)的教育平台或其它的控制领域。它的主要代码从CrazyFle开源项目移植而来,采用了GPL3.0协议。
全栈程序员站长
2022/09/22
1.1K0
跟我一起复制一款基于ESP-Drone无人机控制板[通俗易懂]
无人机数车–Drone-based Object Counting by Spatially Regularized Regional Proposal Network[通俗易懂]
Drone-based Object Counting by Spatially Regularized Regional Proposal Network ICCV2017 数据库:https://lafi.github.io/LPN/
全栈程序员站长
2022/09/21
3150
无人机数车–Drone-based Object Counting by Spatially Regularized Regional Proposal Network[通俗易懂]
XAMPP环境的搭建[通俗易懂]
XAMPP是一个强大的集成软件包(什么是集成软件包?就是多个软件打包一起安装了,比如office办公软件包括了word、Excel、PPT)
全栈程序员站长
2022/09/07
2.2K0
XAMPP环境的搭建[通俗易懂]
苹果绕id工具_绕ID教程(iOS13.313.3.1)[通俗易懂]
前几期,我已经第一时间将绕ID教程给我的粉丝奉上,当然我也会一直做这个事情,由于越狱软件的不支持,所以导致iOS13.3以上是不能成功绕过ID锁的,所以今天给大家上一个适合iOS13.3,以及13.3.1。
全栈程序员站长
2022/08/02
4.8K0
苹果绕id工具_绕ID教程(iOS13.313.3.1)[通俗易懂]
DirectX修复工具V4.1公测![通俗易懂]
DirectX修复工具V4.1版现已正式发布,欢迎下载。传送门:标准版、增强版、在线修复版
全栈程序员站长
2022/07/01
4.2K0
DirectX修复工具V4.1公测![通俗易懂]
DirectX修复工具强力修复实验包[通俗易懂]
https://pan.baidu.com/s/1viLPeKp8vtFCy8Pr1S9CWw
全栈程序员站长
2022/07/28
3K0
DirectX修复工具强力修复实验包[通俗易懂]
SQL Prompt10 安装激活教程,让你写sql 如鱼得水[通俗易懂]
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/158909.html原文链接:https://javaforall.cn
全栈程序员站长
2022/09/17
10.5K5
SQL Prompt10 安装激活教程,让你写sql 如鱼得水[通俗易懂]
PotPlayer安装与配置[通俗易懂]
大家好,又见面了,我是你们的朋友全栈君。 目录 1.简介 2.安装 3.设置 基本选项设置: 播放选项设置: PotPlayer皮肤设置: ---- 1.简介 PotPlayer一款小巧简单的视频播放
全栈程序员站长
2022/08/31
5.2K0
PotPlayer安装与配置[通俗易懂]
AWVS简单操作[通俗易懂]
激活成功教程版下载链接(10.5版本):链接: https://pan.baidu.com/s/1t6VV7dl4MTaooirW4F9VgQ 提取码: mk4e
全栈程序员站长
2022/11/09
2.6K0
AWVS简单操作[通俗易懂]
基于YOLO11的无人机检测系统(Python源码+数据集+Pyside6界面)
💡💡💡本文摘要:基于YOLO11的无人机检测,阐述了整个数据制作和训练可视化过程
AI小怪兽
2025/03/16
1490
Dreamweaver CS6 完全自学教程 (一)[通俗易懂]
Dreamweaver CS6 教程下载地址(百度网盘):https://pan.baidu.com/s/1fIUk4O36JCNVCfOQSH22vw
全栈程序员站长
2022/07/01
8710
Dreamweaver CS6 完全自学教程 (一)[通俗易懂]
全新ArcGIS Pro 2.9来了
ArcGIS Pro 2.9现在支持访问云数据仓库,以允许查看、分析和发布数据子集。可以连接到Amazon Redshift、 Google BigQuery或 Snowflake。
陈南GISer
2021/12/15
3.1K0
全新ArcGIS Pro 2.9来了
Drone2Map:如何使用带有POS信息的无人机数据生成三维模型「建议收藏」
使用Drone2Map生成slpk,将slpk加载至ArcGIS Pro中,slpk悬浮在空中。
全栈程序员站长
2022/09/21
1.5K0
Drone2Map:如何使用带有POS信息的无人机数据生成三维模型「建议收藏」
Mac录屏,同时保留声音[通俗易懂]
1.先装Soundflower: Soundflower下载地址 http://pan.baidu.com/s/1jH9r6iM
全栈程序员站长
2022/08/13
2.4K0
Mac录屏,同时保留声音[通俗易懂]
SLAM技术分享_it技术分享社区
同时定位与地图重建(Simultaneous Localization and Mapping, SLAM),是机器人领域中的一项基础的底层技术,其希望机器人能在一个陌生的环境下实现自身的实时定位,同时能够重建出有关于环境的地图。随着近年无人驾驶、增强现实、虚拟现实等应用的兴起,作为实现这些应用的SLAM技术也越发引人注目。SLAM技术主要完成两项任务:自身定位与环境建图,也是让机器知道自己在哪里,已经周围的环境是啥。然而,如果想要精确的实现定位任务就不可避免的需要高精度的地图,而高精度的地图重建是需要以更为精确的自身定位作为基础的。 近年以来,除了传统的激光SLAM解决方案,基于视觉,基于惯性传感器等等的解决方案也在不断变多,整个SLAM领域整体呈现百花齐放的态势。 一. 目前在SLAM领域中的关键问题: 1、数据关联:SLAM技术在未来的发展过程中必然会有一个方向是将SLAM系统中集成多传感器,进行多传感器的融合任务。但是显而易见的是不同的传感器之间具有不同的特征,目前的很多SLAM研究人员都转向了研究多传感器SLAM中的传感器校准(例如自校准或者快速标定等内容),状态估计和后端BA优化。 2、 多机SLAM联合建图:目前在小范围内已有的若干SLAM系统大多都能获得比较好的效果,但是面对大规模,长时间的SLAM问题,如果只采用单机SLAM系统则获得良好的效果,此时通过分散的多机SLAM系统来解决大场景,长时间的SLAM任务将会是一个比较合适的选择,属于比较前沿的SLAM研究方向。 3、 高清晰度、信息量丰富的地图:SLAM技术作为机器人领域的一项底层基础技术,需要根据上层应用程序需要提供一张具有丰富信息的地图,其中比较具有代表性的地图形式就是拓扑地图,语义地图,以及点云地图等等;同时当SLAM系统的面对大场景,长时间的情况时,采用何种方式来存储更新地图也将是一个迫切需要解决的问题。 3、目前SLAM技术仍然面对着更强适应性、鲁棒性、可扩展性的要求。 4、适合的SLAM应用:目前SLAM技术具有广泛的应用场景,但是许多SLAM系统依然处在实验室研究阶段,缺乏合适的工程工具进行封装,需要我们继续完善SLAM的应用生态。 二. SLAM领域中的经典数据集: 1.KITTI数据集(单目视觉 ,双目视觉, velodyne, POS 轨迹)
全栈程序员站长
2022/11/10
1.1K0
SLAM技术分享_it技术分享社区
中国地图的正确打开方式
剧集中,使用的一幅动画地图在绝大部分中国版图都着亮色的情况下,原本属于中国的海南岛和台湾岛却被排除在外,中印边境东西两段的划分也有问题。此事在社交媒体上引发热议后,播出平台爱奇艺和腾讯删除了相关画面,此后删除的内容又重新上线,地图也进行了调整,但是在更改后的地图中,中国藏南地区的中印边界仍然存在错误。据此,自然资源部已责成属地管理部门对涉嫌违法违规的行为依法进行处理,自然资源部核查处理相关影视剧存在的“问题地图”[1]
MeteoAI
2019/08/09
4K0
中国地图的正确打开方式
Linux服务器配置(详细版)[通俗易懂]
1.进入文件夹 cd 文件夹名称 2.复制文件夹 cp 文件名 指定目录 copy文件到指定目录 例如 cp 文件名称 文件路径/var/www 例子 cp /root/gqxnb/gqx /var/www 3.查看文件夹目录 lsattr [-adRvV] [文件或目录…]选项介绍: ls也可以 4.复制 cp 5. 文件移动命令mv 6. 文件删除命令rm 7.重命名文件和文件夹 linux下重命名文件或文件夹的命令mv既可以重命名,又可以移动文件或文件夹. mv 修改前文件名 修改后文件名,按回车。
全栈程序员站长
2022/07/29
12K0
Linux服务器配置(详细版)[通俗易懂]
Web渗透测试工具[通俗易懂]
是用于攻击web 应用程序的集成平台。它包含了许多Burp工具,这些不同的burp工具通过协同工作,有效的分享信息,支持以某种工具中的信息为基础供另一种工具使用的方式发起攻击。这些工具设计了许多接口,以促进加快攻击应用程序的过程。所有的工具都共享一个能处理并显示HTTP 消息,持久性,认证,代理,日志,警报的一个强大的可扩展的框架。它主要用来做安全性渗透测试。
全栈程序员站长
2022/09/22
8080
Web渗透测试工具[通俗易懂]
倾斜摄影当中重叠度、传感器尺寸、焦距等参数问题梳理[通俗易懂]
随着无人机的快速发展,倾斜摄影行业迎来了一个新的浪潮,越来越多的人利用无人机从事测绘行业的相关数据采集工作。在数据采集过程当中遇到了各种各样的问题,导致飞出来的数据不达标,无法完成模型重建工作。这里根据自己的接触对倾斜摄影过程当中重叠度、传感器、焦距、飞行速度、拍照间隔等参数以及他们之间的相互关系做一个简单的梳理。如有不当或错误之处敬请指正。
全栈程序员站长
2022/06/30
2.1K0
倾斜摄影当中重叠度、传感器尺寸、焦距等参数问题梳理[通俗易懂]
推荐阅读
相关推荐
好玩的单机游戏_附近哪里好玩
更多 >
LV.1
这个人很懒,什么都没有留下~
目录
  • 新智元报道
    • 【新智元导读】Scaling Law撞墙了吗?OpenAI高级研究副总裁Mark Chen正式驳斥了这一观点。他表示,OpenAI已经有o系列和GPT系列两个模型,来让模型继续保持Scaling。
  • o1的推理直觉,是如何产生的
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档