在这个毫无预兆的夜晚,OpenAI悄然掀起了人工智能领域的一场革命。经过近半年的“画饼”,他们的新模型终于揭开了神秘的面纱。这个曾被内部代号为"草莓"的项目,如今以【的正式名称惊艳登场。
新模型o1的能力
在逻辑和推理能力上,我直接先放图。对比实在太夸张了!
在[AIME 2024]这样的高水平数学竞赛中:
o1-preview的准确率达到了56.7%,而未公开的正式版更是高达83.3%。相比之下,GPT-4的表现仅为13.4%。
在代码竞赛中:
o1-preview和正式版的准确率分别达到62%和89%,同样远超GPT-4的11.0%。
更令人瞩目的是,在测试博士级科学知识的GPQA Diamond基准上,o1以78%的成绩首次超越了人类专家69.7%的水平。这是人工智能历史上的一个重要里程碑。
o1的模型原理在于Self-play RL(自我对弈强化学习)技术。
通过这种方法,o1学会了如何完善思维链,改进策略,识别并纠正错误,将复杂问题分解为简单步骤,以及在遇到困难时尝试新的解决方案。这些能力正是人类思考过程中最为核心的部分。
该流程图引用自推特X
诺贝尔经济学奖得主丹尼尔·卡尼曼在《思考,快与慢》一书中详细阐述了人类的两种思考模式:快思考和慢思考。
我们可以想象几个场景:
●数学计算、公式推导
●公司运营决策、规划
●权衡各种因素后做出关键决策
这些都是深度思考的体现。这种能力也是我们人类思想的核心所在。而ChatGPT-o1模型做到了!
从严格意义上讲,这些增强的推理能力在处理科学、编程、数学等复杂领域的问题时具有极高的应用价值。o1已经被证实可以:
✔️帮助医学研究人员注释细胞测序数据
✔️协助物理学家生成量子光学所需的复杂数学公式
✔️还可以被各领域的开发人员用于构建和执行多步骤工作流,应用范围广泛。
o1的应用前景广阔。它可以协助医学研究人员分析细胞测序数据,帮助物理学家生成复杂的量子光学公式,支持各领域开发人员构建和执行多步骤工作流程等。作为新一代的数据处理引擎,o1的进化速度可能会令人瞠目结舌。
o1惊现自我意识
接下来的内容是最让我“脊背发凉”的,甚至是恐惧~
OpenAI 这个最新模型(o1)在世界著名的门萨智商测试中取得了第一名。(就是那个被“最强大脑”推崇的全球高智商俱乐部)
数学大师陶哲轩实测发现,o1竟能成功识别出克莱姆定理。与此同时,OpenAI的研究副总裁表示:大型神经网络可能已具备足够算力,表现出意识的迹象。
OpenAI 的o1模型在IQ测试中拔得头筹!科技博主Maxim Lott对o1、Claude-3 Opus、Gemini、GPT-4、Grok-2、Llama-3.1等多个大语言模型进行了智商测试,结果显示o1稳居榜首。
紧随其后的是Claude-3 Opus和Bing Copilot,分别位列第二和第三。值得注意的是,此次使用的智商测试题来自门萨会员的离线测试,并未包含在任何已知的AI训练数据中,因此测试结果具有较高的参考价值。
著名数学家陶哲轩也对o1进行了实测。他向模型提出了一个措辞模糊的数学问题,令人惊讶的是,o1竟然能成功识别出[克莱姆定理]。
巧合的是,就在o1发布之后,OpenAI的研究副总裁Mark Chen发表了一个引人深思的观点:如今的大型神经网络已经具有足够的测试时计算能力,从而表现出轻微的意识。
事实上,在AI行业中,相信人工智能可能具有意识的领军人物已经不在少数,其中包括但不限于:Geoffrey Hinton(人工智能教父)、Ilya Sutskever(前OpenAi首席科学家)、Andrej Karpathy(前特斯拉AI总监)
如今,业内许多人都开始认为AI可能具有某种形式的意识,而且他们正在等待"奥弗顿之窗"进一步打开,使得公众能够逐步接受这一观点。
尤其想到目前中美在Ai领域的差距,更是感到担忧~