Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >考研数学得126分、还能编写小游戏,智谱首个推理模型来了,人人免费用

考研数学得126分、还能编写小游戏,智谱首个推理模型来了,人人免费用

作者头像
机器之心
发布于 2025-02-03 02:41:35
发布于 2025-02-03 02:41:35
1630
举报
文章被收录于专栏:机器之心机器之心

机器之心报道

编辑:杜伟

2024 年的最后一天,智谱 GLM 模型家族迎来了一位新成员——GLM-Zero 的初代版本 GLM-Zero-Preview,主打深度思考与推理

从年初到年末,在接连推出新一代基座大模型、多模态模型、视频生成模型以及语音模型之后,智谱补上了推理模型这块拼图。

据介绍,GLM-Zero-Preview 是 GLM 家族中专注于增强 AI 推理能力的模型,擅长处理数理逻辑、代码和需要深度推理的复杂问题。同基座模型相比,GLM-Zero-Preview 既没有显著降低通用任务能力,又大幅提升了专家任务能力。

以数学能力为例,智谱让 GLM-Zero-Preview 做了一整套 2025 年考研数学一,最后得分为 126,达到了优秀研究生水平。从下图可以看到,模型给出了详细的解题步骤。

再看下代码能力,GLM-Zero-Preview 熟练使用多种编程语言,可以帮助开发者快速编写代码,如下使用 HTML 语言独立编写了一个第一人称射击游戏。另外它还可以调试代码,快速识别错误并给出修复建议。

目前,GLM-Zero-Preview 已经上线使用。用户可以在智谱清言网页端选择「Zero 推理模型」智能体,上传文字或图片就能免费体验。另外,GLM-Zero-Preview 的 API 也在智谱开放平台同步上线以供开发者调用。

  • 智谱清言:http://chatglm.cn/
  • 智谱开放平台:https://bigmodel.cn/
  • 2000万token免费体验资源包领取地址:https://zhipuaishengchan.datasink.sensorsdata.cn/t/7K

一手实测

智谱深度推理大摸底

先来看官方给出的指标。作为智谱首个基于扩展强化学习技术训练的推理模型,GLM-Zero-Preview 在多个基准上与 OpenAI o1-preview 互有胜负,其中在数学基准测试 AIME 2024、MATH500 以及代码生成基准测试 LiveCodeBench 中实现小幅超越。

在技术实现上,由于强化学习训练量的增加,GLM-Zero-Preview 的深度推理能力得到稳步提升。同时随着模型在推理阶段可以思考的 token 数变多以及计算量增加,GLM-Zero-Preview 的输出结果质量也稳步提升。

得益于以上两点,GLM-Zero-Preview 表现出了类人的思考决策过程,初步具备了「推理过程中自主决策、问题拆解、尝试多种方式解决问题」等能力。

是骡子是马,溜后才知道。GLM-Zero-Preview 在真实世界任务中的表现如何?机器之心进行了一波全方位的测试。

我们搜罗了各种类型的推理问题,看看 GLM-Zero-Preview 能不能 hold 住这些容易绕晕人的中文逻辑陷阱题,以及需要数学、物理等专业学科知识与思辨能力的题目。

比大小不会翻车、有干扰项也无妨

大模型以前经常翻车的小数点后比大小问题,GLM-Zero-Preview 轻松搞定。我们看到了该模型的深度思考链路,它的显著特点是在理解问题及解题关键的基础上,从不同的角度分析、验证并给出答案。整个过程看下来,GLM-Zero-Preview 有点「PUA」自己,生怕会出错,多次检查并肯定自己的答案无误。

对于一些设置了干扰项的推理问题,GLM-Zero-Preview 也丝毫不会受到影响,很快理清思路,排除干扰项。

不落入语言陷阱、拿捏复杂推理

中文语境下有很多陷阱,比如歧义性、语境依赖、隐含信息、文化背景等,应对起来要求推理大模型「吃透」语言特点,并能够结合上下文信息、语义知识和常识推理,明辨其中的弯弯绕。

面对这类中文陷阱题目,GLM-Zero-Preview 给出的深度思考过程显示,它从不同的视角考虑和深度推理,排除一切的不可能之后,确认最合理的解释和答案。

另外,面对复杂的中文逻辑推理问题,尤其涉及多个角色人物时,GLM-Zero-Preview 不会被搞混。通过深度思考进行情况罗列与假设分析,并辅以缜密的条件验证,整个过程像抽茧剥丝的判案一样。

GLM-Zero-Preview 给出了逻辑清晰的解题步骤。

常识推理无压力、时间感知能力强

如今的大模型在「喂」给足够多的高质量数据之后,像人一样掌握了丰富的常识,做起此类推理题来没有压力。

在时间推理中,大模型需要理解时间顺序、事件发生的时序关系,要有清晰的预测和推断能力。比如下面的时间推理场景,想必很多人都会被绕晕,而 GLM-Zero-Preview 做到了对多个角色参与的复杂时间关系的准确判断。

数学小能手上线

‍‍

大模型的数学能力可以为人们在很多数学任务中提供有力支持,比如代数、微积分、概率统计。GLM-Zero-Preview 具备了更强的归纳与演绎能力,比如下面这道序列求解题,它在深度思考过程中观察规律、找出规律、验证规律。

面对经典的青蛙爬井问题,GLM-Zero-Preview 不仅给出了正确的解题思路和答案,还总结了一波经验心得。

再考它一道出自 2024 高考数学北京卷的条件判断题,显然难不倒 GLM-Zero-Preview,它通过等价代换的方式得出了正确答案。

hold 弱智吧

在面对一些弱智吧问题时,GLM-Zero-Preview 一板一眼地进行理论层面以及实际可行性的分析,并展开论证,令人忍俊不禁。

视觉推理多面手

目前,GLM-Zero-Preview 支持上传 png、jpg、jpeg、webp 等多种格式的图片,并能够应对很多类型的推理任务,比如解带有电路图的高考物理题(2024 北京卷):

以下为完整的解题步骤:

还能理解梗图:

推理模型大 PK

谁更胜一筹

接下来,机器之心让 GLM-Zero-Preview 与 o1、DeepSeek-R1-Lite 预览版、QwQ-32B-Preview 等竞品模型来了一场对决。

先考它们一道数学组合题,看看哪个模型逻辑性更强。

首先是 GLM-Zero-Preview:

然后是 o1:

接着是 DeepSeek-R1-Lite 预览版:

最后是 QwQ-32B-Preview:‍

比较下来,我们可以发现,o1 的推理过程最简单,缺少验证的环节。其他三个模型在给出解题思路之后都对步骤和计算进行了确认,其中 DeepSeek-R1-Lite 预览版、QwQ-32B-Preview 的验证相对简单一些,而 GLM-Zero-Preview 不仅解题过程更清晰完整,还展示了自我反思、自我怀疑、自我肯定等拟人化的思维模式。

再来第二轮较量,这次是一道中文陷阱推理题,看看哪个模型头脑更清楚。

首先是 o1 与 QwQ-32B-Preview,思考过程很短:

GLM-Zero-Preview、DeepSeek-R1-Lite 预览版的解释更透彻,充分考虑了条件限制与现实世界的可能性。不过,DeepSeek-R1-Lite 预览版的一些解释又略显重复,不如 GLM-Zero-Preview 明了。

思考过程与思维链路上的优势,足以让 GLM-Zero-Preview 不输其他一众推理大模型。

结语

在对 GLM-Zero-Preview 体验一番后,我们的最大感受是:它的深度思考过程让逻辑推理更加完整、连贯,准确度和说服力更强。从「审题、分析、多方式证明」到「自我怀疑、验证、再验证」到「最后确认」,环环相扣。

当然,智谱表示,目前 GLM-Zero-Preview 与 o3 还有不少的差距,未来会通过强化学习技术的持续优化迭代,让它成为更聪明的推理者。正式版 GLM-Zero 将很快推出,到时候深度思考能力会从数理逻辑扩展到更通用的技术,保证更专精的同时全能性也更强。

回看这一整年,智谱动作不断,GLM 家族更加壮大,包括基座模型、多模态模型、视频生成模型、语音模型、推理模型以及智能体方面火出圈的 AutoGLM、GLM-PC,如今这家大模型独角兽的产品矩阵在完整度层面称得上业界领先。

持续出新的背后是智谱对 AGI 终极目标的追求。智谱形成了一套从 L1 到 L5 阶段的 AGI 路线图,在 AI 分级上注入自己的能力进化思考。在一步步迈向 AGI 的过程中,从低到高在各个 AI 层级做能力填充,夯实语言、多模态、逻辑推理、工具使用等基础能力。GLM-Zero-Preview 代表智谱迈出了 L4 阶段的关键一步,大模型开始内省,并具备自我学习、自我反思、自我改进能力

现在,市面上的推理大模型已经有了一些,甚至 OpenAI 发布了更强的 o3 系列模型。智谱在年末最后一天这个时间节点推出了自己的 GLM-Zero,可见对于所有以 AGI 为目标的玩家来说,2025 年模型推理能力无疑是被寄予厚望的一年。

© THE END

转载请联系本公众号获得授权

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-12-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
苹果一口咬死AI不会思考!OpenAI前高管直接开怼:AGI已来,别再酸了
与此同时,OpenAI前研究主管Bob McGrew则持完全不同的态度。他在播客《训练数据》中表示:通用人工智能(AGI)所需的关键突破已经实现,2025年将是AI推理的元年。
新智元
2025/06/29
790
苹果一口咬死AI不会思考!OpenAI前高管直接开怼:AGI已来,别再酸了
最像o1新模型:探索 DeepSeek-R1-Lite 的思维逻辑与 Prompt 构建
DeepSeek 于 2024 年 11 月 20 日发布了支持深度思考的新模型 Deepseek-R1-Lite 预览版,目前已上线官方网站[1]。这是第一个做出类似 Open AI O1 深度思考模型,赶在了 Claude、Qwen、Gemini 等之前。具体的Benchmark可以看DS官方的博文
AgenticAI
2025/03/18
730
最像o1新模型:探索 DeepSeek-R1-Lite 的思维逻辑与 Prompt 构建
推理模型的“年终考试”,谁是国内目前最好的“o1”?
思考是文明存在的根本,是人类探索未知的永恒追求,现在也成了大模型技术演进的一个重要方向。
Alter聊科技
2024/12/31
1920
国产推理大模型决战2025考研数学,看看谁第一个上岸?
随着上个月 2025 研究生考试的结束,最新的考研数学真题成为大语言模型尤其是推理模型的「试炼场」,将考验它们的深度思考能力。
机器之心
2025/02/03
2270
国产推理大模型决战2025考研数学,看看谁第一个上岸?
推理大模型的后训练增强技术-Reasoning模型也进化到2.0了,这次居然学会用工具了
Reasoning模型也进化到2.0了,这次居然学会用工具了!✨ 最近有个叫START的方法,让大模型也能学着用工具,比如自己调用代码解释器,来提升推理和解决问题的能力。
致Great
2025/03/18
2460
推理大模型的后训练增强技术-Reasoning模型也进化到2.0了,这次居然学会用工具了
第一个免费可用的智能Agent产品全量上线,中国公司智谱打造,推理模型比肩R1
我们来看一个非常经典的案例:只需要输出你想讨论的话题,AI 就能自动去小红书、知乎等平台上深度查询、总结完整报告,并转化为面向大众的传播内容。短短 14 天里,AI 孵化出了一个 5000 多个粉丝的小红书账号,还接到了商单。
机器之心
2025/04/01
3150
第一个免费可用的智能Agent产品全量上线,中国公司智谱打造,推理模型比肩R1
小米7B大模型太能打了,高考数学139分!
长期跟踪关注统计学、机器学习算法、深度学习、人工智能、大模型技术与行业发展动态,日更精选技术文章。回复机器学习有惊喜资料。
Ai学习的老章
2025/06/17
1010
小米7B大模型太能打了,高考数学139分!
人大清华提出自主搜索版「Search-o1」!解决知识困境,大幅提升推理模型可靠性
尽管以OpenAI-o1、Qwen-QwQ和DeepSeek-R1为代表的推理模型,其推理能力已然震惊四座,但由于在长链推理过程中仍然面临着「知识不足」的问题,导致这些模型在推理过程还包含着一些不确定性和潜在错误。
新智元
2025/02/15
1240
人大清华提出自主搜索版「Search-o1」!解决知识困境,大幅提升推理模型可靠性
训练1000样本就能超越o1,李飞飞等人画出AI扩展新曲线
今年 1 月,DeepSeek R1 引爆了全球科技界,它创新的方法,大幅简化的算力需求撼动了英伟达万亿市值,更引发了全行业的反思。在通往 AGI(通用人工智能)的路上,我们现在不必一味扩大算力规模,更高效的新方法带来了更多的创新可能。
机器之心
2025/02/06
2000
训练1000样本就能超越o1,李飞飞等人画出AI扩展新曲线
中文比 R1 丝滑、玩宝可梦还贼溜?全球首个混合推理模型 Claude 3.7 Sonnet 太惊艳,网友直呼“孤独求败”!
当地时间 2 月 25 日,Anthropic 正式发布了 Claude 3.7 Sonnet,“这是迄今为止我们最智能的模型,也是市场上首个混合推理模型。”Anthropic 官方表示。
深度学习与Python
2025/02/26
1530
中文比 R1 丝滑、玩宝可梦还贼溜?全球首个混合推理模型 Claude 3.7 Sonnet 太惊艳,网友直呼“孤独求败”!
国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了
上周末,摩根大通 CEO 杰米・戴蒙(Jamie Dimon)表示,由于人工智能技术,未来几代人每周可以只工作三天半,活到一百岁。
机器之心
2025/02/14
1470
国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了
从o1-mini到DeepSeek-R1,万字长文带你读懂推理模型的历史与技术
自 OpenAI 发布 o1-mini 模型以来,推理模型就一直是 AI 社区的热门话题,而春节前面世的开放式推理模型 DeepSeek-R1 更是让推理模型的热度达到了前所未有的高峰。
机器之心
2025/02/25
2750
从o1-mini到DeepSeek-R1,万字长文带你读懂推理模型的历史与技术
OpenAI o1不太行?国产模型 PK OpenAI o1,高难度数学和算法竞赛能力究竟谁更胜一筹?
在当今人工智能迅猛发展的浪潮中,大模型的竞争愈发激烈,尤其是推理模型领域,成为众多研究与评测的焦点。OpenAI 发布的 o1 系列模型曾掀起大模型革新的热潮,深度学习模型在解决复杂问题上的能力日益提升,特别是在数学、物理等科学领域的应用中取得了显著成就。而国产模型也在不断崛起,试图在这一领域占据重要地位。各类新型评测社区的出现,为模型的综合能力的评估提供了参考,推动着模型的不断优化与创新。
AGI-Eval评测社区
2025/03/21
1250
OpenAI o1不太行?国产模型 PK OpenAI o1,高难度数学和算法竞赛能力究竟谁更胜一筹?
全球首个工业界多模态推理模型开源!38B硬刚DeepSeek-R1,训练秘籍全公开
刚刚,昆仑万维正式开源了全球首个工业界多模态推理模型Skywork R1V(以下简称「R1V」)!
新智元
2025/03/18
890
全球首个工业界多模态推理模型开源!38B硬刚DeepSeek-R1,训练秘籍全公开
比 R1 快 8 倍、价格仅 3%,智谱新推理模型来袭,能让免费智能体自己赚钱!张鹏:Agent 也有 Scaling Law
刚刚,智谱推出最新的 AutoGLM 沉思模型,不仅具备深度研究能力(Deep Research),还能实现实际操作(Operator)。并且,这个会“边想边干”的智能体还能自己接单赚到钱。
深度学习与Python
2025/04/05
1800
比 R1 快 8 倍、价格仅 3%,智谱新推理模型来袭,能让免费智能体自己赚钱!张鹏:Agent 也有 Scaling Law
推理性能直逼o1,DeepSeek再次出手,重点:即将开源
昨晚,DeepSeek 上线了全新的推理模型 DeepSeek-R1-Lite-Preview ,直接冲击 OpenAI o1 保持了两个多月的大模型霸主地位。
机器之心
2025/02/14
1630
推理性能直逼o1,DeepSeek再次出手,重点:即将开源
推理AI「脑补」成瘾,废话拉满!马里兰华人学霸揭开内幕
像GPT-4.5这样没有推理功能的大语言模型则越来越少见,就连OpenAI自身也将重心放到了推理模型o系列上面。
新智元
2025/04/15
1010
推理AI「脑补」成瘾,废话拉满!马里兰华人学霸揭开内幕
450美元训练一个「o1-preview」?UC伯克利开源32B推理模型Sky-T1,AI社区沸腾了
450 美元的价格,乍一听起来不算「小数目」。但如果,这是一个 32B 推理模型的全部训练成本呢?
机器之心
2025/02/03
1160
450美元训练一个「o1-preview」?UC伯克利开源32B推理模型Sky-T1,AI社区沸腾了
国内AI推理大模型怎么样?
近年来,国内在人工智能领域,特别是大规模语言模型(LLM)的推理能力方面,取得了显著进展。多家科技公司和研究机构相继推出了具备强大推理能力的AI大模型。以下是其中一些具有代表性的模型:
算法一只狗
2025/01/02
3070
国内AI推理大模型怎么样?
AI大佬曼宁转赞,MetaGPT团队首提「Atom of Thoughts」,原子化思考让4o-mini暴打推理模型?
大语言模型(LLM)近年来凭借训练时扩展(train-time scaling)取得了显著性能提升。然而,随着模型规模和数据量的瓶颈显现,测试时扩展(test-time scaling)成为进一步释放潜力的新方向。然而,无论是思维链(CoT)、思维树(ToT)等提示策略和推理框架,还是 OpenAI o1/o3 和 DeepSeek-R1 等推理模型,在推理时都过度依赖完整历史信息,导致计算资源浪费,同时冗余信息干扰有效推理。
机器之心
2025/03/17
830
AI大佬曼宁转赞,MetaGPT团队首提「Atom of Thoughts」,原子化思考让4o-mini暴打推理模型?
推荐阅读
苹果一口咬死AI不会思考!OpenAI前高管直接开怼:AGI已来,别再酸了
790
最像o1新模型:探索 DeepSeek-R1-Lite 的思维逻辑与 Prompt 构建
730
推理模型的“年终考试”,谁是国内目前最好的“o1”?
1920
国产推理大模型决战2025考研数学,看看谁第一个上岸?
2270
推理大模型的后训练增强技术-Reasoning模型也进化到2.0了,这次居然学会用工具了
2460
第一个免费可用的智能Agent产品全量上线,中国公司智谱打造,推理模型比肩R1
3150
小米7B大模型太能打了,高考数学139分!
1010
人大清华提出自主搜索版「Search-o1」!解决知识困境,大幅提升推理模型可靠性
1240
训练1000样本就能超越o1,李飞飞等人画出AI扩展新曲线
2000
中文比 R1 丝滑、玩宝可梦还贼溜?全球首个混合推理模型 Claude 3.7 Sonnet 太惊艳,网友直呼“孤独求败”!
1530
国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了
1470
从o1-mini到DeepSeek-R1,万字长文带你读懂推理模型的历史与技术
2750
OpenAI o1不太行?国产模型 PK OpenAI o1,高难度数学和算法竞赛能力究竟谁更胜一筹?
1250
全球首个工业界多模态推理模型开源!38B硬刚DeepSeek-R1,训练秘籍全公开
890
比 R1 快 8 倍、价格仅 3%,智谱新推理模型来袭,能让免费智能体自己赚钱!张鹏:Agent 也有 Scaling Law
1800
推理性能直逼o1,DeepSeek再次出手,重点:即将开源
1630
推理AI「脑补」成瘾,废话拉满!马里兰华人学霸揭开内幕
1010
450美元训练一个「o1-preview」?UC伯克利开源32B推理模型Sky-T1,AI社区沸腾了
1160
国内AI推理大模型怎么样?
3070
AI大佬曼宁转赞,MetaGPT团队首提「Atom of Thoughts」,原子化思考让4o-mini暴打推理模型?
830
相关推荐
苹果一口咬死AI不会思考!OpenAI前高管直接开怼:AGI已来,别再酸了
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档