Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >高考数学斩获139分!小米7B模型比肩Qwen3-235B、OpenAI o3

高考数学斩获139分!小米7B模型比肩Qwen3-235B、OpenAI o3

作者头像
机器之心
发布于 2025-06-17 00:40:17
发布于 2025-06-17 00:40:17
1230
举报
文章被收录于专栏:机器之心机器之心

机器之心报道

机器之心编辑部

上上周的 2025 高考已经落下了帷幕!在人工智能领域,各家大模型向数学卷发起了挑战。

机器之心的测试中,七个大模型在「2025 年数学新课标 I 卷」中的成绩是这样的:Gemini 2.5 Pro 考了 145 分,位列第一;Doubao 和 DeepSeek R1 以 144 分紧随其后,并列第二;o3 和 Qwen3 也仅有一分之差,分别排在第三和第四。受解答题的「拖累」,hunyuan-t1-latest 和文心 X1 Turbo 的总成绩排到了最后两名。

其实,向今年数学卷发起挑战的大模型还有其他家,比如 Xiaomi MiMo-VL,一个只有 7B 参数的小模型

模型同样挑战了 2025 年数学新课标 I 卷,结果显示,总分 139 分,与 Qwen3-235B 分数相同,并只比 OpenAI o3 低一分

并且,相较于同样 7B 参数的多模态大模型 Qwen2.5-VL-7B,MiMo-VL 整整高出了 56 分

图片
图片

MiMo-VL-7B 和 Qwen2.5-VL-7B 是通过上传题目截图的形式针对多模态大模型进行评测,其余均是输入文本 latex 进行的评测;不做 System Prompt 引导,不开启联网搜索,直接输出结果。

我们接下来一一看 14 道客观题(总计 73 分)、5 道解答题(总计 77 分)的具体答题结果。

其中,MiMo-VL 在单选题中得到 35 分(总分 40)。

图片
图片

MiMo-VL 在多选题中得到满分(18 分)

图片
图片

MiMo-VL 在填空题中同样得到满分(15 分)

图片
图片

MiMo-VL 在解答题中得到了 71 分,位列第 5,超越了 hunyuan-t1-latest、文心 X1 Turbo。

图片
图片

查看详细测评截图以及答题情况,请移步:https://rwgi1pvz1gm.feishu.cn/docx/Z8dNdScFdopPwnxMJxfcnVpnnwh

比肩 Qwen3-235B、o3

7B 小模型如何做到?

今年 4 月 30 日,小米宣布开源了首个专注于推理的大模型「Xiaomi MiMo」,推理能力全面提升。

在数学推理(AIME 24-25)和代码竞赛(LiveCodeBench v5)公开测评集上,MiMo 仅用 7B 的参数规模,超越了 OpenAI 的闭源推理模型 o1-mini 和阿里 Qwen 更大规模的开源推理模型 QwQ-32B-Preview。

一个月后,该模型经过持续的 RL 训练,推理与通用能力再次大幅提升。在多个数学代码竞赛中,新版本模型 MiMo-7B-RL-0530 已经与最强开源推理模型 DeepSeek R1 和 OpenAI 闭源推理模型 o1、o3-mini 相差无几。

图片
图片

同一时间,MiMo-VL 作为 MiMo-7B 的后续版本推出,不仅在图片、视频、语言的通用问答和理解推理等多个任务上大幅领先同尺寸标杆多模态模型 Qwen2.5-VL-7B,还在 GUI Grounding 任务上比肩专用模型

图片
图片

MiMo-VL 保持了 MiMo-7B 的纯文本推理能力,并在多模态推理任务上,仅用 7B 参数,在 OlympiadBench 以及 MathVision、MathVerse 等多个数学竞赛中大幅领先 10 倍参数大的阿里 Qwen-2.5-VL-72B 和 QVQ-72B-Preview,也超越闭源模型 GPT-4o。

图片
图片

在评估真实用户体验的内部大模型竞技场中,MiMo-VL-7B 同样超越了 GPT-4o,成为开源模型第一。

图片
图片

视觉理解能力展示。

从技术层面来看,MiMo-VL-7B 全面的视觉感知能力得益于高质量的预训练数据以及创新的混合在线强化学习算法(Mixed On-policy Reinforcement Learning,MORL)

一方面收集、清洗、合成了高质量的预训练多模态数据,涵盖图片 - 文本对、视频 - 文本对、GUI 操作序列等数据类型,总计 2.4T tokens。通过分阶段调整不同类型数据的比例,强化长程多模态推理的能力。

另一方面,混合文本推理、多模态感知 + 推理、RLHF 等反馈信号,并通过在线强化学习算法稳定加速训练,全方位提升模型推理、感知性能和用户体验。

图片
图片

框架概览。

目前,MiMo-VL-7B 的技术报告、模型权重和评估框架均已开源。

图片
图片
  • 已开源的 RL 前后两个模型:https://huggingface.co/XiaomiMiMo
  • 技术报告地址:https://github.com/XiaomiMiMo/MiMo-VL/blob/main/MiMo-VL-Technical-Report.pdf

© THE END 

转载请联系本公众号获得授权

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-06-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
小米放大招!开源“最强7B视觉大模型”MiMo-VL:小模型干翻百B巨兽,还能一键关闭思考
当所有人都在追逐千亿参数的“AI军备竞赛”时,小米却用一个仅70亿参数的模型,打了一场教科书级的逆袭战。
AI浩
2025/09/11
1630
小米放大招!开源“最强7B视觉大模型”MiMo-VL:小模型干翻百B巨兽,还能一键关闭思考
小米又开源了,一个多模态大模型 + 一个生不逢时的推理大模型
上月底,小米开源了一个大模型:MiMo-7B,它从零开始训练并专为推理任务设计的模型系列。通过优化的预训练和后训练策略,MiMo-7B 展现出了超越许多更大模型的推理潜力。
Ai学习的老章
2025/06/04
2260
小米又开源了,一个多模态大模型 + 一个生不逢时的推理大模型
让7B千问模型超越o1,微软rStar-Math惊艳登场,网友盛赞
OpenAI o1 给大模型规模扩展 vs 性能的曲线带来了一次上翘。它在大模型领域重现了当年 AlphaGo 强化学习的成功 —— 给越多算力,就输出越多智能,一直到超越人类水平。
机器之心
2025/02/03
1200
让7B千问模型超越o1,微软rStar-Math惊艳登场,网友盛赞
Qwen2.5-Math推理效果 VS OpenAI o1模型
最新发布Qwen2.5系列中,还有编程专用Qwen2.5-Coder和数学专用Qwen2.5-Math。所有开源模型为稠密、decoder-only,提供多种规模版本。
算法一只狗
2024/09/29
3740
Qwen2.5-Math推理效果 VS OpenAI o1模型
看好了,这才是7家大模型做高考数学题的真实分数。
我本来真的没打算卷这个选题,因为知道大家肯定都会写,都会卷,我也想休息休息,真的就不打算写了。
数字生命卡兹克
2025/06/09
1440
看好了,这才是7家大模型做高考数学题的真实分数。
年度总结:AI大模型技术年度大盘点
2024年又过去了,去年的总结在这里我独到的技术见解:LLM的演进与发展,是时候对2024年get的新技术进行一次的沉淀和总结了。 本文从以下几个方面进行梳理
languageX
2024/12/31
1.8K0
年度总结:AI大模型技术年度大盘点
每周AI论文速递(2506202-250606)
我们提出了一种基于自我反思和强化学习的大语言模型性能提升方法。当模型回答错误时,通过激励其生成更高质量的反思内容,我们证明即使无法合成训练数据且仅能获得二元反馈信号,模型解决复杂可验证任务的能力仍能得到显著提升。该框架包含两个阶段:(1) 任务失败时,模型需生成分析先前尝试的反思性文本;(2) 模型在获得反思内容后重新尝试解决该任务。若重试成功,则对反思阶段生成的Token(词元)给予奖励。实验结果显示,该方法在不同架构模型上均取得显著效果提升,其中数学方程编写任务提升达34.7%,函数调用任务提升18.1%。特别值得注意的是,经过微调的中小规模模型(15亿至70亿参数)表现优于同架构下参数规模大10倍的基准模型。这一创新范式为开发具备有限反馈条件下自我提升能力的语言模型提供了新思路,有望推动构建更实用可靠的大语言模型系统。
叶子的技术碎碎念
2025/06/09
2620
每周AI论文速递(2506202-250606)
450美元训练一个「o1-preview」?UC伯克利开源32B推理模型Sky-T1,AI社区沸腾了
450 美元的价格,乍一听起来不算「小数目」。但如果,这是一个 32B 推理模型的全部训练成本呢?
机器之心
2025/02/03
1330
450美元训练一个「o1-preview」?UC伯克利开源32B推理模型Sky-T1,AI社区沸腾了
视频推理R1时刻,7B模型反超GPT-4o!港中文清华推出首个Video-R1
这次出手的是港中文+清华组合,直接把强化学习里的R1玩法搬到了视频领域,整出了全球首个视频版R1模型:Video-R1。
新智元
2025/04/18
1460
视频推理R1时刻,7B模型反超GPT-4o!港中文清华推出首个Video-R1
小米MiMo:7B模型逆袭AI大模型战场的技术密码
在大模型竞争愈发激烈的2025年4月30日,小米以一款名为 MiMo-7B 的开源模型强势突围,在数学推理与代码能力评测中表现亮眼,不仅与规模更大的模型正面对抗,甚至超越了 OpenAI 的 o1-mini 和 阿里的 QwQ-32B-Preview 等强敌。这一成绩,引发了业界的广泛关注。
猫头虎
2025/05/02
7500
小米MiMo:7B模型逆袭AI大模型战场的技术密码
中科大、中兴提出新后训练范式:小尺寸多模态模型,成功复现R1推理
本文第一作者为邓慧琳,中国科学技术大学硕博连读四年级,研究方向为多模态模型视觉理解、推理增强(R1强化学习)、异常检测。在TAI、TASE、ICCV等期刊和顶会发表论文。
机器之心
2025/04/15
1640
中科大、中兴提出新后训练范式:小尺寸多模态模型,成功复现R1推理
推理越多,幻觉越重?多模态推理模型的「幻觉悖论」
在多模态大模型的飞速发展中,R1 系列多模态推理模型凭借显式的长链推理机制,在复杂任务中屡屡突破传统「快思考」范式的性能瓶颈。
新智元
2025/06/26
1740
推理越多,幻觉越重?多模态推理模型的「幻觉悖论」
风水轮流转!被骂“山寨”中国大模型,成了美国巨头的“香饽饽”?
一贯被网友喷只会抄袭山寨的中国AI,竟成了西方科技巨头模仿的香饽饽。连外国网友都惊呼倒反天罡,难道现在是“中国AI一开源,美国大模型就进步了”?
释然IT杂谈
2025/01/01
1200
风水轮流转!被骂“山寨”中国大模型,成了美国巨头的“香饽饽”?
OpenAI震撼发布o3/o4-mini,直逼视觉推理巅峰!首用图像思考,十倍算力爆表
刚刚,OpenAI联创Greg Brockman和首席研究官Mark Chen带队,开启了20分钟线上直播。
新智元
2025/04/18
1660
OpenAI震撼发布o3/o4-mini,直逼视觉推理巅峰!首用图像思考,十倍算力爆表
OpenAI 王炸 o3/o4-mini!打通自主工具+视觉思考,大佬赞“天才级”!AI 终获“十八般武艺”全家桶?
OpenAI 正式官宣 o3 & o4-mini:迄今最强模型,AI 终于学会“十八般武艺”全家桶了。
AI进修生
2025/04/18
3120
OpenAI 王炸 o3/o4-mini!打通自主工具+视觉思考,大佬赞“天才级”!AI 终获“十八般武艺”全家桶?
突发消息!OpenAI 今天发布 2 个新的推理模型:o3-mini 和 o3-mini-high。
普通用户也获得 o3-mini,plus用户能用上o3-mini (high),o3-mini (high) 在Codeforce上比o1高约200分,比o1更快、编码和数学表现更佳,成本却还是o1-mini的水平。
AI进修生
2025/02/03
7930
突发消息!OpenAI 今天发布 2 个新的推理模型:o3-mini 和 o3-mini-high。
DeepSeek成全球第二大AI实验室,中国AI赶上美国同行
5月30日消息,今日,知名独立AI基准测试和分析机构Artificial Analysis发布报告并提到,DeepSeek凭借新版R1超越xAI、Meta和Anthropic,成为(与Google)并列的全球第二大AI实验室。报告一经分享,就在社交平台X上获得了超30万的浏览量以及大量网友讨论和转发。
蓝葛亮
2025/05/31
2430
DeepSeek成全球第二大AI实验室,中国AI赶上美国同行
OpenAI投下重磅炸弹:o3-Pro发布,o3 API Key调用价格“雪崩”
2025年6月11日北京时间凌晨,AI界迎来了一个不眠夜。OpenAI几乎在同一时间祭出了两大杀器:发布了史上最强推理模型 o3-Pro,同时将现有王牌模型 o3 的价格狂砍 80%。
网名重要么
2025/06/11
2780
蚂蚁 & 清华联手开源,人人都能复刻QwQ-32B
而 DeepSeek R1 、 OpenAI o1 、文心大模型 X1 以及 QVQ-Max 的出现,则表明 LLM 领域的 Scaling Law 正在发生变化。这类模型在数学、代码、长程规划等问题上的表现尤为突出,而且其推理能力提升的关键,就是后训练阶段中强化学习训练和推理阶段思考计算量的增大。一方面意味着后训练扩展定律(Post-Training Scaling Laws)正在引发社区对于算力分配、后训练能力的重新思考,另一方面也让强化学习(RL,Reinforcement Learning)成为了大语言模型能力提升的新引擎。
深度学习与Python
2025/04/02
1410
蚂蚁 & 清华联手开源,人人都能复刻QwQ-32B
每周AI论文速递(250630-250704)
本文提出GLM-4.1V-Thinking视觉语言模型(Vision-Language Model, VLM),旨在提升通用多模态理解与推理能力。我们重点介绍了以推理为核心的新型训练框架的关键研究成果:首先通过大规模预训练构建了具有显著潜力的视觉基础模型,其性能理论上限决定了最终表现;随后提出课程采样强化学习(Reinforcement Learning with Curriculum Sampling, RLCS)方法,充分释放模型潜力,在STEM问题求解、视频理解、内容识别、编程、基础任务、GUI智能体及长文档理解等多样化任务上实现全面能力提升。我们开源了GLM-4.1V-9B-Thinking模型,在同等规模模型中达到最先进水平。在28个公开基准测试中,该模型几乎在所有任务上超越Qwen2.5-VL-7B,并在18个基准测试中与参数量级更大的Qwen2.5-VL-72B表现相当或更优。特别值得注意的是,在长文档理解和STEM推理等挑战性任务上,GLM-4.1V-9B-Thinking相较GPT-4o等闭源模型展现出竞争优势,充分验证了其强大性能。相关代码、模型及详细信息发布于https://github.com/THUDM/GLM-4.1V-Thinking。
叶子的技术碎碎念
2025/07/08
1820
每周AI论文速递(250630-250704)
推荐阅读
小米放大招!开源“最强7B视觉大模型”MiMo-VL:小模型干翻百B巨兽,还能一键关闭思考
1630
小米又开源了,一个多模态大模型 + 一个生不逢时的推理大模型
2260
让7B千问模型超越o1,微软rStar-Math惊艳登场,网友盛赞
1200
Qwen2.5-Math推理效果 VS OpenAI o1模型
3740
看好了,这才是7家大模型做高考数学题的真实分数。
1440
年度总结:AI大模型技术年度大盘点
1.8K0
每周AI论文速递(2506202-250606)
2620
450美元训练一个「o1-preview」?UC伯克利开源32B推理模型Sky-T1,AI社区沸腾了
1330
视频推理R1时刻,7B模型反超GPT-4o!港中文清华推出首个Video-R1
1460
小米MiMo:7B模型逆袭AI大模型战场的技术密码
7500
中科大、中兴提出新后训练范式:小尺寸多模态模型,成功复现R1推理
1640
推理越多,幻觉越重?多模态推理模型的「幻觉悖论」
1740
风水轮流转!被骂“山寨”中国大模型,成了美国巨头的“香饽饽”?
1200
OpenAI震撼发布o3/o4-mini,直逼视觉推理巅峰!首用图像思考,十倍算力爆表
1660
OpenAI 王炸 o3/o4-mini!打通自主工具+视觉思考,大佬赞“天才级”!AI 终获“十八般武艺”全家桶?
3120
突发消息!OpenAI 今天发布 2 个新的推理模型:o3-mini 和 o3-mini-high。
7930
DeepSeek成全球第二大AI实验室,中国AI赶上美国同行
2430
OpenAI投下重磅炸弹:o3-Pro发布,o3 API Key调用价格“雪崩”
2780
蚂蚁 & 清华联手开源,人人都能复刻QwQ-32B
1410
每周AI论文速递(250630-250704)
1820
相关推荐
小米放大招!开源“最强7B视觉大模型”MiMo-VL:小模型干翻百B巨兽,还能一键关闭思考
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档