Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布

DeepMath-Creative评测集发布: 探索大模型的数学创造能力

始智AI wisemodel.cn开源社区

始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在招募 | 新一期开源共创志愿者计划,欢迎加入共同成长。wisemodel社区算力平台上线,价格实惠,灵活方便,支持在线微调训练模型,及模型在线体验和专属API服务,并全面支持ollama在线运行。

数学不仅是逻辑的演绎,更是创造的结晶。从黎曼度量到微分流形,从群论到拓扑空间,数学史上的每一次重大突破都源于创造性的飞跃。同济大学数学科学学院DeepMath团队发起了一项开源计划,旨在训练一个开源的数学大模型,探索大模型在前沿数学研究中的应用潜力。

近期,DeepMath团队开源发布了一个全新的数学评测集:DeepMath-Creative,重点评测主流大模型的数学创造能力。相关数据集已上线始智AI-wisemodel开源社区,欢迎使用。

数据集地址

https://wisemodel.cn/datasets/deepmath/DeepMath-Creative/file

01.

数学创造力的本身是什么

当前,大语言模型在数学领域的评测工作主要集中在推理能力上,各类评测集也多聚焦于初等水平的数学题。然而,真正的数学研究更需要创造性思维。通过深入研究,团队提出从三个维度系统评估数学创造性思维:

1.概念维度

正如黎曼度量重构了微分几何的研究范式,群论重塑了代数结构的研究方法,真正的概念创新能开辟全新的数学疆域。然而,这类创造往往需要深刻的数学直觉,目前大模型的表现仍难以企及。

2.方法维度

新方法的提出为解决复杂问题提供了强有力的工具,例如广义函数论的提出使得人类突破经典函数框架的局限,在偏微分方程等领域取得了丰硕成果。我们的评测发现,大模型在方法创新上表现出一定的重组能力,但真正的原创性方法仍难以企及。

3.例子维度

Milnor怪球、Weierstrass函数等经典数学例子表明,构造数学例子在推动理论发展中具有独特价值。

02.

DeepMath-Creative评测集介绍

1.设计原则:

团队构建了具有以下特点的评测框架:

-双向探究式问题设计:每个问题都采用"若成立请证明,若不成立请举反例"的开放形式

-多学科覆盖:覆盖代数、分析、拓扑等多学科

-难度梯度:本科水平与研究生水平的合理配比

经过多名数学专家组成的团队严格筛选,最终形成包含179道高质量题目的评测集,其中包含两部分:证明题,构造反例题。

2.具体评分规则:

3.评测结果与启示

在评测过程中,只关注模型输出最重要的“得分点”,忽略许多小错误。在如此极其宽松的评分标准下,当前模型的表现为:

-最优模型O3 Mini准确率70%

-主要错误类型:

-方向误判

-构造缺陷

-论证冗余

其中得分较高的数学题目均为难度不是很高的数学问题,在较为复杂的数学问题上,模型的表现急速下降。这些结果表明,大模型在数学创造力方面仍处于初级阶段,特别是在:

- 对抽象数学概念的深刻理解

- 复杂例子的构造能力

- 论证的简洁性和优美性

主流大模型的评测结果

模型输出的错误实例

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O3oGQdwGt7tiYMTYCkCS3v6w0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券
首页
学习
活动
专区
圈层
工具
MCP广场