DeepMath-Creative评测集发布: 探索大模型的数学创造能力

文章来源：企鹅号 - wisemodel开源社区

始智AI wisemodel.cn开源社区

始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在招募 | 新一期开源共创志愿者计划，欢迎加入共同成长。wisemodel社区算力平台上线，价格实惠，灵活方便，支持在线微调训练模型，及模型在线体验和专属API服务，并全面支持ollama在线运行。

数学不仅是逻辑的演绎，更是创造的结晶。从黎曼度量到微分流形，从群论到拓扑空间，数学史上的每一次重大突破都源于创造性的飞跃。同济大学数学科学学院DeepMath团队发起了一项开源计划，旨在训练一个开源的数学大模型，探索大模型在前沿数学研究中的应用潜力。

近期，DeepMath团队开源发布了一个全新的数学评测集：DeepMath-Creative，重点评测主流大模型的数学创造能力。相关数据集已上线始智AI-wisemodel开源社区，欢迎使用。

数据集地址

https://wisemodel.cn/datasets/deepmath/DeepMath-Creative/file

01.

数学创造力的本身是什么

当前，大语言模型在数学领域的评测工作主要集中在推理能力上，各类评测集也多聚焦于初等水平的数学题。然而，真正的数学研究更需要创造性思维。通过深入研究，团队提出从三个维度系统评估数学创造性思维：

1.概念维度

正如黎曼度量重构了微分几何的研究范式，群论重塑了代数结构的研究方法，真正的概念创新能开辟全新的数学疆域。然而，这类创造往往需要深刻的数学直觉，目前大模型的表现仍难以企及。

2.方法维度

新方法的提出为解决复杂问题提供了强有力的工具，例如广义函数论的提出使得人类突破经典函数框架的局限，在偏微分方程等领域取得了丰硕成果。我们的评测发现，大模型在方法创新上表现出一定的重组能力，但真正的原创性方法仍难以企及。

3.例子维度

Milnor怪球、Weierstrass函数等经典数学例子表明，构造数学例子在推动理论发展中具有独特价值。

02.

DeepMath-Creative评测集介绍

1.设计原则：

团队构建了具有以下特点的评测框架：

-双向探究式问题设计：每个问题都采用"若成立请证明，若不成立请举反例"的开放形式

-多学科覆盖：覆盖代数、分析、拓扑等多学科

-难度梯度：本科水平与研究生水平的合理配比

经过多名数学专家组成的团队严格筛选，最终形成包含179道高质量题目的评测集，其中包含两部分：证明题，构造反例题。

2.具体评分规则：

3.评测结果与启示

在评测过程中，只关注模型输出最重要的“得分点”，忽略许多小错误。在如此极其宽松的评分标准下，当前模型的表现为：

-最优模型O3 Mini准确率70%

-主要错误类型：

-方向误判

-构造缺陷

-论证冗余

其中得分较高的数学题目均为难度不是很高的数学问题，在较为复杂的数学问题上，模型的表现急速下降。这些结果表明，大模型在数学创造力方面仍处于初级阶段，特别是在：

- 对抽象数学概念的深刻理解

- 复杂例子的构造能力

- 论证的简洁性和优美性

主流大模型的评测结果

模型输出的错误实例

发表于: 2025-05-202025-05-20 18:07:36
原文链接：https://page.om.qq.com/page/O3oGQdwGt7tiYMTYCkCS3v6w0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

DeepMath-Creative评测集发布: 探索大模型的数学创造能力

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐