始智AI wisemodel.cn开源社区
始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在招募 | 新一期开源共创志愿者计划,欢迎加入共同成长。wisemodel社区算力平台上线,价格实惠,灵活方便,支持在线微调训练模型,及模型在线体验和专属API服务,并全面支持ollama在线运行。
数学不仅是逻辑的演绎,更是创造的结晶。从黎曼度量到微分流形,从群论到拓扑空间,数学史上的每一次重大突破都源于创造性的飞跃。同济大学数学科学学院DeepMath团队发起了一项开源计划,旨在训练一个开源的数学大模型,探索大模型在前沿数学研究中的应用潜力。
近期,DeepMath团队开源发布了一个全新的数学评测集:DeepMath-Creative,重点评测主流大模型的数学创造能力。相关数据集已上线始智AI-wisemodel开源社区,欢迎使用。
数据集地址
https://wisemodel.cn/datasets/deepmath/DeepMath-Creative/file
01.
数学创造力的本身是什么
当前,大语言模型在数学领域的评测工作主要集中在推理能力上,各类评测集也多聚焦于初等水平的数学题。然而,真正的数学研究更需要创造性思维。通过深入研究,团队提出从三个维度系统评估数学创造性思维:
1.概念维度
正如黎曼度量重构了微分几何的研究范式,群论重塑了代数结构的研究方法,真正的概念创新能开辟全新的数学疆域。然而,这类创造往往需要深刻的数学直觉,目前大模型的表现仍难以企及。
2.方法维度
新方法的提出为解决复杂问题提供了强有力的工具,例如广义函数论的提出使得人类突破经典函数框架的局限,在偏微分方程等领域取得了丰硕成果。我们的评测发现,大模型在方法创新上表现出一定的重组能力,但真正的原创性方法仍难以企及。
3.例子维度
Milnor怪球、Weierstrass函数等经典数学例子表明,构造数学例子在推动理论发展中具有独特价值。
02.
DeepMath-Creative评测集介绍
1.设计原则:
团队构建了具有以下特点的评测框架:
-双向探究式问题设计:每个问题都采用"若成立请证明,若不成立请举反例"的开放形式
-多学科覆盖:覆盖代数、分析、拓扑等多学科
-难度梯度:本科水平与研究生水平的合理配比
经过多名数学专家组成的团队严格筛选,最终形成包含179道高质量题目的评测集,其中包含两部分:证明题,构造反例题。
2.具体评分规则:
3.评测结果与启示
在评测过程中,只关注模型输出最重要的“得分点”,忽略许多小错误。在如此极其宽松的评分标准下,当前模型的表现为:
-最优模型O3 Mini准确率70%
-主要错误类型:
-方向误判
-构造缺陷
-论证冗余
其中得分较高的数学题目均为难度不是很高的数学问题,在较为复杂的数学问题上,模型的表现急速下降。这些结果表明,大模型在数学创造力方面仍处于初级阶段,特别是在:
- 对抽象数学概念的深刻理解
- 复杂例子的构造能力
- 论证的简洁性和优美性
主流大模型的评测结果
模型输出的错误实例