mdtex2html 是一个用于将混合 LATEX 语句的 markdown 文档转换为 html 的 python 库。虽然已经有众多能够支持 markdown 、LATEX的前端 js,如 katex、mathjax、texme 等 js 库,但此类方法均会增加客户端的运算负担,在文档较大时将会影响用户体验,因此选择在服务端完成markdown + latex 到 html的转换。然而,mdtex2html 的测试文档不够完善,且手动编写的 markdown + latex 文档难以覆盖所有测试点。考虑到 Deepseek r1 等大模型的输出为 markdown 格式,且在解决数学题时使用 inline latex ,因此尝试要求 Deepseek r1 解决数学题,在测试其数学能力的同时还能获得 mdtex2html 的测试数据。
AMC-12(American Mathematics Competition for 12th Grade)是美国的一个高级数学竞赛,专为12年级(即高三)学生设计。它是一个非常具有挑战性的竞赛,旨在评估学生在高级数学概念、问题解决和逻辑推理方面的能力。以下是关于AMC-12的一些详细信息:
Deepseek r1 有 1.5b, 7b, 8b, 14b, 32b以及满血 671b 等多个参数级的模型,其中在腾讯HAI-CPU可以直接运行的为1.5b, 7b, 8b, 14b, 32b. 在经过简单测试后,发现32b以下的模型均难以解决 AMC-12 2000 中的问题,因此本次选择 32b 的模型进行实验
直接向 Deepseek r1 提问对应问题
>>> 1+1 = ?
<think>
...
</think>
...
观察到上下文达到一定长度后,Deepseek r1 能力减弱,甚至出现循环输出无法停止的情况,因此每次实验仅提出一个问题
problem number | r1 32b | 满血r1 |
---|---|---|
1 | ❎ | ✅ |
2 | ✅ | ✅ |
3 | ✅ | ✅ |
4 | ✅ | ✅ |
5 | ✅ | ✅ |
6 | ✅ | ✅ |
7 | ✅ | ✅ |
8 | ✅ | ✅ |
9 | ❎ | ✅ |
10 | ✅ | ✅ |
11 | ❎ | ✅ |
12 | ✅ | ✅ |
13 | ✅ | ✅ |
14 | ✅ | ✅ |
15 | ✅ | ✅ |
16 | ✅ | ✅ |
17 | ✅ | ✅ |
18 | ✅ | ✅ |
19 | ✅ | ✅ |
20 | ✅ | ✅ |
21 | ✅ | ✅ |
23 | ✅ | ✅ |
24 | ✅ | ✅ |
25 | ✅ | ✅ |
Deepseek r1 能够答对大多数题目,部分题目可能是因为训练时相关数据较少导致回答错误,而满血Deepseek r1 则能够给出正确答案。在Deepseek r1 的帮助下,找出了 md2html 的两处 bug ,并且得到了较为完备的测试数据集。
长 COT 的大模型虽然具有更强的能力,但随之而来的是 Token 数量以及等待时间的剧增,在解决数学问题等可以预期需要消耗大量 Token 的任务时,需要综合考虑模型性能以及硬件平台的能力,例如本次测试中,满血 Deepseek r1 由于有着强大算力支持,在运行速度及准确性上均为 HAI-CPU 上运行的 32b Deepseek r1 的数倍。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。