部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >Deepseek r1 解题能力测试&&测试文档生成

Deepseek r1 解题能力测试&&测试文档生成

原创
作者头像
TomoriNao
发布2025-03-19 10:46:53
发布2025-03-19 10:46:53
290
举报
文章被收录于专栏:每月技术成长每月技术成长

mdtex2html

mdtex2html 是一个用于将混合 LATEX 语句的 markdown 文档转换为 htmlpython 库。虽然已经有众多能够支持 markdownLATEX的前端 js,如 katexmathjaxtexmejs 库,但此类方法均会增加客户端的运算负担,在文档较大时将会影响用户体验,因此选择在服务端完成markdown + latex 到 html的转换。然而,mdtex2html 的测试文档不够完善,且手动编写的 markdown + latex 文档难以覆盖所有测试点。考虑到 Deepseek r1 等大模型的输出为 markdown 格式,且在解决数学题时使用 inline latex ,因此尝试要求 Deepseek r1 解决数学题,在测试其数学能力的同时还能获得 mdtex2html 的测试数据。

测试数学题

AMC-12 2000

AMC-12(American Mathematics Competition for 12th Grade)是美国的一个高级数学竞赛,专为12年级(即高三)学生设计。它是一个非常具有挑战性的竞赛,旨在评估学生在高级数学概念、问题解决和逻辑推理方面的能力。以下是关于AMC-12的一些详细信息:

  1. 考试形式:AMC-12通常为在线考试,有20道题(其中10道为多选题),每题7分,总分为140分。考试时间为3小时。
  2. 考试内容:涉及更高级的数学概念和技巧,如代数、几何、数论、组合数学、微积分初步等。题目通常需要学生运用多种数学工具和策略来解决问题。
  3. 报名与参赛:通常由学校或地区组织,个人也可以直接报名。参赛者需要先通过AMC-10(针对10年级学生)的考试。
  4. 成绩与奖励:优秀成绩的学生有机会获得奖学金或进入更高级别的数学竞赛,如AIME(American Invitational Mathematics Examination)和USAMO(United States of America Mathematical Olympiad)。
  5. 难度与挑战:AMC-12的题目难度较高,要求学生具备深厚的数学基础和高级数学技能。它不仅测试学生的数学知识,还测试他们的逻辑思维、问题解决能力和时间管理技巧。 总的来说,AMC-12是一个为高三学生设计的、具有挑战性的数学竞赛,旨在促进学生对数学的兴趣和深入学习,并为他们在学术上提供认可和奖励的机会。 本次选择 AMC-12 2000 年的试题来作为输入,测试 Deepseek r1 能力

模型选择

Deepseek r1 有 1.5b, 7b, 8b, 14b, 32b以及满血 671b 等多个参数级的模型,其中在腾讯HAI-CPU可以直接运行的为1.5b, 7b, 8b, 14b, 32b. 在经过简单测试后,发现32b以下的模型均难以解决 AMC-12 2000 中的问题,因此本次选择 32b 的模型进行实验

实验方法

直接向 Deepseek r1 提问对应问题

代码语言:shell
复制
>>> 1+1 = ? 
<think>
...
</think>
...

观察到上下文达到一定长度后,Deepseek r1 能力减弱,甚至出现循环输出无法停止的情况,因此每次实验仅提出一个问题

实验结果

problem number

r1 32b

满血r1

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

23

24

25

总结

Deepseek r1 能够答对大多数题目,部分题目可能是因为训练时相关数据较少导致回答错误,而满血Deepseek r1 则能够给出正确答案。在Deepseek r1 的帮助下,找出了 md2html 的两处 bug ,并且得到了较为完备的测试数据集。

长 COT 的大模型虽然具有更强的能力,但随之而来的是 Token 数量以及等待时间的剧增,在解决数学问题等可以预期需要消耗大量 Token 的任务时,需要综合考虑模型性能以及硬件平台的能力,例如本次测试中,满血 Deepseek r1 由于有着强大算力支持,在运行速度及准确性上均为 HAI-CPU 上运行的 32b Deepseek r1 的数倍。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • mdtex2html
  • 测试数学题
    • AMC-12 2000
  • 模型选择
  • 实验方法
  • 实验结果
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档