近年来,国内在人工智能领域,特别是大规模语言模型(LLM)的推理能力方面,取得了显著进展。多家科技公司和研究机构相继推出了具备强大推理能力的AI大模型。以下是其中一些具有代表性的模型:
2024年12月,智谱AI发布了其首个基于扩展强化学习技术训练的推理模型GLM-Zero-Preview。该模型专注于增强AI的推理能力,擅长处理数理逻辑、代码以及需要深度推理的复杂问题。
Kimi推出了专注于数学推理的模型k0-math,旨在提升AI在数学领域的推理和解题能力。在一些数学基准测试中,该模型的表现已接近OpenAI的o1-mini模型。
阿里巴巴推出了Qwen QWQ模型,专注于提升AI的推理能力,特别是在数学和编程领域。该模型在某些数据集上的表现已超过OpenAI的o1模型。
这里我主要介绍两个推理大模型,看看他们的效果到底怎么样。
KIMI推出的数学推理模型k0-math,可以直接去到官网体验
在 Kimi 网页版中,选择侧边栏的“眼镜”图标,即可使用基于 k0-math 模型的 Kimi 数学版,官方称后续会推出手机版。
官方表示,数学公式推荐使用 LaTeX 格式,可以截图或拍照给 Kimi 常规版,让 Kimi 把图片转为 LaTeX 格式,然后复制题目给 Kimi 数学版即可。
在两个难度更大的竞赛级别的数学题库 OMNI-MATH 和 AIME 基准测试中,k0-math 初代模型的表现分别达到了 o1-mini 最高成绩的 90% 和 83%。
说实话,这个模型被称为Qwen QWQ,我是有点惊讶的。QWQ是不我们日常使用的颜文字吗?有理由怀疑qwen团队在训练这个模型的时候,已经有点魔怔了~
目前QwQ的模型权重已经放到了HuggingFace上,想要体验的可以去在线玩
模型在一些数学和编程领域的数据集都表现了比较好的效果,在一些数据集上,比如MATH-500中,其取得的效果还要比OpenAI的o1大模型效果要好。
目前QWQ放出来的版本,参数量只有32B,这个模型在本地也能够运行,也就是人人都能够自己搭建一个o1水平的推理模型
尽管国内AI大模型在推理能力上取得了长足进步,但与国际领先模型相比,仍存在一定差距。特别是在复杂推理、数学和代码生成等领域,国内模型还有提升空间。然而,随着技术的不断发展和各大厂商的持续投入,国内AI大模型的推理能力有望进一步提升。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。