Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >进能形式逻辑,退能四则运算,MAmmoT让LLM成为数学通才

进能形式逻辑,退能四则运算,MAmmoT让LLM成为数学通才

作者头像
机器之心
发布于 2023-09-25 07:24:02
发布于 2023-09-25 07:24:02
5690
举报
文章被收录于专栏:机器之心机器之心

机器之心报道

编辑:Panda

一个新数据集外加思维链和思维程序两种方法之长,竟能让开源 LLM 的数学推理追上 GPT-4 等闭源大模型。

数学推理是现代大型语言模型(LLM)的一项关键能力。尽管这一领域近来进展不错,但闭源和开源 LLM 之间仍然存在明显的差距——GPT-4、PaLM-2 和 Claude 2 等闭源模型主宰了 GSM8K 和 MATH 等常用数学推理基准,而 Llama、Falcon 和 OPT 等开源模型在所有基准上都大幅落后。

为了解决这一问题,研究界正在两个方向进行努力:

(1)Galactica 和 MINERVA 等持续型预训练方法,其能在超过千亿 token 的数学相关网络数据上对 LLM 进行持续训练。这一方法能提升模型的一般科学推理能力,但代价是高计算成本。

(2)拒绝采样微调(RFT)和 WizardMath 等针对特定数据集进行微调的方法,即使用特定数据集的监督数据对 LLM 进行微调。尽管这些方法能提升在具体领域内的性能,但无法泛化到微调数据之外的更广范围的数学推理任务。举个例子,RFT 和 WizardMath 可将在 GSM8K(这是微调数据集之一)上的准确度提升 30% 以上,但却有损在 MMLU-Math 和 AQuA 等领域外数据集上的准确度——使之降低多达 10%。

近日,来自滑铁卢大学和俄亥俄州立大学等机构的研究团队提出了一种轻量级却又可泛化的数学指令微调方法,可用于增强 LLM 的一般性(即不限于微调任务)数学推理能力。

之前已有的方法关注的重点是思维链(CoT)方法,即通过一步步的自然语言描述来解决数学问题。这种方法的通用性很强,可覆盖大多数数学科目,但却在计算精度和复杂的数学或算法推理过程(例如求解二次方程根和计算矩阵特征值)方面存在困难。

相比之下,像思维程序(PoT)和 PAL 这样的代码格式 prompt 设计方法则是利用外部工具(即 Python 解释器)来大幅简化数学求解过程。这种方法是将计算过程卸载到外部 Python 解释器来求解复杂的数学和算法推理(例如使用 sympy 求解二次方程或使用 numpy 计算矩阵特征值)。但是,PoT 难以应对更抽象的推理场景,比如常识推理、形式逻辑和抽象代数,尤其是没有内置的 API 时。

为了取 CoT 和 PoT 两种方法之长,该团队引入了一个新的数学混合指令微调数据集 MathInstruct,其有两大主要特性:(1) 广泛涵盖不同的数学领域和复杂程度,(2) 将 CoT 和 PoT 原理组合到了一起。

MathInstruct 基于七个现有的数学原理数据集和六个新整理出的数据集。他们使用 MathInstruct 微调了不同大小(从 7B 到 70B)的 Llama 模型。他们将所得到的模型称为 MAmmoTH 模型,结果发现 MAmmoTH 的能力是前所未有的,就像是一个数学通才。

为了评估 MAmmoTH,该团队使用了一系列评估数据集,包括领域内的测试集(GSM8K、MATH、AQuA-RAT、NumGLUE)和领域外的测试集(SVAMP、SAT、MMLU-Math、Mathematics、SimulEq)。

结果发现,相比于之前的方法,MAmmoTH 模型能更好地泛化用于领域外数据集,并能大幅提升开源 LLM 的数学推理能力。

值得注意的是,在常用的竞赛级 MATH 数据集上,7B 版本的 MAmmoTH 模型能以 3.5 倍的优势(35.2% vs 10.7%)击败 WizardMath(这是 MATH 上之前最佳的开源模型),而 34B MAmmoTH-Coder(在 Code Llama 上进行过微调)甚至可以胜过使用 CoT 的 GPT-4。

这项研究的贡献可以总结成两个方面:(1) 从数据工程方面看,他们提出了一个高质量的数学指令微调数据集,其中包含多种不同的数学问题和混合原理。(2) 从建模方面讲,他们训练和评估了大小从 7B 到 70B 的 50 多个不同的新模型和基准模型,以此探究了不同数据源和输入-输出格式的影响。

结果发现,MAmmoTH 和 MAmmoTH-Coder 等新模型在准确度方面都显著优于之前的开源模型。

  • 论文:https://arxiv.org/pdf/2309.05653.pdf
  • 代码:https://github.com/TIGER-AI-Lab/MAmmoTH
  • 数据集与模型:https://huggingface.co/datasets/TIGER-Lab/MathInstruct

该团队已经发布了他们整理得到的数据集,并开源了新方法的代码,也在 Hugging Face 发布了训练好的不同大小的模型。

新提出的方法

整理一个多样化的混合指令微调数据集

该团队的目标是编制一份列表,其中包含高质量且多样化的数学指令微调数据集,其应具有两个主要特征:(1) 广泛涵盖不同的数学领域和复杂程度,(2) 将 CoT 和 PoT 原理组合到一起。

对于第一个特征,他们首先选出了一些使用广泛并且涉及不同数学领域和复杂程度的高质量数据集,比如 GSM8K、MATH、AQuA、Camel 和 TheoremQA。然后他们注意到现有数据集没有大学水平的数学知识,比如抽象代数和形式逻辑。针对这个问题,他们借助于网上找到的少量种子示例,使用 GPT-4 为 TheoremQA 中的问题合成 CoT 原理并通过 Self-Instruct 创建「问题-CoT」配对。

对于第二个特征,将 CoT 和 PoT 原理组合到一起可以提升数据集的多功能性,使其训练的模型有能力解决不同类型的数学问题。但是,大多数现有数据集提供的程序原理有限,导致 CoT 和 PoT 原理之间不平衡。为此,该团队又用到了 GPT-4,来为所选数据集补充 PoT 原理,包括 MATH、AQuA、 GSM8K 和 TheoremQA。然后再对这些 GPT-4 合成的程序进行过滤,做法是将它们的执行结果与人类标注的基本真值进行比较,这能确保所添加的都是高质量的原理。

遵循这些准则,他们创建了一个新的数据集 MathInstruct,详见下表 1。

其中包含 26 万对 (指令,响应),覆盖广泛的核心数学领域(算术、代数、概率学、微积分和几何等),包含混合的 CoT 和 PoT 原理,并有不同的语言和难度。

训练设置

MathInstruct 的所有子集都统一成了类似 Alpaca 的指令数据集的结构。这种标准化操作可确保微调得到的模型能够一致地处理数据,无论原始数据集格式如何。

在基础模型方面,该团队的选择是 Llama-2 和 Code Llama。

通过在 MathInstruct 上进行微调,他们得到了 7B、13B、34B 和 70B 等大小不同的模型。

实验

评估数据集

为了评估模型的数学推理能力,该团队选择了一些评估数据集,见下表 2,其中包含许多不同领域内和领域外样本,涉及多个不同数学领域。

这个评估数据集也包含不同的难度等级,包括小学、中学和大学水平。某些数据集甚至包括形式逻辑和常识推理。

所选择的评估数据集既有开放式问题,也有多项选择题。

对于开放式问题(如 GSM8K 和 MATH),研究者采用了 PoT 解码,因为大多数这类问题可以通过程序求解。、

对于多项选择题(如 AQuA 和 MMLU),研究者采用了 CoT 解码,因为这个数据集中的大部分问题都可以通过 CoT 更好地处理。

CoT 解码不需要任何触发词,而 PoT 解码需要一个触发语:「Let’s write a program to solve the problem」。

主要结果

下表 3 和表 4 分别报告了在领域内外数据上的结果。

总体而言,在不同的模型大小上,MAmmoTH 和 MAmmoTH-Coder 都优于之前最佳的模型。新模型在领域外数据集上取得的性能增长多于在领域内数据集上所获增长。这些结果表明新模型确实有成为数学通才的潜力。MAmmoTH-Coder-34B 和 MAmmoTH-70B 在一些数据集上的表现甚至超过了闭源 LLM。

研究者也比较了使用不同基础模型的情况。具体来说,他们实验了 Llama-2 和 Code-Llama 这两种基础模型。从上面两张表可以看出,Code-Llama 整体上要优于 Llama-2,尤其是在领域外数据集上。MAmmoTH 和 MAmmoTH-Coder 之间的差距甚至可达 5%。

在数据源上的消融研究

他们通过消融研究探索了性能增益的来源。为了更好地理解 MAmmoTH 相对于已有基准模型的优势的来源,研究者进行了一系列对照实验,结果如下图 2 所示。

总结起来,MAmmoTH 的显著性能优势可以归功于:1) 涵盖不同的数学领域和复杂程度的多样化数据源,2) CoT 和 PoT 指令微调的混合策略。

他们也研究了主要子集的影响。对于用于训练 MAmmoTH 的 MathInstruct 的多样化来源,理解各个来源对模型整体性能的贡献程度也很重要。他们关注的重点是四个主要子集:GSM8K、MATH、 Camel 和 AQuA。他们进行了一项实验:逐渐将每个数据集添加到训练中,并将性能与在整个 MathInstruct 上微调的模型进行比较。

从表 5 的结果可以看到,如果一开始训练的数据集不够多样化(比如只有 GSM8K 时),整体的泛化能力非常差:模型只拟合了分布内的数据,难以解答 GSM 问题之外的问题。

这些结果凸显了多样化数据源对 MAmmoTH 的重要影响,它们是让 MAmmoTH 成为数学通才的核心关键。这些结果也贡献了宝贵的见解,能为我们未来的数据整理收集工作提供指导比如我们应该总是收集多样化的数据,避免只收集特定类型的数据。

© THE END

转载请联系本公众号获得授权

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-09-24 20:03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
AGI-Eval托管UGMathBench:数学推理评估从「浅层解题」迈向「深层理解」
数学推理能力作为衡量模型智能水平的关键指标,需对其进行全面公平的评估。然而,现有的 GSM8K、MATH 数学基准因覆盖不足和易被数据污染饱受诟病,要么缺乏对本科水平数学问题的广泛覆盖,要么可能受到测试集的污染。
AGI-Eval评测社区
2025/06/10
640
AGI-Eval托管UGMathBench:数学推理评估从「浅层解题」迈向「深层理解」
34B参数量超越GPT-4!「数学通用大模型」MAmmoTH开源:平均准确率最高提升29%
数学推理问题是语言模型绕不过的痛点,在各种黑科技的加持下,开源模型的推理性能依然不够看。
新智元
2023/09/22
5690
34B参数量超越GPT-4!「数学通用大模型」MAmmoTH开源:平均准确率最高提升29%
ENVISIONS:一种无需人类标注的LLM自训练框架
这篇论文提出了一个名为ENVISIONS的环境引导的神经符号自训练框架,旨在解决以下两个问题:
zenRRan
2024/07/04
2820
ENVISIONS:一种无需人类标注的LLM自训练框架
DeepSeekMath:突破开放式语言模型中数学推理能力的极限,提出了GRPO,值得关注学习
由于数学推理具有复杂且结构化的特性,这对语言模型构成了重大挑战。在本文中,我们介绍了 DeepSeekMath 7B 模型,该模型在 DeepSeek-Coder-Base-v1.5 7B 模型的基础上,使用从 Common Crawl 获取的 1200 亿个与数学相关的标记,以及自然语言和代码数据继续进行预训练。在不依赖外部工具包和投票技术的情况下,DeepSeekMath 7B 在竞赛级 MATH 基准测试中取得了 51.7% 的优异成绩,接近 Gemini-Ultra 和 GPT-4 的性能水平。通过对 DeepSeekMath 7B 生成的 64 个样本进行自洽性验证,其在 MATH 基准测试上的准确率达到了 60.9%。DeepSeekMath 的数学推理能力归因于两个关键因素:首先,我们通过精心设计的数据选择流程,充分利用了公开可用的网络数据的巨大潜力。其次,我们引入了组相对策略优化(Group Relative Policy Optimization,GRPO)算法,这是近端策略优化(Proximal Policy Optimization,PPO)算法的一个变体,它在增强数学推理能力的同时,还能优化 PPO 的内存使用。
AI浩
2025/06/08
1190
DeepSeekMath:突破开放式语言模型中数学推理能力的极限,提出了GRPO,值得关注学习
猛犸象大模型!MAmmoTH:目前最好的开源、通用数学大模型,现已超过GPT-4!
 大型语言模型 (LLM)的数学推理能力是评估大模型能力的一项关键指标。尽管目前很多大型语言模型(LLMs)在该领域取得了一定的进展,但与闭源的大模型相比,开源大模型的数学推理能力仍然有很大差距。
ShuYini
2023/09/21
1.4K0
猛犸象大模型!MAmmoTH:目前最好的开源、通用数学大模型,现已超过GPT-4!
对标GPT-4代码解释器!港中大让模型写代码解决数学难题,得分超越GPT-4
他们开发了一个叫做MathCoder的大模型,数学能力直接在竞赛级“题库”Math上超过GPT-4。
量子位
2023/10/08
3550
对标GPT-4代码解释器!港中大让模型写代码解决数学难题,得分超越GPT-4
AlphaGo核心算法增强,7B模型数学能力直逼GPT-4,阿里大模型新研究火了
研究人员用蒙特卡洛树搜索(MCTS)给大语言模型来了把性能增强,无需人工标注解题步骤,也能生成高质量数据,有效提升大模型的数学成绩。
量子位
2024/05/10
1980
AlphaGo核心算法增强,7B模型数学能力直逼GPT-4,阿里大模型新研究火了
7B开源数学模型干翻千亿GPT-4,中国团队出品
它的表现可谓是突破了开源模型的极限,连阿里通义的研究员也感叹缩放定律是不是失效了。
量子位
2024/02/22
3590
7B开源数学模型干翻千亿GPT-4,中国团队出品
​参数少近一半,性能逼近谷歌Minerva,又一个数学大模型开源了
如今,在各种文本混合数据上训练出来的语言模型会显示出非常通用的语言理解和生成能力,可以作为基础模型适应各种应用。开放式对话或指令跟踪等应用要求在整个自然文本分布中实现均衡的性能,因此更倾向于通用模型。
机器之心
2023/10/24
2960
​参数少近一半,性能逼近谷歌Minerva,又一个数学大模型开源了
从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统
本文尝试梳理一个完整的多模态LLM的训练流程。包括模型结构选择、数据预处理、模型预训练、指令微调、对齐、融合多模态以及链接外部系统等环节。
zenRRan
2023/08/22
7.1K0
从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统
清华微软「LLM+推理智能体」超越GPT-4!攻克数理难题,斩获开源界MATH最佳成绩
清华大学,微软研究院共同发表了一篇论文,创造性地提出了TORA:在LLM之外使用推理智能体,结合自然语言分布推理,就能大幅提高研究LLM的数理能力和推理能力。
新智元
2023/10/28
6800
清华微软「LLM+推理智能体」超越GPT-4!攻克数理难题,斩获开源界MATH最佳成绩
GPT-4 做「世界模型」,让LLM从「错题」中学习,推理能力显著提升
这段时间,大语言模型在各种 NLP 任务中取得了重大进展,尤其是在需要复杂的思维链(CoT)推理的数学问题方面。
机器之心
2023/11/07
3240
GPT-4 做「世界模型」,让LLM从「错题」中学习,推理能力显著提升
数学能力超过ChatGPT!上海交大计算大模型登开源榜首
据团队介绍,该模型是用挪威数学家尼尔斯·阿贝尔(Niels Abel)的名字命名的,以此向阿贝尔在代数和分析方面的开创性工作致敬。
量子位
2023/09/22
2781
数学能力超过ChatGPT!上海交大计算大模型登开源榜首
prompt概念提出者之一刘鹏飞发布Abel,仅仅使用SFT即可达数学开源SoTA,超越十亿多美元模型MathGPT和GPT4
今天突然看到prompt概念提出者刘鹏飞(现上交大副教授)在twitter上的消息:
zenRRan
2023/09/25
6010
prompt概念提出者之一刘鹏飞发布Abel,仅仅使用SFT即可达数学开源SoTA,超越十亿多美元模型MathGPT和GPT4
数学能力超ChatGPT,70B开源大模型火了:用AI微调AI,微软全华班出品
如下图所示,经过GSM8k数据集测试,WizardMath数学能力直接击败了ChatGPT、Claude Instant 1、PaLM 2-540B等一众大模型——
量子位
2023/09/08
3530
数学能力超ChatGPT,70B开源大模型火了:用AI微调AI,微软全华班出品
ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格
大型语言模型(LLMs)在解决问题方面的非凡能力日益显现。最近,一个值得关注的现象是,这些模型在多项数学推理的基准测试中获得了惊人的成绩。以 GPT-4 为例,在高难度小学应用题测试集 GSM8K [1] 中表现优异,准确率高达 90% 以上。同时,许多开源模型也展现出了不俗的实力,准确率超过 80%。
老K博客
2024/07/19
1000
ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格
微软开源的大模型太强了,数学推理超ChatGPT,论文、模型权重全部公开
该模型有 70B、13B、7B 三个参数规模,研究者在两个数学推理基准 GSM8k 和 MATH 上的测试表明,WizardMath 优于所有其他开源 LLM,达到 SOTA。
机器之心
2023/09/08
3860
微软开源的大模型太强了,数学推理超ChatGPT,论文、模型权重全部公开
数学推理增强,Xwin-Math利用合成数据解锁LLaMA-2-7B潜力!
数学问题解决能力一直被视为衡量语言模型智能水平的重要指标。通常只有规模极大的模型或经过大量数学相关预训练的模型才能有机会在数学问题上表现出色。
ShuYini
2024/03/15
2180
数学推理增强,Xwin-Math利用合成数据解锁LLaMA-2-7B潜力!
LLM评测
当前开源大模型中,Mixtral-8x22B-Instruct-v0.1在 MT-Bench(多轮会话&指令遵循)、MMLU(信息知识)中表现基本持平头部开源模型,并比GPT3.5略好,但在TruthfulQA(客观事实)上略逊于头部开源模型。Mixtral模型当前处于开源大模型第一梯队。 但通过Mixtral Demo体验,其支持语言主要为欧洲语系,且在回复质量上还是存在诸如指令遵循、信息冗余、misinfo等明显问题。
孔西皮
2024/08/05
5180
田渊栋团队论文火了!连续思维链优于CoT,打开LLM推理新范式
随着 LLM 和 CoT 的兴起,语言已经成为机器推理的默认媒介 —— 但它真的是最佳方法吗?
机器之心
2025/02/14
1420
田渊栋团队论文火了!连续思维链优于CoT,打开LLM推理新范式
推荐阅读
AGI-Eval托管UGMathBench:数学推理评估从「浅层解题」迈向「深层理解」
640
34B参数量超越GPT-4!「数学通用大模型」MAmmoTH开源:平均准确率最高提升29%
5690
ENVISIONS:一种无需人类标注的LLM自训练框架
2820
DeepSeekMath:突破开放式语言模型中数学推理能力的极限,提出了GRPO,值得关注学习
1190
猛犸象大模型!MAmmoTH:目前最好的开源、通用数学大模型,现已超过GPT-4!
1.4K0
对标GPT-4代码解释器!港中大让模型写代码解决数学难题,得分超越GPT-4
3550
AlphaGo核心算法增强,7B模型数学能力直逼GPT-4,阿里大模型新研究火了
1980
7B开源数学模型干翻千亿GPT-4,中国团队出品
3590
​参数少近一半,性能逼近谷歌Minerva,又一个数学大模型开源了
2960
从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统
7.1K0
清华微软「LLM+推理智能体」超越GPT-4!攻克数理难题,斩获开源界MATH最佳成绩
6800
GPT-4 做「世界模型」,让LLM从「错题」中学习,推理能力显著提升
3240
数学能力超过ChatGPT!上海交大计算大模型登开源榜首
2781
prompt概念提出者之一刘鹏飞发布Abel,仅仅使用SFT即可达数学开源SoTA,超越十亿多美元模型MathGPT和GPT4
6010
数学能力超ChatGPT,70B开源大模型火了:用AI微调AI,微软全华班出品
3530
ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格
1000
微软开源的大模型太强了,数学推理超ChatGPT,论文、模型权重全部公开
3860
数学推理增强,Xwin-Math利用合成数据解锁LLaMA-2-7B潜力!
2180
LLM评测
5180
田渊栋团队论文火了!连续思维链优于CoT,打开LLM推理新范式
1420
相关推荐
AGI-Eval托管UGMathBench:数学推理评估从「浅层解题」迈向「深层理解」
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档