MAmmoTH模型结合了CoT和PoT两种思维方式,使其能够更全面地解决各种数学问题(从基础算术到高等数学)。
在九个数学推理数据集上显著超越了现有的开源模型,平均准确率提高了13%到29%。
MAmmoTH在一个精心策划的指导调优数据集MathInstruct上进行训练,MathInstruct从13个带有中间理由的数学数据集中编译而来,其中六个是由作者新策划的。
01 工作原理
MAmmoTH基于LLaMa 2和Code Llama训练的数学领域的开源LLM,有7B、13B、34B、70B四个版本。
MAmmoTH的工作原理是通过混合指导调优方法,结合两种不同的思维方式,训练模型来解决各种数学问题。
这种方法确保了模型在各种数学领域都有很好的表现,并且在实际应用中也取得了显著的性能提升。
02 混合指导调优
MAmmoTH模型是基于一个名为MathInstruct的指导调优数据集进行训练的。这个数据集结合了两种不同的思维方式:思维链(CoT)和思维程序(PoT)。
1、补充性:CoT和PoT分别代表了两种不同的思维和解决问题的方法。CoT关注于逻辑步骤和思考过程,而PoT更侧重于具体的计算方法和技巧。当这两种方法结合在一起时,它们可以相互补充,提供更全面的解决方案。
2、广泛的问题覆盖:有些数学问题可能更适合使用CoT方法来解决,而其他问题可能更适合使用PoT方法。通过结合这两种方法,模型可以更好地处理各种不同类型的数学问题。
3、深入的理解:在某些情况下,仅仅使用CoT或PoT可能不足以完全理解或解决一个问题。但是,当这两种方法结合在一起时,它们可以提供更深入的洞察和理解,从而更准确地解决问题。
4、增强的泛化能力:结合两种不同的思维方式可以帮助模型更好地泛化到未见过的问题。这是因为模型不仅学习了两种方法的特定技巧和策略,而且还学习了如何在不同的情境下选择和应用这些方法。
5、更强的鲁棒性:在某些复杂的数学问题中,可能需要同时使用CoT和PoT的策略来得到正确的答案。结合这两种方法可以提高模型的鲁棒性,使其在面对这种复杂问题时仍然能够给出正确的答案。
03 广泛的数学领域覆盖
MathInstruct数据集从13个带有中间理由的数学数据集中编译而来,其中六个是由作者新策划的。这确保了模型在各种数学领域都有广泛的覆盖,从基础算术到高级数学概念都有涉及。
04 显著的性能提升
由于这种混合的指导调优方法,MAmmoTH系列在九个数学推理数据集上显著超越了现有的开源模型,平均准确率提高了13%到29%。
特别是,MAmmoTH-7B模型在MATH(一个竞赛级数据集)上达到了35%的准确率,超过了最佳的开源7B模型(WizardMath)25%。而MAmmoTH-34B模型在MATH上达到了46%的准确率,甚至超过了GPT-4的CoT结果。
05 评估数据集
为了评估模型的能力,选择了多种评估数据集,包括GSM8K、MATH、AQuA-RAT、NumGLUE等。这些数据集包括从小学、高中到大学的数学问题。其中一些数据集甚至包括正式逻辑和常识推理。
领取专属 10元无门槛券
私享最新 技术干货