34B参数量超越GPT-4！「数学通用大模型」MAmmoTH开源：平均准确率最高提升29%

在各种黑科技的加持下，数学推理问题成为语言模型无法回避的难题，即使是开源模型的推理性能也不够令人满意

最近，滑铁卢大学、俄亥俄州立大学、香港科技大学、爱丁堡大学的研究人员联合开源了一个专为「通用数学问题」定制的大模型MAmmoTH和一个指令调优数据集MathInstruct.

请点击以下链接查看论文：https://arxiv.org/pdf/2309.05653.pdf

项目链接：https://tiger-ai-lab.github.io/MAmmoTH/

MathInstruct是由13个数学数据集编译而成的，其中包括6个全新的数据集，结合了思维链（CoT）和思维程序（PoT）的概念，并确保涵盖了广泛的数学领域

CoT和PoT的混合不仅可以释放工具使用的潜力，而且还允许模型针对不同的数学问题进行不同的思维过程。

因此，MAmmoTH系列在所有尺度上的9个数学推理数据集上的表现明显优于现有的开源模型，平均准确率提高了12%至29%

在MATH（竞赛级数据集）上，MAmmoTH-7B模型的准确率达到了35%，超过了最好的开源7B模型（WizardMath）的25%。而MAmmoTH-34B模型在MATH上的准确率达到了46%，甚至超过了GPT-4的CoT结果

数学推理领域新王：MAmmoTH

在数学推理任务中，开源和闭源的大型语言模型（LLM）之间存在巨大的性能差距。目前，GPT-4、PaLM-2和Claude等闭源模型在基准数据集上仍然是最先进的（sota），而其他开源模型如Llama、Falcon和OPT等则远远落后

为了弥补性能差距，研究方法主要可以分为两类：

1. 对于像Galactica、MINERVA等模型，继续使用与数学相关的网络数据对语言模型进行训练，可以提高模型在通用科学推理方面的能力，但计算成本会更高

对于拒绝采样微调（RFT）和WizardMath等方法，尽管使用特定领域数据集对模型进行微调可以提高该领域内的性能，但却无法适用于更广泛的数学推理任务

在解决数学问题时，现有方法通常会采用思维链（CoT）方法引导语言模型循序渐进地用自然语言描述来解决数学问题。

虽然在大多数数学主题下表现出很好的通用性，但在需要精确或复杂的数学计算、算法推理的问题下（如求解二次方程根，计算矩阵特征值）表现不佳。

相比之下，思维程序（PoT, Program-of-Thought）方法和PAL利用外部工具（即Python解释器）大大简化了数学求解过程，将计算过程卸载到外部Python解释器，以解决复杂的数学和算法推理过程（例如，用sympy求解二次方程或用numpy计算矩阵特征值）。

然而，PoT在处理更抽象的推理场景方面有所欠缺，尤其是在没有内置API的情况下，常识推理、形式逻辑和抽象代数的推理能力会更差。

方法概述

研究人员的目标是创建一个高质量且多样化的数学指令调整数据集列表

需要进行改写的内容是：1. 涵盖各个数学领域和不同的复杂度水平

通过使用更全面的数据集，可以让模型接触到更多样化的数学知识，从而提升模型的多功能性

研究人员将选择范围缩小到几个被广泛采用的高质量数据集，包括GSM8K、math、AQuA、Camel和TheoremQA.

还可以注意到，现有的数据集缺乏对大学水平的数学知识的覆盖，如抽象代数和形式逻辑，所以研究人员选择使用GPT-4来合成TheoremQA问题中的思维链（CoT）原理，利用网络上找到的数个种子样例，通过自我指导（self-instruct）创建问题和CoT的数据对。

需要进行改写的内容是：2. 混合CoT和PoT

现有的研究方法主要关注CoT，并且数据集中只包含有限的解题思路，这导致CoT和PoT的数据量严重不平衡

为了解决这个问题，研究人员使用GPT-4来增强已选定数据集的PoT解题方法。他们通过对比合成程序的执行结果和人工标注的答案，来筛选出高质量的生成数据

根据以上方法，我们最终获得了26万条指令和回复数据，涵盖了广泛的核心数学领域，包括算术、代数、概率、微积分和几何等。这些数据混合了CoT和PoT的基本原理，并提供了多种语言和多个难度级别的数据。这充分证明了数据集的高品质和独特性

需要重新写作的内容是：训练步骤

研究人员对MathInstruct中的所有子集进行了统一处理，将指令数据集的结构标准化为Alpaca模型的格式。这样一来，模型在微调阶段就不需要考虑原始数据集的格式，只需统一处理数据即可

研究人员选择了Llama-2和Code Llama作为基础模型，在7B、13B、34B和70B尺寸的模型上进行微调

实验部分

评估数据集

研究人员选择了不同数学领域下的样本，对模型的通用数学推理能力进行评估：

领域内数据集包括GSM8K，MATH，AQuA-RAT，NumGLUE；领域外数据集包括SVAMP，Mathematics，SimulEq，SAT-Math和SimulEq，涵盖了小学、高中和大学水平的数学问题，部分数据集甚至包括形式逻辑和常识推理。

问题类型为开放式问题和多选题，其中开放式问题（如GSM8K、数学）采用PoT解码，因为大多数问题都可以由程序解决；多项选择题（如AQuA、MMLU）采用CoT解码。

CoT解码不需要触发词，PoT需要触发短语「让我们写个程序来解决这个问题」（Let’s write a program to solve the problem）。

实验结果

总的来说，MAmmoTH和MAmmoTH-Coder在不同的模型尺寸上均优于SoTA模型，并且在领域外（OOD）数据集上的增益要显著优于领域内（IND）数据集，展现出了该模型作为数学通才模型的潜力，甚至在几个数据集上，MAmmoTH-Coder-34B和MAmmoTH-70B甚至超过了闭源模型。

在数据评估领域中，MAmmoTH模型的主要竞争对手是WizardMath和Platypus。其中，WizardMath模型的训练深度依赖于GSM8K和MATH数据集，而Platypus则通过在更广泛的文本和数学推理数据集上对LLM进行微调

相比之下，MAmmoTH在全面改进的基础上，更擅长解决复杂数学问题。与WizardMath（MATH数据的最新技术水平）相比，它的性能提升超过了25%

在领域外数据评估中，主要竞争模型依然是Platypus，不过MAmmoTH可以实现比领域内数据更高的性能提升，展现出对未知数学问题的通用能力。

MAmmoTH-7B在MMLU-Math上的CoT性能提升了9%，这一点需要特别注意。这个提升包含了许多在训练数据集中没有涵盖的主题

需要进行重新写作的内容是：对比不同的基础模型

在比较Code-Llama和Llama-2作为基础模型时，可以发现Code-Llama的效果始终优于Llama-2，尤其是在领域外数据集上。两者之间的性能差异甚至达到了5%。其中，在领域外数据集上，MAmmoTH-Coder（34B）的平均性能实际上高于MAmmoTH（70B）

研究人员认为，MAmmoTH-Coder从Code-Llama的持续代码训练中获益良多，不仅增强了PoT的能力，还提高了Llama的通用推理技巧

本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。

34B参数量超越GPT-4！「数学通用大模型」MAmmoTH开源：平均准确率最高提升29%

数学推理领域新王：MAmmoTH

方法概述

实验部分

相关推荐