前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >FuseLLM:大语言模型的知识融合!

FuseLLM:大语言模型的知识融合!

作者头像
zenRRan
发布于 2024-01-31 06:50:22
发布于 2024-01-31 06:50:22
9420
举报

深度学习自然语言处理 原创 作者:wkk

论文:KNOWLEDGE FUSION OF LARGE LANGUAGE MODELS 地址:https://arxiv.org/pdf/2401.10491.pdf git: https://github.com/fanqiwan/FuseLLM

小伙伴们好久没见,今天为大家介绍中山大学联合腾讯人工智能实验室的最新研究论文,关于整合LLM知识能力的框架。

引言

当进行LLM工作时,如果从头开始训练LLM可以生成具有不同功能和优势的模型,但这会带来巨大的成本,并可能导致冗余功能。或者使用一种具有成本效益和说服力的方法是将现有的预先训练的LLM合并到一个更有效的模型中。然而,由于已有LLM的架构各不相同,直接混合它们的权重是不切实际的。

在本文中,引入了LLM的知识融合概念,旨在将现有LLM的能力结合起来,并将其转移到单个LLM中。通过利用源LLM的生成分布,将其集体知识和独特优势外部化,从而有可能将目标模型的能力提升到任何单个源LLM之外。

动机

随着GPT和LlaMA系列等大型语言模型在各种自然语言处理任务中的不断成功,创建自己的LLM已成为企业的战略当务之急。然而,LLM开发的相关成本是天文数字。除了需要大量的训练数据、先进的技术、大量的计算资源和熟练的劳动力外,开发过程还对能源消耗和环境施加了巨大压力。

相关工作

  • Model Fusing: 模型融合的常见方法通常采用加权平均多数投票来融合各种模型的预测。最近,有研究人员提出了一种集成框架,旨在利用多个开源LLM的不同优势。该框架首先采用成对比较方法来检测候选输出之间的细微区别。然后,它将排名靠前的候选人结合起来,产生更高的产出,利用它们的优势,同时减轻它们的弱点。虽然模型集成需要并行部署多个模型,但权重合并通常仅限于具有相同架构的模型。相反,本文提出的方法通过将多个LLM的知识和能力明确地转移到目标LLM,支持将多个具有不同架构的LLM融合。
  • Knowledge Distillation:知识蒸馏最初被提出用于模型压缩,包括在一个或多个教师模型的指导下训练学生模型。在NLP中已有较为广泛的应用。本文的方法与传统的知识蒸馏有显著的区别。首先,在传统的知识蒸馏中,学生模型通常被限制为比教师更小的尺寸。然而,在本文的场景中,目标模型的大小没有限制。其次,传统的知识蒸馏通常会导致学生模型在蒸馏后落后于教师的表现。相比之下,本文预计在融合之后,目标模型将超过任何源模型的性能。

方法

模型架构

上图展示了传统模型融合技术和本文的LLM知识融合方法(FUSELLM)的对比。不同的动物图标代表不同的LLM。FUSELLM能将多个LLM外部知识融合,并将它们的能力转移到目标LLM。LLM融合的主要目标是将嵌入多个源LLM中的集体知识外部化,并将其能力集成到目标LLM中。

上表展示了FuseLLM的算法过程,其主要实现细节依赖于token对齐和具体的融合策略。

实验

实验设置

  • 数据集MiniPile包含22个域中的大约100万个文档和1.8亿个token,占Llama-2的2万亿个训练标记中的不到0.1%。
  • 融合函数:对于融合函数,本文使用最小化交叉熵。同时使用其他的替代融合函数进行消融实验。
  • 训练细节:使用128的批量大小和配备8个NVIDIA A100 GPU的单个节点上的最大长度为2048来训练Llama-2 7B的目标LLM,每个节点有40GB的内存。训练框架是基于Huggingface Transformers实现的,并使用FlashAttention加速。本文的模型使用AdamW优化器进行优化,β1=0.9,β2=0.95,梯度裁剪设置为1.0,权重衰减为0.1。采用余弦学习率,最大学习率为1e-5,预热率为0.008。
  • 评估:本文在三个基准上评估FuseLLM,这三个基准代表了LLM的不同核心功能,即跨越推理常识代码生成

实验结果

上表展示了与BBH上的基线方法相比,FuseLLM的总体结果。可以观察到:

  • 三个源LLM在27个 BBH 任务中表现出不同的性能,Llama-2通常优于其他任务。
  • 在使用紧凑多样的语料库进行持续训练后,与Llama-2相比,Llama-2 CLM显示出1.86%的相对改进,尽管这种改进在任务之间相对温和且不一致。
  • 平均而言,FuseLLM在所有27个任务中比原始Llama-2的平均相对性能增益为5.16%。在特定任务中,FuseLLM实现的增强是显着的。
  • 在像Dick Languages这样的任务中,简单的连续预训练会导致性能下降,FuseLLM利用单个源LLM的组合优势来恢复性能改进。
  • FuseLLM偶尔会在几何形状和单词排序等任务上表现出性能下降,这可以归因于两个原因。首先,除了Llama-2之外,其他源LLM在这些任务上表现不佳,影响了融合结果。其次,连续训练数据集和下游任务之间的相关性导致性能下降。

上表展示了FuseLLM和Common Sense (CS)基准上基线方法的零样本性能。结果表明:

  • FuseLLM在所有五个任务中始终优于基线,与Llama-2相比,相对性能提1.25%。相比之下,Llama-2 CLM 表现出边际改进,与Llama-2相比,相对增强只有0.16%。
  • 在具有挑战性的ARC-challenge(2.40%)和OpenBookQA(2.71%)任务中观察到Llama-2到FuseLLM的实质性改进,突出了FuseLLM在利用集体知识来解决复杂问题方面的有效性。

对于代码生成评估,FuseLLM在 MultiPL-E(ME)基准上的零样本性能如上表所示。观察到:

  • FuseLLM在10个任务中的9个上优于Llama-2,在特定编程语言(如R)的分数显着提高,从4.97增加到5.84。
  • 与Llama-2相比,OpenLLaMA和MPT在代码生成任务中都表现出显着的性能,FuseLLM的融合结果平均性能增益为6.36%,远高于Llama-2 CLM中观察到的1.37%的改进。

融合概率分布

本文研究了从多个LLM获得的融合概率分布的有效性,并跟踪了训练过程中性能改进的趋势。

上图显示了Llama-2 CLM和FuseLLM在BBH上不同规模的训练数据下的few-shot CoT性能的比较。结果表明:

  • 与Llama-2 CLM相比,FuseLLM将精确匹配精度提高了2.5%,并在0.52亿个token内实现了Llama-2 CLM的最佳性能。
  • 与Llama-2 CLM所需的15.7亿token相比,这意味着token需求减少了3.9倍。

这些结果表明,从LLM导出的概率分布包含比原始文本序列更容易学习的知识,加速了优化过程。

实现过程分析

本文还对FuseLLM的关键元素进行分析包括:源LLM的数量、token对齐标准以及融合函数的选择。

  • 源LLM的数量:上表给出了融合不同数量LLM的结果。随着模型数量从1增加到3,FuseLLM的性能有了明显的改进。在BBH中观察到持续的性能改进。而在CS或ME中,当融合两个模型时,优势更加突出。这一现象可能归因于三个模型在BBH中的各种任务上的性能差异很大,而CS或ME在任务上的表现差异相对较小。
  • token对齐标准:在LLM的融合过程中,确保来自多个模型的令牌和词汇表的正确对齐至关重要。上表对两种对齐标准进行了比较。很明显,所提出的基于最小编辑距离的MinED方法始终优于EM方法。后者依赖于精确匹配。导致的性能增强是由于MinED能够放松EM的约束,因为在同一序列中由不同的标记器分离的标记通常表现出微小的差异。
  • 融合函数:最小交叉熵的分布矩阵和基于交叉熵的分配矩阵的加权平均。两种融合函数的比较如上表所示。在所有基准测试中,带有MinCE的FuseLLM始终优于AvgCE。这可归因于AvgCE中使用的直接加权求和所引入的失真,这可能会削弱单个LLM的独特优势。

知识融合vs.知识蒸馏

知识蒸馏技术也可以用来增强LLM的能力,但FuseLLM由于两个不同的方面而脱颖而出,本文从Llama-2 13B 中提取概率分布,并应用传统的知识蒸馏方法将其能力转移到Llama-2 7B中。如上表所示:

  • 蒸馏模型在所有基准测试中都优于原始的Llama2 7B,证明了知识蒸馏的有效性。
  • 与FuseLLM相比,Llama-2 KD实现的改进相对适中。这表明FuseLLM 通过通过连续训练集成三个具有不同架构的7B模型来实现的卓越性能超过了简单地从单个13B模型中提取知识的好处。

知识融合vs.集成/合并

本文进行了实验,模拟多个LLM来自同一个基本模型,但在不同的语料库上进行训练的场景。

上表结果中观察到,在使用10亿个token进行训练后,原始LLM的能力会转移到每个特定领域的LLM,导致其他领域的性能下降。虽然所有的融合技术都可以集成不同模型的优势,但FuseLLM在三个领域中始终实现最低的困惑程度。这突出了它比集合和权重合并方法更有效地利用集体知识的潜力。

总结

在这项研究中,探索了LLM的知识融合领域,以创建一个统一的模型,将多个结构不同的LLM的能力和独特优势相结合。并介绍了一种新的方法:FuseLLM,它利用这些源LLM的生成分布来外部化它们的知识,并将它们用于目标LLM的持续训练。一系列实验证明了FuseLLM相对于单个源LLM的优越性,并建立了基线。LLM融合领域成为一种更有前景的探索途径,特别是考虑到了LLM的不同结构和大量模型大小。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-01-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 深度学习自然语言处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
深入了解Deepseek模型的最佳三篇论文
DeepSeek-R1:通过强化学习提升大型语言模型的推理能力。 2025年1月发布,提出了一种使用强化学习而非监督学习的方法,显著提升了语言模型在数学和逻辑推理任务中的表现,开辟了新的研究方向。
致Great
2025/02/09
1.5K0
深入了解Deepseek模型的最佳三篇论文
无需额外训练,基于 Llama-2模型,通过 Model-GLUE 实现大规模语言模型的聚合与集成 !
大型语言模型(LLMs)在各种自然语言任务上展示了无与伦比的性能,涵盖了常识推理、问答以及甚至像数学和编程等专业化领域。LLM的有效性基于扩展定律,该定律提出,模型和训练数据规模的增加与模型性能的提升相关[27]。然而,随着LLM继续扩展,计算开销和数据需求也在增加。
AIGC 先锋科技
2024/11/08
1940
无需额外训练,基于 Llama-2模型,通过 Model-GLUE 实现大规模语言模型的聚合与集成  !
再超Transformer!Google| 提出两个新模型(Griffin、Hawk),强于Mamba,更省资源
我们知道,循环神经网络(RNN)在深度学习和自然语言处理研究的早期发挥了核心作用,并在许多应用中取得了实功,包括谷歌第一个端到端机器翻译系统。不过近年来,深度学习和 NLP 都以 Transformer 架构为主,该架构融合了多层感知器(MLP)和多头注意力(MHA)。
ShuYini
2024/03/11
3880
再超Transformer!Google| 提出两个新模型(Griffin、Hawk),强于Mamba,更省资源
微软赢麻了!联合Meta 重磅发布开源、可直接商用大模型Llama 2,网友:OpenAI 感觉如何?
2 月份,Meta “泄露”的 LLaMA 模型在开源 LLM 领域掀起了一股创新浪潮,但只有一个问题:不能用于商业目的。现在,Meta 改变了这一点。
深度学习与Python
2023/08/09
4640
微软赢麻了!联合Meta 重磅发布开源、可直接商用大模型Llama 2,网友:OpenAI 感觉如何?
GPT-4绝对性能暴涨74.4%!UIUC苹果华人团队提出CodeAct,用Python代码统一LLM智能体行动
一直以来,LLM智能体被众多业界AI大佬看好,甚至有望成为将人类从琐碎工作中解放出来的利器。
新智元
2024/02/26
2660
GPT-4绝对性能暴涨74.4%!UIUC苹果华人团队提出CodeAct,用Python代码统一LLM智能体行动
一篇关于LLM指令微调的综述
指令微调(IT)是提高大型语言模型(LLM)能力和可控性的关键技术。其本质是指在由(INSTRUCTION, OUTPUT)对组成的数据集上以监督的方式进一步训练LLM的过程,它弥合了LLM的下一个词预测目标与用户让LLM遵循人类指令的目标之间的差距。这篇文章对现有研究进行了系统的回顾、包括IT的一般方法、IT数据集的构建、IT模型的训练、以及不同模式,领域和应用的应用。
zenRRan
2023/09/11
7.2K0
一篇关于LLM指令微调的综述
DeepSeekMath:突破开放式语言模型中数学推理能力的极限,提出了GRPO,值得关注学习
由于数学推理具有复杂且结构化的特性,这对语言模型构成了重大挑战。在本文中,我们介绍了 DeepSeekMath 7B 模型,该模型在 DeepSeek-Coder-Base-v1.5 7B 模型的基础上,使用从 Common Crawl 获取的 1200 亿个与数学相关的标记,以及自然语言和代码数据继续进行预训练。在不依赖外部工具包和投票技术的情况下,DeepSeekMath 7B 在竞赛级 MATH 基准测试中取得了 51.7% 的优异成绩,接近 Gemini-Ultra 和 GPT-4 的性能水平。通过对 DeepSeekMath 7B 生成的 64 个样本进行自洽性验证,其在 MATH 基准测试上的准确率达到了 60.9%。DeepSeekMath 的数学推理能力归因于两个关键因素:首先,我们通过精心设计的数据选择流程,充分利用了公开可用的网络数据的巨大潜力。其次,我们引入了组相对策略优化(Group Relative Policy Optimization,GRPO)算法,这是近端策略优化(Proximal Policy Optimization,PPO)算法的一个变体,它在增强数学推理能力的同时,还能优化 PPO 的内存使用。
AI浩
2025/06/08
1460
DeepSeekMath:突破开放式语言模型中数学推理能力的极限,提出了GRPO,值得关注学习
港科技提出 FedCoLLM:一种用于大、小语言模型的参数高效联合共调优框架 !
大语言模型(LLMs)的出现极大地改变了人工智能的格局。特别是像GPT-4这样的尖端LLM由于在自然语言生成任务上表现出卓越的性能,而引起了广泛关注。这一发展推动了高性能开源LLM的发布,如LaMDA [18],OPT [21],极大地促进了LLM技术的商业应用。尽管LLM在各种通用NLP任务中取得了广泛的成功,但它们在特定领域应用中仍面临一些限制。主要挑战包括:
AIGC 先锋科技
2024/12/19
2330
港科技提出 FedCoLLM:一种用于大、小语言模型的参数高效联合共调优框架 !
DeepMind | 提出合成数据是AGI的关键,可使PaLM2 性能暴涨6%!
【导读】AI可以从自己生成的「合成数据」中学习,最重要的是,能够大幅提升数据问题解决和代码生成的能力。
ShuYini
2023/12/19
4750
DeepMind | 提出合成数据是AGI的关键,可使PaLM2 性能暴涨6%!
goldfish loss:减少训练数据泄漏,提高大语言模型输出的多样性
LLMs(大型语言模型)能够记忆并重复它们的训练数据,这可能会带来隐私和版权风险。为了减轻记忆现象,论文作者引入了一种名为"goldfish loss"的微妙修改,在训练过程中,随机抽样的一部分标记被排除在损失计算之外。这些被舍弃的标记不会被模型记忆,从而防止模型完整复制训练集中的一整个标记序列。
deephub
2024/07/01
1390
goldfish loss:减少训练数据泄漏,提高大语言模型输出的多样性
一键融合多个AI大模型,FuseLLM让你轻松拥有‘全能大模型’!
随着AI技术的飞速发展,大语言模型如LLaMA和Mistral等已成为行业内的热门话题。然而,创建全新的大语言模型不仅成本高昂,而且可能导致新旧模型之间的能力冗余。为了解决这一问题,中山大学和腾讯AI Lab的研究者们带来了一个创新性的解决方案——FuseLLM。
Dlimeng
2024/05/24
3710
一键融合多个AI大模型,FuseLLM让你轻松拥有‘全能大模型’!
小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大
大型语言模型 (LLMs) 在各种自然语言任务中展现出了卓越的性能,但是由于训练和推理大参数量模型需要大量的计算资源,导致高昂的成本,将大语言模型应用在专业领域中仍存在诸多现实问题。因此,北理团队先从轻量级别模型入手,最大程度发挥数据和模型的优势,立足更好地服务特定领域,减少下游任务的训练与推理成本。
机器之心
2023/10/29
1.4K0
小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大
LLama2详细解读 | Meta开源之光LLama2是如何追上ChatGPT的?
今天分享Meta的Llama 2: Open Foundation and Fine-Tuned Chat Models:LLAMA2:开源的基础和微调后的聊天大语言模型。Meta开源模型在除了代码能力外都追平或者超过了ChatGPT的水平,它做了很多工作提升大模型的能力和安全性。其利用更高质量的数据来训练模型,同时利用强化学习迭代多次来优化模型效果是使其追上ChatGPT的最强大的法宝。同时目前如何对大模型进行强化学习放出来的文章也不多,本文给出非常多的RLHF实验和结果给大家进行参考,方便社区后续进行相关实验。总之LLaMA2是大模型开源之光,它以一己之力促进了整个LLM开源社区的发展,后续可能在其基础上也会有真正的更大更好的中文开源大模型出来,它的经验也值得大家去学习。
技术人生黄勇
2024/07/19
2270
LLama2详细解读 | Meta开源之光LLama2是如何追上ChatGPT的?
2.7B能打Llama 2 70B,微软祭出「小语言模型」!96块A100 14天训出Phi-2,碾压谷歌Gemini nano
11月OpenAI先是用GPTs革了套壳GPT们的命,然后再不惜献祭董事会搏了一波天大的流量。
新智元
2023/12/14
3400
2.7B能打Llama 2 70B,微软祭出「小语言模型」!96块A100 14天训出Phi-2,碾压谷歌Gemini nano
融合专家知识:VILA-M3框架推动医学视觉语言模型迈向更高精度 !
大型语言模型(LLMs)是人工智能领域的前沿。最近的研究[28, 32]使得LLM能够支持视觉输入,从而扩展其在许多视觉应用中的使用,将它们转化为视觉语言模型(VLM)。虽然为计算机视觉应用而开发的基础VLMs在各种通用任务上取得了显著的成功,但它们在医疗任务上所需的精准度方面仍存在问题[5, 37, 47]。在通用任务上训练的VLMs通常缺乏解释放射学图像所需的专业医学领域知识[5, 15, 39]。没有特定医学培训的VLMs也经常遗漏对医疗诊断至关重要的细微视觉细节。
AIGC 先锋科技
2024/12/31
4240
融合专家知识:VILA-M3框架推动医学视觉语言模型迈向更高精度 !
开源大模型王座易主!谷歌Gemma杀入场,笔记本可跑,可商用
谷歌推出了全新的开源模型系列「Gemma」。相比 Gemini,Gemma 更加轻量,同时保持免费可用,模型权重也一并开源了,且允许商用。
机器之心
2024/02/26
3380
开源大模型王座易主!谷歌Gemma杀入场,笔记本可跑,可商用
DreamLLM:多功能多模态大型语言模型,你的DreamLLM~
今天为大家介绍西安交大,清华大学、华中科大联合MEGVII Technology的一篇关于多模态LLM学习框架的论文,名为DREAMLLM。
zenRRan
2023/09/26
1.9K0
DreamLLM:多功能多模态大型语言模型,你的DreamLLM~
开源大型语言模型(llm)总结
大型语言模型(LLM)是人工智能领域中的一个重要研究方向,在ChatGPT之后,它经历了快速的发展。这些发展主要涉及以下几个方面:
deephub
2023/08/30
5160
开源大型语言模型(llm)总结
进能形式逻辑,退能四则运算,MAmmoT让LLM成为数学通才
数学推理是现代大型语言模型(LLM)的一项关键能力。尽管这一领域近来进展不错,但闭源和开源 LLM 之间仍然存在明显的差距——GPT-4、PaLM-2 和 Claude 2 等闭源模型主宰了 GSM8K 和 MATH 等常用数学推理基准,而 Llama、Falcon 和 OPT 等开源模型在所有基准上都大幅落后。
机器之心
2023/09/25
5720
进能形式逻辑,退能四则运算,MAmmoT让LLM成为数学通才
微软教小模型推理进阶版:Orca 2性能媲美10倍参数模型,已开源
如你我所见,像 GPT-4、PaLM 等前沿语言模型已经展现了出色的推理能力,例如回答复杂问题、生成解释,甚至解决需要多步推理的问题,这些能力曾被认为是 AI 无法达到的。这样的能力在较小的语言模型中并不明显,因此现在的挑战就是如何利用对大型语言模型不断增长的知识,进而提升较小模型的能力。
机器之心
2023/12/05
3840
微软教小模型推理进阶版:Orca 2性能媲美10倍参数模型,已开源
推荐阅读
深入了解Deepseek模型的最佳三篇论文
1.5K0
无需额外训练,基于 Llama-2模型,通过 Model-GLUE 实现大规模语言模型的聚合与集成 !
1940
再超Transformer!Google| 提出两个新模型(Griffin、Hawk),强于Mamba,更省资源
3880
微软赢麻了!联合Meta 重磅发布开源、可直接商用大模型Llama 2,网友:OpenAI 感觉如何?
4640
GPT-4绝对性能暴涨74.4%!UIUC苹果华人团队提出CodeAct,用Python代码统一LLM智能体行动
2660
一篇关于LLM指令微调的综述
7.2K0
DeepSeekMath:突破开放式语言模型中数学推理能力的极限,提出了GRPO,值得关注学习
1460
港科技提出 FedCoLLM:一种用于大、小语言模型的参数高效联合共调优框架 !
2330
DeepMind | 提出合成数据是AGI的关键,可使PaLM2 性能暴涨6%!
4750
goldfish loss:减少训练数据泄漏,提高大语言模型输出的多样性
1390
一键融合多个AI大模型,FuseLLM让你轻松拥有‘全能大模型’!
3710
小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大
1.4K0
LLama2详细解读 | Meta开源之光LLama2是如何追上ChatGPT的?
2270
2.7B能打Llama 2 70B,微软祭出「小语言模型」!96块A100 14天训出Phi-2,碾压谷歌Gemini nano
3400
融合专家知识:VILA-M3框架推动医学视觉语言模型迈向更高精度 !
4240
开源大模型王座易主!谷歌Gemma杀入场,笔记本可跑,可商用
3380
DreamLLM:多功能多模态大型语言模型,你的DreamLLM~
1.9K0
开源大型语言模型(llm)总结
5160
进能形式逻辑,退能四则运算,MAmmoT让LLM成为数学通才
5720
微软教小模型推理进阶版:Orca 2性能媲美10倍参数模型,已开源
3840
相关推荐
深入了解Deepseek模型的最佳三篇论文
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档