Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >每日论文速递 | 用于参数高效微调的小型集成LoRA

每日论文速递 | 用于参数高效微调的小型集成LoRA

作者头像
zenRRan
发布于 2024-03-02 01:48:13
发布于 2024-03-02 01:48:13
5480
举报

深度学习自然语言处理 分享 整理:pp

Mini-Ensemble Low-Rank Adapters for Parameter-Efficient Fine-Tuning

摘要:参数高效微调(PEFT)是一种流行的方法,用于裁剪预训练的大型语言模型(LLM),特别是随着模型规模和任务多样性的增加。低秩自适应(LoRA)基于自适应过程本质上是低维的想法,即,显著的模型变化可以用相对较少的参数来表示。然而,与全参数微调相比,降低秩会遇到特定任务的泛化错误的挑战。我们提出了MELoRA,一个迷你合奏低秩适配器,使用较少的可训练参数,同时保持较高的排名,从而提供更好的性能潜力。其核心思想是冻结原始的预训练权重,并训练一组只有少量参数的迷你LoRA。这可以捕获迷你LoRA之间的显著程度的多样性,从而促进更好的泛化能力。我们对各种NLP任务进行了理论分析和实证研究。我们的实验结果表明,与LoRA相比,MELoRA在自然语言理解任务中的可训练参数减少了8倍,在指令跟随任务中的可训练参数减少了36倍,从而实现了更好的性能,这证明了MELoRA的有效性。

https://arxiv.org/abs/2402.17263

Q1: 这篇论文试图解决什么问题?

A:这篇论文试图解决的问题是如何在保持参数效率的同时,提高大型预训练语言模型(LLMs)在特定下游任务上的微调(fine-tuning)性能。具体来说,它关注于如何在使用较少可训练参数的情况下,实现更高的模型性能,特别是在自然语言理解(NLP)任务和指令遵循任务中。

论文中提到,随着模型规模的增长和任务多样性的增加,传统的全参数微调(full-parameter fine-tuning)变得不可行。为了解决这一挑战,研究者们提出了参数效率微调(PEFT)方法该方法通过只更新模型的一小部分参数(如适配器权重和提示权重)来减轻内存需求。然而,低秩适配(LoRA)方法虽然在内存开销和推理延迟方面具有优势,但在特定任务上可能会因为秩的降低而导致泛化误差的增加

为了克服这一问题,论文提出了一种名为MELoRA(mini-ensemble low-rank adapters)的方法。MELoRA的核心思想是在保持预训练权重不变的同时,训练一组小型的LoRAs,每个LoRA只有少量的可训练参数。这种方法可以在保持较低参数数量的同时,通过多个小型LoRAs之间的多样性来捕捉更广泛的特征,从而提高模型的泛化能力。论文通过理论分析和在多种NLP任务上的实证研究,展示了MELoRA在性能上相对于LoRA的优势,特别是在使用更少可训练参数的情况下。

Q2: 有哪些相关研究?

A:相关研究主要集中在参数效率微调(PEFT)领域,这些研究试图在不显著增加计算成本的情况下,对大型预训练语言模型(LLMs)进行有效的微调。以下是一些与MELoRA方法相关的研究:

LoRA (Low-Rank Adaptation): LoRA是一种流行的PEFT方法,它通过使用低秩矩阵来近似权重更新,从而减少了可训练参数的数量。LoRA因其在推理过程中不引入额外延迟而受到关注。

ReLoRA (Stacked Low-Rank Adapters) 和 COLA (Chain of Low-Rank Adapters): 这些方法通过在预训练权重上附加多个LoRAs来增加秩,同时不增加额外的可训练参数。它们通过在训练过程中逐步合并旧的LoRA层到预训练权重,并堆叠新的LoRA层。

AdaLoRA: 这种方法采用自适应的方法来选择每个层的最优秩,基于每个奇异值的大小进行秩选择。

Delta-LoRA: 除了更新低秩矩阵A和B,Delta-LoRA还通过两个低秩矩阵A和B的乘积的增量来传播学习到预训练权重W。

QLoRA: 通过4位量化来有效地进行LLMs的微调。

LoRAMoE: 使用多个LoRAs作为可适应的专家,并在前馈网络层中使用路由器来门控它们,以解决微调数据可能扰乱LLMs中存储的世界知识的问题。

DyLoRA: 在学习过程中随机选择LoRA模块的秩。

这些研究展示了在PEFT领域中,研究者们如何通过不同的策略来平衡模型性能和计算效率。MELoRA方法在这些研究的基础上,提出了一种新的低秩适配器组合方式,以实现更高的性能和更低的参数数量。

Q3: 论文如何解决这个问题?

A:论文通过提出一种名为MELoRA(mini-ensemble low-rank adapters)的方法来解决参数效率微调(PEFT)中的问题。MELoRA的核心思想是将多个小型低秩适配器(mini LoRAs)并行堆叠,每个适配器都有较少的可训练参数,但整体上能够实现更高的秩。以下是MELoRA解决这个问题的具体步骤:

冻结预训练权重:在微调过程中,保持原始预训练模型的权重不变,不对其进行梯度更新。

训练小型低秩适配器:并行训练一组小型的低秩适配器(mini LoRAs),每个适配器包含的可训练参数数量较少。这些小型适配器可以捕捉到不同的隐藏状态维度,从而增加模型的表达能力。

构建等效的块对角LoRA矩阵:通过将多个mini LoRAs的输出沿对角线拼接,构建一个等效的块对角LoRA矩阵。这样,每个mini LoRA的秩可以相加,从而实现更高的总秩,而不会引入额外的参数

理论分析:论文通过矩阵秩理论证明,MELoRA能够在不增加额外参数的情况下实现更高的秩。这使得MELoRA在保持参数效率的同时,能够更好地适应不同的任务

实证研究:通过在多种自然语言处理任务上的实验,论文展示了MELoRA在性能上相对于传统LoRA方法的优势。特别是在使用更少可训练参数的情况下,MELoRA在自然语言理解任务和指令遵循任务上取得了更好的性能。

超参数分析:论文还对MELoRA中的超参数进行了分析,包括mini LoRAs的数量(n)和每个mini LoRA的秩(r)。通过调整这些参数,可以在不同的任务和数据集上找到最佳的配置

通过这种方法,MELoRA能够在保持较低参数数量的同时,提高模型的泛化能力和性能,从而有效地解决了PEFT中的挑战。

Q4: 论文做了哪些实验?

A:论文中进行了一系列实验来验证MELoRA方法的有效性。以下是实验的主要内容:

基线比较:MELoRA与LoRA以及其他几种LoRA变体(如DyLoRA、AdaLoRA、Delta-LoRA)进行了比较。这些比较旨在展示MELoRA在参数数量和性能方面的优势。

数据集评估:实验在两个数据集集合上进行评估:GLUE(用于自然语言理解任务)和INSTRUCTEVAL(用于指令遵循任务)。这些数据集涵盖了多种NLP任务,包括文本分类、相似性判断、自然语言推理等。

模型选择:在GLUE基准测试中,使用了RoBERTa-base作为骨干语言模型。在INSTRUCTEVAL基准测试中,使用了LLaMA-2-7B作为骨干语言模型。

实施细节:所有模型都在NVIDIA A800 GPU上进行微调。实验中使用了AdamW优化器,并在训练过程中应用了线性学习率调度。批大小设置为128,训练周期数与基线模型保持一致。

性能指标:在GLUE数据集上,使用了准确率、Matthews相关系数和皮尔逊相关系数等指标。在INSTRUCTEVAL数据集上,使用了精确匹配和pass@1等指标。

参数数量:实验报告了每种方法的可训练参数数量,以展示MELoRA在参数效率方面的优势。

超参数分析:对MELoRA中的两个关键超参数——mini LoRAs的数量(n)和每个mini LoRA的秩(r)进行了分析。通过调整这些参数,研究了它们对模型性能的影响。

等效秩分析:在不同的等效秩设置下(例如4、8、16和32)进行了实验,以评估等效秩对模型性能的影响。

性能对比:在GLUE和INSTRUCTEVAL数据集上,MELoRA在多个任务上的性能与LoRA和其他变体进行了对比,展示了MELoRA在不同设置下的性能表现。

通过这些实验,论文证明了MELoRA在保持较少可训练参数的同时,能够在多个NLP任务上实现与或优于LoRA的性能。这些实验结果支持了MELoRA方法的有效性,并展示了其在参数效率微调领域的潜力。

Q5: 有什么可以进一步探索的点?

A:尽管MELoRA在参数效率微调(PEFT)方面取得了显著的成果,但仍有一些方面可以进一步探索和改进:

超参数优化:MELoRA引入了新的超参数n(mini LoRAs的数量),最佳值可能因数据集而异。可以探索自动化的超参数搜索方法,如贝叶斯优化,以找到最佳的超参数配置。

模型泛化能力:虽然MELoRA在特定任务上表现出色,但进一步研究其在更广泛的任务和数据集上的泛化能力是有价值的。

计算效率:尽管MELoRA减少了可训练参数的数量,但仍然可以探索更高效的训练和推理方法,以进一步降低计算成本。

模型解释性:研究MELoRA如何影响模型的可解释性,以及是否可以通过可视化技术来理解mini LoRAs在模型适应过程中的作用。

不同模型架构的适用性:MELoRA方法是否可以有效地应用于不同的模型架构,例如Transformer以外的模型,或者不同大小的模型。

长期影响:研究在长期部署和持续学习环境中,MELoRA方法对模型性能和稳定性的影响。

多任务学习:探索MELoRA在多任务学习场景中的应用,以及如何有效地在多个任务之间共享和更新适配器。

安全性和伦理考量:研究MELoRA在处理敏感数据时的安全性,以及如何确保模型的伦理使用,特别是在避免偏见和歧视方面。

跨领域适应:研究MELoRA在跨领域适应任务中的性能,例如从医疗领域到法律领域的适应。

模型压缩:结合MELoRA与其他模型压缩技术(如知识蒸馏、权重剪枝等),以实现更高效的模型部署。

Q6: 总结一下论文的主要内容?

A:这篇论文提出了一种名为MELoRA(mini-ensemble low-rank adapters)的新方法,用于在保持参数效率的同时,对大型预训练语言模型(LLMs)进行微调。MELoRA的核心思想是并行训练一组小型低秩适配器(mini LoRAs),每个适配器都有较少的可训练参数,但整体上能够实现更高的秩。这种方法旨在解决传统低秩适配(LoRA)在特定任务上可能遇到的泛化误差问题。

论文的主要内容包括:

问题背景:随着模型规模的增长和任务多样性的增加,全参数微调变得不可行。PEFT方法通过更新少量参数来减轻内存需求,但LoRA方法可能在性能上存在局限。

MELoRA方法:提出了MELoRA,它通过并行训练多个mini LoRAs来实现更高的秩,同时保持较少的可训练参数。这种方法允许模型在不同隐藏状态维度上学习,从而提高泛化能力。

理论分析:通过矩阵秩理论,证明了MELoRA能够在不增加额外参数的情况下实现更高的秩。

实验验证:在GLUE和INSTRUCTEVAL数据集上进行了广泛的实验,展示了MELoRA在自然语言理解任务和指令遵循任务上的性能优势。实验结果表明,MELoRA在使用显著更少的可训练参数的情况下,能够实现与LoRA相当的或更好的性能。

超参数分析:对MELoRA中的超参数进行了分析,包括mini LoRAs的数量(n)和每个mini LoRA的秩(r),以及它们对模型性能的影响。

局限性和未来工作:论文指出了MELoRA的一些局限性,如需要调整的超参数较多,以及在不同数据集上的最佳配置可能不同。同时,提出了未来可能的研究方向,包括超参数优化、模型泛化能力的研究等。

以上内容均由KimiChat生成,深入了解论文内容仍需精读论文

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-03-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 深度学习自然语言处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
每日论文速递 | 使用LoRA微调也会过拟合?探索LoRA中的Dropout
摘要:以显著的能力,大语言模型(LLMs)已成为许多自然语言处理应用中不可或缺的元素,而参数高效的微调,特别是 LoRA,已经因其轻量级的模型定制方法而备受青睐。与此同时,各种dropout方法,最初设计用于所有参数更新的完全微调(full weight),缓解了与过度参数冗余相关的过拟合问题。因此,由于 LoRA 的可忽略的可训练参数和先前dropout方法的有效性之间存在可能的矛盾,这一点在很大程度上被忽视了。为了填补这一空白,我们首先确认参数高效的 LoRA 也容易出现过拟合问题。然后,我们重新审视了特定于 transformer 的dropout方法,并从数学和经验上建立了它们的等价性和差异。在这种比较分析的基础上,我们引入了一个统一的框架进行全面的研究,该框架基于dropout位置、结构模式和补偿措施实例化这些方法。通过这个框架,我们揭示了当涉及到有限的可训练参数时,它们的新偏好和性能比较。这个框架还允许我们将最有利的方面融合成一种名为 HiddenKey 的新dropout方法。大量实验证实了 HiddenKey 在多个模型和任务中的显著优越性和充分性,这凸显了它作为大型语言模型的高性能和参数高效微调的首选方法。
zenRRan
2024/03/12
1.6K0
每日论文速递 | 使用LoRA微调也会过拟合?探索LoRA中的Dropout
每日论文速递 | 【ICLR'24 Oral】LoftQ: 更好地将LLM量化与LoRA微调结合
摘要:量化是为服务大语言模型(LLMs)不可或缺的技术,最近已经应用到LoRA微调中。在这项工作中,我们关注的是在一个预训练模型上同时应用量化和LoRA微调的情景。在这种情况下,通常会观察到在下游任务性能上的一致差距,即在完全微调和量化加LoRA微调方法之间。为了应对这一问题,我们提出了LoftQ(LoRA微调感知量化),这是一个新颖的量化框架,可以同时对LLM进行量化并找到LoRA微调的适当低秩初始化。这种初始化缓解了量化和全精度模型之间的差异,并显著提高了在下游任务中的泛化性能。我们在自然语言理解、问答、摘要和自然语言生成任务上评估了我们的方法。实验证明我们的方法非常有效,并在具有挑战性的2比特和2/4比特混合精度区域中优于现有的量化方法。
zenRRan
2024/03/15
1.4K0
每日论文速递 | 【ICLR'24 Oral】LoftQ: 更好地将LLM量化与LoRA微调结合
每日论文速递 | BiLoRA: 基于双极优化消除LoRA过拟合
摘要:低秩适应(LoRA)是在下游任务中通过学习低秩增量矩阵对大规模预训练模型进行微调的一种流行方法。虽然与完全微调方法相比,LoRA 及其变体能有效减少可训练参数的数量,但它们经常会对训练数据进行过拟合,导致测试数据的泛化效果不理想。为了解决这个问题,我们引入了 BiLoRA,这是一种基于双级优化(BLO)的消除过拟合的微调方法。BiLoRA 采用伪奇异值分解来参数化低秩增量矩阵,并将伪奇异向量和伪奇异值的训练分成两个不同的训练数据子集。这种分割嵌入了 BLO 框架的不同层次,降低了对单一数据集过度拟合的风险。BiLoRA 在涵盖自然语言理解和生成任务的十个数据集上进行了测试,并应用于各种著名的大型预训练模型,在可训练参数数量相似的情况下,BiLoRA 明显优于 LoRA 方法和其他微调方法。
zenRRan
2024/04/11
5550
每日论文速递 | BiLoRA: 基于双极优化消除LoRA过拟合
每日论文速递 | Google提出PERL:将PEFT与RLHF结合起来
摘要:从人类反馈中强化学习(RLHF)已被证明是将预训练的大型语言模型(LLM)与人类偏好相匹配的有效方法。但是,使用 RLHF 训练模型的计算成本很高,而且整个过程也很复杂。在这项工作中,我们研究的 RLHF 是使用 Hu 等人[2021]提出的参数高效的低库自适应(Low-Rank Adaptation,LoRA)方法来训练底层模型的。我们研究了 "参数高效强化学习"(PERL)的设置,其中我们使用 LoRA 进行奖励模型训练和强化学习。我们比较了 PERL 和传统微调(完全微调)在 7 个基准(包括 2 个奖励建模和强化学习的新数据集)中的不同配置。我们发现,PERL 的性能与传统的 RLHF 设置相当,同时训练速度更快,占用内存更少。这使得 RLHF 的高性能得以实现,同时减少了限制其作为大型语言模型对齐技术的采用的计算负担。我们还发布了两个新颖的向上/向下偏好数据集:"Taskmaster Coffee "和 "Taskmaster Ticketing",以促进围绕 RLHF 的研究。
zenRRan
2024/03/26
3800
每日论文速递 | Google提出PERL:将PEFT与RLHF结合起来
每日论文速递 | AutoLoRA:通过meta learning学习LoRA最优秩
摘要:在各种 NLP 任务中,大规模预训练和针对特定任务的微调取得了巨大成功。由于对大型预训练模型的所有参数进行微调会带来巨大的计算和内存挑战,人们开发出了几种高效的微调方法。其中,低秩适应(Low-rank adaptation,LoRA)在冻结的预训练权重基础上对低秩增量更新矩阵进行微调,已被证明特别有效。然而,LoRA 在所有层中统一分配秩,并依赖穷举搜索来找到最佳秩,这导致了高计算成本和次优的微调性能。为了解决这些局限性,我们引入了 AutoLoRA,这是一种基于元学习的框架,用于自动识别每个 LoRA 层的最佳等级。AutoLoRA 将低秩更新矩阵中的每个秩-1 矩阵与一个选择变量相关联,该选择变量决定是否应丢弃秩-1 矩阵。我们开发了一种基于元学习的方法来学习这些选择变量。通过对这些变量的值进行阈值化处理,确定最佳秩。我们在自然语言理解、生成和序列标注方面的综合实验证明了 AutoLoRA 的有效性。
zenRRan
2024/03/25
4670
每日论文速递 | AutoLoRA:通过meta learning学习LoRA最优秩
GLoRA—高效微调模型参数!
近年来,大规模深度神经网络的显著成就彻底改变了人工智能领域,在各种任务和领域展示了前所未有的性能。这些高度复杂的模型,通常具有数百万甚至数十亿个参数,在计算机视觉、自然语言理解和语音识别等领域表现出了卓越的能力。
zenRRan
2023/08/22
5240
GLoRA—高效微调模型参数!
上交大 LoRA再进化 | 高效微调框架FLoRA,专为各种维度参数空间设计,保持高维参数空间结构完整性 !
近期基础模型Brown等人(2020年);Kirillov等人(2023年);Devlin等人(2018年);Liu等人(2019年)的引入,在人工智能的多个领域展示了无与伦比的性能和潜力。传统上,为下游任务适配预训练模型是通过完全微调所有参数Ma等人(2024年);Raffel等人(2020年);Qiu等人(2020年)。然而,随着这些基础模型参数数量的增加,传统的完全微调方法在各个方面都变得过于昂贵。
AIGC 先锋科技
2024/07/08
5820
上交大 LoRA再进化 | 高效微调框架FLoRA,专为各种维度参数空间设计,保持高维参数空间结构完整性 !
碾压LoRA!Meta & CMU | 提出高效大模型微调方法:GaLore,内存可减少63.3%
大模型训练通常会遇到内存资源的限制。目前常用的内存减少方法低秩适应(LoRA),通过引入低秩(low-rank)适配器来更新模型的权重,而不是直接更新整个权重矩阵。然而,这种方法在预训练和微调阶段通常表现不佳,为此,本文作者提出了梯度低秩映射(Gradient Low-Rank Projection ,「GaLore」),这是一种允许「全参数」学习的训练策略,并且比 LoRA 等常见的低秩适应方法更节省内存,相比BF16内存减少了63.3% 。
ShuYini
2024/03/11
1.1K0
碾压LoRA!Meta & CMU | 提出高效大模型微调方法:GaLore,内存可减少63.3%
一文搞懂!如何高效微调你的 LLM
当前以 ChatGPT 为代表的预训练语言模型(PLM)规模变得越来越大,在消费级硬件上进行全量微调(Full Fine-Tuning)变得不可行。此外,为每个下游任务单独存储和部署微调模型变得非常昂贵,因为微调模型与原始预训练模型的大小相同。
NewBeeNLP
2023/08/29
2.3K0
一文搞懂!如何高效微调你的 LLM
一文带你了解当前主流PEFT技术
随着LLaMA3的发布,大模型开源社区的战力又提升了一分,国内目前应该已经有不少大佬已经开始着手对LLaMA3进行研究或微调,对于微调技术,目前比较常见的就是Peft系列的技术,那么什么是PEFT,有哪些分类,为什么这么受大家欢迎呢?今天我们就好好聊聊这个话题。
叶子的技术碎碎念
2025/04/08
3890
一文带你了解当前主流PEFT技术
每日论文速递 | GaLore: 使用梯度低秩映射进行大模型 Memory-Efficient 全参训练
摘要:训练大型语言模型(LLMs)面临着显著的内存挑战,主要是由于权重和优化器状态的不断增大。常见的内存降低方法,如低秩适应(LoRA),在每一层中向冻结的预训练权重添加一个可训练的低秩矩阵,从而减少可训练参数和优化器状态。然而,这些方法通常在预训练和微调阶段的性能上都不如使用全秩权重训练,因为它们将参数搜索限制在低秩子空间中,改变了训练动态,并且可能需要全秩热启动。在这项工作中,我们提出了Gradient Low-Rank Projection(GaLore),一种允许全参数学习但比LoRA等常见低秩适应方法更节省内存的训练策略。我们的方法在优化器状态的内存使用上最多减少了65.5%,同时在使用C4数据集进行LLaMA 1B和7B架构的预训练以及在GLUE任务上对RoBERTa进行微调时,保持了效率和性能。我们的8位GaLore相较于BF16基准,将优化器内存进一步降低了82.5%,总训练内存降低了63.3%。值得注意的是,我们首次证明了在具有24GB内存的消费级GPU上(例如NVIDIA RTX 4090)进行7B模型的预训练是可行的,而无需模型并行、检查点策略或卸载策略。
zenRRan
2024/03/14
5830
每日论文速递 | GaLore: 使用梯度低秩映射进行大模型 Memory-Efficient 全参训练
LoRA及其变体概述:LoRA, DoRA, AdaLoRA, Delta-LoRA
LoRA可以说是针对特定任务高效训练大型语言模型的重大突破。它被广泛应用于许多应用中。在本文中,我们将解释LoRA本身的基本概念,然后介绍一些以不同的方式改进LoRA的功能的变体,包括LoRA+、VeRA、LoRA- fa、LoRA-drop、AdaLoRA、DoRA和Delta-LoRA。
deephub
2024/03/20
4.1K0
LoRA及其变体概述:LoRA, DoRA, AdaLoRA, Delta-LoRA
6种大模型微调技术
由于LLM参数量都是在亿级以上,少则数十亿,多则数千亿。当我们想在用特定领域的数据微调模型时,如果想要full-tuning所有模型参数,看着是不太实际,一来需要相当多的硬件设备(GPU),二来需要相当长的训练时间。
皮大大
2025/05/07
3290
如何让AI更懂你?大模型个性化微调技术解析
在人工智能领域,大型预训练模型(如GPT、BERT等)已经成为许多任务的核心工具。然而,这些模型虽然强大,但在处理特定领域的任务时,往往无法完全满足用户的需求。为了让AI更懂你,个性化微调技术成为解决这一问题的关键。本文将深入探讨大模型个性化微调技术的原理、方法和应用场景,并通过代码实例展示如何实现高效的个性化AI解决方案。
江南清风起
2025/03/29
2230
调教LLaMA类模型没那么难,LoRA将模型微调缩减到几小时
选自Lightning AI 作者:Sebastian Raschka 机器之心编译 编辑:赵阳 LoRA 微调方法,随着大模型的出现而走红。 最近几个月,ChatGPT 等一系列大语言模型(LLM)相继出现,随之而来的是算力紧缺日益严重。虽然人人都想打造专属于自己的大模型,但是能负担得起上亿参数模型训练的机构却寥寥无几。 在快速发展的人工智能领域,以高效和有效的方式使用大型语言模型正变得越来越重要。 LoRA(Low-Rank Adaption,低秩自适应) 作为微调 LLMs 一种比较出圈的技术,其额外
机器之心
2023/05/31
1.8K0
调教LLaMA类模型没那么难,LoRA将模型微调缩减到几小时
RoSA: 一种新的大模型参数高效微调方法
随着语言模型不断扩展到前所未有的规模,对下游任务的所有参数进行微调变得非常昂贵,PEFT方法已成为自然语言处理领域的研究热点。PEFT方法将微调限制在一小部分参数中,以很小的计算成本实现自然语言理解任务的最先进性能。
deephub
2024/01/17
3890
RoSA: 一种新的大模型参数高效微调方法
恐怖如斯!GSU | 提出VB-LoRA,仅需LoRA参数的0.4%,就超越了LoRA微调效果
随着大模型应用的不断推广,面对不同应用场景模型的定制化需求也不断增涨。但参数高效微调 (PEFT) 方法,比如LoRA及其变体会产生大量的参数存储和传输成本。为此,本文提出了一种超级参数高效微调方法:VB-LoRA,该方法采用“分而共享(divide-and-share)”范式,通过向量库进行全局参数共享,在保证模型性能的同时,实现了极高的参数效率。在对 Llama2-13B 模型进行微调时,VB-LoRA 仅使用了 LoRA 存储参数的 0.4%就超过了LoRA微调效果,可见实力强悍。
ShuYini
2024/05/30
4730
恐怖如斯!GSU | 提出VB-LoRA,仅需LoRA参数的0.4%,就超越了LoRA微调效果
改变LoRA的初始化方式,北大新方法PiSSA显著提升微调效果
为此,北京大学的研究团队提出了一种名为 PiSSA 的参数高效微调方法,在主流数据集上都超过了目前广泛使用的 LoRA 的微调效果。
机器之心
2024/04/13
3940
改变LoRA的初始化方式,北大新方法PiSSA显著提升微调效果
单GPU实现99%ChatGPT性能,「原驼」火了:手机也能微调大模型
机器之心报道 编辑:小舟、泽南 「原驼」大模型输出的内容和 ChatGPT 比,人类也无法区分谁好谁坏。 用微调的方法,现在羊驼模型也可以打 ChatGPT 了,这不是随便说说,有测试结果为证。 最近,来自华盛顿大学的 QLoRA 成为了 AI 领域的热门,很多人把它形容为里程碑级、改变规则的技术。 新方法训练出的模型在评测基准上可以做到 ChatGPT 99% 的能力,而且 33B 的版本只需要在单块 24GB GPU 上进行微调,65B 的版本只需要 46GB 的 GPU。 现在用一块 RTX 409
机器之心
2023/05/31
6380
单GPU实现99%ChatGPT性能,「原驼」火了:手机也能微调大模型
AI论文速读 | ST-LoRA:低秩适配的时空预测
论文标题:ST-LoRA: Low-rank Adaptation for Spatio-Temporal Forecasting
时空探索之旅
2024/11/19
1920
AI论文速读 | ST-LoRA:低秩适配的时空预测
推荐阅读
相关推荐
每日论文速递 | 使用LoRA微调也会过拟合?探索LoRA中的Dropout
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档