Loading [MathJax]/jax/output/CommonHTML/jax.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >四两拨千斤,训练大模型的PEFT方法

四两拨千斤,训练大模型的PEFT方法

作者头像
Steve Wang
发布于 2023-10-12 01:39:13
发布于 2023-10-12 01:39:13
1K00
代码可运行
举报
文章被收录于专栏:从流域到海域从流域到海域
运行总次数:0
代码可运行

自然语言处理进入大语言模型(Large Language Model, LLM)时代之后,模型的参数量级越来越庞大,以稍早之前的GPT-3为例,它有175B即1亿7千5百万参数,而ChatGPT及后续模型则更大。一方面大语言模型解决自然语言处理任务所需的涌现能力确实需要如此量级的参数,另一方面如此巨大的参数会引起训练成本的急剧增加,甚至从消费级硬件角度来讲,用户全量训练大语言模型的参数的成本令人望而却步。大语言模型已经过pre-training阶段,于是就有学者提出是否能通过finetune一部分少量参数实现下游任务的精调,这催生了一系列PEFT(Parameter-Efficient Fine Tuning,PEFT,可译为参数高效精调)方法。

截止目前(2023年7月),PEFT一共有三类方法,不同的方法在以不同的形式在固定预训练模型参数的前提下添加少量的新参数来实现对下游任务的适配。三类方法列举如下:

  • Adapter-Tuning:在预训练模型的每一层新增浅层前馈网络或模块作为adapter以适配下游任务,训练时仅更新adapter的参数,存储时每个下游任务仅存储对应的adapter的参数。
  • Prefix/Prompt:在预训练模型的输入层或者一层增加一些可训练的虚拟tokens(也称作Prompt),只训练这些token的参数,存储时每个下游任务仅存储对应的token的参数。
  • LoRA:通过引入低秩矩阵参数参与模型前向传播(与原有部分参数产生的及或者相加)来适配下游任务,训练时仅更新低秩矩阵参数,存储时每个下游任务仅存储对应的低秩矩阵参数。
Adapter Tuning

原论文:Parameter-Efficient Transfer Learning for NL

Bert时代,自然语言处理范式为Pre-Training + Finetuning:即首先使用超大型语料库预训练一个通用语言模型,然后在各下游任务精调参数。我们可以将预训练模型(Pre-Training Model, PTM)到下游任务模型看作是一个迁移学习的过程。这种模式使得模型在不同的下游任务均能取得良好效果,但存在一个问题是训练每一个下游任务都相当于训练了一个新模型(预训练模型迁移学习时参数低效),这样比较繁琐且有训练有比较大的开销。那有没有可能存在更高效的迁移学习方式使得预训练模型能在不损失性能的前提下一次性高效迁移到所有下游任务呢,答案时有的。

Google研究人员在2019年的ICML上发表了一篇题为Parameter-Efficient Transfer Learning for NLP的论文,提出了Adapter tuning(可译为转换器微调)作为一种高效的迁移学习方法。该方法并不复杂,它在原始tranformer的基础上增加了一个新的模块Adapter module,Adapter module的架构可选,但论文提出一个非常简单的架构却可以实现非常好的效果。

原论文提出的架构如下图,作者在每一个transformer的2个前馈层之后加入一个新的组件Adapter module,每个adapter module包含三个部分:

  1. Feedforward down-project层将输入的维度放缩到非常小的级别,以减少训练参数量
  2. Nonlinearity引入非线性特征,矩阵运算 + 非线性等价于一层FFW
  3. Feedforward up-project层将输入还原到原始维度,以参与后续计算

记输入原始维度为

,放缩后的维度为

,则Feedforward down-project层参数量为

, Feedforward up-project层的参数量为

, 总参数量为

,但是

可以设置得非常小,即

,最终达到的效果是仅使用相当于原始模型参数总量的

的新参数,却可以实现在全部下游任务上流式训练后公用一套参数,取得和每个任务都finetune一遍全量参数差不多的效果:

更多详细比较和其他信息参见原论文,需要补充说明的是,用来执行分类任务的最后一层,也是可训练参数的一部分。

Prefix Tuning

原论文:Prefix-Tuning: Optimizing Continuous Prompts for Generation

Finetuning在下游任务精调阶段更新预训练模型的所有参数,并为每一个任务保存一份预训练模型参数副本(如下图上半部分)。

红色部分表示更新,灰色部分参数不更新

Prefix-Tuning在模型执行不同的任务时添加不同的前缀(prefix),训练时固定预训练模型的原始参数,仅更新前缀部分的参数(上图下半部分)。前缀其实是连续的向量序列形式的可训练参数,从逻辑上可以认为是人为在输入前加入了一些虚拟token,前缀表示这些虚拟token产生的激活值。这使得不同的任务仅需要存储一份预训练模型参数加上每个任务对应的前缀,节省了可观的存储空间。

如上图,以GPT2(自回归语言模型典型代表)为例: 将输入

和输出

拼接在一起记为

,经过预训练模型某一层参数计算之后得到激活值

,使用

表示输入序列和输出序列的索引。那么Prefix-Tuning在

之前插入prefix部分,得到

,使用

表示前缀的索引,

表示前缀的长度,整个前缀部分对应向量矩阵形式的参数

,参数的维度为

,模型隐层的激活值可以按照如下公式给定:

即索引

在前缀部分时,激活值由前缀参数给定,否则由预训练模型计算。

方法提出者实际检验发现直接优化参数

结果并不稳定且导致模型效果变差一点,于是又提出了通过更小的矩阵

(维度为

,原论文文本分类任务时

,表格转文字任务是

)并经过一个稍大的前馈网络

处理(将

还原到

)来作为替代优化目标,即

,此时可训练参数包括

和MLP的参数

有读者可能这里会想到,能否把额外的参数部分添加在输入

和输出

之间呢,原作者这种方式称为

,也进行了尝试,但实际效果不如

除此之外还有一个细节,原作者实际检验发现仅在embedding层加prefix表示能力不足,模型的所有隐层都加上prefix才能效果最好。

Prompt Tuning

原论文:The Power of Scale for Parameter-Efficient Prompt Tuning

Prompt Tuning可以看作是Prefix Tuning的简化版本,仅在输入层加入了可训练的prompt token,无需引入MLP(如上图)。作者主要的目的是想说明只要模型的参数规模持续增大到一定量级(

)时,那么固定预训练模型的参数,仅需在输入文本前加入少量的可更新的token(称为prompt)就能够达到Finetuning的效果:

作者在论文中列出了一系列消融实验,比较了prompt长度、prompt初始化方法,预训练任务目标调整、LM adaptation(即下游任务finetuning)步数对模型最终效果的影响,感兴趣的读者可以打开论文一窥究竟,这里不再赘述。

P-Tuning

原论文:GPT Understands, Too

P-Tuning方法的提出是为了让GPT类模型可以更好的应用于自然语言理解(Natural Language Understanding,NLU)任务,它引入了可训练的的连续的embedding层参数作为prompt代替人工设计的prompt,prompt参见GPT-3原论文: Language Models are Few-Shot Learners

如上图,以图中的The capital of Britain is [MASK]为例,这是一个由prompt(黄色部分),context(蓝色部分),target(红色部分)组成的template。采用P-Tuning的情况下(上图右半部分),template则可以表示为

,其中

表示模板

中第

个prompt token,模板token分布在输入

左右,同样可以认为是插入的虚拟token,经过Prompt Encoder之后变为

,作者认为相对于离散的词向量这部分是prompt token序列产生的连续参数值,,整个template则可以表示为

,其中

表示embedding,未经prompt encoder处理也不参与训练,

则是可训练的参数,除此之外预训练模型本身的参数是固定的。

作者针对实验中发现的2个问题进行了优化,这2个问题是:

  1. 离散性)由于词向量已经高度离散化,直接初始化

使用SGD进行训练,则非常容易陷入局部最优值(笔者注:可以加一两层网络来处理,增加一定程度的灵活性)。

  1. 关联性)作者认为prompt embedding部分即

彼此之间是相互依赖而不是相互独立的,因而需要有一种机制能将它们关联起来(笔者注:很容易联想到序列模型,常用的即为LSTM)。

综上,作者提出了Prompt Encoder的架构,由Bi-LSTM(solve for 关联性,为了加强效果采用了双向模型)处理之后再接上一个两层前馈网络(solve for 离散性)来对prompt虚拟token进行编码得到prompt embedding在喂给预训练模型,即:

作者通过实验证明了通过P-Tuning的方法可以是的GPT类模型在NLU方面达到BERT同样水平的效果,偶尔甚至能有更好的表现。

从方法上来讲,P-Tuning也是固定了预训练模型的参数,通过引入一部分额外参数加一个Bi-LSTM加DNN的简单Encoder(Encoder本身的参数也属于额外增加的部分)来实现NLU任务的训练,它跟Prefix有一下不同点:

  1. Prefix-Tuning将额外的参数加在输入embedding开头,更像是一种Instruction;而P-Tuning则加在输入的一部分构成的prompt token embedding的左右两边。
  2. Prefix Tuning在每个transformer前馈层都加入了Prefix Embedding,通过MLP来encoding;而P-Tuning则仅在输入层加入额外的embedding,并通过Bi-LSTM和MLP来进行初始化。
P-Tuning V2

原论文:P-Tuning v2: Prompt Tuning Can BeP-Tuning v2: Prompt Tuning Can BeP-Tuning v2: Prompt Tuning Can BeP-Tuning v2: Prompt Tuning Can BeP-Tuning v2: Prompt Tuning Can BeP-Tuning v2: Prompt Tuning Can BeP-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks

P-Tuning V2版本则跟Prefix-Tuning一样将额外添加的token加入到了网络的每一层,训练时更新每一层的prompt token embedding,它同样也是仅适配NLU任务。这样的改动也使得相较于初版,P-Tuning V2具备以下2点优势: (1) 拥有更多的可训练参数,表征能力更强,但总体仍维持少量 (初版0.1%,0.1%~3%)。 (2) 加入到更深层的网络结构中,对模型最终预测带来更直接的影响,能取得更好的效果。

从论文标题就能够看出,作者的目的是希望在不同参数规模的预训练模型、针对不同的下游任务都可以使用P-Tuning V2达到Fine-Tuning同等水平的效果。

LoRA

LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS 核心思路是对模型参数做低秩分解,仅训练分解后的参数,模型部署也需额外保存低秩参数,计算时加上低秩参数部分。

LoRA的提出在上述PEFT方法之后,来自微软的研究者认为,现有的Adapter Tuning和Prefix Tuning这两种方法均有缺点:

  • Adapter Layers Introduce Inference Latency: 虽然Adapter后续又有很多变种,但无论如何额外添加的Adapter层都会拖慢推理速度
  • Directly Optimizing the Prompt is Hard: 应用Prefix-Finetuning时,直接优化prompt非常困难,而且其效果也不是随着训练参数的增加而单调递增

Aghajanyan等研究者在论文Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning提出了关于大模型的一个核心观察点:预训练模型存在一个低秩的“内在维度”(intrinsic dimension)使得其在被随机映射到一个更小的子空间时仍然可以高效学习。基于这种想法,作者假设预训练模型在转换到下游模型过程中也有一个内在维度,提出了下面的方法。

图中的A,B均为可训练参数,参数A=正态分布,B=0是初始化参数的方法

对于预训练模型权重

,引入一个低秩部分

来限制其更新,即:

,其中

,但秩

,训练时

被冻结不参与梯度更新,仅有

为可训练参数,修改后的前向传播可表示为:

这意味着增加的部分

和原始部分可以并行计算,没有引入任何推理时延。

总结下来,LoRA拥有以下优点:

  1. A Generalization of Full Fine-tuning LoRA是一个更通用的finetuning方法,可以仅训练预训练模型参数的一小部分,它不需要在模型适配过程中累积梯度来更新全秩参数。这意味着当应用在全部权重矩阵和偏差项上应用LoRA更新时,通过设置LoRA的秩

为预训练权重的秩,基本能够还原全量finetuning同等水平的表征能力。换句话讲,随着我们增大

增加可训练参数的数量,使用LoRA方式训练基本可以收敛到训练原始模型。与之形成对比的是,采用adapter的一系列方法仅能收敛到MLP,而基于prefix的方法不能不处理长输入序列。

  1. No Additional Inference Latency 可以按照

来存储和执行推理,迁移到其他任务时,可以减去

,再加上新任务的

,仅需一个占用少量存储的快捷操作即可迁移到新任务。这保证了和采用构建的finetuning方法相比,单任务及多任务都没有引入额外的推理时延。

作者通过实践发现,LoRA实际产生的最大的益处是节省内存和存储消耗,通过设置

能够将一个使用Adam训练的大型transformer的VRAM(即显存)占用最大减少

。具体而言,在GPT-3 175B上,VRAM消耗从1.2TB降低到350GB,在仅采用query和value矩阵映射矩阵的条件下,检查点的大小被降低了10000倍(从350GB到35MB)。假设我们需要100个转化模型,使用LoRA仅需保存

大小的空间,而全量Finetuning则需要

的存储空间。这使得训练需要的GPU数量变少且减少了I/O瓶颈的次数,并且在任务间切换时,仅需在VRAM实时切换LoRA权重而不需要花费大量时间切换全量参数。除此之外,由于不需要计算大多数参数的梯度,训练速度也提升了25%。

开源第三方库
  1. huggingface开源了peft库,支持LoRA、Prefix Tuning、P-Tuning、Prompt Tuning、AdaLoRA等方法,并可以结合 Accelerate的DeepSpeed一起使用,实现高效训练。 git地址:https://github.com/huggingface/peft
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pip install peft
  1. LLM-Adapters在peft库基础上增加了adapter变种AdapterP、Parallel的支持。 git地址:https://github.com/AGI-Edgerunners/LLM-Adapters
参考文献
  1. 大模型参数高效微调(PEFT)
  2. 让天下没有难Tuning的大模型-PEFT技术简介
  3. Parameter-Efficient Transfer Learning for NL
  4. Prefix-Tuning: Optimizing Continuous Prompts for Generation
  5. The Power of Scale for Parameter-Efficient Prompt Tuning
  6. GPT Understands, Too
  7. P-Tuning v2: Prompt Tuning Can BeP-Tuning v2: Prompt Tuning Can BeP-Tuning v2: Prompt Tuning Can BeP-Tuning v2: Prompt Tuning Can BeP-Tuning v2: Prompt Tuning Can BeP-Tuning v2: Prompt Tuning Can BeP-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks
  8. LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS
  9. Intrinsic Dimensionality Explains theIntrinsic Dimensionality Explains theIntrinsic Dimensionality Explains theIntrinsic Dimensionality Explains theIntrinsic Dimensionality Explains theIntrinsic Dimensionality Explains theIntrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2023-07-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
一文搞懂!如何高效微调你的 LLM
当前以 ChatGPT 为代表的预训练语言模型(PLM)规模变得越来越大,在消费级硬件上进行全量微调(Full Fine-Tuning)变得不可行。此外,为每个下游任务单独存储和部署微调模型变得非常昂贵,因为微调模型与原始预训练模型的大小相同。
NewBeeNLP
2023/08/29
2.3K0
一文搞懂!如何高效微调你的 LLM
大模型Prompt-Tuning技术进阶
近两年来,随之Prompt-Tuning技术的发展,有诸多工作发现,对于超过10亿参数量的模型来说,Prompt-Tuning所带来的增益远远高于标准的Fine-tuning,小样本甚至是零样本的性能也能够极大地被激发出来,得益于这些模型的 参数量足够大 ,训练过程中使用了 足够多的语料 ,同时设计的 预训练任务足够有效 。最为经典的大规模语言模型则是2020年提出的GPT-3,其拥有大约1750亿的参数,且发现只需要设计合适的模板或指令即可以 实现免参数训练的零样本学习 。
@小森
2024/06/06
4090
大模型Prompt-Tuning技术进阶
6种大模型微调技术
由于LLM参数量都是在亿级以上,少则数十亿,多则数千亿。当我们想在用特定领域的数据微调模型时,如果想要full-tuning所有模型参数,看着是不太实际,一来需要相当多的硬件设备(GPU),二来需要相当长的训练时间。
皮大大
2025/05/07
3080
大模型微调方法总结
paper:LoRA: Low-Rank Adaptation of Large Language Models(https://arxiv.org/pdf/2106.09685.pdf)
腾讯技术工程官方号
2023/07/26
2.5K0
大模型微调方法总结
一文带你了解当前主流PEFT技术
随着LLaMA3的发布,大模型开源社区的战力又提升了一分,国内目前应该已经有不少大佬已经开始着手对LLaMA3进行研究或微调,对于微调技术,目前比较常见的就是Peft系列的技术,那么什么是PEFT,有哪些分类,为什么这么受大家欢迎呢?今天我们就好好聊聊这个话题。
叶子的技术碎碎念
2025/04/08
3780
一文带你了解当前主流PEFT技术
LoRA: 大模型快速训练的秘诀
LoRA的提出在上述PEFT方法之后,来自微软的研究者认为,现有的Adapter Tuning和Prefix Tuning这两种方法均有缺点:
Steve Wang
2023/10/12
9000
LoRA: 大模型快速训练的秘诀
未闻Prompt名
个人觉得2021年NLP最火的两个idea,一个是对比学习(Contrastive Learning),另一个就是Prompt
mathor
2021/12/24
2.2K0
未闻Prompt名
人工智能大语言模型微调技术:SFT 监督微调、LoRA 微调方法、P-tuning v2 微调方法、Freeze 监督微调方法
SFT(Supervised Fine-Tuning)监督微调是指在源数据集上预训练一个神经网络模型,即源模型。然后创建一个新的神经网络模型,即目标模型。目标模型复制了源模型上除了输出层外的所有模型设计及其参数。这些模型参数包含了源数据集上学习到的知识,且这些知识同样适用于目标数据集。源模型的输出层与源数据集的标签紧密相关,因此在目标模型中不予采用。微调时,为目标模型添加一个输出大小为目标数据集类别个数的输出层,并随机初始化该层的模型参数。在目标数据集上训练目标模型时,将从头训练到输出层,其余层的参数都基于源模型的参数微调得到。
汀丶人工智能
2023/07/16
17.4K0
人工智能大语言模型微调技术:SFT 监督微调、LoRA 微调方法、P-tuning v2 微调方法、Freeze 监督微调方法
人工智能大语言模型微调技术:SFT 监督微调、LoRA 微调方法、P-tuning v2 微调方法、Freeze 监督微调方法
SFT(Supervised Fine-Tuning)监督微调是指在源数据集上预训练一个神经网络模型,即源模型。然后创建一个新的神经网络模型,即目标模型。目标模型复制了源模型上除了输出层外的所有模型设计及其参数。这些模型参数包含了源数据集上学习到的知识,且这些知识同样适用于目标数据集。源模型的输出层与源数据集的标签紧密相关,因此在目标模型中不予采用。微调时,为目标模型添加一个输出大小为目标数据集类别个数的输出层,并随机初始化该层的模型参数。在目标数据集上训练目标模型时,将从头训练到输出层,其余层的参数都基于源模型的参数微调得到。
汀丶人工智能
2023/10/11
8.8K0
人工智能大语言模型微调技术:SFT 监督微调、LoRA 微调方法、P-tuning v2 微调方法、Freeze 监督微调方法
ReFT(表征微调):比PeFT效果更好的新的大语言模型微调技术
ReFT(Representation Finetuning)是一种突破性的方法,有望重新定义我们对大型语言模型进行微调的方式。
deephub
2024/04/15
1.5K0
ReFT(表征微调):比PeFT效果更好的新的大语言模型微调技术
了解大语言模型的参数高效微调(Parameter-Effcient Fine-Tuning)
大语言模型在众多应用领域实现了突破性的进步,显著提升了各种任务的完成度。然而,其庞大的规模也带来了高昂的计算成本。这些模型往往包含数十亿甚至上千亿参数,需要巨大的计算资源来运行。特别是,当需要为特定的下游任务定制模型时,尤其是在计算能力有限的硬件平台上,这一挑战尤为突出。
叶庭云
2024/05/25
1.2K0
了解大语言模型的参数高效微调(Parameter-Effcient Fine-Tuning)
解密Prompt系列3. 冻结LM微调Prompt: Prefix-tuning & Prompt-tuning & P-tuning
这一章我们介绍在下游任务微调中固定LM参数,只微调Prompt的相关模型。这类模型的优势很直观就是微调的参数量小,能大幅降低LLM的微调参数量,是轻量级的微调替代品。和前两章微调LM和全部冻结的prompt模板相比,微调Prompt范式最大的区别就是prompt模板都是连续型(Embedding),而非和Token对应的离散型模板。核心在于我们并不关心prompt本身是否是自然语言,只关心prompt作为探针能否引导出预训练模型在下游任务上的特定能力。
风雨中的小七
2023/03/10
5.8K0
解密Prompt系列3. 冻结LM微调Prompt: Prefix-tuning & Prompt-tuning & P-tuning
从统一视角看各类高效finetune方法
随着预训练模型参数量越来越大,迁移学习的成本越来越高,parameter-efficient tuning成为一个热点研究方向。在以前我们在下游任务使用预训练大模型,一般需要finetune模型的所有参数。随着parameter-efficient tuning技术的发展,一些注入adaptor、prefix tuning、LoRA等成本更低的finetune方法被提出。那么各种各样的parameter-efficient tuning方法之间是否存在某些潜在的关系呢?ICLR 2022就有一篇相关的研究,从统一的视角理解现有的各类parameter-efficient tuning方法,并提出了一套迁移框架,可以实现更接近全量参数finetune效果的部分参数finetune。
圆圆的算法笔记
2022/12/19
2.4K0
从统一视角看各类高效finetune方法
如何将大模型应用到自己的业务中?7种大模型应用方式和代表论文总结
如何将大模型应用落地到自己的业务或工作中?这篇文章整理了7种目前业内最常用的大模型应用方法,以及各个方法的代表论文。通过对各种应用大模型方法的特点对比,找到最适合自己场景的应用方法。
圆圆的算法笔记
2023/08/17
3.8K0
如何将大模型应用到自己的业务中?7种大模型应用方式和代表论文总结
大模型微调新手全流程友好指南
关于大模型微调的文章已经写过有两篇:大模型微调与RAG检索增强有何区别?从基础原理到案例分析全面详解和一文带你了解大模型微调的前世今生,基础概率和理论原理内容基本上都涵盖全面,因此本篇文件不做过多的原理解释说明,主要聚焦于大模型微调的实战和各个代码功能模块细节的讲解。
fanstuck
2025/04/30
7427
大模型微调新手全流程友好指南
LoRA大模型降维训练
LoRA: Low-Rank Adaptation of Large Language Models
iResearch666
2023/09/13
9140
LoRA大模型降维训练
Fine-tuning过时啦,NLG生成任务如何Tuning?
Fine-tuning范式大家肯定都再熟悉不过,微调所有语言模型参数,而从gpt3出现之后提出的in-context learning,还是越来越火的prompt,fine-tuning 已经out of state了。而这篇文章就提出prefix-tuning的nlg训练方法。
百川AI
2022/05/16
1.3K0
Fine-tuning过时啦,NLG生成任务如何Tuning?
揭秘大模型背后的机理,清华49页长文全方位分析参数高效微调方案Delta Tuning
机器之心专栏 机器之心编辑部 本文中,包括刘知远、唐杰、孙茂松等在内来自清华大学的研究者对大模型的参数高效微调进行了全方位的理论和实验分析。 预训练语言模型 (PLM) 已经毫无疑问地成为各种 NLP 任务的基础架构,而且在 PLM 的发展中,呈现出了一个似乎不可逆的趋势:即模型的规模越来越大。更大的模型不仅会在已知任务上取得更好的效果,更展现出了完成更复杂的未知任务的潜力。然而,更大的模型也在应用上面临着更大的挑战,传统方法对超大规模的预训练模型进行全参数微调的过程会消耗大量的 GPU 计算资源与存储
机器之心
2022/04/08
2.7K0
揭秘大模型背后的机理,清华49页长文全方位分析参数高效微调方案Delta Tuning
大模型(LLMs)算法工程师相关的面试题和参考答案
需要注意的是,复读机问题是大型语言模型面临的一个挑战,解决这个问题是一个复杂的任务,需要综合考虑数据、训练目标、模型架构和生成策略等多个因素。目前,研究人员和工程师们正在不断努力改进和优化大型语言模型,以提高其生成文本的多样性和创造性。
机器学习AI算法工程
2023/11/13
7.3K0
大模型(LLMs)算法工程师相关的面试题和参考答案
全景解读 LLM 后训练技术
本文介绍了大语言模型的后训练技术,包括微调、强化学习和测试时扩展,探讨其挑战与未来方向,并提供实践指南。
一点人工一点智能
2025/03/20
1180
全景解读 LLM 后训练技术
推荐阅读
相关推荐
一文搞懂!如何高效微调你的 LLM
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验