Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >NeurlPS 2022 | 全新大模型参数高效微调方法SSF:仅需训练0.3M的参数,效果卓越

NeurlPS 2022 | 全新大模型参数高效微调方法SSF:仅需训练0.3M的参数,效果卓越

作者头像
机器之心
发布于 2022-12-15 13:09:56
发布于 2022-12-15 13:09:56
6500
举报
文章被收录于专栏:机器之心机器之心

机器之心专栏

作者:字节跳动智能创作团队

近期,由新加坡国立大学和字节跳动联合发表的论文入选 NeurIPS 2022。该论文提出了一个全新的、针对大模型训练的参数高效微调方法 SSF(Scaling & Shifting Your Features),可简洁、高效、零开销实现参数微调。

  • 论文地址:https://arxiv.org/abs/2210.08823
  • 代码地址:https://github.com/dongzelian/SSF

大模型训练调参:开销和性能不可兼得?

随着数据驱动的方法在深度学习界的普及,数据集规模和模型规模都有了巨大的爆发。业界倾向于探索大模型,然后在下游任务中采用这些预训练的模型,以获得更好的性能和更快的收敛。

然而,目前的程序严重依赖于全面微调,即更新模型的所有参数。这不可避免地导致模型对小的目标数据集过度拟合,继而在微调后不能用于其他任务。因此,设备需要为每个任务保存一套专门的模型参数,造成了巨大的存储空间,特别是对于如今的大模型(例如, ViT-G/14, 1.8G, CoAtNet, 2.4G)来说,训练开销很大。

此前,业界对上述问题的解决方案是:仅仅微调头部层,即只对最后一个头部层进行微调。然而,与完全微调相比,这种做法通常会产生较差的性能。

以视觉任务上实现的方法 VPT(视觉提示微调)[1]为例,VPT 提出插入可学习的提示作为输入,并将其附加到原始图像 token 中。这些提示将通过执行自我注意力(self attention)与图像 token 交互,并在微调过程中进行更新。通过这种方式,与只微调头部层相比,在下游任务中可以实现显著的性能提升。然而,与完全微调和微调头部层相比,VPT 方法额外引入了两个问题:

i) VPT 为不同的任务调整提示的数量,这引入了一个与任务相关的可学习参数空间。微调的性能对每个任务的提示数量很敏感,需要仔细设计。太少或太多的提示可能会降低微调的准确性或增加计算的冗余度(例如,在 Clevr/count 上有 200 个提示,但是 Flowers102 上有 1 个提示);

ii) VPT 以及其他基于适配器(adapter)的方法 [2],与原始预训练模型相比,在推理阶段引入了额外的参数和计算成本。例如,VPT 引入了额外的输入,基于适配器的方法在预训练的模型中插入额外的模块。这些方法改变了预训练网络结构或网络的输入,可能导致频繁的结构修改和沉重的工作量,特别是对于那些已经部署在边缘设备(如移动电话)中的模型。

符合奥卡姆剃刀原则的新方法

受一些特征调制方法的启发,针对上述难题,新加坡国立大学和字节跳动的研究者提出了一种全新的参数高效的微调方法,名为 SSF。采用 SSF 方法,只需要对预训练的模型提取的深层特征进行缩放和移位,就可以进行微调。

由于上游数据集和下游数据集的数据分布不同,很难将在上游数据集训练的模型权重应用于下游数据集。例如,保持骨干权重的微调头部层策略会导致性能下降。为了缓解上述问题,SSF 引入了缩放参数和移位参数,这些参数可以被认为是方差和均值,用于调节用上游数据集上的预训练模型提取的下游数据集的特征,从而使被调节的特征落在一个鉴别性的空间。这些缩放参数和移位参数不依赖于任何输入,对于不同的任务有一个统一的可学习参数空间。

SSF 的另一个优点是,它只引入了线性变换,这是因为研究者仅仅对提取的特征进行了缩放和移位。这些线性变换可以在推理阶段通过模型重新参数化(model re-parameterization) [3] 进一步合并到原始的预训练权重中,从而避免了下游任务的额外参数和 FLOPs。对于部署在边缘设备中的模型,只需要上传微调后的更新权重,而不需要改变网络结构。

表一显示了 SSF 和其他微调方法之间的具体特征比较。SSF 简单、有效、高效,也符合奥卡姆剃刀原则。研究者探索了这个新的基线,发现它出人意料地超过了所有其他参数高效的微调方法。

图一:SSF 方法的特点以及它在 FGVC 和 VTAB 任务上的性能。

通过在 26 个分类数据集和 3 个鲁棒性数据集上评估 SSF 方法,结果显示:与其他参数高效的微调方法相比,SSF 获得了最先进的性能。

与完全微调相比,SSF 方法在 FGVC 和 VTAB-1k 上获得了 2.46%(90.72% {vs. 88.54%)和 11.48%(73.10% vs. 65.57%)的 Top-1 精度性能改进,但只需要大约 0.3M 的可训参数。此外,SSF 在推理阶段不需要额外的参数,可以即插即用,很容易扩展到各种模型系列(CNN、Transformer 以及 MLP 网络)。

具体的实现思路

与此前方法不同的是,研究者引入了缩放和移位因子来调节由预先训练好的模型提取的深层特征,并进行线性转换以匹配目标数据集的分布。

这一方法涵盖了五个主要属性:

i) SSF 实现了与完全微调策略相同的性能;

ii) 所有的下游任务都可以独立地输入到模型中,而不依赖任何其他任务;

iii) 模型只需要微调很少的参数;

iv)与 VPT 不同,VPT 为每个任务调整提示的数量,而 SSF 中微调的参数集不会随着任务的变化而变化,这使得之后可以通过增加更多的任务进行多任务学习或连续学习来进一步微调参数是可行的(它提供了更多的灵活性,与 ii)并不矛盾);

v)由于线性变换,SSF 避免了在推理阶段引入额外的参数和计算成本,使这一方法实现零开销。

图二:SSF 的总体框架。

SSF 的设计:SSF 执行线性转换来调节特征来进行参数高效的微调,如图二所示。在图二(a)中,给定一个在上游任务中预训练的模型,研究者在网络的每个操作(OP)之后插入 SSF-ADA (把提出的方法称为 SSF,把具体的模块称为 SSF-ADA)来调节特征。总共有 K 个操作,这些操作可能包含多头自注意力(MSA)、MLP 和层归一化化(LN)等等。在微调过程中,这些操作中的预训练权重保持冻结,SSF-ADA 参数保持更新。具体的 SSF-ADA 结构如图二 (c) 所示,前一个操作输出的特征用一个缩放因子进行点乘,然后用一个移位因子求和,这与输入无关,如下所示

重参数化:由于 SSF-ADA 是一个完全的线性变换,可以通过吸收缩放和移位项来重新参数化它,如下所示

其中 w 和 b 分别为权重和偏置项。* 代表卷积层中的 "卷积" 操作或 MLP 层中的 "乘法" 操作。t 是前一个线性层的输入。由于 w 和 b 被冻结,而和在微调中被更新,在推理阶段,和可以通过上述公式合并到原始参数空间(w 和 b)。从这个角度看,SSF-ADA 使得在不增加任何额外参数和计算成本的情况下执行下游任务成为可能,如图二(b)所示。

实验结果

1. SSF 在图像分类数据集上的性能

研究者分别在 FGVC、VTAB、CIFAR-100 和 ImageNet-1K 进行了实验,如表一、二、三。SSF 一致性地超过了其他高效微调方法(Adapter、Bias 和 VPT)。在表三中,SSF 在 Swin Transformer、ConvNext 和 AS-MLP 等各种模型上的结果也始终优于其他参数高效微调方法,这也验证了 SSF 在多种模型上的有效性。更多的分析见论文。

表一:在 FGVC 数据集上使用 ViT-B/16 预训练模型的实验结果

表二:在 VTAB 数据集上使用 ViT-B/16 预训练模型的实验结果

表三:在 CIFAR-100 和 ImageNet-1K 数据集上使用 ViT-B/16, Swin-B, ConvNext-B 和 AS-MLP-B 等预训练模型的实验结果

2. 不同的设计对结果的影响

研究者还进行实验来分析不同设计对微调的影响。所有的实验都是在 CIFAR-100 上用预训练的 ViT-B/16 模型实现的,结果见表四。

表四:不同设计的影响。(a) 层数的影响 (b) 不同插入位置的影响 (c) 初始化的影响 (d) 不同组件的影响

3. 可视化分析

为了进一步研究为什么 SSF 能取得更优异的性能,研究者还将完全微调和微调头部层、完全微调和 VPT-Deep、完全微调和 SSF 之间的特征相似性可视化,如图三所示。在最后一层,SSF 与完全微调的特征最相似,准确度也最接近。这表明 SSF 能很好地提取下游任务中的图像特征。

图三:完全微调和微调头部层、完全微调和 VPT-Deep、完全微调和 SSF 在 ViT-B/16 的不同层中的特征相似性的可视化。

结论

在本文中,研究者专注于参数高效的微调,并提出了一种 SSF 方法来缩放和移位预先训练好的模型所提取的特征。SSF 在微调过程中引入的缩放和移位参数可以通过推理阶段的重参数化合并到原来的预训练模型权重中,避免了额外的参数和 FLOPs。在总共 26 个图像分类数据集和 3 个鲁棒性和分布外数据集以不同的模型(CNN、Transformers 和 MLPs)进行实验,SSF 出人意料地优于其他参数高效的微调方法,它建立了一个新的基线。

引用:

[1] Jia et al., Visual Prompt Tuning, ECCV2022.

[2] Houlsby et al., Parameter-efficient transfer learning for nlp, ICML2019.

[3] Ding et al., Repvgg: Making vgg-style convnets great again, CVPR2021.

© THE END

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-11-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
超越所有微调方法,参数量大幅减少,康奈尔大学等提出视觉prompt新方法
选自arXiv 作者:Menglin Jia等 机器之心编译 编辑:赵阳、小舟 来自康奈尔大学、Meta AI 和哥本哈根大学的研究者提出一种优化 Transformer 的有效方案,在只添加少量参数的情况下,对下游任务有极大的提升效果。 识别问题往往是通过预训练大型基础模型处理大量精选或原始数据的方式解决的。这似乎是一种可行的模式:只需利用最新最好的基础模型,就可以在多个识别问题上取得极大的进展。 然而,在实践中,将这些大型模型用于下游任务就存在一些挑战。最直接(通常也是最有效)的适应策略是针对任务对预
机器之心
2022/05/05
4560
超越所有微调方法,参数量大幅减少,康奈尔大学等提出视觉prompt新方法
统一自监督预训练!视觉模型权重无缝迁移下游任务,SiT收敛提速近47倍
为了解决这些问题,来自高德地图的研究者提出了统一自监督预训练(USP, Unified Self-Supervised Pretraining),该方法通过在变分自编码器(VAE)的潜在空间中进行潜在掩码建模(Masked Latent Modeling)预训练,预训练得到的 ViT 编码器等权重可以无缝迁移到下游任务,包括图像分类、语义分割以及基于扩散模型的图像生成。
机器之心
2025/03/17
760
统一自监督预训练!视觉模型权重无缝迁移下游任务,SiT收敛提速近47倍
最强Transformer | 太顶流!Scaling ViT将ImageNet Top-1 Acc刷到90.45%啦!!!
视觉Transformer(ViT)等基于注意力的神经网络最近在许多计算机视觉基准测试中取得了最先进的结果。比例是获得出色结果的主要因素,因此,了解模型的scaling属性是有效设计的关键。虽然已经研究了扩展Transformer语言模型的规律,但尚不清楚Vision Transformers如何扩展。
集智书童公众号
2021/07/07
1.6K0
GLoRA—高效微调模型参数!
近年来,大规模深度神经网络的显著成就彻底改变了人工智能领域,在各种任务和领域展示了前所未有的性能。这些高度复杂的模型,通常具有数百万甚至数十亿个参数,在计算机视觉、自然语言理解和语音识别等领域表现出了卓越的能力。
zenRRan
2023/08/22
4960
GLoRA—高效微调模型参数!
清华/浙大/川大 来拟合提出Sparse-Tuning | 显著提高预训练ViT模型在微调和推理上的效率!
大规模视觉 Transformer (ViT)模型已经在广泛的下游视觉任务中展示出强大的泛化能力。将这些模型适配到特定任务的普遍方法是遵循先预训练后微调的范式,模型最初在大规模数据集上进行预训练,然后针对每个下游任务进行微调。然而,随着这些预训练的ViT模型规模的不断扩大[57; 7],完全微调它们变得计算上更加密集。此外,在有限的下游数据集上进行微调时,还存在灾难性遗忘和过拟合的风险。
集智书童公众号
2024/06/11
3330
清华/浙大/川大 来拟合提出Sparse-Tuning | 显著提高预训练ViT模型在微调和推理上的效率!
训练CV模型新思路来了:用NLP大火的Prompt替代微调,性能全面提升
丰色 发自 凹非寺 量子位 | 公众号 QbitAI Prompt tuning,作为NLP领域中的一个“新宠”,甚至曾被学者誉为NLP预训练新范式。 那么,它能否借鉴到CV领域并产生同样的成绩呢? 现在,来自康奈尔大学和Meta AI等机构,通过Prompt来调整基于Transformer的视觉模型,结果发现: 完全可以! 比起全面微调,Prompt性能提升显著。无论模型的规模和训练数据怎么变,24种情况中有20种都完全胜出。 与此同时,它还能大幅降低每项任务所需的存储成本。 只使用不到1%的模型参数
量子位
2022/03/28
2720
模型越大,性能越好?苹果自回归视觉模型AIM:没错
过去几年,大规模预训练模型在 NLP 领域取得了成功,这类模型可以通过几个示例解决复杂的推理任务,也可以按照指令进行推理。
机器之心
2024/01/18
2340
模型越大,性能越好?苹果自回归视觉模型AIM:没错
斯坦福提出 ExPLoRA 高效扩展预训练 Transformer 在无监督领域的突破 !
预训练基础模型[1]用于自然语言和自然图像在历史上一直是计算密集型的,通常仅限于拥有大量资源的组织。然而,近期参数高效微调(PEFT)技术的进步,包括低秩适应(LoRA)等,激发了极大的兴趣。这些方法旨在基于这样的假设:对预训练模型的必要权重更新具有“低内在秩”,或者通过利用矩阵结构可以实现有效更新,使用模型可训练权重的很小一部分(0.1%-10%)将基础模型适应于下游监督学习任务。
AIGC 先锋科技
2024/07/31
1850
斯坦福提出 ExPLoRA 高效扩展预训练 Transformer 在无监督领域的突破 !
新加坡国立大学&达摩院&清华大学提出DyT | 微调ViT就满足了?适应性和推理高效性都要有!!
随着视觉 Transformer (ViTs)取得显著成功,在其他数据领域或任务应用上对预训练的ViT进行微调已经成为一种常见做法。然而,随着模型尺寸的增加,相应的适应成本变得过高,这是由于在目标任务上进行微调和推理的负担。提出了参数高效的微调(PEFT)方法(例如,AdaptFormer,LoRA,和VPT),通过减少可调整的模型参数来解决调整问题。它们通常在保持原始模型不变的情况下更新少量参数,这样有效地减少了可学习参数,同时保持了微调的准确性。
集智书童公众号
2024/03/25
1.4K0
新加坡国立大学&达摩院&清华大学提出DyT | 微调ViT就满足了?适应性和推理高效性都要有!!
20亿参数,大型视觉Transformer来了,刷新ImageNet Top1
机器之心报道 编辑:杜伟、陈萍 2020 年 10 月,谷歌大脑团队提出将标准 Transformer 应用于图像,提出了视觉 Transformer(ViT)模型,并在多个图像识别基准上实现了接近甚至优于当时 SOTA 方法的性能。近日,原 ViT 团队的几位成员又尝试将 ViT 模型进行扩展,使用到了包含 30 亿图像的 JFT-3B 数据集,并提出了参数量高达 20 亿参数的 ViT 变体模型 ViT G/14,在 ImageNet 图像数据集上实现了新的 SOTA Top-1 准确率。 基于注意力机
机器之心
2023/03/29
3070
20亿参数,大型视觉Transformer来了,刷新ImageNet Top1
人工智能大语言模型微调技术:SFT 监督微调、LoRA 微调方法、P-tuning v2 微调方法、Freeze 监督微调方法
SFT(Supervised Fine-Tuning)监督微调是指在源数据集上预训练一个神经网络模型,即源模型。然后创建一个新的神经网络模型,即目标模型。目标模型复制了源模型上除了输出层外的所有模型设计及其参数。这些模型参数包含了源数据集上学习到的知识,且这些知识同样适用于目标数据集。源模型的输出层与源数据集的标签紧密相关,因此在目标模型中不予采用。微调时,为目标模型添加一个输出大小为目标数据集类别个数的输出层,并随机初始化该层的模型参数。在目标数据集上训练目标模型时,将从头训练到输出层,其余层的参数都基于源模型的参数微调得到。
汀丶人工智能
2023/10/11
8.6K0
人工智能大语言模型微调技术:SFT 监督微调、LoRA 微调方法、P-tuning v2 微调方法、Freeze 监督微调方法
Mini but Mighty | 简直就是微调ViT神器,有了Mimi微调方法,别的不用选了!又稳又快!
在深度学习中,视觉Transformer(ViTs)已成为一种主流的卷积神经网络架构,被广泛应用于计算机视觉领域。预训练的ViT模型通常通过finetuning适应到新的任务,但是fine-tuning需要消耗大量的计算和内存资源。为了减少fine-tuning所需的资源和时间,许多参数高效的迁移学习方法被提出,例如Adapter(adapters)。
集智书童公众号
2024/01/10
7500
Mini but Mighty | 简直就是微调ViT神器,有了Mimi微调方法,别的不用选了!又稳又快!
新坑!谷歌提出MLP-Mixer:一种无卷积、无注意力、纯MLP构成的视觉架构
code:https://github.com/google-research/vision_transformer(暂未开源)
AIWalker
2021/05/24
1.3K0
新坑!谷歌提出MLP-Mixer:一种无卷积、无注意力、纯MLP构成的视觉架构
PRM 与 HRM 双剑合璧 | 增量式 Vision Transformer 的参数有效跨任务提示 !
深度模型已经在解决各种单独的机器学习任务上取得了卓越的性能。然而,在实际应用中,训练数据通常是顺序接收的,而不是一次性全部可用。因此,为深度模型装备在动态环境中学习的能力是深度学习(DL)的一个长期目标。增量学习(IL)涉及跨不同任务动态学习深度模型,并且经常遭受对先前学习任务性能下降的问题,这被称为灾难性遗忘(CF)。最近,基于排练的方法可以通过在固定内存缓冲区中保留一些旧任务的代表性样本(即示例)有效地减轻IL中的遗忘。然而,在严格保护隐私和内存严重受限的情况下,这些方法无法奏效,因为旧任务的样本不可用,且内存缓冲区有限。在本文中,作者专注于无需示例和内存严重受限的增量学习(RFMCIL)的策略,该策略无需示例并且在内存严重受限的情况下训练深度模型。
AIGC 先锋科技
2024/07/20
1710
PRM 与 HRM 双剑合璧 | 增量式 Vision Transformer 的参数有效跨任务提示 !
论文总结与分析:“An Image is Worth 16x16 Words”
大规模图像识别试图解决将Transformer架构应用于计算机视觉任务的问题,以减轻该领域对CNN的严重依赖。本文提出这样的论点,即这种转换将产生与传统CNN相当的结果,同时需要较少的计算资源进行训练。
deephub
2021/03/25
7150
论文总结与分析:“An Image is Worth 16x16 Words”
卡内基梅隆大学 & 微软研究院引入 Med-VTAB 用通用预训练权重提高ViTs在视觉任务上性能 !
深度学习最近的进展极大地推动了计算机视觉领域的发展,尤其是引入了视觉 Transformer (ViTs)。这些模型一旦在大规模数据集上预训练,就已在广泛的视觉任务中展示了卓越的能力。通过特殊的学习层或 Token 等机制,ViTs能够适应特定的下游任务,这为特定任务的模型优化开辟了新途径。这种适应性,称为视觉任务适应,允许对预训练模型进行微调,以适应特定任务的特点,从而提高模型的性能和适用性。
未来先知
2024/08/08
1720
卡内基梅隆大学 & 微软研究院引入 Med-VTAB 用通用预训练权重提高ViTs在视觉任务上性能 !
能否仅依靠 LoRA 权重,而不依赖于预训练权重?PC-LoRA 给你答案 !
自从引入了预训练的 Transformer [27]模型以来,它们在自然语言处理(NLP)[1, 6]和计算机视觉(CV)[2, 7, 28]的一系列任务中展现出了卓越的有效性。然而,它们庞大的规模和高计算需求给部署和微调带来了困难。
AIGC 先锋科技
2024/07/08
1610
能否仅依靠 LoRA 权重,而不依赖于预训练权重?PC-LoRA 给你答案 !
【源头活水】NeurIPS 2023 | 大模型时代自监督预训练的隐性长尾偏见
“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。
马上科普尚尚
2023/11/11
6630
【源头活水】NeurIPS 2023 | 大模型时代自监督预训练的隐性长尾偏见
中科大、中科院、南大提出 Vision-Language 模型, ContCoOp 为 VLMs 高效微调与模型升级搭桥 !
随着人工智能技术的飞速发展,其在各个领域的应用日益广泛。本文旨在探讨人工智能技术在当前的研究进展、应用前景以及所面临的挑战。通过对现有文献的梳理和分析,本文将全面展示人工智能领域的最新研究成果和发展趋势。
未来先知
2025/02/07
1340
中科大、中科院、南大提出 Vision-Language 模型, ContCoOp 为 VLMs 高效微调与模型升级搭桥 !
20亿参数,大型视觉Transformer来了,刷新ImageNet Top1
基于注意力机制的 Transformer 架构已经席卷了 CV 领域,并成为研究和实践中日益流行的选择。此前,Transformer 被广泛用于 NLP 领域。有研究者仔细研究了自然语言处理中 Transformer 最优扩展,主要结论是大型模型不仅性能更好,而且更有效地使用了大量计算预算。
昱良
2021/07/01
6170
20亿参数,大型视觉Transformer来了,刷新ImageNet Top1
推荐阅读
超越所有微调方法,参数量大幅减少,康奈尔大学等提出视觉prompt新方法
4560
统一自监督预训练!视觉模型权重无缝迁移下游任务,SiT收敛提速近47倍
760
最强Transformer | 太顶流!Scaling ViT将ImageNet Top-1 Acc刷到90.45%啦!!!
1.6K0
GLoRA—高效微调模型参数!
4960
清华/浙大/川大 来拟合提出Sparse-Tuning | 显著提高预训练ViT模型在微调和推理上的效率!
3330
训练CV模型新思路来了:用NLP大火的Prompt替代微调,性能全面提升
2720
模型越大,性能越好?苹果自回归视觉模型AIM:没错
2340
斯坦福提出 ExPLoRA 高效扩展预训练 Transformer 在无监督领域的突破 !
1850
新加坡国立大学&达摩院&清华大学提出DyT | 微调ViT就满足了?适应性和推理高效性都要有!!
1.4K0
20亿参数,大型视觉Transformer来了,刷新ImageNet Top1
3070
人工智能大语言模型微调技术:SFT 监督微调、LoRA 微调方法、P-tuning v2 微调方法、Freeze 监督微调方法
8.6K0
Mini but Mighty | 简直就是微调ViT神器,有了Mimi微调方法,别的不用选了!又稳又快!
7500
新坑!谷歌提出MLP-Mixer:一种无卷积、无注意力、纯MLP构成的视觉架构
1.3K0
PRM 与 HRM 双剑合璧 | 增量式 Vision Transformer 的参数有效跨任务提示 !
1710
论文总结与分析:“An Image is Worth 16x16 Words”
7150
卡内基梅隆大学 & 微软研究院引入 Med-VTAB 用通用预训练权重提高ViTs在视觉任务上性能 !
1720
能否仅依靠 LoRA 权重,而不依赖于预训练权重?PC-LoRA 给你答案 !
1610
【源头活水】NeurIPS 2023 | 大模型时代自监督预训练的隐性长尾偏见
6630
中科大、中科院、南大提出 Vision-Language 模型, ContCoOp 为 VLMs 高效微调与模型升级搭桥 !
1340
20亿参数,大型视觉Transformer来了,刷新ImageNet Top1
6170
相关推荐
超越所有微调方法,参数量大幅减少,康奈尔大学等提出视觉prompt新方法
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档