前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >重新聚焦Attention在微调大模型中的重要性

重新聚焦Attention在微调大模型中的重要性

作者头像
小白学视觉
发布2024-09-10 20:20:08
1080
发布2024-09-10 20:20:08
举报
文章被收录于专栏:深度学习和计算机视觉

作者丨Baifeng@知乎(已授权)

来源丨https://zhuanlan.zhihu.com/p/632301499

编辑丨极市平台

极市导读

在只微调一小部分参数的情况下超越fine-tuning,LoRA,VPT等方法!

论文链接:https://arxiv.org/pdf/2305.15542

GitHub链接:https://github.com/bfshi/TOAST

我们发现在一个下游任务上微调大模型时,目前的方法(fine-tuning,LoRA,prompt tuning等等)往往无法将模型的attention聚焦在和下游任务相关的信息上。比如下方图1(b),我们把一个pretrained ViT迁移到下游的鸟类分类任务,却发现微调后得到的attention往往非常杂乱,这有可能会对模型在下游任务上的表现有影响。

图1:(a) 我们的方法通过重新聚焦模型的attention来大幅提升大模型在下游任务上的表现;(b) 目前的微调方法往往无法将模型的注意力集中到和下游任务有关的信息上(在这个例子里是前景的鸟)。

在这篇文章中我们发现,通过把模型的attention重新聚焦到和下游任务相关的信息上(图1(a)),我们可以大幅提高模型在下游任务的表现。我们的方法继承了我们之前关于top-down attention的工作:

CVPR23 Highlight|拥有top-down attention能力的vision transformer

简单来说,top-down attention是一种可以根据目前在做的task来相应地调整模型的attention的机制。在这篇工作中,我们重新聚焦attention的方法就是,首先把预训练过的模型固定住,在上面加一个top-down attention模块,然后在下游任务上只去微调这个top-down attention模块即可:

图2:我们的方法将预训练过的模型(蓝色部分)固定住,然后在上面加一个top-down attention模块(橙色部分)并且只微调这个模块。

我们在视觉和语言任务上都做了实验,在视觉上我们可以在只微调一小部分参数的情况下超越fine-tuning,LoRA,VPT等方法

TOAST是我们的方法

在语言任务上,我们在只微调7%左右的参数的情况下,可以超越fine-tune或者LoRA版本的Alpaca

欢迎大家评论!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-09-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小白学视觉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档