文献阅读：Raise a Child in Large Language Model: Towards Effective and Generalizable Fine-tuning

codename_cys

发布于 2022-04-13 16:50:15

7100

文章被收录于专栏：我的充电站我的充电站

文献阅读：Raise a Child in Large Language Model: Towards Effective and Generalizable Fine-tuning

文献链接：https://arxiv.org/pdf/2109.05687v1.pdf

1. 内容简介

这篇文章是上年罗福莉组发的一篇关于预训练模型调优方面的工作。

众所周知，当前在nlp领域，基于大语料预训练然后再在特定领域进行finetune已经成为了一个相对标准化的任务范式，几乎刷爆了当前所有任务的sota指标。

但是，大模型下finetune的过程就成了一个复杂的炼丹过程，不同的任务下参数调整的幅度，learning rate下降的速率都是一个很大的学问，他们归根结底都是因为不同参数在不同的任务下对于结果的敏感性不同，而模型的规模过大导致模型的表达能力实在太强，因此稍微训练一下就容易过拟合，或者破坏掉模型预训练学到的内容，使得模型丧失泛化能力。

这点在transfer learning当中非常常见，但是预训练模型的范式显然放大了这方面的问题。

针对这个点，其实也有了不少的工作，我自己也曾经做过一些transfer learning相关的工作，所以也想过对应的问题，不过不得不说，罗福莉她们在这篇文章中给出的方法还是很巧妙，非常的trivial但是somehow很make sense，事实上也获得了非常好的效果，不得不佩服啊。

2. 相关工作

在讨论她们的方案之前，我们不妨先看一下这篇文献中提及的其他一些优化思路：

1. Weight Decay

这个方法来源于文章：Frustratingly Easy Domain Adaptation

这个方法的主要思路就是通过正则项来控制finetune之后的参数改动幅度。

他的方法本身倒是比较简单，就是在loss当中加入了正则项

\lambda \cdot ||w - w_0||^2

。通过这种方式就可以人为的限制参数改动的幅度整体不会特别大，从而尽可能地保留预训练模型学习到的先验信息。

2. Top-K Tuning

这个方法来源于文章：Parameter-Efficient Transfer Learning for NLP

Top-K tuning的方法让我有一种无比的熟悉感，因为我当年就是这么干的，虽然我当时并不了解这篇文章，只是直觉上就觉得应该这么干……

他的方法可能是这里所有的方法当中最为直接的了，因为他就是直接freeze了预训练的模型，然后只训练最后的决策层当中的参数。通过这种方式，就可以最大化的保留下预训练模型学习到的信息。

3. Mixout

这个方法来源于文章：Mixout: Effective Regularization to Finetune Large-scale Pretrained Language Models

Mixout这个工作和上述两个方法也是异曲同工，不过他的方法是说在每一轮训练中随机将其部分参数替换为初始化的预训练参数，a.k.a，令模型在训练与没有训练之间反复横跳，从而达到薛定谔的优化态[doge]……

3. 优化方案

综上所述，上述所有的方法其实本质上要实现的目标都是：

限制finetune过程的参数变化幅度，让模型尽可能地保留预训练学习到的内隐信息的前提下学习到特定任务的参数分布。

而这里，罗福莉她们的思路也完全相同，但是她们采用的方法某种意义上来说也更加直接。

她们的出发点就是说显然预训练模型这么大，超参这么多，对于一个特定的任务，那么必然大部分的参数事实上都是没有什么贡献的，此时如果我们finetune了这部分的参数，那么它对于整体的模型训练将不会产生正向的收益，反而会导致模型丧失预训练中学到的先验信息。

因此，她们提出了ChildTuning方法，即每次都从全部参数之中筛选出一个子网络，然后仅仅对这部分网络的参数进行更新。这样，就可以实现我们在上面提出的优化目标。

但是，显然的，这里就会涉及到一个问题，就是如何挑选出这个子网络。

对于这个问题，她们提出了两种ChildTuning方法，即ChildTuning-F和ChildTuning-D。

下面，我们来具体看一下这两种方式。

1. ChildTuning-F

ChildTuning-F的参数筛选方式非常的暴力，就是按照伯努利分布随机选择一些参数进行梯度mask。即是说，给出一个超参p，然后对于每一个模型参数，其都有p的概率被mask而不会进行梯度更新。

坦率地说，ChildTuning-F我个人不太能理解，想不到什么定性的解释能够直观的描述为啥这种方法能够生效，但是somehow罗福莉她们给出了一个数学上的证明，说明这种方式可以在使得模型训练收敛到一个更加稳定的局域最小值，并且可以有更小的误差范围。

至于其数学证明，这里就不班门弄斧了，有兴趣的读者可以自行去看一下他们在附录中给出的证明。

4. 实验设计 & 结果

现在，我们来看一下文中针对ChildTuning进行的实验考察。

1. ChildTuning效果考察

首先，是惯例的模型效果考察，无论想法多么的fascinating，没有效果那么都是扯淡。但是ChildTuning确实给出了非常牛逼的结果，她们分别基于bert、roberta、xlnet以及electra四种模型在GLUE的多个子任务下进行评测，发现ChildTuning均优于传统的finetune方法（结果如下图所示），这个结果很有说服力了，非常的nice。