❝本文主要帮助读者超短时间内理解 ERNIE 核心思想,适合正在准备面试百度的同学 (如果需要内推可以找我)。如果想要细致了解 ERNIE 的各个细节,建议读原论文:ERNIE1.0 和 ERNIE2.0 ❞
本文假设读者对 Transformer 以及 BERT 有一定的了解。
「ERNIE1.0 主要是改进了 BERT 的 MLM 任务。」 我们看图说话,
从图中,我们很容易发现 ERNIE1.0 对于 BERT 的改进是在 MLM 任务。在论文,作者阐述了三种不同的 mask 技巧:
好了,这样子最初版的 ERNIE 就讲完了。下面我们开始讲 ERNIE2.0.
「ERNIE2.0 主要是在 ERNIE1.0 的基础上,使用了新的多任务训练的框架。」 BERT 的预训练中,采用了 MLM 和 NSP 两种任务,目的是为了让模型能够学出更好的词表示向量,以及句子之间的关系。对于这样的多任务训练,ERNIE2.0 系统化的提出了 3 大类任务,并让 ERNIE 基于这三大类任务进行学习。我们先看图:
我们首先介绍这三大类任务,然后再介绍任务训练的方式。
ERNIE2.0 采用的是序列多任务学习 (Sequential Multi-task Learning)。这样学习是为了让模型巩固之前的任务所学到的知识。
最终,ERNIE2.0 预训练的整体框架为: