2 前期提要
1) Transformer 架构
Transformer模型架构是由编码器( Encoder )与解码器( Decoder )组成。
1)每个编码器(左边)由 1个位置编码层(Positional Encoding)与N(= 6)个编码层( Encoder Layer )组成。
2)每个解码器(右边)由1个位置编码层与N个解码层( Decoder Layer )以及1个以全连接层和Sotfmax为激活函数组成。
重点关注:「解码器」
2)GPT1模型
GPT1模型 = Transformer - Decoder(除去Multi-Head Attention)
「GPT1」网络结构是基于transformer的「解码器」有12层。
3)GPT1数据集
对于「无监督预训练」:
使用了 BooksCorpus 数据集,其中包含 7,000 多本独特的未出版书籍(冒险、奇幻和浪漫)。
对于「有监督的微调」,使用了以下数据集:
Natural Language Inference
SNLI
MultiNLI
Question NLI
RTE
SciTail
Question Answsering
RACE
Story Close
Sentence Similarity
MSR Paraphrase Corpus
Quora Question Pairs
STS Benchmark
Classification
Stanford Sentiment Treebank-2
CoLA
3 解决方案
1)网络结构
GPT-2使用Transformer解码器作为模型架构,除了维度、解码器数量和一些细微的变化之外,与GPT-1相同。
层归一化被移至每个子块的输入,类似于预激活 ResNet,并且在最终自注意力块之后添加了额外的层归一化。
词汇量扩大到50,257个。上下文大小也从 512 个token增加到 1024 个token,并且使用了更大的批量大小 512。
最小的模型相当于原来的GPT-1。
第二小的相当于BERT的最大模型。
最大的模型比GPT-1 的参数多一个数量级。
4 实验结论
1)数据集
数据集「WebText」包含这4500 万个链接的文本子集。本文中提出的所有结果均使用 WebText 的初步版本,该版本不包括 2017 年 12 月之后创建的链接,并且经过重复数据删除和一些基于启发式的清理后,包含略超过 800 万个文档,总共40 GB 文本。
WebText移除了涉及Wikipedia的文章。
2)下游任务的零样本结果
3)困惑度
4)机器翻译
5 Pascal曰
1)GPT-2 没有重大架构变化,但模型比GPT-1大得多。另外,GPT-2 是使用包含数百万个网页(称为WebText)的新的更大数据集进行训练的。
2)SOTA 性能是通过零样本任务传输获得的。
针对人群:
不知道如何「入门算法 「,对于」初学者」这里有完整的学习路径图(历史中「经典」模型文献和论文复现),完成后将成为合格「初级算法工程师」。
不知道「行业解决方案」,对于「算法工程师」这里有具体的行业中落地方案和呈现出商业价值,阅读后提供新的解决方法想法和成为「算法专家」。
蓦然回首,自己从算法(数学)专业学习以及工作已十年有余。
同时希望大家成为算法经历者、分享者和创造者。
入群
领取专属 10元无门槛券
私享最新 技术干货