《SANVis: Visual Analytics for Understanding Self-Attention Networks》
这一篇文章是关于Self-Attention可视化的,可视化的网络有Transformer和BERT。里面有一幅Transformer的图很好,贴过来。
《BERT Meets Chinese Word Segmentation》
这篇论文介绍BERT用于中文分词任务的。里面提到一点有趣的地方在于,BERT后面接Softmax和CRF层的最终效果差不多,但是SoftMax更快。 模型结构
实验结果 注意这个是只使用BERT的第一层做特征提取的效果,这里CRF要比SoftMax好。
这个是不同层做特征提取的效果,可以看到微调12层的时候SoftMax和CRF效果差不多。
《Enriching BERT with Knowledge Graph Embeddings for Document Classification》
这篇文章是一个比赛的方法,这个比赛是进行文档分类,但是还有一些其他的数据(作者,ISBN等等),因此要做特征的融合,作者提出的融合方法很简单,如下:
《Subword ELMo》
这篇文章主要使用Subword提升ELMo的性能,思路很简单。这里主要看一下网络结构。
稍微扩充一下Highway Network,论文,公式如下,其中T=sigmoid(wx + b):
流程图
对比ResNet