Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >论文赏析[EMNLP18]用控制任务来设计并解释探测任务

论文赏析[EMNLP18]用控制任务来设计并解释探测任务

作者头像
godweiyang
发布于 2020-03-24 01:59:21
发布于 2020-03-24 01:59:21
6370
举报
文章被收录于专栏:算法码上来算法码上来

原文链接:

论文赏析[EMNLP19]Designing and Interpreting Probes with Control Tasksgodweiyang.com

论文地址:

Designing and Interpreting Probes with Control Taskswww.aclweb.org

介绍

NLP任务都存在着一个常见的问题:我的神经网络有没有学到某个性质

? 所以我们需要构造出一种方法,来告诉我们模型是否真的学到了某些性质。

例如对于ELMo,我们想知道它是否学到了POS tag信息,所以我们需要设计一种探测任务(probe task)。

如上图所示,我们将句子输入到ELMo中,得到每个单词的上下文表示。然后用probe函数(一般是MLP或者linear)进行分类,得到每个单词的POS tag。

注意到这里的ELMo是不进行fine-tune的,也就是固定住不变的,模型参数只有probe参数。

但是我们能否说,POS tag效果好,那么ELMo学的就好呢?其实是不行的,因为有三点因素可能影响到最终的tag准确率:

  • ELMo真的学到了POS tag信息。
  • probe函数设计的比较复杂,可以很好的拟合出POS tag分布。
  • POS tag任务的监督信息加的比较多。

所以本文主要研究了如下三个问题:

  • 高的探测准确率是否意味着表示真的学到了某种性质?
  • 探测方法对结果有着什么样的影响?
  • 上面提到的三点影响因素对探测结论是否有影响?

下面我们一一关注这三个问题。

问题1

首先答案是否定的,探测任务上准确率越高,并不能代表着表示学到了你想要的性质。

还是用ELMo和POS tag举例子,上面这个模型用1000隐层维度的MLP作为probe函数,最终取得了97.3的高准确率。但是我们不能说EMLo能够很好的学到了POS tag信息,因为可能是MLP很好的拟合出了POS tag分布。

所以我们提出了控制任务(control task)的概念,也就是用同样的模型去预测一个随机任务。例如对于POS tag任务,PTB数据集里一共有45个tag,我们给每个单词重新随机分配一个tag,然后用探测模型预测句子的随机tag。这样其实有个小问题,就是消除了单词的一词多义问题,一个单词在所有语境下tag都是一样的了。

测试下来结果如上图所示。可以看到MLP和linear对POS tag结果基本没有影响,都非常的高。但是对control任务也就是随机tag影响很大,MLP并没有降低很多(92.8),但是linear降低了很多(71.2)。于是我们将这个差值叫做selectivity。如果selectivity越大,说明probe函数影响越小,可能不是probe函数拟合出来的结果。如果selectivity越小,说明不管是gold的label还是随机的label,准确率都很高,这就可能是probe函数拟合出来的结果了,而不是表示学出来的。

问题2

显然linear的学习能力明显不如MLP,那么不同的参数设置对最终结果是否有影响呢?

上图举了两个例子,分别是dropout和隐层维度对结果的影响。可以看出简单的正则化对selectivity影响不是很大,但是隐层维度影响特别大。

具体的参数影响如上图所示,最终选取了使得准确率比较高,selectivity相对大的参数配置。

问题3

答案也是肯定的。

比如上面这个例子,一般认为ELMo第1层POS tag效果是要好于第2层的,probe测试下来也是这样。但是可以发现,第2层的selectivity更大,说明其实第2层才更好的学到了POS tag信息。那为什么第1层效果更好呢?可能是因为它更靠近单词层,所以保留了更多单词的信息。这也说明了selectivity方法可能也不是完美的,可能通过聚类预测POS tag,第2层效果会更好。

结论

具体的实验细节和分析就不说了,大体就是这么个思想。这篇主要就是说明了,光靠准确率并不能说明一个encoder的表示学到了某种性质,而可能是模型拟合的结果。所以他们提出了control task,同时预测一个随机输出,如果准确率差距较大,则验证了表示学到了性质。当然这个方法还有一些问题,比如probe函数的挑选,还有文中依存句法分析的control task的设计是有瑕疵的。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-12-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 算法码上来 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【NLP】EMNLP 2019 参会小结及最佳论文解读
2019年EMNLP自然语言处理实证方法会议11月3日至7日在中国香港召开。作为自然语言处理领域的顶级会议之一,在本次大会中,中国被接收的论文数量在所有国家和地区中位居第二。本届大会举办了18场 Workshops 、多个Tutorials和主题丰富的会议活动,吸引了超过1922人参会。
zenRRan
2019/12/06
1.1K0
自然语言处理顶会EMNLP2019最佳论文出炉!霍普金斯大学、斯坦福获得
【导读】近日,自然语言处理顶会EMNLP 2019 在中国香港落下帷幕。大会颁发了最佳论文奖等多个奖项。来自约翰·霍普金斯大学的研究团队摘得最佳论文奖,其一作为华人学者。
代码医生工作室
2019/11/12
7720
自然语言处理顶会EMNLP2019最佳论文出炉!霍普金斯大学、斯坦福获得
论文赏析[ACL18]一个句子向量表示究竟可以塞进多少语言性质?
论文赏析[ACL18]一个句子向量表示究竟可以塞进多少语言性质?| 韦阳的博客godweiyang.com
godweiyang
2020/03/24
5030
论文赏析[ACL18]一个句子向量表示究竟可以塞进多少语言性质?
如何“锚定”NLP模型中的语言智慧?丨长文评析语言探针
事实上,可解释性并没有数学上的严格定义,可以简单理解其为人们能够理解模型决策原因的程度。换句话说,对机器学习模型来说,它的可解释性越高,人们就越容易理解它为什么做出某些决策或预测。
新智元
2021/01/11
9980
如何“锚定”NLP模型中的语言智慧?丨长文评析语言探针
论文赏析[NAACL19]基于DIORA的无监督隐式句法树归纳
Unsupervised Latent Tree Induction with Deep Inside-Outside Recursive Autoencodersgodweiyang.com
godweiyang
2020/03/24
5850
论文赏析[NAACL19]基于DIORA的无监督隐式句法树归纳
当我在微调的时候我在微调什么?
从 BERT 开始,预训练模型(PLMs)+微调(finetune)已经成为了NLP领域的常规范式。通过引入额外的参数(新的网络层)和特定任务的目标函数,PLMs在该任务的数据集下经过finetune后,总能取得评价指标上的提升,甚至达到SOTA。
对白
2022/04/01
1.8K0
当我在微调的时候我在微调什么?
MIT惊人证明:大语言模型就是「世界模型」?吴恩达观点再被证实,LLM竟能理解空间和时间
在空间表征上,研究者对世界各地数以万计的城市、地区和自然地标的名称运行了Llama-2模型。
新智元
2023/10/05
7810
MIT惊人证明:大语言模型就是「世界模型」?吴恩达观点再被证实,LLM竟能理解空间和时间
给Bert加速吧!NLP中的知识蒸馏论文 Distilled BiLSTM解读
论文题目:Distilling Task-Specific Knowledge from BERT into Simple Neural Networks 论文链接:https://arxiv.org/pdf/1903.12136.pdf
致Great
2021/11/24
7240
给Bert加速吧!NLP中的知识蒸馏论文 Distilled BiLSTM解读
NLP能否像人脑一样工作?CMU、MIT三篇论文详解机器和大脑范畴下NLP的关系
自 Google AI 提出 BERT (Bidirectional Encoder Representations from Transformers) 后,BERT 在自然语言处理领域(Natural Language Processing,NLP)中应用获得了非常好的效果,它成为了近期 NLP 领域中最重要的进展。BERT 是一种 Transformer 的双向编码器表示,它通过联合调解模型中所有层的上下文来完成双向编码器表示的预训练。此外,还可以通过一个额外的输出层对预训练的 BERT 表示进行微调,从而使其在基本保持原有架构的基础上,能够快速适用于不同的 NLP 任务,例如语言推理、问答系统等。
机器之心
2020/03/12
5250
NLP能否像人脑一样工作?CMU、MIT三篇论文详解机器和大脑范畴下NLP的关系
赛尔笔记 | 自然语言处理中的迁移学习(下)
Attention is not explanation | Attention is not not explanation
AI科技评论
2019/10/23
9520
赛尔笔记 | 自然语言处理中的迁移学习(下)
论文赏析[TACL18]隐式句法树模型真的能学到句子中有意义的结构吗?
https://aclweb.org/anthology/papers/Q/Q18/Q18-1019/
godweiyang
2020/03/24
6430
论文赏析[TACL18]隐式句法树模型真的能学到句子中有意义的结构吗?
7 papers|EMNLP 2019最佳论文;Facebook语言模型XLM-R取得SOTA结果;最优学习的85%规则
论文 1:Specializing Word Embeddings(for Parsing)by Information Bottleneck
机器之心
2019/11/12
8000
7 papers|EMNLP 2019最佳论文;Facebook语言模型XLM-R取得SOTA结果;最优学习的85%规则
【NLP】从word2vec, ELMo到BERT
还记得不久之前的机器阅读理解领域,微软和阿里在SQuAD上分别以R-Net+和SLQA超过人类,百度在MS MARCO上凭借V-Net霸榜并在BLEU上超过人类。这些网络可以说一个比一个复杂,似乎“如何设计出一个更work的task-specific的网络"变成了NLP领域政治正确的研究方向。而在这种风向下,不管word2vec也好,glove也好,fasttext也好,都只能充当一个锦上添花的作用。说好的迁移学习、预训练呢?在NLP似乎始终没成主角。
yuquanle
2020/02/21
9270
论文赏析[ACL18]基于Self-Attentive的成分句法分析
Constituency Parsing with a Self-Attentive Encodergodweiyang.com
godweiyang
2020/03/24
7910
论文赏析[ACL18]基于Self-Attentive的成分句法分析
你的模型需要解释(二)
广义上的可解释性指在我们需要了解或解决一件事情的时候,我们可以获得我们所需要的足够的可以理解的信息。比如我们在调试bug的时候,需要通过变量审查和日志信息定位到问题出在哪里。比如在科学研究中面临一个新问题的研究时,我们需要查阅一些资料来了解这个新问题的基本概念和研究现状,以获得对研究方向的正确认识。反过来理解,如果在一些情境中我们无法得到相应的足够的信息,那么这些事情对我们来说都是不可解释的。比如刘慈欣的短篇《朝闻道》中霍金提出的“宇宙的目的是什么”这个问题一下子把无所不知的排险者卡住了,因为再高等的文明都没办法理解和掌握造物主创造宇宙时的全部信息,这些终极问题对我们来说永远都是不可解释的。
小萌哥
2020/07/21
8500
你的模型需要解释(二)
NLP烤面筋
https://l1nwatch.gitbook.io/interview_exercise/stackoverflow-about-python/python-zhong-guan-jian-zi-yield-you-shi-mo-zuo-yong
大鹅
2021/09/01
1.3K4
论文赏析[EMNLP19]如何在Transformer中融入句法树信息?这里给出了一种解决方案
https://www.aclweb.org/anthology/D19-1098.pdf
godweiyang
2020/03/24
5890
论文赏析[EMNLP19]如何在Transformer中融入句法树信息?这里给出了一种解决方案
【NLP】Dive into BERT:语言模型与知识
最近在看的主要是跟知识相关的一些东西,包括回顾了一些知识表示模型呀,一些大规模的语言模型如何锦上添花融入外部知识的方法呀,如果你感兴趣的话可以直接去之前几篇文章里面瞄一眼。今天就以 知识 为切入点来更深入地剖析一下最近比较火的预训练模型。
zenRRan
2019/12/06
8810
AAAI 2020论文解读:关注实体以更好地理解文本
下面要介绍的论文选自AAAI 2020,题目为:「Attendingto Entities for Better Text Understanding」,axriv地址为:https://arxiv.org/abs/1911.04361。
AI科技评论
2019/11/26
7890
AAAI 2020论文解读:关注实体以更好地理解文本
深度学习十年发展回顾:里程碑论文汇编
这篇文章概述了过去十年来最有影响力的一些论文。我希望通过简洁明了的摘要来提供深度学习领域不同方向的起点,并且提供了相当多的参考资料。
大数据文摘
2020/02/12
8760
推荐阅读
相关推荐
【NLP】EMNLP 2019 参会小结及最佳论文解读
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档