前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >我拿乐谱训了个语言模型!

我拿乐谱训了个语言模型!

作者头像
千与编程
发布于 2023-04-28 05:53:00
发布于 2023-04-28 05:53:00
2490
举报
最近在刷EMNLP论文的时候发现一篇非常有趣的论文《Learning Music Helps You Read: Using Transfer to Study Linguistic Structure in Language Models》,来自斯坦福大学NLP组。论文有趣的发现是让语言模型先在乐谱上进行训练,再在自然语言上训练可以有效的提升语言模型的性能。在看了一大堆BERT-based的模型后,看到这篇文章时便觉得眼前一亮。激发了花椒的好奇心。都说学习音乐可以让大脑更加聪明。难道语言模型也一样?从音乐中获得了“灵感”,变“聪明”了? 于是乎带着脑洞继续往下读。

论文题目: Learning Music Helps You Read: Using Transfer to Study Linguistic Structure in Language Models

论文链接https://www.aclweb.org/anthology/2020.emnlp-main.554.pdf

Githubhttps://github.com/toizzy/tilt-transfer

本文主要探究什么问题?

本文的主要假设是对于有结构性的语言,比如乐谱和代码,他们的潜在结构能被神经网络所编码,且有助于自然语言的学习。在此假设上,本文主要研究问题是:

当存在两种语言L1和L2时, 语言模型可以在多大程度上学习并迁移L1中的潜在结构到L2中,以帮助L2的学习?

文中对于语言的定义是比较宽泛的,包括我们日常用的自然语言,音乐,代码等。因为每一种语言有着不同的潜在结构,为探究不同L1对L2的影响,本文主要围绕3个方面对L1发问:

  • 当L1是non-linguistic语言时(比如music, Java code),语言模型是否可以学习其潜在结构,并迁移到自然语言中?
  • 是否是L1中的递归结构对语言模型的学习和迁移有帮助?
  • 当L1是与L2不同的自然语言时,语言模型是否可以学习并迁移其中的句法结构?

为了回答这3个问题,作者提出了一种叫做TILT (Test for Inductive Bias via Language Model Transfer)的测试方法。核心思想是,先用L1语言预训练一个LSTM语言模型,然后固定其参数,直接在L2语言上测试其困惑度。通过改变L1固定L2,来对比不同潜在结构对于自然语言学习的影响。结合文中的流程图更好理解(如下):

看图说话:

Q1: 怎么用语言模型训练Music数据呢?A1: 关键是将乐谱转换为线性序列。文中使用了MAESTRO数据集,包含了172个小时的经典的钢琴演奏曲。该数据集采用MIDI格式的音乐数据,每个MIDI文件,对应一个序列的音符的标注信息。因此一首曲子就可转换一个线性的序列,这样子乐谱就可以愉快的和LSTM玩耍了~ 比如对于下面的mid文件[1]:(哈哈,点不了哦~)

会被标注为音符"3/4 c4 d8 f g16 a g f#", 然后传递给模型。

Q2: 为什么②中LSTM的参数是固定的呢?A2: 这是为了保留使用不同L1训练时所捕捉的潜在结构呀~固定LSTM的参数可以防止L2的自身结构信息被编码。因为最终是在同一个L2上进行测试的,所以可以公平比较使用不同L1进行预训练对L2测试结果的影响啦。文中一个核心的观点是将不同L1中的潜在结构当成inductive bias, 并探究其是否可以被语言模型捕捉并迁移到L2上。

Q3: 乐谱的词表和西班牙语的词表都不一样,我要怎么在西语上测试呢?A3: 这还不简单,在测试前,使用西语语料对embedding层进行fine-tune就可以了嘛(上图③的功能)。

乐谱到底有没有用呢?

有没有用,还得看怎么对比了~哈哈~先看看文中使用了4组不同的L1语言的例子:

那他们各自的实验结果如何呢?首先来个直观的对比(横轴是不同的L1语言预训练,纵轴是在L2上测试的结果)。

  • music所在一列就是使用乐谱训练的结果啦。与左边的baseline相比,提升十分显著,困惑度几乎降低了一半。最左边两个草绿色的baseline,是在西语上随机采样的词汇语料(没有任何结构信息)预训练得到的结果。但是music的效果并不如Jave code以及别的自然语言(橙色)。
  • 为了探究到底是music和Java code中的什么潜在结构提升了L2的性能呢?作者猜测会不会是其中的层级递归结构呢?但是在music和code上又不好直接验证。于是有了第三组实验来探究层级递归结构对L2的影响。作者伪造了两个括号数据(配对的整数数据),一个具有层级递归结构(Nesting parents),一个没有递归结构但是有配对的标记对的信息(Flat Parens)。可以看到他们俩给L2带来的性能提升几乎持平。那这是不是说明层级递归对L2没有多大用呢?是的,至少这篇文中的实验室设置下是的。但是作者说这也说明标记对的匹配预训练LSTM语言模型是有帮助的。他们甚至表现比用music的还好,你说神奇不神奇。
  • 第四组实验使用不同的自然语言数据进行预训练,可以看到他们的性能其实还是远远高于non-linguistic data的。(所以说,其实标题或多或少有些噱头啦,哈哈。) 同时也可以看到,日语、英语、葡萄牙语对于西语的帮助差别也是比较大的, 那这又是为什么呢?作者认为是句法结构类型的差异性所导致的。因此为了探究不同自然语言L1对L2的影响,作者使用句法特征,将每种语言转化为句法特征向量,从而计算各个语言之间的WALS-syntax distance,即下图中的横轴。然后对比用不同语言预训练后在西语上测试得到的ppl,下图纵轴。图中可以明显看到句法距离越相小的语言之间的句法结构迁移的效果更好。

最后,花椒还有个好奇的点。虽然文中的实验结果证明代码或者乐谱中的潜在对于LSTM语言模型的预训练是有帮助的,但是他们的帮助还是没有在自然语言(英语,意大利语)带来的收益大,那么如果我们用sequencial的pre-training 或者组合在每个L1上训练的语言模型会给L2带来更大的提升吗?🤔

总结

论文读完啦,咱们回答下开头的问题:

  • Non-linguistic数据中的潜在结构对于L2的学习有帮助嘛?有帮助,但没有不同自然语言L1带来的收益大。不过虽然music的帮助是所有实验中的L1中最小的,不过本文对于不同模态语言的潜在结构的迁移的探索是个不错的方向。
  • 递归结构对于L2学习影响大嘛?不大,但是标记之间的配对结构对L2影响比较大。
  • 当L1是自然语言时,语言模型可以编码并迁移其中的句法结构嘛?可以,而且其与L2的句法距离越接近,句法结构的迁移性越好。

这是一篇故事讲得很好且文笔十分好的文章,感兴趣的小伙伴可以去读一读原文,感受一下作者清晰而自洽的论述过程,一步步发问,一步步深入,是一个非常享受的过程~

[1] What is music21? http://web.mit.edu/music21/doc/about/what.html

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-12-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 千与编程 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
论文赏析[ICLR18]联合句法和词汇学习的神经语言模型
Neural Language Modeling by Jointly Learning Syntax and Lexicongodweiyang.com
godweiyang
2020/03/24
3680
论文赏析[ICLR18]联合句法和词汇学习的神经语言模型
01-大语言模型发展
LLM,Large Language Model,大语言模型。为什么叫2.0?因为在大语言模型,也就是LLM出现之前,我们把它归结为1.0时代。那么1.0时代主要的是NLP(自然语言处理)的各类工程,它其实都是一个特点,就是说通用性比较差。那么整个AI领域的终极的圣杯,或者说将来它的一个终极的一个希望做到的,是AGI(Artificial General Intelligence,人工通用智能)。1.0可能是一个单任务的这么一个AI。比如深蓝战胜象棋冠军,他只会下象棋,而且他的下象棋是学习了很多的这个象棋的这个国际象棋的这个套路,他只会干这一个事情,而且你问他别的事情他肯定不知道。
JavaEdge
2024/05/25
1010
01-大语言模型发展
GPT : Improving Language Understanding by Generative Pre-Training
版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。
张凝可
2019/08/22
2.3K0
GPT : Improving Language Understanding by Generative Pre-Training
论文赏析[ACL18]一个句子向量表示究竟可以塞进多少语言性质?
论文赏析[ACL18]一个句子向量表示究竟可以塞进多少语言性质?| 韦阳的博客godweiyang.com
godweiyang
2020/03/24
5030
论文赏析[ACL18]一个句子向量表示究竟可以塞进多少语言性质?
2015蒙特利尔深度学习暑期学校之自然语言处理篇
8月3日至8月12日在蒙特利尔举办的深度学习署期学校中,来自不同领域的深度学习顶尖学者 (Yoshua Bengio, Leon Bottou, Chris Manning等)分别作了精彩的报告。报告内容的覆盖面非常广,从基本神经网络介绍、深度网络的训练技巧、理论分析到工具使用、以及在不同问题中的应用等。所有报告的slides均可从本次暑期学校主页(https://sites.google.com/site/deeplearningsummerschool/home)下载。 本文内容主要总结自Marek
用户1737318
2018/06/05
5410
ACL 2018 | 神经语言模型如何利用上下文信息:长距离上下文的词序并不重要
选自arXiv 作者:Urvashi Khandelwal等 机器之心编译 参与:Geek AI、刘晓坤 本研究旨在回答「神经语言模型如何利用上下文信息」的问题。通过控制变量法,斯坦福的研究者实验探究了神经语言模型使用的上下文信息量、近距离和远距离的上下文的表征差异,以及复制机制对模型使用上下文的作用这三个议题。 语言模型是诸如机器翻译和总结等自然语言生成任务中的一个重要组成部分。这些任务会利用上下文(词序列)信息估计待预测单词的概率分布。近年来,一系列神经语言模型(NLM)(Graves, 2013; J
机器之心
2018/06/08
7780
如何“锚定”NLP模型中的语言智慧?丨长文评析语言探针
事实上,可解释性并没有数学上的严格定义,可以简单理解其为人们能够理解模型决策原因的程度。换句话说,对机器学习模型来说,它的可解释性越高,人们就越容易理解它为什么做出某些决策或预测。
新智元
2021/01/11
9980
如何“锚定”NLP模型中的语言智慧?丨长文评析语言探针
【NLP】Dive into BERT:语言模型与知识
最近在看的主要是跟知识相关的一些东西,包括回顾了一些知识表示模型呀,一些大规模的语言模型如何锦上添花融入外部知识的方法呀,如果你感兴趣的话可以直接去之前几篇文章里面瞄一眼。今天就以 知识 为切入点来更深入地剖析一下最近比较火的预训练模型。
zenRRan
2019/12/06
8810
NLP如此钟情英语研究真的好吗?
全世界有7000多门语言,但自然语言处理(NLP)却主要研究英语这门语言。来自Deep Mind的科研人员Sebastian Ruder认为,当下NLP领域集中于开发能够有效处理英语的方法,却忽略了钻研其他语言的重要性。事实上,研究英语以外的语言不仅具有重大的社会意义,还有助于构建多语言特征模型,以避免过度拟合和应对机器学习的潜在挑战。
AI科技评论
2020/08/10
5490
NLP如此钟情英语研究真的好吗?
【阅读笔记】用于可控文本生成的句法驱动的迭代拓展语言模型
论文标题:Syntax-driven Iterative Expansion Language Modelsfor Controllable Text Generation 论文出处:ACL2020 原文链接:https://arxiv.org/abs/2004.02211v1 转载请注明出处:学习ML的皮皮虾
马上科普尚尚
2020/09/24
1K0
【阅读笔记】用于可控文本生成的句法驱动的迭代拓展语言模型
斯坦福NLP课程 | 第14讲 - Transformers自注意力与生成模型
ShowMeAI为斯坦福CS224n《自然语言处理与深度学习(Natural Language Processing with Deep Learning)》课程的全部课件,做了中文翻译和注释,并制作成了GIF动图!视频和课件等资料的获取方式见文末。
ShowMeAI
2022/05/16
6930
斯坦福NLP课程 | 第14讲 - Transformers自注意力与生成模型
【预训练模型】预训练语言模型的前世今生之风起云涌
欢迎大家来到我们预训练语言模型的专题系列分享,本篇推送是该专题的第二篇!预训练语言模型已经成为了NLP研究中一个非常火热的话题,优秀的模型包括BERT,GPT2等都在学术研究、工业领域、算法比赛中大放光彩。
zenRRan
2020/03/05
1.5K0
【预训练模型】预训练语言模型的前世今生之风起云涌
Christopher Manning:Transformer 语言模型何以取得如此突破?
日前,在第二届北京智源大会语音与自然语言处理专题论坛上,国际自然语言处理著名学者、斯坦福人工智能实验室负责人Christopher Manning做了名为《Linguistic structure discovery with deep contextual word representations》的主题演讲。
AI科技评论
2020/08/10
6730
Christopher Manning:Transformer 语言模型何以取得如此突破?
NLP领域的ImageNet时代到来:词嵌入「已死」,语言模型当立
长期以来,词向量一直是自然语言处理的核心表征技术。然而,其统治地位正在被一系列令人振奋的新挑战所动摇,如:ELMo、ULMFiT 及 OpenAI transformer。这些方法因证明预训练的语言模型可以在一大批 NLP 任务中达到当前最优水平而吸引了很多目光。这些方法预示着一个分水岭:它们在 NLP 中拥有的影响,可能和预训练的 ImageNet 模型在计算机视觉中的作用一样广泛。
机器之心
2018/07/26
7280
NLP领域的ImageNet时代到来:词嵌入「已死」,语言模型当立
从想法到实干,2018年13项NLP绝美新研究
前一段时间,Sebastian Ruder 介绍了他心中 10 个最有影响力的想法,并且每一个都提供了具体论文与核心思想。正如 Ruder 所说,他的清单必然是主观的,主要涵盖了迁移学习和泛化相关的想法。其中有的想法在过去一年非常受关注,大家围绕这些完美的观点展开了很多研究工作与实践。而有的想法并不是当前趋势,不过它们有可能在未来变得流行。因此,机器之心在 Ruder 介绍的基础上,重点关注今年的前沿趋势,并推荐一些真正好用的 NLP 新工具。
机器之心
2019/01/02
5680
一文了解预训练语言模型!
现有的神经网络在进行训练时,一般基于后向传播(Back Propagation,BP)算法,先对网络中的参数进行随机初始化,再利用随机梯度下降(Stochastic Gradient Descent,SGD)等优化算法不断优化模型参数。
guichen1013
2022/09/22
1K0
一文了解预训练语言模型!
【综述专栏】超详细的NLP预训练语言模型总结清单!
在科学研究中,从方法论上来讲,都应“先见森林,再见树木”。当前,人工智能学术研究方兴未艾,技术迅猛发展,可谓万木争荣,日新月异。对于AI从业者来说,在广袤的知识森林中,系统梳理脉络,才能更好地把握趋势。为此,我们精选国内外优秀的综述文章,开辟“综述专栏”,敬请关注。
马上科普尚尚
2021/03/17
1.4K0
【综述专栏】超详细的NLP预训练语言模型总结清单!
ACL 2019提前看:预训练语言模型的最新探索
ACL,英文全称是 The Association for Computational Linguistics,中文全称是国际计算语言学协会。ACL 于 1962 年成立,主要致力于为研究自然语言处理或者计算语言学的专业人士提供服务。为了促进自然语言处理领域的学术交流,ACL 每年都会举办学术会议,如 ACL、EMNLP 和 NAACL 等。ACL 2019(第 57 届会议)即将于 2019 年 7 月 28 日至 8 月 2 日在意大利佛罗伦萨举办。
机器之心
2019/07/30
8330
自然语言处理中的迁移学习(上)
本文转载自公众号「哈工大SCIR」(微信ID:HIt_SCIR),该公众号为哈尔滨工业大学社会计算与信息检索研究中心(刘挺教授为中心主任)的师生的信息分享平台,本文作者为哈工大SCIR 徐啸。
AI科技评论
2019/10/23
1.4K0
自然语言处理中的迁移学习(上)
精选论文 | 自然语言处理中的语言模型预训练方法【附打包下载】
最近,在自然语言处理(NLP)领域中,使用语言模型预训练方法在多项 NLP 任务上都获得了不错的提升,广泛受到了各界的关注。今天,两位主讲嘉宾为大家精选了近期语言模型预训练方法中的几个代表性模型(包括 ELMo,OpenAI GPT 和 BERT),和大家一起学习分享最新的研究进展。
马上科普尚尚
2020/05/11
1.1K0
精选论文 | 自然语言处理中的语言模型预训练方法【附打包下载】
推荐阅读
相关推荐
论文赏析[ICLR18]联合句法和词汇学习的神经语言模型
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档