人工神经网络对人类语言习得的启示
What Artifificial Neural Networks Can Tell Us
About Human Language Acquisition
亮点
本文探讨了人工神经网络(ANNs)在模拟人类语言习得方面的潜力和局限性。通过分析ANNs的学习环境、学习算法和归纳偏见,试图理解这些模型如何从有限的数据中学习语言,并与人类语言习得过程进行比较。文章提出一种“消融研究”(ablation study)的方法,通过剥夺模型学习者某些假设优势(如层次偏见或组合性偏见),来测试它们在没有这些优势的情况下是否仍能学习目标语言知识。此外,文章还讨论了如何通过多模态输入和交互式学习来提高模型学习者的数据效率,以及如何通过调整模型的架构和学习算法来更好地模拟人类学习者。
摘要
机器学习在自然语言处理方面的快速进步有可能改变关于人类如何学习语言的争论。然而,学习环境与目前的人工学习者与人类之间的差异,削弱了证据(从学习模拟中获得)的影响。例如,目前最有效的神经语言模型的训练量大约是一个普通儿童的1000倍。为了提高计算模型学习结果的相关性,我们需要训练那些比人类没有显著优势的模型学习者。如果一个合适的模型能成功获取一些目标语言知识,它就可以证明目标在假设的人类学习场景中是可学习的。可信的模型学习者将使我们能够进行实验操作,对学习环境中的变量进行因果推论,并严格测试,根据可学习性的推测来论证人类与生俱来的语言知识,根据对可学性的推测来论证人类先天具有语言知识的说法。基于现实和伦理方面的考虑,用人类作为实验对象是永远不可能的,这就使模型学习者成为不可或缺的资源。迄今为止,剥夺现有模型不公平优势的尝试在关键语法行为(如可接受性判断)方面获得了亚人类的结果。但是,在合理得出“语言学习需要比当前模型拥有更多的特定领域先验知识”的结论之前,我们必须首先探索以多模态刺激和多智能体交互的形式的非语言输入,从而使我们的学习者更有效地从有限的语言输入中学习。
目录【点击内容展开查看更多】
1 Introduction 介绍
在13世纪,神圣罗马帝国的皇帝腓特烈二世进行了一项令人不安的实验。他安排孩子在没有任何人类语言的情况下长大,以回答以下问题:孩子从出生起就知道哪种语言——希伯来语、拉丁语、希腊语或母语(库尔顿,1972)据报道,法老普萨姆提克和苏格兰国王詹姆斯四世(弗朗姆金等人,1974年)也进行了类似的实验的实验。尽管有明显的道德原因不应该进行更多这样的实验,但很明显,这些实验涉及到语言习得和起源方面的长期问题,我们几乎没有其他可行的方法来解决这些问题。
在过去的十年里,通过对人工神经网络(ANN)的研究,这种可能性开始变得触手可及,而且没有任何道德包袱。自从深度学习方法在自然语言处理领域取得了巨大成功(Manning, 2015; LeCun et al., 2015)以来,我们已经有机会使用人工神经网络来学习撰写高质量的多段散文、回答高中水平的阅读理解问题,以及做出类似人类的语法可接受性判断(Devlin et al., 2019; Liu et al., 2019; He et al., 2020; Brown et al., 2020; Rae et al., 2021; Chowdhery et al.,2022)。这些模型都是语言模型(LMs),它们从未标记的、自然出现的文本中学习。
此时,神经网络探测这一活跃的研究领域已开始研究语言模型的语法知识(Linzen et al., 2016; Chowdhury and Zamparelli, 2018;Gulordava et al., 2019; Wilcox et al., 2018; Warstadt and Bowman, 2019, 2020; Warstadt et al., 2020; Hu et al., 2020; Chaves, 2020; Papadimitriou et al., 2021; Choshen et al., 2021)。虽然这些研究共同发现,LMs并不总是表现出类似人类的语言理解力和语法直觉,但由于技术创新和语言能力的提高,在这方面已经取得了巨大进步。过去几年中,由于技术创新和规模扩大,在这个方向上取得了巨大进步(Manning et al., 2020; Linzen and Baroni, 2021)。
许多探索性研究的作者表明,在模型成功的程度上,这可以为关于人类语言习得的争论提供证据(Lau et al., 2017; Warstadt et al., 2018; Chowdhury and Zamparelli, 2018; Linzen, 2019; Pater, 2019; Warstadt and Bowman, 2020)。然而,大多数在这方面的研究都集中在方便但不切实际的学习场景,比如在从互联网上收集到的大量语料库上训练的大型语言模型(见图1)。因此,这些研究并不很适合回答有关人类语言学习的问题,尽管它们的方法可能是一个有用的垫脚石。同时,其他人也质疑使用神经网络来研究人类语言习得的价值,认为他们的归纳偏见太强,无法成功(Baroni,2021[1])。
本章的目标是描述我们能(以及不能)从研究人工学习者中学到关于人类语言习得的什么,以及如何最大限度地提高ANNs研究对人类学习问题的相关性。本文同意许多人的观点,即人工神经网络特别适合为低偏差学习的可能性提供证据(Lau et al., 2017; Warstadt et al.,
2018; Chowdhury and Zamparelli, 2018; Linzen, 2019; Pater, 2019; Warstadt and Bowman, 2020)。我们认为,在某些条件下计算建模结果可以更强,而最容易实现的条件是表明某种假设优势A对于获取某些目标语言知识T并非必要,从而使这一观点更加精确。
为了实现这一点,我们进行学习场景的消融研究(或剥夺实验),该学习场景缺乏A。对于我们的目的,学习场景由两个主要变量决定——学习者固有的归纳偏见和学习环境(见表1)——优势是指任何假设有助于获取T的固有偏见或环境刺激(更准确地说,当且仅当包含A的学习场景比没有A的类似学习场景更有可能导致成功获得T时,A才可以被认为是一种优势)。如果模型在剥夺A后成功,它提供了一个概念证明,即目标是可以无需A学习的。如果模型进一步没有超过人类的实质性优势,那么我们就可以得出结果很可能适用于人类,并且从可学习性考虑,并不能证明人类需要A的说法是正确的。
以下是一个示例:一个玩具消融研究,其目标是测试学习者是否需要看到三重嵌套从句来判断其可接受性,基于一个假设(可能正确也可能不正确),即人类在没有层次偏见的基于环境的学习中学习。用本文的术语,我们测试在假设SH是人类学习场景的情况下,A是否对学习T是必要的。
因此,模型学习者的积极结果比消极结果更有意义。上面的例子说明了以下原因:假设我们测试了一个模型并发现它在剥夺A后获得了T。只要模型比本文对人类的假设没有任何额外的优势,即只要模型也缺乏层次偏见,这个结果就很可能从模型推广到假设的人类场景。无论模型是否有基础,假设基础只能帮助(而不是阻碍)学习,结果是可推广的。相比之下,为了推断A对人类很可能是必要的,模型必须在至少与人类有同样多优势的场景中失败,即它也必须有基础。否则,缺乏基础可能是一个潜在的混淆因素(也许接触数字的语义加速了形态类别的学习)。虽然这个例子是理想化的,但我们认为,缺乏比人类任何不公平优势的模型学习者,通常比试图让模型具备假设的人类学习场景要实际得多。
消融实验可以为语言习得文献中常见的说法提供一个严格的检验,即学习者的输入缺乏获取某些形式语言知识的关键证据(Chomsky, 1971; Legate and Yang, 2002; Lidz et al., 2003; Berwick et al., 2011; Rasin and Aravind, 2021)。它们也可以驳斥长期存在的假设,即某些先天的语言特定偏见对于解释人类语言学习是必要的(Chomsky, 1965; Chomsky and Lasnik, 1993)。但这对人类学习的影响也有一定的限制。表明某种偏见不是必要的,并不意味着它不存在。有充分的理由认为,即使某些东西是可以学习的,它可能仍然是先天的:一个天生具有某些关键知识的个体将比必须获取这些知识的类似个体具有优势。
为了最大限度地从模型学习者中获得可推广的结果,我们需要修改当前广泛可用的模型,在某些方面变得更弱,在其他方面变得更强。例如,最先进的语言模型在语言输入的数量上比人类有巨大优势(见图1)。然而,当我们试图剥夺模型的这种优势时(Chapter 4; Chapter 5; van Schijndel et al., 2019),模型的性能就会受到影响。缩小神经网络和人类之间数据效率差距的最实际方法是用一些非语言优势交换当前LMs学习的一些大量文本输入。这些包括图像和视频等多模态输入,以及与具有成人语法的其他代理交互的输入。
本文首先从理论讨论如何将模型学习者的证据应用于人类(第2节),然后转向更实际的考虑。它调查了可用于测试类似人类语言表现的现有基准和评估方法(第3节)。然后回顾了学习环境和学习者可以(已经被)适应的方法,以提高模型学习者结果到人类的结果的相关性(第4和第5节)。讨论(第6节)论证了使用人工神经网络作为模型学习者的案例,并为构建更相关模型铺平了道路。
2 Evidence from Model Learners
来自模型学习者的证据
模型在科学中是不完美的。研究一个模型的好处是将结果从一个可处理或可观察的设置推广到一个更根本上有趣设置中。因此,模型学习者最有用的可学习性结果是那些可能对人类产生类似结论的结果。从这个角度来看,并不是所有的模型或结果都是平等的。我们推荐一种策略,即使用相对贫穷的模型学习者来获得可学习性的概念证明。我们通过理论考虑(结果从模型推广到人类的条件)支持这一建议。
2.1 Generalizing learnability Results from Models to Humans
从模型到人类的可学习性结果的推广
语言习得研究的目标之一是确定人类语言学习的充分必要条件。然而,有些东西我们不能仅仅通过观察人类轻易学到。观察人类学习环境中的优势并不能告诉我们它是否对语言学习是必要的。例如,一些孩子会接受语法的明确指导,包括负面证据,但这种优势是否必要甚至是否有用仍然是一个争论的问题(Marcus, 1993; Chouinard and Clark, 2003)。此外,在神经科学取得重大进展之前,我们无法直接且确定地观察到假设的先天语言习得装置中的具体机制是否存在于大脑中。
模型学习者的可学习性结果可以为所有这些问题提供证据。我们可以通过观察模型学习者在没有负面证据的情况下是否能学习某些目标T,来获得关于负面证据是否对学习T必要的证据。同样,我们可以通过评估一个没有这种假设归纳偏见(例如,对分层语法的偏好)的模型对T的知识,来测试学习T是否需要这种假设的归纳偏见。然而,这样的结果只告诉我们模型学习场景中这些优势是否必要,留下了关于对人类相关性的不确定性。
不幸的是,模型学习场景和人类学习场景之间可能存在显著差异,这使得这种归纳跳跃更具有挑战性。一种解决方案是尝试“反向工程”人类学习场景,正如Dupoux(2018)所倡导。随着模型和人类场景之间的差异减少,模型和人类在可学习性方面重叠的部分就越大。这意味着随着模型变得更加真实,模型的任意可学习性结果更有可能推广到人类。
因此,即使不完美的模型也可以为人类语言学习提供有用的证据。事实上,甚至可以构建假设场景,在这些场景中,不完美模型学习者的成功肯定会推广到(假设的)人类场景。下面的示例说明了模型和人类学习场景之间的差异对结果的推广没有影响:
例子
示例:对结果推广无关的差异
让模型M成为一个完美的人类模拟,除了一个例外:当M遇到被标记为“bigram”...“”的句子时,它会输出该句子在bigram模型下的概率。只要序列带有“bigram”...“”标签与我们评估模型行为无关,那么从研究M中获得的任何结果都可以完全信任地推广到人类。
更有趣的是,有些差异不会干扰预期的结论,因为它们使结果更强。这可以通过两种方式发生:首先,如果模型相对于假设的人类场景处于严格劣势,并且模型成功,那么假设的人类场景也必须足以学习目标。其次(且不太实用),如果模型处于严格优势并且失败,那么假设的人类场景必须是不足够的。
示例:加强结果推广的差异
让M成为一个与假设人类完全相同的模型学习者。假设我们正在测试人类需要至少50个带有不规则复数标记的名词示例来学习(达到一定成功阈值)它是否是单数还是复数的假设。取一组不规则复数,模型学习了这些不规则复数,并且这些复数在典型学习环境中的频率约为50个。进一步假设模型环境中存在另一个意外的缺点:对于不规则复数,主谓一致的错误率异常高。如果模型在剥夺了不规则复数的情况下,尽管存在(无关的)缺点,仍然成功,那么人类也必须成功。
当存在这样的差异时,结果的推广性取决于模型是否成功。如果我们移除不规则复数导致模型失败,那么主谓一致错误的额外缺点就是一个混淆因素:如果人类在同样的干预下没有主谓一致错误,他们也会失败吗?
2.2 Why Positive Results Are ore Relevant
为什么积极结果更具相关性
在实践中,我们将接触到的模型学习者在许多方面都是不完美的。但是,上面的示例表明,为了回答可学习性问题,没有必要追求完美的模型:只要低于人类学习者的优势就足够了。
这本身并不能解释为什么积极结果更具相关性,因为存在一个类似的情况:如果我们的模型超过了人类学习者的优势,那么它们的失败很可能推广到人类。
积极结果更具可推广性的原因是构建低于人类学习者优势的模型更容易。表2大致概述了人类和模型的相对优势。虽然两者都没有严格的优劣之分,但显然剥夺我们的模型当前的优势比为它们配备人类所有优势要容易。正如我们在第4节中讨论的,环境优势尤其如此。
这表明,获得强烈可推广的可学习性结果的一种策略是严重削弱模型学习者。这种策略的问题在于,我们不太可能从非常弱的学习者那里观察到积极结果。如果我们发现我们贫穷的模型失败了,下一步是测试这是否真的是由于剥夺,通过以无害的方式丰富模型场景来测试。这可能涉及向模型场景添加感觉运动输入、互动和其他人类享有的优势。
表2:人类和典型LMs的相对优势
2.3 Applying Ablations to Debates in Language cquisition
消融在语言习得的争论中的应用
关于语言习得的文献一直围绕着先天优势和环境优势的必要性和充分性。支持人类拥有更丰富的先天优势的自然主义者论点往往得到环境某些方面不足的支持,通常在刺激贫穷的论点下(Chomsky, 1965, 1971; Baker, 1978; Crain and Nakayama, 1987; Legate and Yang, 2002; Fodor and Crowther, 2002, i.a.)。经验主义者反驳这一立场通常试图论证已知的人类学习环境中的优势足以解释学习,考虑到领域通用的先天偏见(Landauer and Dutnais, 1997; Reali and Christiansen, 2005; Perfors et al., 2011, i.a.)。
模型学习者的剥夺研究最适合支持经验主义主张并驳斥自然主义主张。这仅仅是因为,正如上述原因,积极结果或概念证明在实践中比负面结果更具可推广性。要为自然主义主张提供强有力的证据,就必须展示在没有与典型人类相比显著劣势的模型场景中,剥夺会导致失败。
有许多具体现象,学习者的输入被认为不足以在没有某些语言特定的先天偏见的情况下获得观察到的语言行为。该主张的详尽调查超出了本文的范围,但一些例子(主要在英语中讨论,但不限于英语)包括主谓倒装(Chomsky, 1971; Crain and Nakayama, 1987; Legate and Yang, 2002)、其他结构依赖的转换(Berwick et al., 2011)、名词-名词复合词中的复数(Gordon, 1985)、助词序列排序(Kimball, 1973)、指代“一个”(Baker, 1978; Lidz et al., 2003)、“每个”的指称意义(Rasin and Aravind, 2021)、情态动词的表意意义(Van Dooren et al.)、约束(Reuland, 2017)以及韩语中的动词位置(Han et al., 2016)。
3 Tests ot Humn.Like Linguistic Knowledge
类人语言知识的测试
消融实验要求将模型学习者置于某种测试中,以检验它是否获得了某些目标类似人类的语言能力。在本节中,我们将从理论上讨论根据能力/表现的区别来测试人工学习者具有类人语言能力意味着什么,然后调查可用作语言表现测试的现有资源。
3.1 Testing for Competence ws. Pertormance
能力与表现的测试
原则上,我们感兴趣的目标语言能力可能是人类语言能力的某个方面。然而,在实践中,大多数测试都是行为性的,即针对表现。表现具有易于观察的优点,比能力更具理论中立性。相比之下,能力是人类的一个理论构造,即使是对人类来说,因此能力的测试始终受到我们对理论的信念程度的影响。
我们也可以通过表现来研究能力。我们可以将表现非常广泛地理解为包括许多行为方面,从可接受性判断到习得和阅读时间的顺序。尽管这有其局限性——在某些方面行为相同的两个系统可能具有非常不同的内部功能——但我们观察到的两个系统之间的行为相似性越多,就越有证据表明它们共享一个底层机制。
在一定程度上,由于专注于LM评估和探索的NLP研究的大量增长,现在有许多针对神经网络语法知识的不同方面的动机良好的、有控制的和具有挑战性的测试。这些测试大致分为两类:监督和非监督。非监督测试不依赖于标记的训练数据或任何超出自监督训练目标(如语言建模)的任务特定训练。因此,这些方法揭示的任何语言知识只能通过自监督的学习环境或学习者的先天能力来获得。监督测试发挥了互补作用。虽然它们为模型提供了人类无法获得的特定任务指导,但监督任务可以构建得很像人类的人工语言学习实验(G´omez and Gerken, 2000),来回答不同的问题。
3.2 Unsupervised Tests
非监督测试
非监督测试利用了LMs已经被训练来估计序列中元素wi的概率,给定前面的元素W<i< sub="">,并且这些预测可以用来估计整个序列W的概率:
我们调查了三种利用LM概率分数评估LM语法知识的任务,这些任务不需要额外的监督:可接受性判断、阅读时间预测和习得年龄预测。
3.2.1 可接受性判断,最小配对(Minimal Pairs),BLiMP
可接受性判断为语法知识提供了丰富的行为测试。它们是许多句法理论的主要实证测试(Schütze, 1996),并且语言学家已经记录了大量微妙的人类可接受性判断。此外,对于以一种语言为母语的人来说,可接受性知识既是隐性的——即不是通过教学学习的——而且被广泛分享的。
最小配对的非监督可接受性判断(有时被称为“目标句法评估”)自从几年前首次应用于LM探测以来,已经成为一种广泛评估方法(Linzen et al., 2016; Marvin and Linzen, 2018)。这种方法依赖于这样一个假设:一个符合语法规则的句子Wgood应该比一个最小差异的不符合语法规则的句子Wbad有更高的概率,以便说LM正确预测了可接受性的对比,当且仅当
最小配对有几个优点。
1. 它们放大了在可接受和不可接受句子之间的决策边界。
2. 它们使得评估模型预测可接受性梯度差异的能力成为可能:即使单个句子的布尔可接受性判断很困难,这种强制选择偏好判断也是高度可重复的(Sprouse et al., 2013)。
3. 组成最小配对的句子通常在长度和单字概率上非常匹配,这是与可接受性正交的序列概率的两个决定因素(Lau et al., 2017)。
BLiMP(The Benchmark of Linguistic Minimal Pairs; Chapter 3)是用于语言模型评分的最大规模资源。它测试了英语中的67种最小配对类型,每种类型包含1k对,分为12个广泛的类别。这些类别涵盖了形态学(例如主谓一致和限定词-名词一致)、句法(例如论元结构、岛屿效应和约束)以及语义现象(例如量化和否定极性项)。表3显示了BLiMP涵盖的每个类别的一个最小对类型的示例。与之密切相关的是SyntaxGym(Gauthier et al., 2020; Hu et al., 2020),它采用了LM评分范式的一种版本,其中模型的预测必须符合一组句子的多个假设不等式,而不仅仅是最小配对。
3.2.2 其他行为预测:阅读时间,习得年龄
语言模型分数可以用来预测人类语言表现的其他方面。阅读时间就是一个典型的例子。例如,Wilcox et al. (2021) 使用SyntaxGym测试LMs对人类的在线处理难度的预测。基于理论假设,即人类在线处理时间与LM在上下文中预测的单词概率之间应该存在对数线性关系(Hale, 2001; Levy, 2008),可以测试类人处理能力是如何习得的。相关的是Natural Stories语料库(Futrell et al., 2021),它提供了自然语境中多样化句子类型的人类阅读时间,可用于构建人类学习轨迹,我们将这些轨迹与LMs的学习轨迹进行比较(Chang and Bergen, 2022)。
预测习得年龄是另一个可能的人类和模型之间的比较点。通过像Wordbank(Frank et al., 2017)这样的数据库,我们有大量关于词汇发展的大型多语言父母报告数据。这些数据可以用来构建人类的项目级学习轨迹,我们可以将这些轨迹与LMs的学习轨迹进行比较。
3.3 Supervised Tests
监督测试
像词性标记、依赖弧标注和共指解析这样的监督分类任务已经被用作NLP中的模型评估探测任务(Ettinger et al., 2016; Shi et al., 2016; Adi et al., 2017; Tenney et al., 2019; Hewitt and Manning, 2019; Belinkov and Glass, 2019)。最近,这些方法“因为监督的使用使得很难将通过训练在更认知合理的LM任务上获得的知识与通过后续的特定任务微调获得的知识区分开来”而受到广泛批评(Hewitt and Liang, 2019; Pimentel et al., 2020; Voita and Titov, 2020)。在本节中,我们调查了一组评估任务,这些任务使用约束监督来探测神经网络如何泛化。在这种方法中,研究的不是对训练数据中某一特定现象的了解,而是模型是否以我们人类期望的方式将知识扩展到未知案例。
这种方法可以告诉我们模型在多大程度上形成由一致的高级规则控制的泛化。例如,COGS(Compositional Generalization Challenge based on Semantic Interpretation; Kim and Linzen, 2020)是一个语义解析数据集,其中测试数据的某些语义配置被系统保地从训练数据中留。如果模型能够学习到语义、语法和表面形式之间的关系是由一组一般的组合和短语结构规则决定的,那么它应该能够正确解析任何句法位置中的名词,即使它在训练过程中只看到了处于宾语位置的名词。
约束监督对于探测神经网络的归纳偏见也很有用。刺激贫穷的实验设计(Wilson, 2006)为此提供了一个范例。图2给出了第4章中遵循这种设计的实验示例。学习者在给定数据的情况下接受任务训练,这些数据在(至少)两个假设之间存在歧义,并在假设做出不同预测的数据上进行测试。例如,许多研究使用这种设计来测试ANNs是否倾向于基于句法结构的泛化还是基于线性顺序的泛化进行主谓倒装(Frank and Mathis, 2007; McCoy et al., 2018, 2020; Warstadt and Bowman, 2020)。
利用这种设计的大规模数据集是MSGS(第4章),它测试学习者是否偏向于语言或表面泛化。MSGS由20个模糊任务组成,每个任务将4种语言泛化(例如,标签指示句子的主动词是否处于进行时态)与5种表面泛化(例如,标签指示句子是否超过10个词)配对。在并行工作中,Lovering et al. (2021) 引入了一个类似的数据集,其中语言泛化不以任意方式应用语言特征,而是对应于可接受性判断。
3.3.1 域外测试告诉我们
关于可学习性的信息
尽管人类的输入没有用语言特征进行注释,但在带有这种标记数据的监督任务上训练和测试模型仍然可以提供有关人类学习的有用证据。关键是使用LMs为特定任务提供语言特征,这些特征是从一般的预训练环境中习得的。这可以是NLP中流行的预训练和微调范式(Dai and Le, 2015; Howard and Ruder, 2018; Radford et al., 2018; Devlin et al., 2019),或者是基于提示的少量样本学习范式(Brown et al., 2020)。
遵循这种设置,实验可以告诉我们,例如,层次偏见或组合性偏见这样的归纳偏见是否可以通过暴露于未结构化的学习环境中获得(Chapter 4; Warstadt and Bowman, 2020)。虽然这种归纳偏见并非先天存在于学习者中,但它仍然可以影响学习者在遇到学习过程中的子问题时如何形成泛化。
4 The Learming Environment
学习环境
大型语言模型(LMs)的学习环境与人类学习环境存在差异,这些差异既有优势也有劣势。一方面,目前广泛研究的LMs接触到的词汇量是人类学习者的数百或数千倍,而且这些文本大多是书面或编辑过的。另一方面,儿童在一个与他人互动的基础环境中学习。这只是影响语言学习的众多学习环境差异中最为明显的一个。
这些差异的存在大大削弱了我们将模型学习者的结果推广到人类的有效性。为了获得关于人类学习条件的有力积极证据,我们需要为人工学习者创建一个学习环境,这个环境代表了人类学习者输入的丰富程度的下限。学习者的环境不应超过人类可获得的数据量或质量。当然,如果一个模型在比人类更贫穷的环境中成功学习了一些目标知识——例如,只包含几千个单词的环境——那么这个结果很可能推广到人类。然而,通过限制LMs的文本数据量来尝试这一点的初步实验发现,它们无法获得关键的语言能力Chapter 5; van Schijndel et al., 2019)。幸运地是,我们有很大的空间通过多模态输入和交互目标来丰富LMs的学习环境,而不会超过人类的输入丰富程度。
4.1 Data Quantity
数据量
大多数用于自然语言处理(NLP)的ANNs在人类学习者之上训练了更多的词汇。虽然几年前并非如此,但这种趋势一直在增加。因此,对人类语言习得感兴趣的研究人员已经开始有意识地将注意力转向评估在更接近人类规模的数据集上训练的模型(Chapter 3; Chapter 4; Chapter 5 van Schijndel et al., 2019; Hu et al., 2020; Pannitto and Herbelot, 2020; P´erez-Mayos et al., 2021)。
然而,确定一个普通人类学习者接触到多少词汇并不简单。最著名的数据来自Hart和Risley(1992)对美国英语家庭环境中儿童语言接触的研究(Hart and Risley, 1992)。他们发现,儿童每年接触到的词汇量从1100万到300万不等。这些数字包括家庭环境中的所有言语,不仅仅是针对儿童的言语。Gilkerson等人(2017)的更近期的研究将这一估计值定在每年大约200万到700万词汇之间(从平均每天的词汇量±1个标准差推算而来)。以青春期开始作为语言习得的一个大致截止点,并假设这些速率在童年期间保持一致,一个孩子将通过接触数千万到高达一亿词汇来习得语言。
相比之下,流行的神经语言模型是在包含更多数据的语料库上训练的(见图1):ELMo(Peters等人,2018)在10亿词汇上进行训练,BERT(Devlin等人,2019)在约33亿词汇上进行训练,RoBERTa(Liu等人,2019)在约300亿词汇上进行训练,而GPT-3(Brown等人,2020)在约2000亿词汇上进行训练。因此,这些模型中最贫乏的一个在语言经验上相当于大约300年的人类经验,而最丰富的则相当于2万年的人类经验。
我们已经能够得出一些结论:语言模型的语言学表现如何随着可用数据量的增加而变化。第5章使用BLiMP评估了在从100万到10亿词汇的数据集上训练的模型。图3总结了他们的结果,显示了语言模型在可用训练数据量的影响下对可接受性对比的敏感度增长。他们发现,当使用无监督的语言模型评分进行测试时,语言模型在大量数据下确实能够学习到许多类似人类的概括。在大约300亿词汇上训练的RoBERTaBASE(Liu et al., 2019)在12个BLiMP类别中的6个上实现了接近人类的表现(我们定义为准确率在人类水平上下2个百分点或更好)。这些类别包括涉及长距离句法依赖的现象(如填充-空位依赖和岛屿效应),这些现象已经被认为是对语言模型的挑战(第3章)。
另一方面,当限制在人类规模的数据量时,语言模型通常无法达到人类水平的准确率。根据同一研究,以人类规模在1亿词汇上训练的RoBERTa模型在最多2个BLiMP类别上实现了接近人类的表现(图4)。在1000万词汇上训练的模型表现更差,令人惊讶的是,它们只在BLiMP的一个类别上达到了接近人类的效果。
4.2 Data Source
数据源
人类和模型学习环境之间的另一个分歧点是语言数据的来源。主要的分布差异之一是,学龄前儿童的所有语言输入都是口头或手语。理想情况下,模型学习者的环境应该由真实交流的非结构化音频或视频组成。虽然在这些数据上训练LMs已经迈出了初步的步伐((Nguyen et al., 2020; Lakhotia et al., 2021; Lavechin et al., 2022),但这些模型还没有足够先进,无法学习复杂的语法。
只要基于文本的训练仍然是训练有效语言模型(LMs)的主要可行选项,那么最具生态有效性的文本领域就是转录语音。这类数据的一个来源是CHILDES,这是一个父母与儿童对话的转录数据库(MacWhinney, 2014)。实际上,这种面向儿童的言语是许多儿童学习者输入的主要来源,有些人甚至只使用面向儿童的言语来训练模型学习者(Reali and Christiansen, 2005; Perfors et al., 2011)。这可能有些过度:面向儿童的言语只占儿童学习者语言输入的一部分,在某些社区中,它非常罕见(Cristia et al., 2019)。目前的一个额外障碍是CHILDES的规模,其美式英语部分只包含大约500万个单词(Huebner et al., 2021),相当于1或2岁儿童的语言输入量。
另一个大规模的转录口语数据来源是COCA(Davies, 2009),它包含了来自无剧本的广播和电视节目的8300万字转录。在生态有效性方面稍逊一筹的是OpenSubtitles(Lison and Tiedemann, 2016),它包含了超过20亿个英语字幕,来自有剧本和无剧本的电视和广播节目,以及超过1亿字的其他多种语言字幕。虽然这些数据集最终不是获得最普遍概念证明所需的,但它们可以提供比目前用于训练流行语言模型(如维基百科、新闻和网络数据)的训练数据更有说服力的证据。
4.3 Prosody
韵律
言语中存在大量的语言信息,这些信息在文本中并不存在,尤其是韵律。韵律引导在句法习得中被认为扮演着重要角色((Gleitman and Wanner, 1982; Soderstrom et al., 2003),因此LMs在这方面处于明显劣势。另一方面,文本数据具有标点和空白,并且在输入到LM之前进行了分词,这为模型在检测单词、短语和句子边界方面提供了优势。再次强调,如果实际限制不是问题,那么最好研究主要在音频上训练的模型。但由于目前这并不完全实用,我们仍然可以从文本训练的LMs中学到很多东西。文本在相当有限的方面超过了语音的丰富性,这意味着文本训练的LMs的结果仍然为人类提供了提示性的证据。
4.4 Non.Linguistic input
非语言输入
尽管在ANNs通常研究的语言环境中有一些优势,但与人类相比,它们在非语言输入方面存在严重的劣势。大多数ANNs在文本环境中学习,其训练目标是简单的LM,而人类则在一个多方面的环境中学习,这个环境中有多种形式的感官输入、其他代理以及复杂的风险和奖励。这些非语言输入对语法学习的影响可能比语言输入的变化更为间接。尽管如此,它们可能仍然是实质性的,特别是在学习者所需的语言输入量方面。
4.4.1 多模态输入
语言习得理论长期以来一直假设感觉运动输入在语法学习中扮演着重要角色。通过感觉运动输入获得的概念框架被认为可以加速或改善语法学习(Howell et al,2005)。这是早期词汇习得中名词偏好的一个解释:对象的概念可能比关系或物体属性的概念更早被学习(Gentner,1982)。
任何典型的语言模型所拥有的概念框架都必须从文本中获得。因此,在LMs的早期语言学习阶段,概念知识并不可用。事实上,这些模型最终能够获得一些世界知识。预训练模型可以作为知识库,准确完成事实性的陈述(Petroni et al., 2019),并在关注物理和社会常识的挑战集上取得较好表现(Zellers et al., 2018; Huang et al., 2019; Sakaguchi et al., 2020)。但即使是通过这些基准测试的模型,仍然显示出不一致或矛盾的知识(Elazar et al., 2021a)。此外,即使是在这些有限的基准测试上取得较好表现,所需的训练数据量也在数十亿字词的级别(第5章)。因此,语言模型能够获得的有限世界知识对于从人类规模数据中的语言习得来说不太可能有用。
一个理想的模型学习者会经历与典型儿童无法区分的感觉运动输入。如果我们只关注视听领域,最接近这个理想环境的是SAYCam数据集(Sullivan et al., 2021),它由3岁以下儿童佩戴的头戴式摄像头记录的第一人称视角音频和视频组成。虽然这些数据已经被用于训练计算机视觉模型(Orhan et al.),但由于其音频记录中估计只有100万到200万字,目前它包含的语言数据太少,无法用于模拟超过最初几个月的语言学习。
在实际应用的另一端,有越来越多的ANNs同时在视觉和语言数据上进行训练(Lazaridou et al., 2015; Lu et al., 2019; Tan and Bansal, 2019; Chen et al., 2020; Su et al., 2020; Radford et al., 2021; Kamath et al., 2021; Singh et al., 2021)。基于Transformer的多模态模型接受文本-图像对作为输入,这些输入被传递到一个共享的多模态编码器(可能在通过单独的单模态编码器后)。大多数模型使用类似于语言建模的自监督目标进行预训练。本文总结了三个代表性的目标:
1. 遮蔽多模态建模:目标是从图像-文本对中重建遮蔽的文本或图像区域(Tan and Bansal, 2019)。无论掩蔽是只发生在文本中,只发生在图像中,还是同时发生在图像和文本中,方法各不相同。
2. 图像-文本匹配:目标是将图像-文本对分类为匹配(例如,图像及其标题)或不匹配(即随机对齐)。
3. 对比:给定N个匹配的图像-文本对,目标是在共享的嵌入空间中最大化所有N个匹配对的表示相似性,并最小化所有N(N-1)个不匹配对的相似性(Radford et al., 2021)。
尽管这个领域取得了快速进展,但迄今为止几乎没有结果表明,丰富神经网络的视觉环境会促进更好的语言学习。多模态模型的语言编码器通常使用预训练的语言模型的权重进行初始化,但这些多模态模型在语言评估上始终比原始的语言模型表现更差(Iki and Aizawa, 2021)。同样,从头开始在多模态语料库上训练的模型未能显著优于仅在语料库的文本部分上训练的模型(Yun et al., 2021)。
这些结果可能反映了当前多模态模型的局限性,而不是多模态输入的实用性的根本限制。例如,典型多模态模型的语言输入甚至比语言模型更远于人类学习者。大多数模型完全在像MS COCO或Visual Genome(Chen et al., 2015; Krishna et al., 2017)这样的图像字幕数据集上进行训练,这些数据集缺乏扩展的话语和对话,并且包含非代表性的句子类型样本。此外,人类的视觉输入是连续和移动的,因此比静态图像更丰富。视频和语言模型没有实现更真实的训练环境。例如,VideoBERT是在YouTube烹饪视频和自动语音识别文本上进行训练的(Sun et al., 2019)。
4.4.2 交互学习
人类和模型学习环境之间的另一个分歧点是语言数据的来源。主要的分布差异之一是,学龄前儿童的所有语言输入都是口头或手语。理想情况下,模型学习者的环境应该由真实交流的非结构化音频或视频组成。虽然在这些数据上训练LMs已经迈出了初步的步伐((Nguyen et al., 2020; Lakhotia et al., 2021; Lavechin et al., 2022),但这些模型还没有足够先进,无法学习复杂的语法。
只要基于文本的训练仍然是训练有效语言模型(LMs)的主要可行选项,那么最具生态有效性的文本领域就是转录语音。这类数据的一个来源是CHILDES,这是一个父母与儿童对话的转录数据库(MacWhinney, 2014)。实际上,这种面向儿童的言语是许多儿童学习者输入的主要来源,有些人甚至只使用面向儿童的言语来训练模型学习者(Reali and Christiansen, 2005; Perfors et al., 2011)。这可能有些过度:面向儿童的言语只占儿童学习者语言输入的一部分,在某些社区中,它非常罕见(Cristia et al., 2019)。目前的一个额外障碍是CHILDES的规模,其美式英语部分只包含大约500万个单词(Huebner et al., 2021),相当于1或2岁儿童的语言输入量。
另一个大规模的转录口语数据来源是COCA(Davies, 2009),它包含了来自无剧本的广播和电视节目的8300万字转录。在生态有效性方面稍逊一筹的是OpenSubtitles(Lison and Tiedemann, 2016),它包含了超过20亿个英语字幕,来自有剧本和无剧本的电视和广播节目,以及超过1亿字的其他多种语言字幕。虽然这些数据集最终不是获得最普遍概念证明所需的,但它们可以提供比目前用于训练流行语言模型(如维基百科、新闻和网络数据)的训练数据更有说服力的证据。
5 The Learner
学习者
在本节中,我们考虑了关于可学习性的强有力证据的最后一个条件:一个合适的模型学习者。在理论层面上,考虑因素与学习环境相同。也就是说,模型学习者相对于人类的优势越少(独立于实验操作),从消融实验中获得的积极结果就越有可能推广到人类。在这种情况下,相关的优势是通过学习者的结构或学习算法构建的属性。
然而,构建一个理想的模型学习者的道路并非明确。这与学习环境的情况形成了鲜明对比。确定什么构成先天优势引发了关于归纳偏见本质的理论问题。探测模型的归纳偏见本身就是一个具有挑战性的实证问题。我们对控制模型学习者的归纳偏见的能力非常有限,而且要真正证明模型学习者的归纳偏见不比人类更有优势,我们需要对人类的先天优势有一定的理解。因此,我们必须依赖对人类和模型学习者的理论理解以及关于它们偏见的实证结果来做出关于它们相对优势的知情(尽管主观)判断。
5.1 formalizing lnnate Advantage
形式化先天优势
在解决这些问题之前,我们需要一种量化和比较人类和模型之间先天优势的方法。我们可以将先天优势的概念重新解释为归纳偏见。学习者的归纳偏见决定了它从有限的示例集中得到哪种推广;换句话说,它是如何进行归纳跳跃的。大致上,如果学习者的归纳偏见有利于“正确”的概括,那么它就具有先天优势。
我们可以更精确地表达这种直觉。首先,假设我们正在对学习者进行特定的评估任务,目标是在某个实例空间X上学习一个目标概念C的二元分类函数。例如,X可能是所有字符串的集合,C是包含X中所有且仅包含可接受句子的集合。或者,X可能是所有有序句子对(s1,s2)的集合,C是所有s1比s2更可接受的对的集合。假设空间H是在X上定义的所有二元分类函数的集合,即包含每个元素的特征函数的集合P(X)。
回顾我们的目标:量化学习者倾向于正确概括的程度,以便我们可以在学习者之间进行比较。直观上,这对应于学习者赋予特征函数h*的概率,该函数表征了目标概念C:
学习者的先验PL(H)可以通过指定我们期望学习者暴露于其中的学习环境e的类型来更好地理解:
如果我们假设L通过确定性算法学习,那么对于单个假设h∈H,PL(H | e)= 1,对于所有其他假设则为0,即L是从学习环境e到假设。即L是从学习环境e到假设h的函数。因此,我们可以这样表达学习者的先天优势:
换句话说,学习者的先天优势是它在特定学习环境分布的假设下,收敛于目标假设的总概率。相对性的环境分布优势是由直觉驱动的,即一些学习环境比其他环境更典型。如果学习者在某些高度设计的环境中赋予正确的泛化更高的权重,那么它就没有优势,但在典型的环境中却很少。这意味着,为了评估一个学习者是否比另一个学习者有优势,我们必须比较使用相同的学习环境先验分布来比较优势。
对先天优势的朴素概念的另一个合理细化是:通常没有一个我们认为是类人的分类函数h*,而是有一整套函数H*。这个集合可以定义为在可能近似正确的学习框架(Valiant, 1984; Haussler, 1990)中,与h*相比具有小于某个误差容忍度ε的概括误差的概括集合。或者,认识到成年人语法中存在个体差异,它可以是与典型母语者相符的概括集合。
这些要素使我们能够量化学习者L相对于目标概括类H*的先天优势A,如下所示:
这个量简单地表示L在一个典型的学习环境(由先验环境定义)中收敛到一个可接受的泛化的总概率。
5.2 A Lower Bound on Human inductive Bias
人类归纳偏见的下限
正式定义先天优势的好处在于,它可以提供一个大致的指导方针来确定一个合适的模型学习者。它并不能提供一个可用的标准来保证模型的适用性,因为实际上在模型和人类中测量这一点是不切实际的。它也很少有助于明确我们如何建立更好的模型学习者。我们控制模型学习者归纳偏见的能力是有限的。我们受到可用学习者集合的限制,而开发有效的新型人工学习者是一个庞大且成熟的研究领域。因此,尽管围绕理想模型学习者的理论考虑与我们对模型环境的考虑相似,但在实践中,我们能够保证或实现人类先天优势的严格下限的可能性要小得多。
比较神经网络和人类的归纳偏见可能需要大量的实证工作,这比进行像消融这样的实验操作更为复杂。对于模型学习者来说,估计A(L, H*)的原生方法是一个蒙特卡洛近似(Wilson and Izmailov, 2020),即在采样的学习环境中反复训练学习者并在目标评估上进行测试。但这几乎不可能成为对模型学习者进行实验的先决条件,因为这需要重复整个实验。对于测量人类的归纳偏见来说,情况甚至更糟。为了使消融的论证成立,我们必须说服自己,人类在消融的环境中至少有同样的优势。为了确定这一点,我们需要估计人类在消融环境中的先验分布。但如果我们已经有了这些信息,这将消除研究模型学习者的大部分必要性。唯一令人信服的解决方案是开发技术,以便在不依赖于观察每个学习者在典型环境中如何泛化的情况下,比较模型和人类的归纳偏见。
5.2.1 误解1:一个好的模型学习者
必须是无偏见的
一个可能的误解是,为了证明某些先天偏见对语言习得并非必要,模型学习者必须是无偏见的白板。首先,这是一个不可能达到的标准,因为所有学习者都有一定的归纳偏见。归纳偏见只是对假设空间的先验,因此是任何学习者的必要属性(Mitchell,1980)。其次,我们没有听说过人类是完全无偏见的学习者。许多人认为,语言特定的偏见并不是解释语言习得所必需的(Kirby, 1999; Reali and Christiansen, 2005; Clark and Lappin, 2011; Christiansen and Chater, 2016)。他们建议,我们可能拥有帮助我们进行语言习得的领域通用偏见。为了证明这一主张的存在,模型学习者只需要缺乏语言特定的偏见,并且可以拥有领域通用的偏见,只要它不比人类的偏见强。
一个偏见是语言特定的意味着什么?这甚至不是一个精确的概念。这个问题的微妙之处的一个例子是层次偏见。乔姆斯基(Chomsky)著名地主张,人类有一种基于语法操作(如主谓倒装)的句法结构形成概括的偏见,而线性概括足以描述大部分数据(Chomsky,1965)。然而,这种偏见到底有多语言特定是可以质疑的,因为人类认知的非语言方面也使用层次结构,如音乐(Lerdahl等人,1983)和分类。最近,乔姆斯基声称,使语言学习成为可能的主要先天禀赋是无界合并(unbounded Merge),或者说是形成递归概念的能力(Chomsky,2007)。在这种观点中,合并在我们所知的语言出现之前就已经存在:它主要是为了促进抽象思维而进化的,后来语言才借用了这种操作。虽然乔姆斯基建议,这种形态的合并与思维语言有关,但是否可以声称它真正是语言特定的,似乎更多的是术语问题,而不是实际的实质性辩论。最终,是否将归纳偏见视为语言特定的可能是误导的。相反,那些将更多先验概率放在我们认为存在于自然语言中的语法结构上的概括上的学习者具有更强的语言偏见。
5.2.2 误解2:更具表现力的模型
具有优势
另一个可能的误解是,具有更大表达能力的模型比表达能力较弱的模型具有优势。当然,这通常是正确的:有许多例子表明,更具表现力的模型在某些领域具有优势。例如,一个一元语言模型(unigram LM)比具有回退(backoff)的二元语言模型(bigram LM)表达能力较弱(Katz, 1987),在模拟某些语法领域,如“The cats purr)/*The cat purr”这样的局部主谓一致性时,它显然处于劣势。但这是由于二元语言模型,而不是一元语言模型,推理的假设空间与目标概括集合H*重叠,而一元模型则不重叠。换句话说,A(unigram,H*)= 0,A(bigram,H*)≥ 0。我们得到的印象是,表达能力较弱的模型可能通常处于劣势,因为较小的假设空间通常与H*的重叠较少。
但实际上,学习者有时通过变得不那么表达能力强而获得优势。当学习者的假设空间以一种高度特定的方式缩小,以排除错误的假设,并将一些释放出的概率质量放在H*上时,就会发生这种情况。这正是自然主义语言习得理论中假设的先天优势的本质。
在语言习得的贝叶斯模型中,这种先天优势通常被构建在内(Perfors et al., 2011; Abend et al., 2017; Yang and Piantadosi, 2022)。以Perfors等人研究的贝叶斯语法归纳系统为例,该系统仅针对几种形式系统进行推理,包括有限的上下文无关文法和有限状态文法。与典型的LSTM或Transformer语言模型相比,这个学习者有一个高度限制和尖锐的先验。虽然这对于许多任务来说是一个劣势,但在学习特定英语语法规则时,它是一个优势,因为学习者的归纳偏见相对地赋予了英语类语法较大的权重。
5.3 Achieving a lower Bound
on Human inductive Bias in Practice
在实践中实现人类归纳偏见的下限
实际上,我们选择适当的模型学习者的能力受到现有模型的限制。近年来,由于大量的实证研究,我们对这些模型的归纳偏见有了更深入的理解。
5.3.1 可用模型
当代自然语言处理(NLP)研究主要使用了少量的神经网络架构。循环神经网络(RNNs)(Elman,1990)如长短期记忆网络(LSTMs)(Hochreiter, Schmidhuber,1997)和门控循环单元(GRUs)(Chung et al,2014)在语言模型(LM)探测中仍然被广泛研究,但Transformers(Vaswani et al,2017)在现代NLP应用中占据主导地位。
5.3.2 神经网络架构的归纳偏见
这些模型是否代表了人类先天归纳偏见的严格下限?严格来说,答案可能是“否”。如果它们的归纳偏见没有给它们带来任何优势,那就有些令人惊讶了。这些模型之所以在NLP应用中广泛使用,部分原因是它们能够在大型语料库上高效训练,这也表明它们可能具有比其他可想象的学习者更有利的归纳偏见。
那么,我们对这些模型的归纳偏见了解多少,它们的结果是否可能推广到人类?越来越多的研究通过评估神经网络的多种类似人类的归纳偏见来解决这些问题。许多研究发现,在自我监督训练之前,人工神经网络(ANNs)缺乏多种类人的归纳偏见。一个显著的例子是,人类,而不是ANNs,表现出强烈的组合性偏见。语言的一个关键特性是,语言中的单词和短语对更大成分的语义做出稳定的组合贡献(Montague, 1973; Fodor and Pylyshyn, 1988)。这一特性的一个后果是,人类可以在任何适当的上下文中理解新学单词的组合语义贡献(Lake et al,2019)。然而,ANNs在类似人类数据规模下普遍无法进行组合概括(Lake and Baroni,2018;Kim and Linzen,2020;Keysers et al,2020)。
ANNs通常也缺乏采用层次概括的偏见。McCoy等人(2020)使用“刺激贫乏”方法在几种RNNs上测试了一个模糊的主谓倒装任务,发现没有一种模型能够收敛到系统的层次概括。随后,Petty和Frank(2021)对Transformers也展示了类似的结果。
ANNs似乎缺乏这些类似人类的偏见,这可能使它们成为更合适的模型学习者,原因有两个。首先,这意味着它们在这些方面可能没有对人类有特别的先天优势。其次,如果研究的目标是确定,例如,一种先天的结构偏见是否对学习某个目标是必要的,那么一个现成的ANN已经是相对合适的测试对象,无需对偏见进行任何特殊修改。然而,关于它们的归纳偏差,需要更有力的证据来得到强有力的存在性证明。
一个实际问题是,使用RNNs还是Transformers作为模型学习者是否有优势。RNNs具有强烈的局部性偏见(Dhingra et al,2018;Ravfogel et al,2019),而Transformers则没有。这是模型架构的结果:RNNs内置了线性顺序的概念,因为它们只从前一个标记的输出获取关于序列其余部分的信息。相比之下,Transformers只通过添加到输入中的一组专门的定位嵌入来接收关于线性顺序的信息。因此,Transformers必须从头学习定位嵌入的语义,包括局部性等概念。
另一方面,LSTMs和Transformers的偏见差异可能比人们预期的在语法学习方面要小。例如,在第3章中,我计算了BLiMP上成对LMs准确度分数之间的相关性。在包括一个n-gram模型、一个LSTM和两个Transformer的模型群体中,我发现最相关的模型是LSTM和其中一个Transformer。
5.4 Summary
总结
虽然目前广泛可用的神经网络远非理想的模型学习者,但它们的结果很可能与人类语言习得相关。最引人注目的是,随机初始化的Transformer或LSTM在支持有效语言概括方面几乎没有先天偏见。事实上,这些模型通常具有较弱的归纳偏见,这从它们在许多领域(不仅仅是语言)的有效性以及它们庞大的假设空间中可以看出。换句话说,如果我们比较任意选择的人类婴儿和人工神经网络,两者都没有接触过语言,我们应该期望人类在有效的语言概括上赋予更高的概率。这个思想实验提供了一些保证,即人工神经网络在语言学习方面并没有比人类拥有实质性的先天优势。
尽管如此,我们不能确定我们的模型没有任何优势。我们对人类和模型的归纳偏见的理解和量化能力有限,模型确实表现出一些超人或非人类的能力。此外,虽然我们有能力通过架构变化来修改神经网络的归纳偏见,但我们对学习环境的控制程度远不如对模型学习者的控制。这在一定程度上限制了我们提高模型的认知合理性以及进行模型学习者归纳偏见的受控实验的可能性,但并没有完全排除这种可能性。
6 Discurssion
讨论
我们开始确定人工神经网络能告诉我们关于人类语言习得的什么知识。我们已经展示了在最好的情况下,模型学习者将能够证明特定的语言行为在贫乏条件下是可学习的,从而有助于确定学习环境和学习者中假设优势的因果角色。我们还概述了通往这一最好情况的道路。然而,我们离最好的情况还很远。这对已经在这一领域进行的工作意味着什么?
6.1 The Case for odel Learners
模型学习者的情况
目前,研究神经网络作为人类学习者模型的最有力理由涉及成本、伦理和新的实验范式。对人工学习者的研究比对儿童的研究更具可扩展性。凭借当前的语言模型架构和硬件,对人类学习者整个语言习得期的完整模拟可以在单台计算机上进行一周。并行化可以使这个过程更快。在这段时间的培训期间,几乎不需要手动操作。
对人工学习者的实验几乎没有伦理限制。这与对人类受试者(尤其是婴儿)的实验形成鲜明对比,后者必须对受试者造成最小的风险。通过设计,消融通常对学习结果非常有害,这意味着我们永远不能对L1习得进行消融。除了对人工语言学习进行实验外,我们对语言习得的消融实验只能在模型学习者上进行。
最后,使用模型学习者解锁了许多对人类受试者来说不切实际的新实验范式。通过模拟,我们可以访问学习算法的所有方面、学习者和学习环境。机器学习方法提供了许多操纵学习算法的方法,从训练目标和正则化到课程和多任务训练。我们可以简单地通过改变神经架构或超参数(如深度)来操纵学习者的内部结构,或者进行因果干预,如改变单个神经元(Vig et al., 2020; Finlayson et al., 2021)或可解释的语言特征(Ravfogel et al., 2020; Elazar et al., 2021b)。但可以说,最大的潜力在于我们操纵学习环境的能力。我们不仅局限于操纵训练数据的规模或来源。从自然语料库开始,我们可以操纵句法现象和词类的分布,添加噪声,或者添加反事实现象。
6.2 The future of Model learners
模型学习者的未来
有一点是清楚的:机器学习和NLP正在以前所未有的速度发展。这使得使用人工学习者作为人类语言习得模型的可能性尤为突出。在过去的十年里,人工学习者处理人类语言的能力以及我们获取这些模型的能力取得了显著进展。我们对语言习得的可学习性的理解发生了转变,这自然应该对关于人类语言习得的辩论产生一些实际影响。
为了实现这一目标,我们必须有意识地选择构建更具生态有效性的学习者和学习环境。虽然NLP社区可以在这个问题上取得实质性进展,但重点往往放在以任何代价提高已知NLP任务的最新水平上。同样,虽然语言模型探测和“BERTology”已经成为近年来的重要子领域(Rogers et al,2020),但这项工作通常集中在像BERT这样的里程碑模型或当时的最先进水平上。为了获得更有用的认知模型,认知科学家需要有意识地培养一个基于NLP的模型构建研究议程,但目标是独立的。设定严格的预训练数据量和性质上限的基准和竞赛可以集中注意力于这一目标。拥有更多合理的模型学习者群体将使研究人员能够利用现有的LM探测方法来加速人类语言习得问题的进展。
虽然近期关于人工学习者的工作不太可能提供关于人类可学习性的不可辩驳的证据,但我们并不认为这是导致绝望的原因。一个不符合严格条件的模型学习者(即没有比人类更有优势)仍然可以为人类可学习性提供收敛的证据。随着我们构建更合理的学习环境和学习者,证据会变得越来越强。