前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >定义智能: Bridging the gap between human and artificial perspectives

定义智能: Bridging the gap between human and artificial perspectives

作者头像
CreateAMind
发布2024-06-17 18:18:38
700
发布2024-06-17 18:18:38
举报
文章被收录于专栏:CreateAMindCreateAMind

Defining intelligence: Bridging the gap between human and artificial perspectives

https://www.sciencedirect.com/science/article/pii/S0160289624000266

相关两篇综述:

定义智能,测量智能

Bengio:实现AGI的主要原则已经被发现?剩下的主要障碍是扩大规模?还是。。

突出

  • • 为人类智能和人工智能提出了统一的定义。
  • • 区分人工成就/专业知识和人工智能。
  • • 倡导 AI 指标,以确保高质量的 AI 系统评估。
  • • 描述反映人类通用智能的通用智能 (AGI)。
  • • 目前的证据支持人工成就的存在而不是智力

抽象

实现一个被广泛接受的人类智能定义一直具有挑战性,计算机科学中人工智能的不同定义反映了这种情况。通过批判性地检查已发表的定义,强调一致性和不一致性,本文提出了一个改进的命名法,以协调两个学科的概念化。 提出了人类和人工智能的抽象和操作定义,强调通过各自的感知认知和计算过程成功完成新目标的最大能力。此外,还支持将人类和人工的智能视为与多维能力模型一致的智能。 还描述了当前人工智能培训和测试实践的影响,因为它们有望带来人工成就或专业知识,而不是人工智能。与心理测量学平行,“人工智能指标”被认为是一门必要的计算机科学学科,它承认测试信度和效度的重要性,以及人工系统评估中的标准化测量程序。 与人类通用智能相提并论,通用人工智能(AGI)被描述为人工系统性能的共同差异的反映。 我们得出的结论是,目前的证据更强烈地支持了对人工智能的人工成就和专业知识的观察。 然而,基于对智能本质的共同理解以及合理的测量实践的跨学科合作可以促进科学创新,有助于弥合人工智能和类人智能之间的差距。

1. 引言

人类智力是心理学中最古老、争论最激烈的维度之一(Deary,2020 年;Jensen,1998年)。即使试图实现一个普遍同意的人类智力定义也被证明是困难的(Bartholomew,2004;Sternberg和Detterman,1986)。计算机科学领域也产生了许多人工智能的定义(Legg&Hutter,2007a;Monett和Lewis,2018)。 如果结构概念化的分歧和不一致会导致研究工作支离破碎,阻碍统一理论框架的发展,并为研究人员之间的有效沟通和协作造成障碍,那么可以预期它们会阻碍科学领域的进步(Flake & Fried,2020;Kuhn,1962 年)。 在下文中,我们回顾了心理学和计算机科学(即人类和人工智能)领域中一些已发表的智力定义,其目的有两个:(1)突出不一致之处;(2)提出一个共同的命名法,可以促进两个领域的科学进步。 通过对“智力”、“成就”、“专业知识”和“一般智力”等词语和术语的概念化和定义达成一致,心理学和计算机科学领域可以提高研究的精确度,促进更有意义的跨学科对话,并有可能为科学创新铺平道路。

2. 结构:心理和计算

尽管关于人类智力是什么的分歧比比皆是,但人们普遍认为人类智力是一种心理结构(Johnson,2013;Plomin,2018 年;Sternberg,2012 年)。心理结构是一种抽象的、不可观察的、假设的实体,从假设的思想和可观察的行为中推断出来,代表心理相关现象的模式(Cronbach & Meehl,1955;Sijtsma,2006年)。通俗地说,心理结构是一个概念,用于描述心灵或行为的特定方面,该方面无法直接观察到,而是从思想、感觉和行为的模式中推断出来的。 除智力外,公认的心理结构的例子包括焦虑(其特征是紧张感、担忧的想法以及与自主神经系统唤醒相关的身体变化;Reiss,1997),自尊(涉及一个人对自己价值的整体主观情感评估;Pyszczynski等人,2004)和动机(启动,指导和维持目标导向行为的过程;Touré-Tillery和Fishbach,2014)。结构在许多科学学科中得到认可,包括物理学(例如,能量,它指的是所有物质和系统都拥有的不可观察的特性,能够从一种形式转变为另一种形式;Papadouris & Constantinou,2012 年);化学(例如,化学键,是指将分子中的原子保持在一起的力;Shahbazian & Zahedi,2006)和生物学(例如,适应性,生物体在其环境中生存和繁殖的能力;Grafen,2015 年)。

人工智能不是一种心理结构,因为它不是起源于相同的人类认知或情感过程。相反,人工智能可以被视为一种计算结构,因为它是从人类思维和决策的模拟方面的结果中推断出来的,这些结果是由数据处理、机器学习技术和算法原理促进的(Prasad 等人,2023 年;Schoser,2023 年)。此外,人工智能随着计算机科学和工程的进步而发展(Kumar 等人,2023 年),其特点是人类发起的干预、智力努力和有目的的创新。相比之下,人类智力主要是通过自然选择进化而来的,其特点是有机适应和神经优化(Gabora & Russon,2011)。

结构是心理学研究和理论中必不可少的工具,因为它们有助于以允许系统调查、预测和解释的方式概念化和组织复杂的心理现象。 1 在实践中,心理结构是从对各种刺激的反应和任务表现中推断出来的(Strauss&Smith,2009)。为了有效地衡量心理结构,必须对这些结构有明确而具体的定义(Messick,1981;Slaney和Racin,2013)。可以说,这些原则也应该适用于计算结构,以帮助科学地推进该领域。

鉴于结构在构建我们对复杂现象的理解中所起的基本作用,我们在下一节中为人类和人工智能提出了抽象和可操作的定义。 我们的定义不仅基于各自的领域和既定的框架,而且还反映了相当程度的概念连贯性,以促进跨学科的科学讨论。

3. 什么是人类智能?

自一个多世纪前作为一种心理属性出现以来,已经提出了许多人类智力的定义。事实上,当Sternberg和Detterman(1986)调查情报领域的二十多位专家时,提供了二十几种不同的定义。尽管人类智能的定义往往在精确术语上有所不同,但围绕某些核心思想存在趋同。 相应地,共有 52 位具有智力专业知识的教授签署了一篇社论,将智力定义为“推理、计划、解决问题、抽象思考、理解复杂想法、快速学习和从经验中学习的能力”(Gottfredson,1997 年,第 13 页)。此后,该领域的其他专家也认可了这一定义(例如,Colom,2020 年;Deary 等人,2006 年;Halpern,2014 年)。此外,专家的定义通常与其他领域的专家和非专业人士所持有的人类智能的隐含理论一致(Sternberg,1985;Sternberg等人,1981)。

尽管有上述情况,我们仍有理由对通常书面和认可的智力定义不满意,例如Gottfredson(1997)中包含的定义,以及其他来源中的其他类似定义(例如,Humphreys,1984;Wechsler,1944年)。 2 具体来说,这些定义本质上是智力子维度的例子列表,而不是代表一个包罗万象的概念,承认多年来已经认识到的大量认知能力(Carroll,1993;Schneider&McGrew,2018)。可以说,一个可接受的智力定义需要在足够抽象和足够详细之间取得微妙的平衡,以便于从理论上理解什么构成智力,什么不构成智力。

借鉴 Gignac(2018 年,第 440 页),我们将人类智能定义为人类“使用感知认知 [过程] 成功实现新目标的最大能力”。这个定义有三个重要特征。 首先,当一个人的智力被考虑时,它是在他们解决新问题的最大能力的背景下,而不是一个人通常表现出的智力行为。 例如,虽然有些人可能在正式测试中表现出很高的智力水平,但由于不同的动机因素(例如,对认知的需求;参见von Stumm&Ackerman,2013),他们可能无法始终如一地将这种能力应用于日常活动。相应地,整体智力与典型智力参与之间的相关性仅为约0.45(Chamorro-Premuzic等人,2006)。

其次,人类智能的本质与其在新环境中的应用密切相关(Davidson & Downing, 2000;Raaheim&Brun,1985)。这需要解决一个人以前没有遇到过的问题,而不是他们已经熟悉的问题。智力新颖性的概念,以及它与学术成就和专业知识的区别,将在下面进一步详细探讨。 为了预示我们的关键结论之一,我们将提供证据来表明,当前的人工智能系统可能被认为已经展示了人工成就,在某些情况下可能还有人工专业知识,而人工智能的证据要少得多。

第三,人类智力以知觉-认知功能为基础(Thomson,1919),在基本层面上,它包括一系列心理过程,包括注意力、视觉知觉、听觉知觉和感觉统合(即多种模式)。 在各种情况下,需要一个或多个基本的知觉-认知过程来识别和处理相关信息,从而实现与环境的有效互动。 处理感官输入的能力对于人类认知能力的表现是必要的,包括诸如记忆跨度等子维度,如下所述。

尽管我们推荐的人类智力的抽象定义可能有助于阐明其概念性质,但它缺乏具体性,不足以指导相应的智力心理测量方法的发展。与Humphreys(1984年,第22页)相呼应:“科学家不仅有权利,而且有义务以与测量操作和这些操作产生的数据相兼容的方式定义概念。因此,借鉴 Gignac(2018 年,第 440 页),我们在操作上将人类智能定义为“[一个人]使用感知认知 [过程] 完成一项新的标准化任务并进行真实评分的最大能力”。新颖的标准化任务意味着考生没有接触过的任务(或测试),理想情况下甚至不知道在测试期间将提出的问题类型,以减少准备的机会。 标准化意味着所有考生都遵循明确的说明和程序的考试(Sireci,2020)。由于心理测试的主要目的是比较人们的表现(Cronbach,1960),因此所有考生都必须有相同的表现机会,以相同的方式遵循所有人的程序可以促进这种情况。

最后,真实评分意味着对答复的评估和解释是基于客观的、可验证的标准,这些标准有广泛的共识。 这种方法有助于确保考试成绩没有主观偏见和/或不一致的评分标准,这些因素可能会对考试成绩的信度和效度产生不利影响。 3 例如,包含“模棱两可”一词的词汇测试可能会使用多项选择格式,考生从一组选项中选择正确的定义(例如,“具有多个可能的含义或解释”)。评分是真实的,因为它依赖于语言专家认可和同意的预先确定的正确答案。 这确保了每个考生对单词的理解都是根据一致、客观的标准来评估的。例如,所有有效的智力测试,包括矩阵推理测试、记忆跨度测试和定量推理测试,都包括真实评分。

4. 什么是人工智能(AI)?

与人类智能一样,人工智能的许多定义也被提出,正如综合评论所记录的那样(Legg&Hutter,2007a;Monett和Lewis,2018)。人工智能可能最常被定义为“机器执行通常需要人类智能的任务的能力”(例如,Minsky,1961;Prasad 等人,2020 年;Schoser,2023 年)。由于这样的定义没有定义人类智能,它是循环的,缺乏特异性。此外,这样的定义可以说更准确地被认为是人工智能的目标,而不是人工智能的定义。

除了上述对人工智能的有限定义外,文献中还出现了四个定义,它们在某种程度上与心理学和计算机科学领域相交:Goertzel (2010)、Chollet (2019)、Wang (2022) 以及 Legg and Hutter (2007b)。接下来,我们提出并评估每个定义,同时考虑到对人类和人工智能的定义互补的可取性。

首先,Goertzel(2010);Goertzel & Yu,2014)将人工智能定义为系统识别模式的能力,这些模式可以通过可观察的动作或反应发展来量化,同时在复杂环境中实现复杂的目标。 Goertzel对识别模式的能力的引用与人类智能的定义一致,特别是在流体智能(Hayes et al., 2015)和逻辑数学智能(Gardner & Hatch, 1989)的背景下。然而,Goertzel提到的“实现复杂目标”的不足之处在于没有充分区分新目标和非新目标。 正如我们在下面进一步阐述的那样,这种区别至关重要,特别是在考虑成就或专业知识与智力之间的差异时,智力本质上涉及应对新挑战的能力。

其次,Chollet(2019 年,第 27 页)将系统的智能定义为“衡量其在一系列任务中的技能获取效率的指标,包括先验、经验和泛化难度。Chollet (2019) 定义的核心是学习(技能习得),然而,正如我们在下面进一步记录的那样,学习只是人类智能的众多子维度之一,这表明需要更广泛的概念化。Chollet (2019) 定义中对可推广性的引用很重要,因为它有助于将智力与成就和专业知识区分开来,我们将在下面进一步描述。然而,在每种情况下,普遍性不一定容易识别。 因此,更准确地说,当实体成功完成对他们来说新奇的任务时,智力就会显现出来,因为未经实践的挑战是有效测量人类智力的基础(Davidson&Downing,2000;Raaheim&Brun,1985)。

接下来,Wang(2022 年,第 35 页)将智能定义为“信息处理系统在知识和资源不足的情况下适应环境的能力”。Wang (2022) 定义中包含适应性的概念与人类智能的许多抽象定义一致(McIntosh et al., 2005;Pintner,1923 年;Sternberg,2011 年)。然而,考虑到可能导致适应的不同类型的因素的数量,适应环境的能力可能过于广泛。Wang (2022) 定义中的“知识不足”一词传达了新颖性的概念,从某种意义上说,该系统没有针对该问题进行专门训练,这是智力定义的良好背景化,因为成就和专业知识不是智力,我们将在下面进一步详细说明。

最后,在一篇专门定义机器智能的论文中,Legg 和 Hutter(2007b,第 402 页)将智能定义为“智能体在各种环境中实现目标的能力”,这个定义与我们认可的 Gignac (2018) 定义有核心相似之处。但是,存在一些重要差异。特别是,正如我们上面提到的,该定义没有明确规定目标必须是新颖的,这是一个基本标准。Legg & Hutter (2007b) 定义的另一个特点是它提到了“广泛的环境”,Legg 和 Hutter, 2007a, Legg and Hutter, 2007b 认为这意味着在不同情况、任务和问题中的表现,即可推广性。尽管我们对人类智能的偏爱定义与这一观点一致,但指定“新目标”而不是“广泛的环境”更为精确。此外,Legg和Hutter(2007b)的定义没有明确承认智力应被视为实体的最大能力。最后,Legg和Hutter(2007b)的定义没有具体说明智能行为的基础机制,这是区分计算功能和支撑人类智能的认知过程的重要限制。

鉴于上述情况,并考虑到平衡心理学和计算机科学学科的连贯性和独特性的需要,我们建议将人工智能抽象地定义为人工系统通过计算算法成功实现新目标的最大能力。 4 我们对人工智能的抽象定义与上面概述的人类智能定义相同,但有两个例外。 首先,我们用“人工系统”取代了“人类”,以反映人工智能系统固有的有机人类认知过程与基于计算机的合成操作之间的根本区别。其次,通过使用计算算法而不是感知认知过程来指定要实现的新目标。 计算算法包含计算机用来解决问题或完成任务的任何一组规则或程序(Cormen,2013)。人工智能中的计算算法可以从简单的、基于规则的指令到复杂的过程,如机器学习和深度学习中的流程(Raj,2019)。例如,这些算法可能涉及模式识别、数据处理、决策和从数据中学习。

与我们上面建立的人类智能的操作定义一致,我们建议将人工智能在操作上定义为人工系统使用计算算法完成具有真实评分的新型标准化任务的最大能力。人类操作定义和人工定义之间的唯一区别是对人工系统和计算算法的引用。

5. 关于人工智能指标的说明

鉴于我们对人工智能的操作定义,它参考了标准化任务,我们注意到人工智能指标是一门新兴学科,专注于人工智能系统的性能测量和评估,这与心理学中的心理测量学相似(Goertzel,2014;Welty 等人,2019 年)。在人工智能指标中,“数据集”是指人工智能系统要解决的问题集合,类似于心理学中的“测试库”,由评估人类行为的问题组成。Cronbach(1960年,第21页)将心理测试定义为“比较两个或更多人行为的系统程序”。因此,在人工智能指标中,测试可以被定义为一种系统程序,用于评估和比较人工实体在各种任务或领域中的能力。 通常,人工智能测试问题或问题具有可以清晰识别的答案或最佳解决方案,这与智力测量中的真实评分概念一致。

已经发布了许多人工智能系统能力测试。例如,HumanEval 测试(或数据集)由编程挑战组成,这些挑战来自不同的贡献者群体(Lu et al., 2010;Siddiq 等人,2023 年)。测试中的每个挑战都是专门为评估 AI 模型生成编程代码的熟练程度而设计的。其他例子包括 AI2 推理挑战赛 (ARC;Clark et al., 2018),一个专门为科学领域问答而设计的基准数据集,TruthfulQA (Lin et al., 2021),一个旨在衡量人工智能模型响应的真实性的数据集,特别是在涉及误解或流行错误信念的情况下,以及 HellaSwag (Zellers et al., 2019),一个为在常识性自然语言推理中挑战人工智能模型而创建的数据集, 使用战略性设计的场景,这些场景对人类来说很简单,但对人工智能系统来说却很困难。上面列出的 AI 指标测试类似于 IQ 测试电池如何包含各种认知子测试,每个子测试都旨在评估人类认知能力的不同方面。 对人工智能能力测试(和术语)的认识对情报研究人员很有用,因为它不仅阐明了人工智能评估中使用的方法,而且还强调了利用这两个领域的见解进行跨学科研究的潜力。

接下来,为了帮助证实我们对智力的定义,包括人类和人工,我们将扩展前面的陈述,强调智力与成就、专业知识和适应能力不同。 在考虑人工智能系统迄今为止是否在某些领域获得了人工成就或专业知识,而不是智能时,这些区别很重要。

6. 智力不是成就或专业知识

简单来说,有人认为,当一个人不知道该做什么时,智力就是一个人所做的事情。 5 这个定义强调了在遇到和解决智力问题时,新颖性对实体的重要性,这是人类有效智力测试的关键组成部分(Davidson&Downing,2000;吉尼亚克,2018 年;Jensen,1998年)。 也就是说,必须不让参与者事先获得测试项目的具体知识、有效的目标管理策略或类似问题的练习,以确保测试作为认知能力衡量标准的有效性,而不是反映学习的反应或熟悉程度。 6 正如我们接下来所展示的,在展示成就和专业知识的背景下,新颖性的假设被违反了。

智力是一种广泛的结构,有助于在多个领域实现目标(Gottfredson,2002)。相比之下,成就是通过指导和/或实践在特定领域内不同程度地实现这种潜力(Preckel 等人,2020 年)。尽管成就可能在广泛的领域(例如,学术、专业、体育等)得到认可,但学术成就可能是个体差异研究人员最常考虑的成就类型。 学业成就是指一个人在教育环境中取得的成功水平,通常通过包括测试在内的评估来衡量。 7 相应地,成就测试专门用于评估一个人在特定领域或学科的知识和技能,反映他们有意学习或接受培训的内容。

两个相对知名和全面的学业成绩测试包括国际学生评估计划(PISA;Turner & Adams,2007),评估全球15岁学生的阅读、数学和科学技能,以及国家教育进步评估(NAEP;Jones,1996),评估了不同年级的美国学生在数学、阅读、科学和写作等各个科目的熟练程度。 8 在美国,两项较窄的学业成绩测试包括律师考试(Merritt & Cornett,2020 年),这是一项严格的评估,法律毕业生必须通过才能获得在特定司法管辖区执业的执照,以及美国医学执照考试 (USMLE;Johnson,2006 年),候选人应用有效患者护理所需的医学知识、概念和原则的能力。

尽管已经发现智力测验分数与学业成绩分数呈正相关和明显相关,但它们的结构并不相同(共享方差小于 50%;Lozano-Blasco 等人,2022 年;Pokropek 等人,2022 年)。 此外,学业成绩测试不是智力测试,因为完成成绩测试的人应该学习特定内容,以帮助他们根据这些知识回答问题或解决问题,从而违反了与我们认可的智力定义相关的新颖性的定义期望。

承认成就在概念上与智力不同是很重要的,至少有两个原因:(1)众所周知,智力比任何特定的成就更能预测生活中的各种结果变量(Gottfredson,2002); 9 (2)人工智能系统通常根据用于测量其能力的测试中包含的内容进行训练,因此,这些内容不能反映系统的智能,即展示新问题解决能力的能力。 我们在下文的进一步小节中为陈述(2)提供了证据。 为了再次预示,我们将得出结论,当前的人工智能系统展示了成就,也许还有专业知识,而如上所述,人工智能的演示证据值得怀疑。

虽然成就反映了一个人在特定领域内不同程度上发挥潜力,但专业知识可以定义为掌握通过广泛的实践和经验获得的一套全面和结构化的知识,从而获得特别高的绩效水平(Chi,2006;爱立信,2006年)。在某些情况下,个人通过广泛的练习显着提高了他们在认知任务上的分数。例如,Chase 和 Ericsson (1982) 描述了两名大学生(DD 和 SF),他们在大约 250 小时的练习后将他们的数字记忆跨度增加到 68 和 82。经过350小时的练习,DD将他们的数字跨度增加到106位(Ericsson和Staszewski,1989)。典型的成年人的数字跨度约为七位数(Gignac&Weiss,2015)。在其他领域进行广泛练习后,认知表现显着提高的证据,对其他认知领域没有任何明显的好处,包括国际象棋位置的记忆跨度(Gobet&Simon,1998;Smith et al., 2021)、伦敦出租车司机的空间映射能力(Woollett et al., 2009)和计算天才(Jensen, 1990)。

重要的是,通过训练提高一个领域的认知能力并不会导致其他认知能力的表现增加(Gobet & Sala,2023 年;Sala&Gobet,2019)。通常,即使是接近转移的好处也非常有限,以至于 Norris 等人(2019 年)报告说,训练数字跨度未能增强字母跨度。即使对数字跨度进行视觉训练,这些改进也未能扩展到听觉上呈现的相同数字任务,这突出了认知训练益处的任务特定性质。

我们注意到,在计算机科学中,一些人工系统被认为是展示专业知识的。例如,专家混合(MoE)模型(Nguyen&Chamroukhi,2018)。在教育部模型中,每个“专家”都是一个神经网络,在更大任务的特定方面进行训练。 这些网络通过其独特的架构和训练,在其专业领域变得非常精通,共同为人工智能系统的更广泛功能做出了贡献。 这种方法反映了人类专家如何通过专注的实践和经验在特定领域发展深厚的知识。虽然人工智能系统的训练程度不同(参见Lake等人,2014年,关于一次性学习 10 的例子),但可以争辩说,与人工智能相反,人工成就和/或专业知识的发展在增强典型人工智能模型执行类似人类的认知任务的能力方面发挥着核心作用。 11

7.智力不是适应

人类智力在概念上被定义为一个人成功适应环境的能力(Neisser et al., 1996;Sternberg,2011 年)。适应能力原则也是人工智能的几个概念化和定义的核心。例如,在一篇专门定义人工智能的文章中,Wang(2019 年,第 17 页)认可了以下智能定义:“信息处理系统在知识和资源不足的情况下适应其环境的能力。Russell和Norvig(2010)也强调了适应在智能代理中的作用,指出这些智能代理必须能够自主运行并根据环境的变化调整其行为。 乍一看,这些概念化表明了人类和人工智能之间的共同点,将适应性视为智能行为的一个关键方面,表明一个实体不仅有能力做出反应,而且还有能力在不同的环境中学习和进化。

然而,有理由不将适应视为智力的决定性特征。首先,适应环境的证据可以说是一个过于宽泛的概念,无法反映智力。 例如,人体皮肤因阳光照射而晒黑的能力是由环境因素驱动的适应性生物过程,而不是认知能力的表现。 一个与行为更相关的例子是鸟类迁徙,这是一种对环境的成功适应,但部分是本能的(即,基因预先编程;Sweta 等人,2019 年),而不是公认的认知能力维度的结果。其次,成功的适应在某种程度上是主观和微妙的。 例如,许多人类的认知偏差,如确认偏差,通常被认为是适应性倾向;然而,有据可查的是,这些偏见经常导致糟糕的决策(Croskerry 等人,2013 年)。归根结底,适应环境的能力不应被视为智力的决定性特征,因为成功的适应可能主要是非认知和/或本能特征的结果,并且在某些情况下尚不清楚。

在定义了人类和人工智能之后,我们接下来定义和描述通用智能:一个在心理学和计算机科学中广泛使用的术语,尽管正如我们所展示的,通常有不同的理解。

8. 什么是一般智力(g)?

在心理学中,一般智力是一种理论结构,用于解释经验观察,即来自各种智力测试的测试分数往往彼此呈正相关(Jensen,1998)。 实际上,在语言任务上表现相对较好的人在空间任务、记忆跨度任务、定量任务等方面也往往表现相对较好。外行人往往不欣赏认知能力表现的对应程度(Rammstedt&Rammsayer,2000)。人们在各种任务(和模式)中的表现相对一致的顺序产生了“正manifold”:粗略地说,不同认知能力之间广泛呈正相关的模式(平均 r ≈ 0.45 至 0.50;Detterman和Daniel,1989;Walker 等人,2023 年)。

在人类心理学中,一般智力(符号为“g”)是一种建议的结构,用于表示经验观察,即认知能力的个体差异彼此正相关,在分析因子时产生一般因子(即,来自所有测试的正因子负荷;Jensen,1998年)。基于从能力间相关矩阵的因子分析得出的因子解,可以推导出数据集中每个事例的一般因子分数。这样的分数可以被认为是代表“心理测量g”(Jensen&Weng,1994)。 12

一些人认为,精神能量(Spearman,1927)或持续集中(Lykken,2005)可能是g产生的机制。Anderson, 1992, Anderson, 2001 认为,智力可以通过不同类型的认知能力(如语言和空间)的视角来看待,这些认知能力的核心是不相关的,因为它们是由为特定任务设计的专用处理模块提供的。 然而,这些能力在个体中呈正相关的经验观察表明了一个共同的潜在因素。 根据安德森的说法,这种共性是由于一种共享的信息处理机制,该机制支撑着两种类型的主要认知能力(语言和空间)。 安德森强调,这种基本处理机制速度的个体差异在将这些不同的能力结合在一起方面起着至关重要的作用,有助于g的表现。

Jensen(2006)还认为,以反应时间来衡量的处理速度可能在g的出现中起着重要作用,因为它反映了大脑处理信息、执行认知任务和对刺激做出反应的基本效率和速度。 更快的处理速度被认为有助于更高效的学习、解决问题和决策,这些都是通用智能的关键组成部分。 13 此外,Jensen(1998)断言,必须具有神经功能的普遍性来介导认知能力的正相关个体差异,这是“不可避免的”(第249页)。例如,神经元数量、神经效率或神经传导速度。

尽管如此,Jensen(1998)断言,将g视为心理过程是一种误解。心理过程可以用一个人来识别和检查。例如,艾宾浩斯通过自我实验发现了关于学习和记忆的基本真理,在他是唯一的研究对象的情况下进行研究(Postman,1968)。相比之下,在没有个体差异数据的情况下,一般智力无法被识别或检查,因为人与人之间的差异是其观察的核心。相应地,Jensen(1998年,第74页)指出:“g可以被认为是所有心理测试中个体差异的共同来源[共享方差]的蒸馏物,完全剥离了它们在信息内容、技能、策略等方面的鲜明特征。

与Jensen(1998)关注人与人之间的差异相反,认知能力的共同差异可以从人内框架进行检查。 亲身体验的方法可能很有见地,因为它提供了一种替代方法来评估可能影响许多不同认知能力表现的共同维度的合理性。在一项实证调查中,Schmiedek 等人(2020 年)对 101 名参与者进行了 9 次认知能力测试(工作记忆、处理速度和情景记忆各 3 次),这些参与者在六个月内完成了 100 次测试。作为一项内部调查,Schmiedek 等人。

(2020) 对不同测试场合的认知表现的细微变化特别感兴趣,这与重复测试预期的测试分数增加的总体趋势无关。 尽管从人与人之间的角度进行检查时,能力之间的协方差强度在幅度上有所降低,但与人与人之间的数据相比,仍然存在显着的正共享方差,尤其是在工作记忆容量和情景记忆潜在变量之间。 尽管 Schmiedek 等人 (2020) 的样本相对较小,而且他们的测量缺乏足够的多样性来衡量一般智力,但个体内部工作记忆和情景记忆之间显着的正协方差强化了共同认知基础可能支撑多样化能力的观点,即肯定 g 作为实质性心理维度的合理性。

与心理学中一般智能的典型概念化方式相反,人工智能通用智能的定义倾向于反映两个观点:(1)功能等效;(2)基于能力。 下面,我们回顾了两类AGI概念化,并指出它们如何以及为什么不应被视为AGI的适当定义。 14

从功能等效的角度来看,AGI一词通常被定义为人工智能的定量水平,特别是人类的智能水平(亚马逊网络服务,2024;Demasi 等人,2010 年;麦克莱恩等人,2023 年;奥贝德,2023 年;Rayhan 等人,2023 年)。尽管在典型人类智能水平上观察人工智能将是一项了不起的技术成就,但如上所述,以这种方式定义AGI与对人类一般智能的描述不一致。 此外,在人类能力的所有水平上都观察到人类的一般智力或心理测量 g(Breit 等人,2022 年;Detterman和Daniel,1989)。同样,在各种物种中也发现了一般智力因素,包括狗(Arden & Adams,2016)、鹿(Pastrana et al., 2022)和猩猩(Damerius et al., 2019)。这种跨物种的观察表明,g超越了单纯的认知复杂性,突出了它在不同智力水平上的普遍相关性。 因此,考虑到现有的关于通用智能的理论和经验证据,AGI有望在人工智能系统性能的整个范围内被观察到。 这种假设可以通过对各种人工智能系统进行一系列人工智能系统性能测试来实证检验,我们将在下面进一步讨论。

从基于能力的角度来看,AGI 被概念化为人工智能系统在各种环境和任务中部分或完全自主地感知、拥有知识、理解、学习和运作的能力(Chollet,2019 年;黄,2017;丸山,2020 年;Mindt & Montemayor,2020 年;Morris 等人,2023 年)。如上所述,这些定义基本上与智力的定义一致(例如,Gottfredson,1997),而不是具体的一般智力。因此,基于能力的定义对于区分AGI和AI是没有用的。 此外,AGI的这些概念化没有认识到,对AGI的观察与人类一般智能一样,源于a)人工智能系统性能的个体差异;b)观察人工智能系统任务绩效之间的正相关关系。

与人类智能一样,人工智能模型在各种任务中的性能也存在明显的个体差异(DeRose 等人,2020 年;Kumari,2023 年)。 因此,借鉴人类通用智能文献,人工智能可以被定义为一种理论结构,代表人工智能系统性能的共享差异,通过它们在各种人工智能指标任务和多种模式(例如,语言和空间)中的正相关能力来证明。 据我们所知,我们对AGI的定义引入了一种新的视角,增强了心理学和计算机科学领域之间的一致性。正如我们在下面进一步讨论的那样,有一些初步的经验证据支持这里概念化的AGI。 接下来,我们描述了经验上可检验的智力模型,这些模型既包括又排除了智力的一般因素。

9. 智力模型和 g

可以说,最普遍认可的智力模型是卡特尔-霍恩-卡罗尔模型(CHC;Schneider&McGrew,2018),一个整合了各种认知能力的综合框架。CHC模型将能力分为三个层次,每个层次代表认知功能的不同水平或广度。 在第一层,本质上是狭隘的能力,代表特定的认知任务和过程。示例包括归纳 (I)、阅读理解 (RC)、空间关系 (SR) 和工作记忆 (MW)。

第二层是中间层次,与第一层的能力相比,由相对广泛的认知能力组成。Schneider和McGrew(2018)的评论列出了总共17种第二层能力。除了相对众所周知的流体推理因子 (Gf) 之外,还有四个因素代表获得知识的能力,包括理解知识 (Gc)、特定领域知识 (Gkn)、阅读和写作 (Gw) 和定量知识 (Gq)。有五种特定的感官能力,包括视觉 (Gv)、听觉 (Ga)、嗅觉 (Go)、触觉 (Gh) 和动觉 (Gk)。有三个记忆因素,包括工作记忆容量 (Gwm)、学习效率 (Gl) 和检索流畅度 (Gr)。还有三种与速度相关的能力,包括反应/决策时间 (Gt)、处理速度 (Gs) 和精神运动速度 (Gps)。最后,还有精神运动能力因子(Gp)。第二层维度之间的相关性非常强,通常在 r ≈ 0.60 至 0.65 区域(Bryan & Mayer,2020 年)。也就是说,例如,具有高推理能力 (Gf) 的人也往往具有更高水平的理解知识 (Gc)。

最后,第三层是顶层,代表一般智力或“g”。它可以被认为是整体认知能力的代表(Carroll,2003)。迄今为止,有两种方法可以表示一般智力:(1)g作为上级因素;(2)g作为宽度因子(Beaujean,2015;Gignac,2008 年)。CHC模型的高阶版本的可视化表示如图1所示。可以看出,g 位于顶部,箭头通向 II 层能力。从理论上讲,箭头从 g 指向 II 层能力这一事实意味着 g 是 II 层认知能力维度之间相互关联的原因,尽管一些研究人员不认为 g 是一个认知过程,如上所述。

  1. 下载 :下载高分辨率图片 (302KB)
  2. 下载 :下载全尺寸图片

图 1.智能的高阶模型示例。

注意。圆圈表示潜在维度;正方形表示观察变量(即考试成绩);Gf = 流体推理能力 (Gf);Gc = 理解知识能力;Gv = 视觉智能能力;Gq = 定量知识;Gsm = 短期记忆;Gs = 认知处理速度;Gt = 决策和反应速度;Grw = 阅读和写作;Gkn = 特定领域的知识;Ga = 听觉处理;RG = 一般顺序推理;I = 感应;RQ = 定量推理;LD = 语言发展;VL = 词汇知识;K0 = 一般(口头)信息;Vz = 可视化;SR = 空间关系;CS = 闭合速度;KM = 数学知识;A3 = 数学成就,N = 算术;MS = 内存跨度;MW = 工作记忆;EF = 学习效率;P = 感知速度;RE = 反应时间;RS = 读取速度;R1 = 简单反应时间;R2 = 选择反应时间;R4 = 语义处理速度;RD = 读取解码;RC = 阅读理解;CZ = 接近速度;KE = 一般科学信息;A5 = 地理成就;K1 = 一般科学信息;PC = 拼音编码;US = 语音识别;UR = 对听觉刺激失真的抵抗力;(参见Flanagan&Dixon,2013;Schneider&McGrew,2018)。

分层模型的另一种表示形式是双因子模型,其中 g 是与第 II 层维度一样的一阶因子,但是,g 因子的宽度比第 II 层维度大得多,并且第 II 层维度嵌套在 g 因子中(见图 2)。在智力的双因素模型中,g被认为是第一层能力/任务之间相互关联的更直接原因,并且第二层因素都是彼此正交的(和g)。尽管有一些经验证据支持人类认知能力的双因素表示(Cucina&Byle,2017),但目前还没有全面的证据支持g的高阶(上级)或广度(双因素)表示。在各种各样的智商测试电池和样本中,通常观察到智力的一般因素占认知能力测试表现总方差的35%至50%(Canivez&Watkins,2010;Chang 等人,2014 年;Dombrowski 等人,2018 年)。

  1. 下载 :下载高分辨率图片 (367KB)
  2. 下载 :下载全尺寸图片

图 2.智能的双因素模型示例。

注意。圆圈表示潜在维度;正方形表示观察变量(即考试成绩);有关首字母缩略词拼写,请参见图 1 注释。

如果认为对g的经验和理论合理性有共识,那就太误导了。有些人更愿意考虑智力的相关因素模型,即第二层维度之间存在大量相互关联,而不是总体一般因素(例如,Horn,1989)。 15 一个更实质性的智力模型是网络模型,其中只指定了第一层能力之间的相互关联。 根据智力网络模型,认知能力更多地被视为相互关联的技能和过程的网络,而不是由一般因素甚至群体因素主导或驱动(van der Maas等人,2017)。在这种观点中,智力被概念化为一个动态系统,其中各种狭隘的认知能力以复杂的方式相互作用并相互影响。智能的过程重叠理论与这种观点一致(Kovacs&Conway,2016)。有一些心理测量学(McGrew 等人,2023 年)和认知神经科学证据(Luppi 等人,2022 年)支持智力个体差异的网络模型概念化。

图 3 显示了智能网络模型的可视化表示。圆圈代表能力的狭义维度。例如,VL 代表词汇知识,RQ 代表定量推理。圆圈之间的线表示共享方差,即相关性。 此外,较大的相关性由逐渐变粗的线表示。在网络模型中,三个或更多相互关联的节点通常具有相同的颜色。在图 3 中,有三个窄能力群落(即 Gf、Gc 和 Gv)。

  1. 下载 :下载高分辨率图片 (300KB)
  2. 下载 :下载全尺寸图片

图 3.基于九个 CHC Stratum I 能力的智能网络模型示例。

注意。 CS = 闭合速度;SR = 空间关系;Vz = 可视化;I = 感应;RQ = 定量推理;RG = 一般顺序推理;LD = 语言发展;K0 = 一般(口头)信息;VL = 词汇知识;淡紫色的圆圈代表流体推理能力(Gf);黄色圆圈代表理解知识能力(Gc);蓝色圆圈代表视觉智能能力 (Gv)。

一般来说,人工智能系统研究往往不像人类智能研究人员那样普遍考虑分类法或能力模型。例外情况包括 Soar 和 LIDA 架构(或模型),以表示 AI 系统能力。Ichise(2016)发现,虽然Soar和LIDA模型与CHC智能模型有一些维度重叠,但Soar和LIDA都没有那么全面。 因此,对于计算机科学家来说,在人工智能系统研究中采用CHC模型或其变体可能是有利的,因为它提供了一个全面的框架来评估和可能开发具有反映人类认知能力的能力的人工智能系统。 值得注意的是,从理论上讲,许多人工智能系统基准测试可以归类为CHC智能模型的不同层次。例如,Hellaswag (Zellers et al., 2019) 包含与常识推理相关的项目,以预测场景最合理的延续,可以被视为 Gf 的度量,而 Winogrande (Sakaguchi et al., 2021) 包含主要与阅读理解相关的项目,可以归类为 Grw 的度量。

10. 智能的多维性

尽管一般智力的概念仍然存在争议,但学者们普遍认为人类智力是多维的(Neisser et al., 1996;Schneider&Newman,2015)。这是一个重要的考虑因素,因为一些人认为人工智能基本上代表了一种单一的能力。例如,学习能力(例如,Chollet,2019)或适应环境的能力(例如,Wang,2022)。然而,在心理学中,智力的一般因素来自各种认知能力(Jensen,1998)。 此外,明确承认智力的多维性,无论是否与一般因素一起,都很重要,因为它有助于更合理地描述认知复杂现象可能如何出现,包括复杂的认知(或人工)功能的表现。

首先,考虑检查时间,它表示在屏幕上呈现刺激物所需的最短时间,以便人们检测目标(例如,准确率为 90%)。 在典型的检查时间测量范式中,具体任务是让一个人确定在屏幕上垂直呈现的两条线中的哪一条是最长的(Nettelbeck等人,1996;Nettelbeck&Lally,1976)。因此,这项任务基本上不依赖于先验知识,也不依赖于学习的示范。典型的健康成人检查时间约为 45 毫秒,个体差异明显 (SD = 19;Crawford等人,1998)。许多研究表明,较短的检查时间与更高水平的更复杂的认知能力之间存在相关性,相关系数约为-0.50(Grudnik&Kranzler,2001)。个体差异研究表明,检查时间主要与处理速度(Gs)和视觉智能(Gv)有关,与一般智能相关的一些独特效应(Crawford et al., 1998;O'Connor&Burns,2003)。

不可否认,快速感知和解释基本视觉信息的能力对于智能行为至关重要,这在人类和人工智能辅助机动车驾驶等活动中很明显,在这些活动中,快速视觉处理是必不可少的(Roenker 等人,2003 年;Zhao, Zhao, et al., 2023;赵, 周, et al., 2023)。相应地,人类智能被发现是驾驶员模拟和非模拟环境中驾驶能力的正预测因子(Anderson et al., 2005;Ledger 等人,2019 年;Smith&Kirkham,1982)。重要的是,虽然处理速度是人类智能中公认的关键因素(Jensen,2006;Wechsler,2008),定义智能和AGI的AI文献很少以类似于人类智能研究中IT处理的方式解决信息处理速度问题,这突出了这些学科之间的关键概念差异。 鉴于处理速度通常被认为是区分计算机系统的核心特征(Wang,2020),有趣的是,推测人工智能系统效率的可变性可能在可能观察到的人工智能通用因素中发挥作用。

在认知能力的级联模型中发现了对将智力概念化为比任何单一能力更广泛的结构的进一步支持。这些模型代表了一种层次结构,其中基础认知过程支撑着更复杂的能力。 来自拟合良好的级联模型的经验估计(例如,β权重)可以揭示认知能力的出现,说明基本的智力过程如何逐渐成为更复杂的智力形式的基础。

例如,Fry 和 Hale (1996) 测量了 7 至 19 岁儿童、青少年和年轻人样本的处理速度能力、工作记忆容量和推理能力。 他们报告了路径分析证据,支持从处理速度到工作记忆容量,从工作记忆容量到推理能力的能力级联模型,如图4所示。因此,推理能力是一种复杂的认知功能,部分基于相对简单的过程,如工作记忆和处理速度。 探索人工智能系统是否表现出可比的级联能力模型,可以为其涌现动态提供关键的见解。 这种理解可以为模拟人类认知发展的分层进程的人工智能架构的设计提供信息,从而有可能通过基本过程的结构化基础提高他们对复杂任务的熟练程度。

  1. 下载:下载高分辨率图像(38KB)
  2. 下载 :下载全尺寸图片

图 4.认知能力的级联模型。

注意。改编自Fry & Hale,1996;PS = 处理速度;WMC = 工作内存容量;RA = 推理能力;两个系数均具有统计学意义,p < .05。

此外,还要考虑面部处理能力、已知与 g 呈正相关的尺寸(Walker 等人,2023 年)以及当前人工智能系统研究的重要焦点(Hupont 等人,2022 年)。Walker et al. (2023) 为人脸处理能力的个体差异提供了理论和经验证据,认为这些差异与导致更复杂过程的简单过程一致。具体来说,Walker等人(2023)测量了人脸检测能力(在视觉场景中检测人脸的能力)、人脸感知能力(区分群体内人脸的能力)、人脸记忆能力(回忆人脸的能力)和人脸情绪表情识别能力(正确识别情绪表情的能力)。 基于相应潜在变量之间的相关性,Walker等人(2023)发现,从人脸检测到人脸感知到人脸记忆再到人脸情感识别能力的人脸处理能力级联模型与数据一致(见图5)。Walker 等人(2023 年)的研究结果强调了人脸处理能力的分层性质,表明人脸识别人工智能研究的进步可以从采用类似的级联模型中受益。 这种方法可能会通过反映人类从基本检测到细微的情感识别的逐步发展,增强人工智能在复杂的面部相关任务中的能力。

  1. 下载 :下载高分辨率图像 (51KB)
  2. 下载 :下载全尺寸图片

图 5.认知能力的级联模型:面部处理。

注意。改编自 Waller 等人,2023 年;FD = 人脸检测;FP = 人脸感知;FM = 人脸记忆;ER = 表情识别;粗体系数具有统计学意义,p < .05。

在实践中,如果人工智能系统性能之间存在正相关关系(即人工智能基准测试分数之间的相关性),则可以通过经验测试人工智能的级联模型。 除了可能将人工智能确立为多维性质之外,人工智能级联能力模型的经验建立可能会促进对人工智能的更综合的理解,这可能在某种程度上反映了人类智能的动态复杂性。 然而,值得注意的是,一些大型语言模型(LLMs)可以在某些上下文中执行高级语言处理(例如,生成连贯的叙述),但在执行人类认为相对容易的其他任务(例如,隐含;参见Ruis et al., 2022)方面却出奇地弱,这表明这可能LLMs表现出人工成就(即通过特定训练获得的独立技能)而不是人工智能。

总而言之,人工智能(或AGI)的定义只关注能力的单一维度(例如,学习),可能会过度简化其基本性质:这种疏忽可能会助长对人工智能复杂性的误解,并可能阻碍人工智能系统的发展。

11. 学习与智力

大量的人工智能系统开发是基于机器学习的(Merkhofe 等人,2023 年;Singh 等人,2022 年),这一事实可能会激发将人工智能概念化为学习能力(Chollet,2019 年)。将学习能力作为人工智能的决定性特征的独家关注将与当代人类智能模型不一致,后者承认认知能力的许多子维度,其中只有一个是学习(Schneider&McGrew,2018)。相应地,我们对智力和一般智力的定义并没有具体提到学习。 由于机器学习是人工智能系统开发的核心组成部分,而学习是心理学中长期研究的结构,包括公认的智力指标(Schneider&McGrew,2018),因此我们对人类和人工学习之间的共性和区别进行了一些讨论。

像智力一样,学习是一种结构:它不是直接观察的,而是通过观察相互关联的行为来推断的。借用Jensen(1989年,第40页)的说法,人类学习可以被定义为特定行为或行为潜力的概率或强度的明显变化,其基础是神经过程和认知策略对各种刺激的反应。 这种变化排除了与学习无关的因素,例如本能或身体成熟。 相比之下,人工智能学习可以被定义为人工系统中特定反应或决策潜力的概率或强度的明显变化,以计算算法和数据为基础。 此更改排除了与学习无关的因素,例如编程更新或硬件修改。 我们对学习的补充定义强调了人类和人工智能领域中反应概率的作用,同时也考虑了每个领域学习的独特性质。

在CHC智能模型中,学习只代表了模型的一个相对较小的方面。具体来说,根据 Schneider 和 McGrew (2018) 的说法,学习由一种相对较小的第二层能力表示,称为学习效率 (Gl), 16 该维度代表“在二级记忆中存储新信息需要多少时间和精力 [例如,长期记忆]”(第 97 页)。联想记忆被认为是学习效率(Gl)的指标(第一层能力)。一种常用的联想记忆测试包括面孔-名字配对(Rubiño&Andrés,2018)。在人脸-名字配对测试中,参与者首先查看一系列人脸-名字对,然后在测试阶段,再次向他们展示面孔并要求他们回忆相关的名字。 这评估了他们形成和检索联想的能力,反映了他们在长期记忆中编码和存储联想信息的学习效率。 随着人工智能系统视觉处理能力的发展,它们的联想记忆能力可以通过经过验证的面部-姓名配对测试来衡量。

除了联想记忆之外,有意义的记忆被认为是Gl的指标。有意义的记忆是指记住重要且概念丰富的信息的能力,而不是死记硬背任意或不相关的事实。 在心理测量学上建立的有意义记忆的测量方法是Woodcock-Johnson IV中的故事回忆子测试(Schrank,Mather和McGrew,2014;Schrank,McGrew和Mather,2014)。在故事回忆测试中,参与者将获得一个预先录制的短篇散文故事,通常长度为一到三段。然后,他们的任务是用自己的话回忆和讲述这个故事。 这种自由回忆被评估两次:一次是在故事呈现后立即进行,另一次是在 40 分钟延迟后,以评估即时和延迟有意义的记忆回忆能力。 应该承认,随着时间的推移,故事回忆子测试已经被重新分类了几次,这表明当代人类智力研究中学习的概念化和测量确实存在一定程度的不稳定性。 尽管如此,鉴于其复杂的语言处理能力,current LLMs 可以进行经过验证的故事回忆测试,预计许多人在即时和延迟回忆任务中都表现出强大的表现。

研究表明,较高的一般智力可以提高学习成果,更聪明的人对培训表现出更好的反应(Vaci et al.,2019)。此外,拥有更多的先验知识 (Gk) 也可以改善对新任务的学习(Thurn 等人,2022 年)。这项研究强调了这样一种观点,即学习应该只被视为智力的一个方面,它源于认知能力其他维度之间的复杂相互作用。 它还为人工智能领域提出了一个重要问题——能否观察到相同的促进效应?

人类学习的一个显着例子是语言的习得,这种能力从婴儿期开始迅速发展(Bergelson&Swingley,2012)。此外,通常发育中的儿童在最少的指导下获得复杂的语言结构(Rice,1989;Tomasello,2003年)。更一般地说,人类擅长“一次性学习”,他们形成概念并从最小的,有时是单一的例子中概括出来(例如,Xu & Tenenbaum,2007)——这与人工智能需要广泛的数据和迭代训练来实现某种程度上可比的概念形成形成鲜明对比(Zhao, Zhao, et al., 2023, Zhao, 周, et al., 2023; 但参见Lake et al., 2014). 我们注意到最近关于儿童对比学习模型(CVCL)的工作 - 一种深度神经网络,用于从儿童以自我为中心的经验片段中学习扎根单词 - 表明儿童日常经验中存在的许多单词指涉映射(单词与其现实世界对象或概念之间的联系)可以通过相对通用的学习机制从发展现实的数据流中学习(Vong等人, 2024). 虽然肯定与一次性学习不一致,但CVCL模型获取单词指涉映射、泛化到新的视觉参照以及调整视觉和语言概念系统的能力部分反映了人类从相对较少的例子中快速、高效学习的天生能力。

在本节的最后,我们承认,学习能力通常由成熟的人类智能电池来衡量的程度相当有限,可以说是由于时间的实际限制。 心理学家最多可以花 90 分钟来全面测试一个人的智力(例如,WAIS-IV;Wechsler,2008 年)。因此,用更复杂的方法来衡量学习能力的个体差异是不可行的。相比之下,测量单个人工智能系统在学习能力方面的差异可能更可行。 接下来,我们讨论了反复暴露于智力测试刺激所产生的学习效应,因为这种情况在人工智能系统开发和评估中很常见,这可能会导致评估无效,作为人工智能测试。

12. 训练对有效智力测验的影响

高级渐进矩阵 (APM;Raven et al., 1998a),被认为是人类流体推理的最佳衡量标准之一(Gignac,2015),是一个由 36 个问题组成的测试,每个问题由一系列根据抽象规则排列的视觉元素组成。 人们必须首先识别和编码矩阵的相关视觉特征,然后诱导出控制模式的基本规则,最后应用这些规则来生成解决方案,以确定序列中逻辑上遵循的元素。Carpenter等人(1990)确定了解决APM项目的认知过程背后的五种分析规则,将两个简单的、预测性较差的规则(连续常数和定量成对进展)与三个更复杂的预测性规则(数字加法或减法、三个值的分布和两个值的分布)区分开来。 17 Matzen et al. (1994)发现,每个矩阵推理问题的难度取决于这些规则的数量和复杂程度。

在几项人体研究中,已经发现反复接触 APM 会导致测试分数增加,但不会导致流体智力增加。例如,Bors和Vigneau(2003)对参与者进行了三次(≈45天间隔)的APM(36个问题)。平均而言,人们通过两个额外的问题来提高他们的表现,有时二和偶尔三个问题都回答正确。Lozano 和 Revuelta (2020) 扩展了 Bors 和 Vigneau (2003) 的扩展,研究了重复的 APM 测试暴露是否通过矩阵推理规则的隐式学习来提高性能。没有发现这种重复对能力的改善。 相反,他们发现改进者可能会更好地熟悉测试格式和/或感知特征。Hayes等人(2015)基于眼动追踪研究发现,通过重复测试提高APM性能主要是由于应试策略的改进(基于眼睛注视模式的变化),而不是矩阵推理能力的提高。 对APM的研究与长期以来建立的观点一致,即反复接触测试项目会损害智商测试分数的有效性(Cane&Heim,1950;LeGagnoux等人,1990)。

我们之前强调过任务新颖性在智力测试中的重要性,以确保分数反映智力而不是成就(Davidson&Downing,2000;Raaheim&Brun,1985)。练习测试或反复接触类似的测试项目会引入与成就和专业知识相关的因素,从而扭曲了作为纯粹智力衡量标准的分数。因此,许多标准化的智力测试(例如,韦氏量表;Wechsler,2008 年;ICAR公司;Condon&Revelle,2014)在获取测试材料方面受到监管,以帮助保持其有效性。相比之下,人工智能系统通常在类似或相同的测试项目上进行训练,旨在评估其性能。

考虑 Małkiński 和 Mańdziuk (2022) 对用于完成矩阵推理问题的 AI 系统方法的回顾。他们报告说,模型是专门针对 Raven 类型矩阵问题进行训练的。此外,他们指出,标准渐进矩阵(Raven et al., 1998b)60 个项目不足以训练人工智能系统(第 3 页)。在测试项目上训练人工智能系统的做法在人工智能领域似乎是规范的(Dahmen et al., 2021),当人工智能系统解决相应的测试项目问题时,这引发了关于智能演示的严重问题。辨别人工智能系统是否表现出智能或只是通过广泛的训练反映成就至关重要,因为智能不仅仅是训练,还可以预测不同现实世界环境中的成功(Gottfredson,2002)。

与此相关的是,在大型语言模型()LLMs的开发中,数据泄露是一个值得注意的挑战。当训练数据无意中影响验证集时,就会出现这个问题,这可能会影响基准测试的性能(Bussola 等人,2021 年;Hannun 等人,2021 年;Linjordet & Balog,2020 年;Qian 等人,2022 年)。虽然可以采取措施帮助减少数据泄露,但在实践中,很难完全避免(Lyu et al., 2021)。因此,虽然LLMs可能不会在特定于测试的数据上进行显式训练,但训练数据集和测试数据集之间的无意重叠可能会损害对其能力的明确评估。

另一个相关的例子是,将目标管理编程到人工智能系统中也可能限制观察真正人工智能的可能性,因为目标管理是抽象问题解决的一个关键方面(Carpenter et al., 1990)。 18 在有效的人类智力测试中,被测试者没有获得与有效目标管理相关的信息。 考虑河内塔 (TOH) 任务,该任务涉及将越来越大的块从一个钉子移动到另一个钉子(钉子 1 到钉子 3),而不是将较大的块放在较小的块上。测试项目通常包括三到七个块。 TOH主要被认为是CHC智力模型中Gs和Gf的量度(Emick&Welsh,2005;Jewsbury 等人,2016 年;Zook等人,2004)。参与者没有被告知如何制定他们的方法或制定有效解决难题的具体策略。 相反,个人必须依靠自己的认知能力来制定计划并根据需要调整他们的策略,以反映对他们智力的更真实的评估。

相比之下,最优有序问题求解器 (OOPS;Schmidhuber,2004),一个能够成功解决河内塔问题的人工智能系统,包括定义如何处理、组织和解决问题的预编程算法,显着影响与任务相关的新颖程度——这是流体智能的一个决定性特征(Carpenter et al., 1990)。因此,编程决定了系统的目标设定和解决问题的策略,这与人类智力测试形成鲜明对比,在人类智力测试中,目标管理和战略制定是自我生成和管理的。 鉴于 OOPS 的编程指令,它可以说表现出更接近成就而不是智力的能力。

在本节的最后,我们要注意关于标准化和测试的最后一点。回想一下,标准化考试必须在所有场合和情况下以相同的方式进行,以便有效地解释考试成绩。 从理论上讲,以完全标准化的方式管理 HumanEval 等 AI 系统测试应该没有问题,这与我们对人工智能的操作定义一致。 然而,有证据表明,人工智能指标测试并不总是以标准化的方式进行管理,开发人员选择不同的环境和参数进行评估,这可能会显着改变结果(Fortis,2023 年;金塞拉,2023 年;Vedula 等人,2022 年)。这种可变性引入了测试偏差和不一致,使得很难直接比较不同人工智能系统或版本的性能结果。 确保人工智能测试分数的可靠性和效度需要严格遵守标准化协议,包括统一的测试集和评估指标,这对于准确评估人工智能系统的能力、局限性以及调查人工智能的可能性至关重要。 19

13. 通用人工智能(AGI)测试

在实践中,测试人工智能一般因素可能性的一种方法是向大量不同的人工智能系统提交一系列广泛的测试。 20 也就是说,每个人工智能系统都将经过一系列全面的测试,并记录分数并分析测试之间的相关性。测试分数之间的正相关表明存在 AGI 因子。 如果对测试结果的因子分析显示所有测试中具有正载荷的单个因子,则将观察到对 AGI 因子的进一步支持。

迄今为止,两项(未发表的)实证研究报告了跨人工智能系统测试性能之间的相关性。

Burnell et al. (2023) 估计了 29 种语言模型(包括 Anthropic-LM v4-s3、Cohere Command beta、GPT-3-davinci 和 OPT)完成的 27 项任务(语言模型的整体评估;又名 HELM 基准)之间的相关性。Burnell et al. (2023) 报告了平均任务间相关性为 0.56 的阳性manifold,与人类智力测试通常观察到的结果一致(Detterman & Daniel, 1989;Walker 等人,2023 年)。此外,对平行分析的检查发现了三个维度。基于因子分析,这三个因子被标记为理解(33%方差解释)、推理(31%方差解释)和语言建模(17%方差解释)。 此外,这三个因素相互呈正相关(平均r = 0.39),表明存在通用人工智能因素。

除了 Burnell 等人(2023 年)之外,Ilić (2023 年)还报告了一项因子分析,该分析基于对完成 22 项任务的 1232 个语言模型的更大规模调查,确定了单个具有统计学意义和有意义的因素。 所有 22 个任务都负加载到该因子上,该因子占语言模型性能方差的 85%。因此,Ilić (2023) 确定的 AGI 因子比 Burnell 等人 (2023) 强,也比人类智能通常观察到的更强(Detterman & Daniel, 1989;Walker 等人,2023 年)。有趣的是,AGI因子分数与语言模型大小(即参数计数)之间的相关性仅为0.49,这表明模型大小与AGI能力的成比例增加不对应。 因此,其他特征,如模型架构、训练数据多样性或优化策略,可能在AGI的表现中发挥重要作用。

我们注意到,迄今为止,尚未确定空间人工智能因素,尽管除此之外LLMs,还有旨在处理和解释跨各个领域的复杂空间数据的空间模型(例如,卷积神经网络,Gu 等人,2018 年)。此外,大型语言和视觉助手 (LLaVA;Liu, Li, et al., 2023),一种端到端训练的多模态模型,将视觉编码器与LLM通用视觉(和语言)处理相结合,可以潜在地解决基本的视觉智能测试问题(例如,相同的图片测试,Ekstrom et al. (1976);Mooney人脸检测任务,Verhallen&Mollon,2016)。因此,从理论上讲,在未来的工作中可以确定空间人工智能因素。

根据 Burnell 等人 (2023) 和 Ilić (2023) 的说法,可以认为存在 AGI 或更准确地说是“AI 度量 g”的初步经验证据。然而,它可能更好地被描述为人工的一般成就,因为如上所述,人工智能系统是否实际上表现出了智能,存在严重的问题。 此外,以类似于对心理测量 g 合理性的问号的方式(Ceci,1990;Detterman,1982),我们知道,人工智能度量g的实证观察并不能完全证实AGI的构造,因为根据人类智能,多维人工智能可能更好地表示为网络模型(McGrew等人,2023)。

鉴于围绕人类智能的积极manifold因素和相应的一般因素的解释存在悬而未决的争论(例如,Gignac,2016;van der Maas&Kan,2016),对人工智能系统性能的积极manifold观察所产生的前景是有趣的。 具体来说,可能有独特的机会通过实验操作以人类受试者不可行的方式实证检验一般智力理论。 例如,通过系统地改变人工智能系统的处理速度和效率,研究人员可以直接观察能力之间相关性的强度和结构的影响,从而深入了解这些相关性(以及由此延伸而来的一般智能因素)是否来自潜在的信息处理机制(根据Anderson,1992,Anderson,2001)。随着时间的推移,这些类型的实验可以缩小智能理论和实际数据之间的鸿沟,例如,可能证实了中央处理在人工智能和人类智能中的重要性。 最终,人工智能系统完成类似于人类智商评估的各种测试的能力,不仅可能阐明人工智能的认知框架,当用人类心理学中公认的方法进行分析时,还可能加深我们对人类智能的理解。

14. 记忆力和智力

记忆跨度,定义为一个人在单次接触后可以回忆起的最大项目数量,通常在大约两秒钟的短暂时间内(Baddeley,1990),被认为是人类智能模型中的关键认知能力(Gignac,2018)。值得注意的是,工作记忆涉及在心理上持有和操纵信息的能力,已被证明与流体推理密切相关,共享其约50%的方差(Kane等人,2005)。此外,一些研究认为,工作记忆和一般智力可能几乎无法区分,或者是同构的(Colom et al., 2004)。虽然记忆跨度对解决问题能力的影响的确切程度,作为智力的关键标志,仍在争论中,但令人信服的证据表明,这种影响是可观的,并且可能是因果关系(Hagemann 等人,2023 年)。

有趣的是,关于智能本质的人工智能文献很少认识到记忆跨度的潜在作用,因为LLM上下文窗口在概念上可能被认为与人类的短期记忆相似。 上下文窗口限制了LLMs一次可以引用的文本标记的数量,以生成响应或分析输入。 此窗口对于保持对话或任务的一致性和连贯性至关重要,因为它决定了模型可以利用的先验信息的程度。 因此,上下文窗口和人类记忆跨度之间的相似之处包括保存信息的能力有限,专注于当前任务的最新或直接相关的数据,以及随着新数据的出现而忘记旧信息的机制。 有趣的是,LLM'似乎以类似于在人类中观察到的方式表现出首要性和新近性效应(Liu, Lin, et al., 2023)。除此之外LLMs,人工智能系统还具有类似于上下文窗口的机制,例如序列建模中使用的长短期记忆 (LSTM) 网络中的记忆单元(Yu et al., 2019)、卷积神经网络中用于图像处理的视野(Samy et al., 2018)以及强化学习代理中的状态感知(Sheng et al., 2022)。

鉴于上述情况,值得注意的是,Burnell 等人(2023 年)没有确定与记忆跨度相关的因素。这可能是因为没有一个人工智能基准测试直接测量类似于内存跨度的维度,在我们看来,这是一个值得注意的局限性。鉴于 AI 系统内存检索能力的可变性, 21 可以合理地假设 AI 内存跨度因子的合理性。此外,这种因素可能相对明确地被描述为智力的一个方面;或者,至少,它不会被明显地视为成就的一个方面。 如果观察到 AI 系统内存跨度维度与其他 AI 系统性能维度呈正相关,它可以支持我们对 AGI 的新概念化的合理性,它与人类通用智能相似。 鉴于处理速度在人类智能文献中发挥的重要作用,可以对人工智能系统的处理速度提出类似的论点(Gignac,2018)。鼓励进一步研究以解决这些可能性。

15. AGI和预测有效性

人类智力,包括广泛的心理测量和特定的认知能力,是一种重要的心理结构,不仅因为它表明了一系列智力测试的表现,而且更重要的是它预测关键社会结果的能力。 研究一致表明,一般智力是学业成功(Pokropek 等人,2022 年)、教育和职业成就(Salgado 等人,2003 年;Strenze,2007 年)、收入和金融稳定(Shaffer,2020 年;Zagorsky,2007年),以及人身安全和健康的基本方面,包括日常生活中的风险评估(例如,避免致命事故;O'Toole,1990)和整体寿命(Gottfredson&Deary,2004)。这种广泛的预测能力是标准有效性的标志,强调了心理测量 g 的重要性:它不仅是衡量人们在智力测试中表现的指标,而且是未来行为、结果和不同生活领域成就的有力指标。

理想情况下,为了充分验证人工智能和AGI的结构,有必要通过一套针对其独特功能量身定制的复杂、具有社会价值的标准来证明它们的预测有效性。 这些标准可以包括它们在推动技术和科学进步、提高人类生产力和改善整体生活质量方面的功效。 诚然,鉴于人工智能应用的巨大多样性,在人工智能环境中确定合适的预测有效性标准是一项重大挑战。 尽管如此,我们鼓励对人工智能指标进行进一步研究,以制定和完善这些标准,确保它们合理地反映人工智能系统在各种现实世界场景中的影响和效用。

16. 结论

人工智能系统已经证明了它们解决认知能力测试问题的能力,主要是通过引导训练(例如,Zhuo & Kankanhalli,2020)或将问题转换为算法可解决格式的编程方法(例如,Schmidhuber,2004)。 虽然这些成就很了不起,但这些成就是否意味着智能是值得商榷的,因为大多数当前人工智能系统的能力仅限于特定的编程和/或训练数据,而没有必要展示人类智能特有的新型问题解决能力(Davidson&Downing,2000;Raaheim&Brun,1985)。因此,许多人工智能系统可能更恰当地被认为具有展示人工成就或人工专业知识的能力。 尽管没有达到人工智能的门槛,但人工成就和专业知识系统仍应被视为非凡的科学成就,可以预期这些成就将对社会的许多方面产生重大影响。 此外,通过心理学和计算机科学领域对成就、专业知识、智力和一般智能的清晰连贯的概念化和定义,可以促进更大的合作和洞察力,这最终可能有助于弥合人工智能和类人智能之间的差距。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 突出
  • 抽象
  • 1. 引言
  • 2. 结构:心理和计算
  • 3. 什么是人类智能?
  • 5. 关于人工智能指标的说明
  • 6. 智力不是成就或专业知识
  • 7.智力不是适应
  • 8. 什么是一般智力(g)?
  • 9. 智力模型和 g
  • 10. 智能的多维性
  • 11. 学习与智力
  • 12. 训练对有效智力测验的影响
  • 13. 通用人工智能(AGI)测试
  • 14. 记忆力和智力
  • 15. AGI和预测有效性
  • 16. 结论
相关产品与服务
腾讯云服务器利旧
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档