“ 尽管AI模型表面上具有智力,但在某些方面仍然非常不智能,尤其是在常识推理领域。”
(网图,侵删)
The New AIs Are Impressive, but Sentience Is a Long Way Off
AI感知还有很长的路要走
作者:内斯特·马斯莱(20221226)
翻译:岑君伊
今年,似乎每周都会在人工智能(AI)技术方面带来一个新的有意义的发展。11月下旬,Meta发布了一个人工智能模型Cicero,它掌握了《外交》游戏,并且在计算中非常像人类,以至于它甚至能够对其他玩家撒谎以实现其目标。一周后,OpenAI推出了最新的聊天机器人ChatGPT,这是一种能够撰写大学学术水平论文的语言模型。ChatGPT可以有效地识别代码中的错误,并撰写简洁的宏观经济分析。
这些发展导致许多人更新了AGI(通用人工智能)预期到来的时间表,也就是说,人工智能系统能够在广泛的任务中进行一般、灵活和高级推理。公共预测市场已将AGI(通用人工智能)出现的时间从2053年提前到2027年。
AGI(通用人工智能)的发展,自技术诞生以来一直是人工智能社区的指导目标,并且已被预测会产生巨大的积极经济后果,因此AGI(通用人工智能)即将出现的可能性令人兴奋。然而,笔者认为这些希望过于乐观,即便最近人工智能模型(如ChatGPT)开发的研究趋势继续成立。
在过去的十年中,特别是过去五年,越来越智能的大型语言模型得到了三个关键支柱的支持:神经网络算法、大数据和强大的计算机。例如,GPT-3(生成预训练器转换器-3)、LaMDA(对话应用程序的语言模型)和PaLM(途径语言模型),都使用功能强大的计算机,在巨大的数据集上训练神经网络算法。这种强大的三重组合使模型能够学习语言是如何工作的,甚至有时能够获得紧急行为——它们的创造者没有明确编程让他们学习的行为。
此外,最近发现,数据集越大,使用的计算机越强大,这些模型在各种语言任务中的表现似乎就越好。因此,开创这些模式的公司试图使它们越来越大。
因此,在某些方面,高期望是有道理的。与2019年发布的 GPT-2(GPT-3 的前身)相比,2022年11月发布的ChatGPT生成的文本质量有了显着提高。
然而,尽管这些模型表面上具有智力,但在某些方面仍然非常不智能,尤其是在常识推理领域。例如,OpenAI聊天机器人无法理解基本的数学,暗示从旧金山骑自行车到毛伊岛是可能的,并且难以解决简单的逻辑问题,这类问题是二年级学生都能解决的。
这些失败——还有更多——表明新的语言模型越来越擅长某些类型的智力任务,但在其他方面仍然不足。更具体地说,他们似乎擅长模式识别,但在新的情境环境中却很挣扎,特别是当他们被提示的方式与他们以前遇到的模式相悖时。
因此,这些模型被它们的批评者贴上了“美化的剪贴艺术家”或“随机鹦鹉”的标签,这些实体可以在不真正理解语言的情况下,从统计上预测语言模式。虽然可扩展性使新的人工智能模型在某些情况下更加智能,但它并没有解决逻辑理解的基本问题。此外,这些模型大多数时候是正确的,但有时会产生非常可疑的反应,这可能是危险的。用户可能会被哄骗盲目地相信模型的输出,即使可能有令人信服的理由对这些输出持一定程度的怀疑态度。
这些令人振奋但同时令人困惑的系统进展指向了一个更根本的问题:真正的普遍智能意味着什么?有些人将弱通用人工智能代理定义为,应该能够通过图灵测试(一种无法表现出与人类难以区分的智能行为的测试),在Winograd图式挑战(人工智能的棘手阅读理解测试)中得分超过90%,得分在美国大学SAT入学考试中得分达到75%,并学会雅达利游戏蒙特祖马的复仇。这确实令人印象深刻,而且似乎我们正在开发具有这种功能的人工智能系统。然而,一个在SAT考试中得分超过1500分,但仍犯“违反常识”的基本错误的人工智能系统,应该被认为是真正的智能吗?
如果智力的定义,从语言能力、学习和解决问题的范围扩大到包括意识、新推理、情感意识和自我意识呢?能够具有这种自我意识的人工智能系统在能力上确实与人类相似,既鼓舞人心,又令人恐惧。然而,鉴于当前系统的失败和人工智能社区的潜在研究趋势,我们似乎离这种AGI(通用人工智能)还很远。
开发真正智能的、类似人类的人工智能,可能不仅需要更多的数据和计算能力,还需要一个全新的底层运营架构。神经网络可能还不够。
想想看,世界上最先进的大型语言模型吸收的数据比任何一个人一生中摄入的数据都要多。然而,几乎任何人类孩子都可以瞥一眼地图,告诉你从旧金山骑自行车到毛伊岛是不可能的。
领取专属 10元无门槛券
私享最新 技术干货