人类的智慧在很大程度上依赖于从其他人那里获得知识——这些知识随着时间的推移积累起来,成为我们文化进化的一部分。这种在文献中被称为文化传播的社会学习方式,使我们能够实时地模仿动作和行为。但是,人工智能也能以同样的方式发展社会学习技能吗?
模仿学习长期以来一直是人工智能的一种训练方法,指导算法观察人类完成任务,然后尝试模仿他们。但通常,AI工具需要多个示例和大量数据的曝光才能成功复制他们的训练者。
现在,DeepMind研究人员的一项开创性研究声称,AI代理也可以在实时环境中展示社会学习技能,通过在新颖的环境中模仿人类“而不使用任何预先收集的人类数据”。
具体而言,团队专注于一种特定形式的文化传播,即观察学习或(少样本)模仿,指的是身体动作的复制。
DeepMind在一个名为GoalCycle3D的模拟环境中进行了实验,这是一个具有不平坦地形、人行道和障碍物的虚拟世界,AI代理需要在其中导航。
为了帮助AI学习,研究人员采用了强化学习。对于那些对巴甫洛夫在该领域的工作不熟悉的人来说,这种方法基于为促进学习和达到期望结果的每个行为提供奖励 - 在这种情况下,是找到正确的路径。
在接下来的阶段,团队添加了专家代理(无论是硬编码还是由人控制),他们已经知道如何在模拟中导航。AI代理很快理解到,到达目的地的最佳方法是向专家学习。
研究人员的观察结果是双重的。首先,他们发现当模仿专家时,AI不仅学习速度更快,而且还将所获得的知识应用于其他虚拟路径。其次,DeepMind发现即使没有专家,AI代理仍然可以使用他们的新技能,这在研究作者看来构成了社会学习的一个例子。
尽管作者指出需要进行更多的研究,但他们认为他们的方法可以为“文化演化在人工通用智能的发展中发挥算法作用”铺平道路。他们还期待AI和文化进化心理学领域之间进一步的跨学科合作。
尽管DeepMind的突破处于早期阶段,但它可能对人工智能行业产生重大影响。这样的进步有可能减少传统、资源密集型的算法训练,同时增加它们的问题解决能力。它也引发了一个问题,即人工智能是否能够学习获取人类思维的社会和文化要素。
领取专属 10元无门槛券
私享最新 技术干货