首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

近5亿次捉迷藏游戏中,AI玩家策略轮番升级,花式使用工具!

来源:大数据文摘

在生命诞生初期,生命体是非常简单的。它们是微小的单细胞生物,几乎没有协调能力。然而,经过数十亿年的竞争和自然选择,这些简单的生命体逐渐演化成为我们今天所拥有的复杂生命形式以及复杂的人类智慧。

总部位于旧金山的营利性AI实验室“OpenAI”的研究人员现在正在验证这样一个假设:如果可以在虚拟世界中模拟这种竞争,是否能够演化出更加复杂的人工智能呢?

近期,OpenAI的实验智能体逐渐具备了掌握复杂行为的能力,为开发更复杂的人工智能指引了一条新的道路。

该实验基于该领域现有的两种思想:多智能体学习,即通过将多种算法进行竞争或协调以产生应急智能;以及强化学习,即一种在不断试验和纠错的过程中学习并实现目标的特定机器学习技术。

DeepMind凭借其具有突破性的程序AlphaGo,击败了围棋中最优秀的人类棋手,从而很好地普及了强化学习这一概念。

在最近发布的一篇论文中,OpenAI揭示了这一试验的初步结果。在玩了数亿次捉迷藏游戏后,两个相互竞争的AI队伍(搜寻者和躲藏者)设计出了复杂的游戏策略,其中不乏工具使用和相互协作。该研究也是对以OpenAI为主导的研究策略的深刻诠释:大幅扩展现有的人工智能技术,看看有没有什么新东西出现。

论文链接:

https://openai.com/blog/emergent-tool-use/

论文中有个视频很有趣:

https://www.youtube.com/embed/kopoLzvh5jY

经过大约2500万轮的捉迷藏游戏之后,躲藏者学会了通过建造遮挡视线的障碍物以赢得比赛。

捉迷藏策略逐步升级

游戏是这样设计的:研究人员设计了一个虚拟环境,该环境由一个封闭的空间组成,其中包含各种物体,例如积木、坡道以及可移动和不可移动的路障。玩家本身由强化学习算法控制。每场比赛,玩家被分为两队:躲藏者只要不被搜寻者找到就可以得到奖励,而搜寻者则因未能找到躲藏者而受到惩罚,反之亦然。就像我们小时候常玩的捉迷藏那样,躲藏者可以先行数秒。此外,研究人员没有给玩家任何其他指示。

在数亿轮的游戏过程中,AI玩家制定了几种躲藏策略和搜寻策略。在第一阶段,躲藏者和搜寻者的策略十分简单粗暴:只是简单地在空间中四处移动而已。

比赛逐渐复杂,AI玩家策略轮番升级

但是在大约2500万轮游戏之后,比赛就变得更加复杂了。躲藏者学会了移动空间中的箱子和路障,在自己周围筑起堡垒,以使搜寻者永远看不到它们。不仅如此,他们还制定了合作策略,例如互相传递物体,以加快堡垒建造过程。

然而,在进行到7500万轮的时候,搜寻者找到了一种对策,游戏来到了第三阶段。他们把坡道移动到躲藏者的堡垒周围,并用它越过墙壁。到第四阶段,即1000万轮之后,躲藏者学会了在建造堡垒之前将坡道锁定在适当的位置。(这两个团队都无法解锁被对方团队锁定的对象。)

到第三阶段,搜寻者学会了使用坡道爬过堡垒的墙壁。

最初,OpenAI的研究人员以为游戏已经结束了,谁料,在3.8亿轮之后,又出现了两种新的策略。搜寻者通过使用锁定的坡道来爬上未锁定的箱子,然后在箱子顶部猛冲至躲藏者的堡垒并轻松越过城墙。在最后第六个阶段,躲藏者也实施了反制措施:在建造堡垒之前就锁定所有的坡道和箱子。

最终,在经过3.8亿轮训练后,搜寻者学会了以“箱顶冲浪”来越过堡垒的城墙。

新型复杂智能的可能性

研究人员认为,这些结果初步验证了这一创造复杂AI的新方法的可行性。该论文的作者之一Bowen Baker说:“我们没有告诉AI玩家在箱子附近奔跑或与它进行互动,但是通过多智能体竞争,他们为彼此创建了新任务,一支团队必须想出新的策略来战胜另一支团队。”

这项研究反映了OpenAI独特的AI研究方法。尽管该实验室和其他实验室一样也投资开发了其他的新颖技术,但它主要还是以扩展现有技术的使用而广为人知。例如,实验室“臭名昭著”的语言模型 GPT-2,就借用了早期语言模型(包括Google的BERT)中大量的算法设计;OpenAI的创新基于其工程设计和庞大的计算资源。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20191011A0FS0400?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券