根据《自然》本周发表的一项研究First return, then explore,一类增强学习算法在雅达利经典游戏中的得分超过了人类玩家和先进的人工智能系统,算法挑战的游戏包括《蒙特祖马的复仇》(Montezuma’s Revenge)和《玛雅人的冒险》(Pitfall)。这类算法被统称为Go-Explore,它改善了对复杂环境的探索方式,或是朝着实现真正智能学习体迈出的重要一步。
增强学习可以让人工智能系统通过探索和理解复杂环境来进行决策,并学习如何以最优的方式获得奖励。奖励可以包括机器人抵达特定位置或是在电脑游戏中达到一定的等级。然而,当遇到很少给予反馈的复杂环境时,目前的加强学习算法似乎很容易碰壁。
美国加州旧金山OpenAI的Adrien Ecoffet、Joost Huizinga和同事提出了有效探索面临的两个主要障碍,并设计了一类算法来解决这些障碍。Go-Explore可以对环境进行全面探索,同时构建一个档案库来记住它去过的地方,确保自己不会忘记通往有望成功的期中阶段或是最终胜利(奖励)的路线。作者用这类算法解决了之前未能解决的2600个雅达利游戏,验证了这类算法的潜力。Go-Explore在《蒙特祖马的复仇》中的得分是之前的四倍,在《玛雅人的冒险》中的得分也超过了人类玩家的平均水平(之前的算法一分也拿不到)。Go-Explore还能完成一个模拟机器人任务,在这项任务中,它必须用机械臂把东西捡起来并放到四个架子中的一个架子上,其中两个架子被关在两扇门的后面。
作者指出,记住并回到有望成功的探索区域的简单原则是一种强大、通用的探索方法。他们认为论文所报道的算法有望应用于机器人、语言理解和药物设计。
Go-Explore框架
Nature
领取专属 10元无门槛券
私享最新 技术干货