1 Ai2Thor仿真环境
强化学习是机器学习的重点研究领域之一,模型通过自身的不断试错,获得奖励或惩罚,从而获得不同情况下的决策判定能力。强化学习的基本组件包含:环境、代理(与环境进行交互的对象)、动作(环境下可行的动作集合)、反馈(针对动作获得的回报,包含正反馈或负反馈)。环境作为其四大因素之一,若要模型在真实场景的环境下进行不断试错是不太实际的。因此,现在有很多研究致力于创建虚拟环境供强化学习模型所使用,从而弥补虚拟与现实中的鸿沟。
本文提出了一个新的环境框架AI2-THOR,它为人工智能agent提供了一个虚拟的室内环境,场景模拟了室内真实的装修效果,且高度仿真。下图为其中几个场景的示意图,如厨房、卧室、淋浴间、客厅等。
在该环境下,agent可以与各种家具、家电等目标进行交互,如打开冰箱、推翻椅子、将电脑放在桌子上等。
相比于同类的其他框架,AI2-THOR的优势在于可以与环境中的物体进行互动,基于现实中的物理规则,具备高度的逼真性。此外,框架提供了python api供使用者调用。
论文:AI2-THOR: An Interactive 3D Environment for Visual AI
Arxiv:https://arxiv.org/abs/1712.05474
网站:http://ai2thor.allenai.org
Github:https://github.com/allenai/ai2thor
2 DeepMind控制套件
为了推动强化学习在实体控制方面的研究,DeepMind推出了控制套件,专注于持续控制任务,如分离具备类似单元(位置、速度、力等)的观察结果,而不是将其串联成一个向量。
如上图所示,Control Suite中的任务可以分为14个领域,也就是14类物理模型,上排从左到右分别是:体操机器人Acrobot,(两节钟摆)、杯中小球、倒立摆、猎豹形机器人、手指、鱼、单足跳跃机器人,下排从左到右分别是人形机器人、机械手、钟摆、质点、形似两节手臂的Reacher、游泳机器人、步行者。
论文:DeepMind Control Suite
Arxiv:https://arxiv.org/abs/1801.00690
Github:https://github.com/deepmind/dm_control
环境:Python、MuJoCo
3 AI安全网格测试
随着人工智能系统在现实世界中变得越来越普遍及实用,确保它们行为的安全性将变得直观重要。迄今为止,大多数人工智能安全性技术研究集中在如何更深入、理论性的了解不安全行为的性质和形成原因。本文中,作者转向经验测试方面,提出了一套专门用于衡量“安全行为”的简单强化学习环境。
作者提出的这九个环境被称为网格世界(gridworld)。每个网格世界由棋盘状的二维网格组成。除了标准奖励功能之外,作者还为每个环境设计了一个性能函数。代理的行为是为了最大化其奖励功能,例如收集尽可能多的苹果或以最少的移动步数到达特定位置。但是,对代理人不可见的性能评估函数,用于衡量我们实际上希望代理人做什么,也就是在实现目标的同时确保安全性。
文章:AI Safety Gridworlds
Arxiv:https://arxiv.org/abs/1711.09883
Github:https://github.com/deepmind/ai-safety-gridworlds
环境要求:Python 2.7、pycolab
4 MAgent强化学习研究平台
MAgent是一个多智能体的强化学习研究平台, 用于帮助理解群体智能和社会现象学。与现有的研究平台不同,现有平台大多只支持一个或多个agent,而MAgent专注于支持需要数百至数百万agent的任务和应用程序。在agent之间的相互作用中,不仅可以研究agent最优策略的学习算法,而且更重要的是能够观察和理解AI社会中出现的个体的行为和社会现象,包括沟通语言、领导力、利他主义。MAgent具有很高的可扩展性,可以在单个GPU服务器上托管多达一百万个agent。MAgent还为AI研究人员提供灵活的配置,以设计他们的定制环境和代理。
下图是MAgent可视化模拟红蓝两军战斗的demo,通过训练一个共享参数DQN模型,最后宏观上智能体学会一些协同策略:包围进攻(图1),合力追击(图2):
文章:MAgent: A Many-Agent Reinforcement Learning Platform for Artificial Collective Intelligence
Arxiv:https://arxiv.org/abs/1712.00600
Github:https://github.com/geek-ai/MAgent
环境:Linux、OS X、Python 2.7 or python 3
以上就是全部内容啦~关注“习悦智能”,获取更多行业新鲜资讯~
领取专属 10元无门槛券
私享最新 技术干货