Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >单GPU运行数千环境、800万步模拟只需3秒,斯坦福开发超强游戏引擎

单GPU运行数千环境、800万步模拟只需3秒,斯坦福开发超强游戏引擎

作者头像
机器之心
发布于 2023-09-08 01:38:23
发布于 2023-09-08 01:38:23
3240
举报
文章被收录于专栏:机器之心机器之心

机器之心报道

编辑:陈萍、杜伟

Madrona 作为一个研究型游戏引擎,专为创建智能体学习环境而设计。

现阶段,AI 智能体仿佛无所不能,玩游戏、模仿人类完成各种任务,而这些智能体基本是在复杂环境中训练而成的。不仅如此,随着学习任务变得越来越复杂,模拟环境的复杂性也随之增加,从而增加了模拟环境的成本。

即使拥有超级计算规模资源的公司和机构,训练好一个可用的智能体也可能需要数天的时间才能完成。

这阻碍了该领域的进展,降低了训练先进 AI 智能体的实用性。为了解决环境模拟的高成本问题,最近的研究努力从根本上重新设计模拟器,以在训练智能体时实现更高的效率。这些工作共享批量模拟的思想,即在单个模拟器引擎内同时执行许多独立的环境(训练实例)。

本文,来自斯坦福大学等机构的研究者,他们提出了一个名为 Madrona 的强化学习游戏引擎,可以在单个 GPU 上并行运行数千个环境,将智能体的训练时间从几小时缩减到几分钟

  • 论文地址:https://madrona-engine.github.io/shacklett_siggraph23.pdf
  • 论文主页:https://madrona-engine.github.io/

具体而言,Madrona 是一款研究型游戏引擎,专为创建学习环境而设计,可以在单个 GPU 上同时运行数千个环境实例,并且以极高的吞吐量(每秒数百万个聚合步骤)执行。Madrona 的目标是让研究人员更轻松地为各种任务创建新的高性能环境,从而使 AI 智能体训练的速度提高几个数量级。

Madrona 具有以下特点:

  • GPU 批量模拟:单个 GPU 上可运行数千个环境;
  • 实体组件系统 (ECS) 架构;
  • 可与 PyTorch 轻松互操作。

Madrona 环境示例:

上面我们已经提到,该研究利用了 ECS 设计原则,其具体过程如下:

研究者借助 Madrona 框架,实现了多个学习环境,结果表明,相较于开源 CPU 基线,GPU 的速度提升达到了两到三个数量级,相较于在 32 线程 CPU 上运行的强基线,速度提升为 5-33 倍。此外,该研究还在该框架中实现了 OpenAI 的「hide and seek 3D」环境,每个模拟步骤都执行刚体物理学和光线追踪,在单个 GPU 上实现了每秒超过 190 万个 step 速度。

作者之一、斯坦福大学计算机科学副教授 Kayvon Fatahalian 表示,在一款让多个智能体玩烹饪游戏 Overcooked 上,借助 Madrona 游戏引擎,模拟 800 万个环境步骤的时间从一小时缩短到三秒。

目前,Madrona 需要使用 C++ 来编写游戏逻辑。Madrona 仅提供了可视化渲染支持,虽然它可以同时模拟数千个环境,但可视化器一次只能查看一个环境。

基于 Madrona 搭建的环境模拟器有哪些?

Madrona 本身不是一个 RL 环境模拟器,而是一个游戏引擎或框架。开发者借助它可以更容易地实现自己的新的环境模拟器,从而通过在 GPU 上运行批次模拟并将模拟输出与学习代码紧密结合来实现高性能。

下面是基于 Madrona 搭建的一些环境模拟器。

Madrona Escape Room

Madrona Escape Room 是一个简单的 3D 环境,使用了 Madrona 的 ECS API 以及物理和渲染功能。在这个简单任务中,智能体必须学习按下红色按钮并推动其他颜色的箱子以通过一系列房间。

Overcooked AI

Overcooked AI 环境是一个基于协作电子游戏的多智能体学习环境(多人协作烹饪游戏),这里对它进行了高通量 Madrona 重写。

图源:https://store.epicgames.com/zh-CN/p/overcooked

Hide and Seek

2019 年 9 月,OpenAI 智能体上演了捉迷藏攻防大战,自创套路与反套路。这里使用 Madrona 对「Hide and Seek」环境进行了复现。

Hanabi

Hanabi 是一个基于 Madrona 游戏引擎的 Hanabi 纸牌游戏的实现,也是一个协作式 Dec-POMDP。该环境基于 DeepMind 的 Hanabi 环境,并支持部分 MAPPO 实现。

Cartpole

Cartpole 是一个典型的 RL 训练环境,它与构建在 Madrona 游戏引擎之上的 gym 实现有相同的动力学。

GitHub 地址:https://github.com/shacklettbp/madrona

Overcooked 烹饪游戏:一分钟内训练最佳智能体

Overcooked in Thousands of Kitchens: Training Top Performing Agents in Under a Minute

论文作者之一、斯坦福大学本科生 Bidipta Sarkar 撰写博客详细介绍了训练智能体玩 Overcooked 烹饪游戏的过程。Overcooked 是一款流行的烹饪游戏, 也可以作为协作多智能体研究的基准。

在 Sarkar 的 RL 研究中,模拟虚拟环境的高成本对他来说始终是训练智能体的一大障碍。

就 Overcooked 烹饪游戏而言,大约需要 800 万步的游戏经验,才能训练一对在 Overcooked 狭窄房间布局(下图)中收敛到稳定均衡策略的智能体。Overcooked 的开源实现使用 Python 编写,在 8 核 AMD CPU 上每秒运行 2000 步,因此生成必要的智能体经验需要花费 1 个小时以上。

相比之下,在英伟达 A40 GPU 上执行训练所需的所有其他操作(包括所有 800 万个模拟步骤的策略推理、策略训练的反向传播)仅需不到 1 分钟的时间。很显然,训练 Overcooked 智能体受限于 Overcooked 环境模拟器的速度。

考虑到 Overcooked 是一个简单的环境,让模拟速度难住似乎很愚蠢。因此 Sarkar 试着看看 Overcooked 环境模拟的速度是否可以提升,这就需要用到 Madrona 游戏引擎。

利用 Madrona 游戏引擎,Sarkar 得到了一个原始 Overcooked Python 实现的即插即用的 GPU 加速版替代。当并行模拟 1000 个 Overcooked 环境时,GPU 加速后的实现在 A40 GPU 上每秒可以生成 350 万步经验。

作为结果,模拟 800 万个环境步骤的时间从 1 小时缩短至了 3 秒,从而可以使用 A40 GPU 在短短 1 分钟内训练一个策略。

该模拟器的速度为在 Overcooked 中执行广泛的超参数扫描打开了新的可能性,尤其是在以往训练单个策略所需的时间内有了训练多个策略的可能。

最后,Sarkar 意识到与创建 GPU 加速环境的现有替代方案(如 PyTorch、Taichi Lang、Direct CUDA C++)相比,将 Overcooked 移植到 Madrona 的过程更加地顺利。

博客详情:https://bsarkar321.github.io/blog/overcooked_madrona/index.html

参考链接:https://madrona-engine.github.io/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-08-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
100万帧数据仅1秒!AI大牛颜水成团队强化学习新作,代码已开源
近年来,深度强化学习(Deep RL)取得了飞速的进展,有很多影响深远的工作:从发表在Nature 2015的DQN,到后来打败李世石、柯洁等世界冠军的AlphaGo系列,再到复杂游戏:代表星际的AlphaStar和Dota 2的OpenAI Five。
新智元
2021/11/15
4500
NVIDIA开发强化学习算法,同时训练数千个机器人
近年来,无模型深度强化学习算法已经产生了突破性的成果。然而,当前的算法需要大量的训练样本以及大量的计算能力来实现期望的结果。为了使训练更容易,NVIDIA的一组研究人员开发了一种GPU加速的强化学习模拟器,可以快速教授虚拟机器人完成类人任务。
AiTechYun
2018/12/11
8140
NVIDIA开发强化学习算法,同时训练数千个机器人
一块V100运行上千个智能体、数千个环境,这个「曲率引擎」框架实现RL百倍提速
机器之心报道 编辑:张倩 在强化学习研究中,一个实验就要跑数天或数周,有没有更快的方法?近日,来自 SalesForce 的研究者提出了一种名为 WarpDrive(曲率引擎)的开源框架,它可以在一个 V100 GPU 上并行运行、训练数千个强化学习环境和上千个智能体。实验结果表明,与 CPU+GPU 的 RL 实现相比,WarpDrive 靠一个 GPU 实现的 RL 要快几个数量级。 深度强化学习是一种训练 AI 智能体的强大方法。然而,如何将强化学习应用于多个智能体或高维状态、观察结果、行动空间等复杂
机器之心
2023/03/29
5170
一块V100运行上千个智能体、数千个环境,这个「曲率引擎」框架实现RL百倍提速
告别CPU,加速100-1000倍!只用GPU就能完成物理模拟和强化学习训练
Isaac Gym由英伟达开发,通过直接将数据从物理缓存传递到PyTorch张量进行通信,可以端到端地在GPU上实现物理模拟和神经网络策略训练,无需CPU。Isaac Gym提供了一个高性能的学习平台,使得各种智能体训练能够直接在GPU上进行。
AI科技评论
2021/09/16
1.9K0
切换JAX,强化学习速度提升4000倍!牛津大学开源框架PureJaxRL,训练只需GPU
---- 新智元报道   编辑:LRS 【新智元导读】加入光荣的JAX-强化学习进化! 还在为强化学习运行效率发愁?无法解释强化学习智能体的行为? 最近来自牛津大学Foerster Lab for AI Research(FLAIR)的研究人员分享了一篇博客,介绍了如何使用JAX框架仅利用GPU来高效运行强化学习算法,实现了超过4000倍的加速;并利用超高的性能,实现元进化发现算法,更好地理解强化学习算法。 文章链接:https://chrislu.page/blog/meta-disco/ 代码链
新智元
2023/05/09
4670
切换JAX,强化学习速度提升4000倍!牛津大学开源框架PureJaxRL,训练只需GPU
玩了5万局游戏,英伟达让GameGAN自己生成「吃豆人」,世界首创无需游戏引擎
GAN的生成——对抗属性,让他一出生就具有强烈的造假能力,GAN最让人熟知的就是臭名昭著的Deepfake。
新智元
2020/06/01
1.1K0
速度高达百万帧/秒,颜水成团队开源RL环境并行模拟器,大幅节省CPU资源
在强化学习(RL)智能体模拟训练中,环境高速并行执行引擎至关重要。最近,新加坡 Sea AI Lab 颜水成团队提出一个全新的环境模拟并行部件 EnvPool,该部件在不同的硬件评测上都达到了优异的性能。
机器之心
2021/11/18
7210
速度高达百万帧/秒,颜水成团队开源RL环境并行模拟器,大幅节省CPU资源
谷歌推出分布式强化学习框架SEED,性能“完爆”IMPALA,可扩展数千台机器,还很便宜
过去几年,强化学习领域取得了令人印象深刻的进展,不仅可以下围棋,还可以玩 StarCraft、Dota 2等各种游戏,并且还获得了超越人类玩家的傲人成绩。
AI科技评论
2020/03/26
1K0
全球首款AI游戏诞生!无需游戏引擎,视频模型直出「我的世界」
今天,两家初创公司Decart和Etched宣布,他们打造了一款世界上首个实时、可玩、可交互的世界模型——Oasis。
新智元
2025/02/14
1010
全球首款AI游戏诞生!无需游戏引擎,视频模型直出「我的世界」
1个GPU几分钟搞定强化学习训练,谷歌新引擎让深度学习提速1000倍丨开源
博雯 发自 凹非寺 量子位 报道 | 公众号 QbitAI 机器人要如何完成这样一个动作? 我们一般会基于强化学习,在仿真环境中进行模拟训练。 这时,如果在一台机器的CPU环境下进行模拟训练,那么需要几个小时到几天。 但现在,只需一个TPU/GPU,就能和数千个CPU或GPU的计算集群的速度一样快,直接将所需时间缩短到几分钟! 相当于将强化学习的速度提升了1000倍! 这就是来自谷歌的科学家们开发的物理模拟引擎Brax。 三种策略避免逻辑分支 现在大多数的物理模拟引擎都是怎么设计的呢? 将重力、电机驱动
量子位
2023/03/10
3950
1个GPU几分钟搞定强化学习训练,谷歌新引擎让深度学习提速1000倍丨开源
国产游戏引擎,竟然用来搞民航
萧箫 金磊 发自 凹非寺 量子位 | 公众号 QbitAI 只是给飞行员做个“装备”,竟然突破了国内民用航空领域的一大技术难题?! 这是一群游戏技术开发者的真实经历。 他们用自研游戏引擎开发了一个飞行模拟软件,能够第一视角模拟飞行员起飞、着陆、巡航等不同时段的操作场景,随时随地提升飞行“段位”。 结果发现,不仅性能得到提升,生产成本还降低了50%! 由于相关技术在国内起步较晚,此前这类软件主要靠进口采购,一套价格动辄600-800万,加上维护成本,光是训练一个飞行员,平均一小时就要烧掉几千甚至上万元。
量子位
2023/05/19
4640
国产游戏引擎,竟然用来搞民航
谷歌推出全新强化学习智能体,1秒处理240万帧大幅超越IMPALA
DeepMind的强化学习研究小组领导人,AlphaGo、AlphaZero的首席研究员及AlphaStar的联合负责人David Silver教授曾经介绍过强化学习的是原则,其中No. 2就是可伸缩性,并认为“算法的可扩展性最终决定了它的成功与否”。从这个角度上看,SEED作为一个在真正大规模架构上的可扩展Deep-RL框架,无疑是RL领域的重要贡献。
新智元
2020/04/01
4810
性能提升、成本降低,这是分布式强化学习算法最新研究进展
深度强化学习(Deep Reinforcement Learning,DRL)是一种公认的解决连续决策问题的有效技术。为了应对 DRL 的数据低效(data inefficiency)问题,受到分布式机器学习技术的启发,分布式深度强化学习 (distributed deep reinforcement learning,DDRL) 已提出并成功应用于计算机视觉和自然语言处理领域。有观点认为,分布式强化学习是深度强化学习走向大规模应用、解决复杂决策空间和长期规划问题的必经之路。
机器之心
2024/02/26
4240
性能提升、成本降低,这是分布式强化学习算法最新研究进展
每秒处理240万帧游戏画面,AI训练成本降低80%,谷歌开源RL并行计算框架
AI训练中的并行计算就是如此,纵使你有一千张GPU,也无法实现单机训练一千倍的效果。
量子位
2020/03/31
4620
每秒处理240万帧游戏画面,AI训练成本降低80%,谷歌开源RL并行计算框架
单机超越分布式?!强化学习新姿势,并行环境模拟器EnvPool实现速度成本双赢
机器之心专栏 机器之心编辑部 在训练强化学习智能体的时候,你是否为训练速度过慢而发愁?又是否对昂贵的大规模分布式系统加速望而却步?来自 Sea AI Lab 团队的最新研究结果表明,其实鱼和熊掌可以兼得:对于强化学习标准环境 Atari 与 Mujoco,如果希望在短时间内完成训练,需要采用数百个 CPU 核心的大规模分布式解决方案;而使用 EnvPool,只需要一台游戏本就能完成相同体量的训练任务,并且用时不到 5 分钟,极大地降低了训练成本。 目前,EnvPool 项目已在 GitHub 开源,收获超
机器之心
2022/07/12
1.1K0
单机超越分布式?!强化学习新姿势,并行环境模拟器EnvPool实现速度成本双赢
集合三大类无模型强化学习算法,BAIR开源RL代码库rlpyt
2013 年有研究者提出使用深度强化学习玩游戏,之后不久深度强化学习又被应用于模拟机器人控制,自此以后大量新算法层出不穷。其中大部分属于无模型算法,共分为三类:深度 Q 学习(DQN)、策略梯度和 Q 值策略梯度(QPG)。由于它们依赖不同的学习机制、解决不同(但有重合)的控制问题、处理不同属性的动作集(离散或连续),因此这三类算法沿着不同的研究路线发展。目前,很少有代码库同时包含这三类算法,很多原始实现仍未公开。因此,从业者通常需要从不同的起点开始开发,潜在地为每一个感兴趣的算法或基线学习新的代码库。强化学习研究者必须花时间重新实现算法,这是一项珍贵的个人实践,但它也导致社区中的大量重复劳动,甚至成为了入门障碍。
机器之心
2019/10/08
8380
集合三大类无模型强化学习算法,BAIR开源RL代码库rlpyt
深度强化学习的加速方法
本文来源于博主知乎:https://zhuanlan.zhihu.com/p/56085913
深度强化学习实验室
2019/09/17
2K0
GAN加持!英伟达发布“山寨”游戏创造器,已完美复现《吃豆人》
前有“换脸术”,后有“假新闻”,技术作恶论也以GAN为源头甚嚣尘上。但事情总有两面性,例如DeepMind曾经改造了“史上最强”的BigGAN,让新的算法去做图像分类,刷新了ImageNet无监督表征学习的纪录。
AI科技评论
2020/05/29
6290
GAN加持!英伟达发布“山寨”游戏创造器,已完美复现《吃豆人》
大视频模型是世界模型?DeepMind/UC伯克利华人一作:预测下一帧就能改变世界
但Google DeepMind、UC伯克利和MIT的研究人员更进一步,在他们眼里,「大视频模型」也许能够像世界模型一样,真正的做到理解我们身处的这个世界。
新智元
2024/03/05
1490
大视频模型是世界模型?DeepMind/UC伯克利华人一作:预测下一帧就能改变世界
完虐「机器人」,36核CPU单机设置,南加大游戏AI在Doom中实现SOTA性能
我们都清楚,训练 SOTA 人工智能系统往往需要耗费大量的计算资源,这意味着资金雄厚的科技公司的发展进程会远远超过学术团队。但最近的一项研究提出了一种新方法,该方法有助于缩小这种差距,使得科学家可以在单个计算机上解决前沿的 AI 问题。
机器之心
2020/07/28
3780
完虐「机器人」,36核CPU单机设置,南加大游戏AI在Doom中实现SOTA性能
推荐阅读
100万帧数据仅1秒!AI大牛颜水成团队强化学习新作,代码已开源
4500
NVIDIA开发强化学习算法,同时训练数千个机器人
8140
一块V100运行上千个智能体、数千个环境,这个「曲率引擎」框架实现RL百倍提速
5170
告别CPU,加速100-1000倍!只用GPU就能完成物理模拟和强化学习训练
1.9K0
切换JAX,强化学习速度提升4000倍!牛津大学开源框架PureJaxRL,训练只需GPU
4670
玩了5万局游戏,英伟达让GameGAN自己生成「吃豆人」,世界首创无需游戏引擎
1.1K0
速度高达百万帧/秒,颜水成团队开源RL环境并行模拟器,大幅节省CPU资源
7210
谷歌推出分布式强化学习框架SEED,性能“完爆”IMPALA,可扩展数千台机器,还很便宜
1K0
全球首款AI游戏诞生!无需游戏引擎,视频模型直出「我的世界」
1010
1个GPU几分钟搞定强化学习训练,谷歌新引擎让深度学习提速1000倍丨开源
3950
国产游戏引擎,竟然用来搞民航
4640
谷歌推出全新强化学习智能体,1秒处理240万帧大幅超越IMPALA
4810
性能提升、成本降低,这是分布式强化学习算法最新研究进展
4240
每秒处理240万帧游戏画面,AI训练成本降低80%,谷歌开源RL并行计算框架
4620
单机超越分布式?!强化学习新姿势,并行环境模拟器EnvPool实现速度成本双赢
1.1K0
集合三大类无模型强化学习算法,BAIR开源RL代码库rlpyt
8380
深度强化学习的加速方法
2K0
GAN加持!英伟达发布“山寨”游戏创造器,已完美复现《吃豆人》
6290
大视频模型是世界模型?DeepMind/UC伯克利华人一作:预测下一帧就能改变世界
1490
完虐「机器人」,36核CPU单机设置,南加大游戏AI在Doom中实现SOTA性能
3780
相关推荐
100万帧数据仅1秒!AI大牛颜水成团队强化学习新作,代码已开源
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档