Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >单GPU运行数千环境、800万步模拟只需3秒,斯坦福开发超强游戏引擎

单GPU运行数千环境、800万步模拟只需3秒,斯坦福开发超强游戏引擎

作者头像
机器之心
发布于 2023-09-08 01:38:23
发布于 2023-09-08 01:38:23
3242
举报
文章被收录于专栏:机器之心机器之心

机器之心报道

编辑:陈萍、杜伟

Madrona 作为一个研究型游戏引擎,专为创建智能体学习环境而设计。

现阶段,AI 智能体仿佛无所不能,玩游戏、模仿人类完成各种任务,而这些智能体基本是在复杂环境中训练而成的。不仅如此,随着学习任务变得越来越复杂,模拟环境的复杂性也随之增加,从而增加了模拟环境的成本。

即使拥有超级计算规模资源的公司和机构,训练好一个可用的智能体也可能需要数天的时间才能完成。

这阻碍了该领域的进展,降低了训练先进 AI 智能体的实用性。为了解决环境模拟的高成本问题,最近的研究努力从根本上重新设计模拟器,以在训练智能体时实现更高的效率。这些工作共享批量模拟的思想,即在单个模拟器引擎内同时执行许多独立的环境(训练实例)。

本文,来自斯坦福大学等机构的研究者,他们提出了一个名为 Madrona 的强化学习游戏引擎,可以在单个 GPU 上并行运行数千个环境,将智能体的训练时间从几小时缩减到几分钟

  • 论文地址:https://madrona-engine.github.io/shacklett_siggraph23.pdf
  • 论文主页:https://madrona-engine.github.io/

具体而言,Madrona 是一款研究型游戏引擎,专为创建学习环境而设计,可以在单个 GPU 上同时运行数千个环境实例,并且以极高的吞吐量(每秒数百万个聚合步骤)执行。Madrona 的目标是让研究人员更轻松地为各种任务创建新的高性能环境,从而使 AI 智能体训练的速度提高几个数量级。

Madrona 具有以下特点:

  • GPU 批量模拟:单个 GPU 上可运行数千个环境;
  • 实体组件系统 (ECS) 架构;
  • 可与 PyTorch 轻松互操作。

Madrona 环境示例:

上面我们已经提到,该研究利用了 ECS 设计原则,其具体过程如下:

研究者借助 Madrona 框架,实现了多个学习环境,结果表明,相较于开源 CPU 基线,GPU 的速度提升达到了两到三个数量级,相较于在 32 线程 CPU 上运行的强基线,速度提升为 5-33 倍。此外,该研究还在该框架中实现了 OpenAI 的「hide and seek 3D」环境,每个模拟步骤都执行刚体物理学和光线追踪,在单个 GPU 上实现了每秒超过 190 万个 step 速度。

作者之一、斯坦福大学计算机科学副教授 Kayvon Fatahalian 表示,在一款让多个智能体玩烹饪游戏 Overcooked 上,借助 Madrona 游戏引擎,模拟 800 万个环境步骤的时间从一小时缩短到三秒。

目前,Madrona 需要使用 C++ 来编写游戏逻辑。Madrona 仅提供了可视化渲染支持,虽然它可以同时模拟数千个环境,但可视化器一次只能查看一个环境。

基于 Madrona 搭建的环境模拟器有哪些?

Madrona 本身不是一个 RL 环境模拟器,而是一个游戏引擎或框架。开发者借助它可以更容易地实现自己的新的环境模拟器,从而通过在 GPU 上运行批次模拟并将模拟输出与学习代码紧密结合来实现高性能。

下面是基于 Madrona 搭建的一些环境模拟器。

Madrona Escape Room

Madrona Escape Room 是一个简单的 3D 环境,使用了 Madrona 的 ECS API 以及物理和渲染功能。在这个简单任务中,智能体必须学习按下红色按钮并推动其他颜色的箱子以通过一系列房间。

Overcooked AI

Overcooked AI 环境是一个基于协作电子游戏的多智能体学习环境(多人协作烹饪游戏),这里对它进行了高通量 Madrona 重写。

图源:https://store.epicgames.com/zh-CN/p/overcooked

Hide and Seek

2019 年 9 月,OpenAI 智能体上演了捉迷藏攻防大战,自创套路与反套路。这里使用 Madrona 对「Hide and Seek」环境进行了复现。

Hanabi

Hanabi 是一个基于 Madrona 游戏引擎的 Hanabi 纸牌游戏的实现,也是一个协作式 Dec-POMDP。该环境基于 DeepMind 的 Hanabi 环境,并支持部分 MAPPO 实现。

Cartpole

Cartpole 是一个典型的 RL 训练环境,它与构建在 Madrona 游戏引擎之上的 gym 实现有相同的动力学。

GitHub 地址:https://github.com/shacklettbp/madrona

Overcooked 烹饪游戏:一分钟内训练最佳智能体

Overcooked in Thousands of Kitchens: Training Top Performing Agents in Under a Minute

论文作者之一、斯坦福大学本科生 Bidipta Sarkar 撰写博客详细介绍了训练智能体玩 Overcooked 烹饪游戏的过程。Overcooked 是一款流行的烹饪游戏, 也可以作为协作多智能体研究的基准。

在 Sarkar 的 RL 研究中,模拟虚拟环境的高成本对他来说始终是训练智能体的一大障碍。

就 Overcooked 烹饪游戏而言,大约需要 800 万步的游戏经验,才能训练一对在 Overcooked 狭窄房间布局(下图)中收敛到稳定均衡策略的智能体。Overcooked 的开源实现使用 Python 编写,在 8 核 AMD CPU 上每秒运行 2000 步,因此生成必要的智能体经验需要花费 1 个小时以上。

相比之下,在英伟达 A40 GPU 上执行训练所需的所有其他操作(包括所有 800 万个模拟步骤的策略推理、策略训练的反向传播)仅需不到 1 分钟的时间。很显然,训练 Overcooked 智能体受限于 Overcooked 环境模拟器的速度。

考虑到 Overcooked 是一个简单的环境,让模拟速度难住似乎很愚蠢。因此 Sarkar 试着看看 Overcooked 环境模拟的速度是否可以提升,这就需要用到 Madrona 游戏引擎。

利用 Madrona 游戏引擎,Sarkar 得到了一个原始 Overcooked Python 实现的即插即用的 GPU 加速版替代。当并行模拟 1000 个 Overcooked 环境时,GPU 加速后的实现在 A40 GPU 上每秒可以生成 350 万步经验。

作为结果,模拟 800 万个环境步骤的时间从 1 小时缩短至了 3 秒,从而可以使用 A40 GPU 在短短 1 分钟内训练一个策略。

该模拟器的速度为在 Overcooked 中执行广泛的超参数扫描打开了新的可能性,尤其是在以往训练单个策略所需的时间内有了训练多个策略的可能。

最后,Sarkar 意识到与创建 GPU 加速环境的现有替代方案(如 PyTorch、Taichi Lang、Direct CUDA C++)相比,将 Overcooked 移植到 Madrona 的过程更加地顺利。

博客详情:https://bsarkar321.github.io/blog/overcooked_madrona/index.html

参考链接:https://madrona-engine.github.io/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-08-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
2 条评论
热度
最新
请问下,我往milvus里面插得数据为什么重启后就查询不到了,一直查询超时,要怎么办呀?在线等。。。。
请问下,我往milvus里面插得数据为什么重启后就查询不到了,一直查询超时,要怎么办呀?在线等。。。。
11点赞举报
请关注公众号zilliztech,加入milvus微信交流群讨论技术问题。
请关注公众号zilliztech,加入milvus微信交流群讨论技术问题。
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
基于 Milvus 的跨模态行人检索
近年来,由于跨模态数据的快速增长,跨模态检索备受关注。它以一种类型的数据作为查询,来检索另一种类型的相关数据。例如,用户可以用一段文字来检索相关的图片或视频。由于查询及其检索结果可以是不同的模态,如何衡量不同模态数据之间的内容相似性仍然是一个挑战。
Zilliz RDS
2020/11/11
1K0
基于 Milvus 的跨模态行人检索
图形商标近似检索-知擎者的 Milvus 实践
知擎者是一个商标大数据智能应用平台,以商标数据为核心,结合企业大数据、法律大数据、营销大数据等,提供基础业务处理、商标预警监测、案件智能挖掘、数据情报分析等服务,为知产服务者提效赋能。知擎者不断协助知产服务者改变传统业务处理模式,创建智慧服务新体系,拓展更多业务机会,以达到知产服务者快速盈利和品牌建设的目标。
Zilliz RDS
2021/02/03
9950
图形商标近似检索-知擎者的 Milvus 实践
语义检索系统:基于Milvus 搭建召回系统抽取向量进行检索,加速索引
目标:使用 Milvus 搭建召回系统,然后使用训练好的语义索引模型,抽取向量,插入到 Milvus 中,然后进行检索。
汀丶人工智能
2023/08/02
2.8K0
语义检索系统:基于Milvus 搭建召回系统抽取向量进行检索,加速索引
基于 Milvus 的音频检索系统
人可以通过听觉感知位置、运动、音调、音量、旋律并获取信息。日常生活中,音频是一种重要的多媒体数据,我们会收听电台节目、欣赏在线音乐等。
Zilliz RDS
2021/03/22
1.5K0
基于 Milvus 的音频检索系统
图像检索(Image Retrieval)入门
图像检索是一项重要的计算机视觉任务,它旨在根据用户的输入(如图像或关键词),从图像数据库中检索出最相关的图像。图像检索技术在许多领域中有着广泛的应用,如图像搜索引擎、图像版权认证、医学影像分析等。 这篇博客将带您入门图像检索的基本概念、方法和常用的技术。
大盘鸡拌面
2023/10/25
2K0
Milvus 实战 | 基于 Milvus 的食谱检索系统
现在,社交媒体、电商网站以及短视频应用源源不断地产生大量多模态数据。这些数据包含了自然语言、视觉信号、声音信号等多种类型。由于单一模式的数据分析已经不能满足日益复杂的查询需求,如何高效利用这些多模态数据变得至关重要。
Zilliz RDS
2020/12/02
1.2K0
AI听曲识歌!哼曲、口哨吹,都能秒识! ⛵
本文讲解音频检索技术及其广泛的应用场景。以『听曲识歌』为例,技术流程为具对已知歌曲抽取特征并构建特征向量库,而对于待检索的歌曲音频,同样做特征抽取后进行比对和快速匹配。
ShowMeAI
2022/08/26
5.1K0
AI听曲识歌!哼曲、口哨吹,都能秒识! ⛵
你的 AI 造型师-基于 Milvus 的服装图片搜索系统及应用
Mozat 是一家成立于 2003 年的互联网公司,总部位于新加坡,在广州和沙特阿拉伯设有分公司。Mozat 为全球移动互联网用户提供娱乐和社区服务,致力于打造一个充满乐趣的新移动世界。旗下产品 Stylepedia 是一款面向全球时尚女性的衣柜伴侣 APP。在这里,用户不仅可以打造自己的专属衣柜,还能与全世界的时尚达人在线互动,获取最 in 穿搭。
Zilliz RDS
2021/07/23
1K0
你的 AI 造型师-基于 Milvus 的服装图片搜索系统及应用
基于 Milvus 的钓鱼网站检测
在海量信息中,不乏非法分子利用网络骗取用户信任并从中获利,钓鱼网站就是其中之一。“钓鱼”网站的网址、网页内容、布局等与真实网站极其相似,没有安全意识的网民容易因此上当受骗,造成严重后果。
Zilliz RDS
2020/11/04
1.5K0
基于 Milvus 的钓鱼网站检测
机器学习 | 图像检索开源项目合集
关于更多机器学习、人工智能、增强现实、Unity、Unreal资源和技术干货,可以关注公众号:三次方AIRX
三次方AIRX
2020/12/15
1.9K0
Milvus 到底有多少种玩法?这份攻略合集请收好!
Milvus 是一款开源的向量相似度搜索引擎,支持使用多种 AI 模型将非结构化数据向量化,并为向量数据提供搜索服务。Milvus 集成了 Faiss、Annoy 等广泛应用的向量索引库,开发者可以针对不同场景选择不同的索引类型。使用 Milvus 就可以以相当低的成本研发出最简可行产品。
Zilliz RDS
2021/03/22
3.3K0
Milvus 到底有多少种玩法?这份攻略合集请收好!
零基础快速搭建一个图像检索系统
随着计算机视觉领域的发展,图像识别已经被广泛应用在各个领域,比如在疫情期间各个住宅、办公场所出入口位置广泛使用的人脸识别系统等等。
用户3147702
2022/06/27
1.6K0
零基础快速搭建一个图像检索系统
Milvus 实战|利用 Milvus 搭建基于图的推荐系统
推荐系统[1](Recommender System,RS)能够根据用户的偏好主动为用户推荐商品或项目。它通过用户的历史数据来发掘用户兴趣偏好,从而将用户可能感兴趣的物品推送给用户,一个设计出色的推荐系统能够为企业带来可观的经济效益。
Zilliz RDS
2020/09/24
1.9K0
Milvus 实战|利用 Milvus 搭建基于图的推荐系统
利用深度学习手把手教你实现一个「以图搜图」
在上一篇文章《图像检索系列——利用 Python 检测图像相似度》中,我们介绍了一个在图像检索领域非常常用的算法——感知哈希算法。这是一个很简单且快速的算法,其原理在于针对每一张图片都生成一个特定的“指纹”,然后采取一种相似度的度量方式得出两张图片的近似程度。
出其东门
2019/09/03
2.9K0
利用深度学习手把手教你实现一个「以图搜图」
北京大学彭宇新教授团队开源最新多轮交互式商品检索模型、数据集及评测基准
本文是北京大学彭宇新教授团队在多轮交互式商品检索的最新研究成果,已被 ICLR 2025 接收并开源。
机器之心
2025/03/04
1160
北京大学彭宇新教授团队开源最新多轮交互式商品检索模型、数据集及评测基准
Milvus开源向量搜索引擎,轻松搭建以图搜图系统
当您听到“以图搜图”时,是否首先想到了百度、Google 等搜索引擎的以图搜图功能呢?事实上,您完全可以搭建一个属于自己的以图搜图系统:自己建立图片库;自己选择一张图片到库中进行搜索,并得到与其相似的若干图片。 Milvus 作为一款针对海量特征向量的相似性检索引擎,旨在助力分析日益庞大的非结构化数据,挖掘其背后蕴含的巨大价值。为了让 Milvus 能够应用于相似图片检索的场景,我们基于 Milvus 和图片特征提取模型 VGG 设计了一个以图搜图系统。 正文分为数据准备、系统概览、 VGG 模型、API 介绍、镜像构建、系统部署、界面展示七个部分。数据准备章节介绍以图搜图系统的数据支持情况。系统概览章节展示系统的整体架构。 VGG 模型章节介绍了 VGG 的结构、特点、块结构以及权重参数。 API 介绍章节介绍系统的五个基础功能 API 的工作原理。镜像构建章节介绍如何通过源代码构建客户端和服务器端的 docker 镜像。系统部署章节展示如何三步搭建系统。界面展示章节会展示系统的搜索界面。
Zilliz RDS
2020/03/26
5.1K0
Milvus开源向量搜索引擎,轻松搭建以图搜图系统
Milvus 实战 | 基于 Milvus 的 CORD-19 论文检索引擎
论文检索是指根据用户输入的信息从大量的论文集合中查找出相关文本的一种技术。论文检索作为信息检索的一种,常用于搜索引擎、数字图书馆等领域,是信息检索技术的一个重要组成部分。
Zilliz RDS
2020/08/27
1.5K0
Milvus 实战 | 基于 Milvus 的 CORD-19 论文检索引擎
大厂技术实现 | 图像检索及其在高德的应用 @计算机视觉系列
图像检索任务指的是,给定查询图像,从图像数据库中找到包含相同或相似实例的图像。本文研究的是高德地图POI信息更新,即根据自有图像源,将每个新增或调整的POI及时制作成数据。这是非常典型的图像检索垂直应用,整套方便背后也包含大量CV技术。本篇我们结合资深CV工程师章鱼的分享,一起研究『高德地图POI信息更新』这一业务背景中,应用到的计算机视觉技术。
ShowMeAI
2022/01/21
1.2K0
大厂技术实现 | 图像检索及其在高德的应用 @计算机视觉系列
多语言BERT与图像编码器:EfficientNet0和微型Swin Transformer在视觉检索中的应用 !
数字世界充斥着大量信息。文本、图像和视频以空前的速度被生产出来,针对文本 Query 的传统搜索系统跟不上节拍。基于关键词的搜索通常产生大量的结果,无法捕捉用户的意图或多媒体数据的丰富性,为获取所需信息设置了障碍。理想情况下,信息检索系统应该允许用户不受本族语言或首选交互方式的限制找到所需内容。这就是多模态检索变得至关重要的地方,因为它允许使用不仅仅是文本,还有图片、口头语言或不同输入模态的组合进行搜索。这种方法显著提高了搜索能力,使信息对人们来说更加触手可及,无论他们说的是哪种语言,无论他们喜欢如何搜索。例如,在图像到图像的搜索中,可以将相机对准一座建筑物来搜索其建筑风格,或者使用一幅画来在网上找到衣服。这些例子说明了多模态数据检索如何帮助人们更高效地搜索。
AIGC 先锋科技
2024/09/10
1490
多语言BERT与图像编码器:EfficientNet0和微型Swin Transformer在视觉检索中的应用 !
5 分钟实现「视频检索」:基于内容理解,无需任何标签
「视频检索」任务就是输入一段文本,检索出最符合文本描述的视频。随着各类视频平台的兴起和火爆,网络上视频的数量呈现井喷式增长,「视频检索」成为人们高效查找视频的一项新需求。
Zilliz RDS
2023/01/10
4.5K0
5 分钟实现「视频检索」:基于内容理解,无需任何标签
推荐阅读
相关推荐
基于 Milvus 的跨模态行人检索
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档