Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >DeepMind Dreamer 在这个任务上栽了

DeepMind Dreamer 在这个任务上栽了

作者头像
CreateAMind
发布于 2023-09-01 00:23:01
发布于 2023-09-01 00:23:01
1720
举报
文章被收录于专栏:CreateAMindCreateAMind

https://github.com/jurgisp/memory-maze

Memory Maze

Memory Maze is a 3D domain of randomized mazes designed for evaluating the long-term memory abilities of RL agents. Memory Maze isolates long-term memory from confounding challenges, such as exploration, and requires remembering several pieces of information: the positions of objects, the wall layout, and keeping track of agent’s own position.

Key features:

  • Online RL memory tasks (with baselines)
  • Offline dataset for representation learning (with baselines)
  • Verified that memory is the key challenge
  • Challenging but solvable by human baseline
  • Easy installation via a simple pip command
  • Available gym and dm_env interfaces
  • Supports headless and hardware rendering
  • Interactive GUI for human players
  • Hidden state information for probe evaluation

Task Description

The task is based on a game known as scavenger hunt or treasure hunt:

  • The agent starts in a randomly generated maze, which contains several objects of different colors.
  • The agent is prompted to find the target object of a specific color, indicated by the border color in the observation image.
  • Once the agent successfully finds and touches the correct object, it gets a +1 reward and the next random object is chosen as a target.
  • If the agent touches an object of the wrong color, there is no effect.
  • Throughout the episode, the maze layout and the locations of the objects do not change.
  • The episode continues for a fixed amount of time, so the total episode reward equals the number of reached targets.

摘要:

智能代理需要记住重要信息才能在部分观察到的环境中进行推理。例如,具有第一人称视角的代理应该记住相关对象的位置,即使它们不在视野范围内。同样,为了有效地浏览房间,代理商需要记住房间连接方式的平面图。然而,强化学习中的大多数基准测试任务并不测试代理的长期记忆,这减缓了这一重要研究方向的进展。在本文中,我们介绍了记忆迷宫,这是一个随机迷宫的 3D 域,专门设计用于评估代理的长期记忆。与现有的基准测试不同,Memory Maze 衡量的是与混杂代理能力分开的长期记忆,并要求代理通过随时间整合信息来定位自己。有了记忆迷宫,我们提出了一个在线强化学习基准、一个多样化的离线数据集和一个离线探测评估。记录人类玩家建立了一个强大的基线,并验证了建立和保留记忆的必要性,这反映在他们在每一集中逐渐增加的奖励中。我们发现,当前的算法受益于通过时间进行截断反向传播的训练,并在小迷宫上取得了成功,但在大型迷宫上的表现不及人类的表现,这为未来的算法设计留下了空间,可以在记忆迷宫上进行评估。这反映在他们在每一集中逐渐增加的奖励中。我们发现,当前的算法受益于通过时间进行截断反向传播的训练,并在小迷宫上取得了成功,但在大型迷宫上的表现不及人类的表现,这为未来的算法设计留下了空间,可以在记忆迷宫上进行评估。这反映在他们在每一集中逐渐增加的奖励中。我们发现,当前的算法受益于通过时间进行截断反向传播的训练,并在小迷宫上取得了成功,但在大型迷宫上的表现不及人类的表现,这为未来的算法设计留下了空间,可以在记忆迷宫上进行评估。

相关推荐:

code:通过进化、可塑性和 元 元学习 获得认知能力(4个时间维度的学习迭代)

代码:Learning to Learn and Forget (华为)

神经科学的深度学习框

代码:一个epoch打天下:深度Hebbian BP (华为实验室) 抗攻击

嵌套自我:产前发育中的自组织和共享马尔可夫毯

在突触学习和计算目标之间建立精确关系的框架

大脑中复杂适应动力学的神经调节控制

DeepMind Dreamer 系列为什么效果这么好

脑启发的ANN学习机制综述

DeepMind-代码:元学习认知模型 Meta-Learned Models of Cognition

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-06-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
DeepMind 提出分层强化学习新模型 FuN,超越 LSTM
【新智元导读】在用强化学习玩游戏的路上越走越远的 DeepMind,今天发表在 arxiv上的最新论文《分层强化学习的 FeUdal 网络》引起热议。简称 FuN 的这个模型完善了 Dayan 和 Hinton 有关分层强化学习的理论,通过将任务分解为子任务来学习复杂行为或学习达成目标,在 ATARI 的多个游戏上的实验显示,该模型比 LSTM 基线表现更优。论文最后称,这类问题的解决方案或是具有通用智能的智能体的重要的敲门砖。 论文题目:分层强化学习的 FeUdal 网络(FeUdal Networks
新智元
2018/03/27
1.8K0
DeepMind 提出分层强化学习新模型 FuN,超越 LSTM
TensorTrade:基于深度强化学习的Python交易框架
互联网上有很多关于强化学习交易系统零零碎碎的东西,但是没有一个是可靠和完整的。出于这个原因,我们决定创建一个开源的Python框架,使用深度强化学习,有效地将任何交易策略从想法转化为实际应用。
量化投资与机器学习微信公众号
2019/10/23
5.3K11
TensorTrade:基于深度强化学习的Python交易框架
如何使用强化学习玩21点?
本文将比较分析Monte-Carlo控制算法与时域差分控制算法在解21点(Blackjack)博弈中的应用。
用户7623498
2020/08/04
1.6K0
DeepMind提出关系RNN:构建关系推理模块,强化学习利器
新智元编译 来源:arxiv 编辑:肖琴 【新智元导读】传统的记忆架构做关系推理时有困难,DeepMind和伦敦大学学院的这篇论文提出关系推理模块RMC,能够在序列信息中执行关系推理,在WikiT
新智元
2018/06/22
8610
如何解决稀疏奖励下的强化学习?
强化学习(Reinforcement Learning,RL)是实现强人工智能的方法之一,在智能体(Agent)与环境的交互过程中,通过学习策略(Policy)以最大化回报或实现特定的目标。在实际应用场景中,RL 面临一个重要的问题:agent 无法得到足够多的、有效的奖励(Reward),或者说 agent 得到的是稀疏奖励(Sparse Reward),进而导致 agent 学习缓慢甚至无法进行有效学习。
机器之心
2020/07/09
4.4K0
如何解决稀疏奖励下的强化学习?
拒绝碎片化 RAG,谷歌 DeepMind 推出 ReadAgent:模拟人类阅读长文本,或是NotebookLM底层技术?
近年来,RAG 框架从最初的朴素设计,逐步演化出各类高级变体,诸如 GraphRAG、HippoRAG 等结构越来越复杂。作为一名实际使用者,我在应用过程中也愈发感受到这种复杂性带来的沉重负担。起初,RAG 似乎只是为了解决上下文窗口不足的问题引入的一种检索增强手段;但如今,它逐渐变成了一个需要精心构建索引、划分片段、设计路由与重排机制的系统工程。这让我不禁反思:科技树是不是点歪了?怎么就没有一点大力出奇迹的感觉呢?
AgenticAI
2025/06/15
1880
拒绝碎片化 RAG,谷歌 DeepMind 推出 ReadAgent:模拟人类阅读长文本,或是NotebookLM底层技术?
Deepmind“好奇心”强化学习新突破!改变奖励机制,让智能体不再“兜圈子”
强化学习是机器学习中最活跃的研究领域之一,在该领域的研究环境下,人工智能体(agent)做到正确的事情时会获得积极的奖励,否则获得负面的奖励。
新智元
2018/11/30
1.6K0
Deepmind“好奇心”强化学习新突破!改变奖励机制,让智能体不再“兜圈子”
TensorFlow应用实战-17-Qlearning实现迷宫小游戏
总共有12个状态,s1到s12.对于每一个状态会有四个动作。对于每个状态下的每个动作会有一个Q的值。
用户1332428
2018/07/30
2.1K0
TensorFlow应用实战-17-Qlearning实现迷宫小游戏
比TD、MC、MCTS指数级快,性能超越A3C、DDQN等模型,这篇RL算法论文在Reddit上火了
作者:Jose A. Arjona-Medina、Michael Gillhofer、Michael Widrich、Thomas Unterthiner、Sepp Hochreiter
机器之心
2018/07/26
6930
比TD、MC、MCTS指数级快,性能超越A3C、DDQN等模型,这篇RL算法论文在Reddit上火了
强化学习读书笔记(8)上| 用表格方法规划和学习
本讲为需要环境模型的model-based强化学习方法(如DP和启发式搜索)和不需要环境模型的model-free方法(比如MC和TD)提供一个统一的论述框架。基于模型的方法依赖规划(planning)作为其主要组成部分,而无模型方法主要依赖于学习(learning)。
用户1621951
2019/09/17
1.1K0
强化学习读书笔记(8)上| 用表格方法规划和学习
code:通过进化、可塑性和 元 元学习 获得认知能力(4个时间维度的学习迭代)
智力的一个标志是能够自主学习新的灵活的认知行为也就是说,适当的行动不仅取决于即时刺激(如简单的反射性刺激‑反应关联),还取决于必须充分了解的上下文信息。为任务的每个新实例获取、存储和处理。人工智能体可以通过外部的、人工设计的元学习 (“学习到学习”)算法来学习此类认知任务。相比之下,动物能够通过自身进化的内部机制的运行,仅从刺激和奖励中自动接受这样的认知任务。我们可以利用这个过程来生成具有这种能力的人工代理吗?在这里,我们通过大量改编自计算神经科学框架的简单认知任务,进化神经网络,赋予其可塑性连接和神经调节。实际的权值修改过程完全由网络自身控制,而不是由外部算法引导。由此产生的进化网络可以自动修改自己的连接性,以通过其进化的神经组织和可塑性系统的自发操作,仅从刺激和奖励中获得在进化过程中从未见过的新颖的简单认知任务。我们的结果强调了仔细考虑智能行为出现所涉及的多个学习循环的重要性。
CreateAMind
2023/09/01
4070
code:通过进化、可塑性和 元 元学习 获得认知能力(4个时间维度的学习迭代)
IEEE预发:DeepMind主攻的深度强化学习3大核心算法及7大挑战
【新智元导读】深度强化学习将有助于革新AI领域,它是朝向构建对视觉世界拥有更高级理解的自主系统迈出的一步。本文将涵盖深度强化学习的核心算法,包括深度Q网络、置信区域策略优化和异步优势actor-critic算法(A3C)。同时,重点介绍深度强化学习领域的几个研究方向。 本文预计在IEEE信号处理杂志“图像理解深度学习”专刊发表。作者Kai Arulkumaran是伦敦帝国理工大学的博士生,Marc Peter Deisenroth是伦敦帝国理工大学的讲师,Miles Brundage是亚利桑那州立大学博士
新智元
2018/03/22
1.3K0
IEEE预发:DeepMind主攻的深度强化学习3大核心算法及7大挑战
【大咖读论文】田渊栋评 DeepMind 深度强化学习的异步算法
【新智元导读】在ICML2016上,谷歌 DeepMind 有9篇论文被接收,新智元特邀Facebook 人工智能实验室研究员田渊栋对其中的《 深度增强学习的异步算法》进行了点评。 作者介绍:田渊栋,
新智元
2018/03/22
1.3K0
【大咖读论文】田渊栋评 DeepMind 深度强化学习的异步算法
【AlphaGo Zero 核心技术-深度强化学习教程代码实战06】给Agent添加记忆功能
【导读】Google DeepMind在Nature上发表最新论文,介绍了迄今最强最新的版本AlphaGo Zero,不使用人类先验知识,使用纯强化学习,将价值网络和策略网络整合为一个架构,3天训练后就以100比0击败了上一版本的AlphaGo。Alpha Zero的背后核心技术是深度强化学习,为此,专知有幸邀请到叶强博士根据DeepMind AlphaGo的研究人员David Silver《深度强化学习》视频公开课进行创作的中文学习笔记,在专知发布推荐给大家!(关注专知公众号,获取强化学习pdf资料,详情
WZEARW
2018/04/09
1.1K0
【AlphaGo Zero 核心技术-深度强化学习教程代码实战06】给Agent添加记忆功能
DeepMind到底是如何教AI玩游戏的?这篇在Medium上获得1700个赞的文章,把里面的原理讲清楚了
一篇顶十篇!想入门强化学习,专心研读这篇对DeepMind经典论文的解析就够了 作者 | Aman Agarwal 编译 | Shawn 编辑 | 鸽子、焦燕 DeepMind到底是如何教AI玩游戏的?这篇在Medium上获得1700个赞的文章,把里面的原理讲清楚了。 谷歌的DeepMind是世界一流的AI研究团队,其研发的AlphaGo在2016年备受瞩目的人机大战中击败了韩国围棋冠军李世石(Lee Sedol),一战成名。AlphaGo背后的关键技术就是深度强化学习(Deep Reinforcem
AI科技大本营
2018/04/26
1.6K0
DeepMind到底是如何教AI玩游戏的?这篇在Medium上获得1700个赞的文章,把里面的原理讲清楚了
【DRL】深度强化学习介绍
随着深度学习的迅猛发展,深度强化学习(Deep Reinforcement Learning, DRL)将深度学习与强化学习相结合,使得处理高维状态空间成为可能。
不去幼儿园
2024/12/03
2530
【DRL】深度强化学习介绍
【DeepMind 公开课-深度强化学习教程笔记04】不基于模型的预测
点击上方“专知”关注获取更多AI知识! 【导读】Google DeepMind在Nature上发表最新论文,介绍了迄今最强最新的版本AlphaGo Zero,不使用人类先验知识,使用纯强化学习,将价值网络和策略网络整合为一个架构,3天训练后就以100比0击败了上一版本的AlphaGo。Alpha Zero的背后核心技术是深度强化学习,为此,专知有幸邀请到叶强博士根据DeepMind AlphaGo的研究人员David Silver《深度强化学习》视频公开课进行创作的中文学习笔记,在专知发布推荐给大家!(关注
WZEARW
2018/04/10
1.1K0
【DeepMind 公开课-深度强化学习教程笔记04】不基于模型的预测
【强化学习】近端策略优化算法(PPO)万字详解(附代码)
近端策略优化、PPO(Proximal Policy Optimization)是一种强化学习算法,设计的目的是在复杂任务中既保证性能提升,又让算法更稳定和高效。以下用通俗易懂的方式介绍其核心概念和流程。
不去幼儿园
2025/01/02
12.5K0
【强化学习】近端策略优化算法(PPO)万字详解(附代码)
新框架ES-MAML:基于进化策略、简易的元学习方法
【导读】现有的MAML算法都是基于策略梯度的,在试图利用随机策略的反向传播估计二阶导数时遇到了很大的困难。本文为大家介绍一个新框架ES-MAML,这是一个基于进化策略,解决与模型无关的元学习(model agnostic meta learning,MAML)问题的新框架。
AI科技大本营
2019/10/28
1.1K0
新框架ES-MAML:基于进化策略、简易的元学习方法
强化学习也有基础模型了!DeepMind重磅发布AdA,堪比人类的新环境适应能力
---- 新智元报道   编辑:LRS 【新智元导读】强化学习也要进入预训练时代了! 基础模型(foundation models)在监督和自监督学习问题上展现出强大的领域适应性(adaption)和可扩展性(scalability),但强化学习领域仍然没有基础模型。 最近DeepMind的Adaptive Agents团队提出了一种人-时间尺度(human-timescale)自适应智能体AdA(Adaptive Agent),证明经过大规模训练后的RL智能体也能具有通用上下文的学习能力,该算法可以
新智元
2023/02/24
5580
强化学习也有基础模型了!DeepMind重磅发布AdA,堪比人类的新环境适应能力
推荐阅读
DeepMind 提出分层强化学习新模型 FuN,超越 LSTM
1.8K0
TensorTrade:基于深度强化学习的Python交易框架
5.3K11
如何使用强化学习玩21点?
1.6K0
DeepMind提出关系RNN:构建关系推理模块,强化学习利器
8610
如何解决稀疏奖励下的强化学习?
4.4K0
拒绝碎片化 RAG,谷歌 DeepMind 推出 ReadAgent:模拟人类阅读长文本,或是NotebookLM底层技术?
1880
Deepmind“好奇心”强化学习新突破!改变奖励机制,让智能体不再“兜圈子”
1.6K0
TensorFlow应用实战-17-Qlearning实现迷宫小游戏
2.1K0
比TD、MC、MCTS指数级快,性能超越A3C、DDQN等模型,这篇RL算法论文在Reddit上火了
6930
强化学习读书笔记(8)上| 用表格方法规划和学习
1.1K0
code:通过进化、可塑性和 元 元学习 获得认知能力(4个时间维度的学习迭代)
4070
IEEE预发:DeepMind主攻的深度强化学习3大核心算法及7大挑战
1.3K0
【大咖读论文】田渊栋评 DeepMind 深度强化学习的异步算法
1.3K0
【AlphaGo Zero 核心技术-深度强化学习教程代码实战06】给Agent添加记忆功能
1.1K0
DeepMind到底是如何教AI玩游戏的?这篇在Medium上获得1700个赞的文章,把里面的原理讲清楚了
1.6K0
【DRL】深度强化学习介绍
2530
【DeepMind 公开课-深度强化学习教程笔记04】不基于模型的预测
1.1K0
【强化学习】近端策略优化算法(PPO)万字详解(附代码)
12.5K0
新框架ES-MAML:基于进化策略、简易的元学习方法
1.1K0
强化学习也有基础模型了!DeepMind重磅发布AdA,堪比人类的新环境适应能力
5580
相关推荐
DeepMind 提出分层强化学习新模型 FuN,超越 LSTM
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档