首页
学习
活动
专区
圈层
工具
发布
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    谷歌、DeepMind强强联手再发布Dreamer:性能远超“前辈”PlaNet,数据效率再创新高

    该智能体已开源,开源代码:https://github.com/google-research/dreamer 2 Dreamer 的工作原理如何?...根据智能体由过去的经验而组成的数据集中的一系列图像、行为和奖励,Dreamer可以学习如下所示的世界模型: Dreamer 从经验中学习世界模型。...此外,Dreamer使用价值函数考虑超出规划范围的奖励,并利用反向传播进行高效的规划。...在计算时间上,相比于其他方法所需的24个小时,训练 Dreamer 仅需16个小时。...产生行为如下所示,表明了 Dreamer也能高效地学习解决这些更具挑战性的任务: Dreamer在Atari游戏和DeepMind Lab级别任务上学习成功的行为,DeepMind Lab级别的任务具有离散的动作和视觉上更加多样化的场景

    88610

    世界模型仅用 1 小时训练一个四足机器人从头开始翻滚、站立和行走,无需重置。10 分钟内适应扰动或快速翻身站立

    Dreamer 算法最近显示出通过在学习的世界模型中进行规划从少量交互中学习的巨大潜力,在视频游戏中表现优于纯强化学习。...然而,Dreamer 是否可以促进物理机器人的更快学习尚不得而知。在本文中,我们将 Dreamer 应用到 4 个机器人上,在没有任何模拟器的情况下直接在现实世界中在线学习。...Dreamer 仅用 1 小时训练一个四足机器人从头开始翻滚、站立和行走,无需重置。然后我们推动机器人,发现 Dreamer 在 10 分钟内适应以承受扰动或快速翻身并重新站起来。...在两个不同的机械臂上,Dreamer 学习直接从相机图像和稀疏奖励中挑选和放置多个物体,接近人类的表现。在轮式机器人上,Dreamer 学习完全根据相机图像导航到目标位置,自动解决机器人方向的歧义。...在所有实验中使用相同的超参数,我们发现 Dreamer 能够在现实世界中进行在线学习,这建立了强大的基线。我们发布了我们的基础设施,以便未来将世界模型应用于机器人学习。

    61020

    DeepMind闭关修炼「我的世界」,自学成才挖钻登Nature!人类玩家瑟瑟发抖

    世界模型允许Dreamer尝试不同的事情,「世界模型真正赋予了人工智能系统想象未来的能力」Hafner 说。...研究团队一开始并不是奔着「钻石测试」去研究的,测试Dreamer在钻石挑战上的表现是一个事后的想法。...这些中间奖励促使 Dreamer 选择了更有可能获得钻石的动作。团队每 30 分钟重置一次游戏,这样Dreamer就不会适应某个特定的配置——而是学会了获得更多奖励的一般规则。...据DeepMind宣称,Dreamer是第一个在不使用人类数据的情况下从零开始在《我的世界》中收集钻石的算法。 所有的Dreamer智能体都在一亿次步骤内发现了钻石。...Dreamer算法核心原理 Dreamer算法的核心是学习一个世界模型。 这就像是智能体的大脑,让智能体具备丰富的感知能力,通过想象未来场景来规划行动。

    29610

    谷歌重磅开源RL智能体Dreamer,仅靠图像学习从机器人到Atari的控制策略,样本效率暴增20倍

    通过模型预测的反向传播,Dreamer 能够利用它学得的模型高效地展开行为学习。通过从原始图像中学习计算紧凑模型状态,Dreamer 仅使用一块 GPU 即可以高效地从预测到的并行序列中学习。...Google AI 也已经开源了 Dreamer 的源代码。...从智能体数据集中采样一系列过去的图像、动作以及奖赏值数据,Dreamer 的模型学习过程如下图所示: ? Dreamer 从过去的经验中学习出一个环境的模型。...Dreamer 则不同,它通过去耦化规划和行动规避了这一计算花销大的搜索过程。只要在预测序列上训练了它的策略网络,Dreamer 在无需额外搜索的情况下即可计算与环境进行交互的动作。...结果显示,Dreamer 能够学习这些具有挑战性的任务。 ? Dreamer 在雅达利游戏上有着成功的表现。

    88020

    【DRL】不同深度强化学习方法的特点和对比

    DDPG, TD3, SAC同时学习策略(Actor)和价值函数(Critic)结合值函数和策略梯度的优势高维动作空间,样本效率好模型基方法(Model-based)Dyna-Q, MuZero, Dreamer...高较差适合连续动作,但易陷入局部最优TD3✅✅❌✅高高改进DDPG,降低Q值过估计,提升性能SAC✅✅❌✅高高加入熵奖励,探索性强,效果好MuZero✅✅✅✅高高不用知道环境规则,性能优异,但计算量大Dreamer...如果你在环境中探索成本高,选择 SAC、Dreamer、MuZero 可能更有优势。 稳定性 vs....样本效率的意义 在仿真环境中,样本效率可能不是问题(如 Atari 上的训练几十万步); 在现实系统中(如医疗、金融、机器人),高样本效率 + 安全性尤为关键,这时: 模型基方法(Dreamer,...可扩展性和并行训练 A3C / IMPALA:可并行多个代理训练,适合大规模训练; PPO 和 SAC:支持分布式实现; MuZero 和 Dreamer:可与大型模型(如 Transformer)

    80911

    1小时学会走路,10分钟学会翻身,世界模型让机器人迅速掌握多项技能

    论文链接:https://arxiv.org/pdf/2206.14176.pdf Dreamer 世界模型是谷歌、多伦多大学等机构在 2021 年提出的一种。...总体来说,这项研究的贡献在于: 1、Dreamer on Robots。研究者将 Dreamer 应用于 4 个机器人,无需引入新算法直接在现实世界中展示了成功的学习成果。...与 Hafner et al. (2020) 相比,Dreamer 方法没有训练频率超参数,因为学习器优化神经网络与数据收集并行进行,没有速率限制。...Sphero 导航 此外,研究者还在视觉导航任务上评估了 Dreamer,该任务需要将轮式机器人操纵到固定目标位置,仅给定 RGB 图像作为输入。...2 小时内,Dreamer 学会了快速且始终如一地导航到目标,并保持在目标附近。如图 7 所示,Dreamer 与目标的平均距离为 0.15(以区域大小为单位测量并跨时间步求平均值)。

    1.1K30

    DeepMind 发布强化学习通用算法 DreamerV3,AI 成精自学捡钻石

    完整论文详见: https://arxiv.org/pdf/2301.04104v1.pdf 站在巨人的肩膀上,回顾Dreamer家族发展史  一代目:Dreamer 发布时间:2019 年 12 月...参与机构:多伦多大学、DeepMind、Google Brain 论文地址: https://arxiv.org/pdf/1912.01603.pdf 算法简介: Dreamer 是一个强化学习 agent...在 20 个极具挑战性的视觉控制任务中,Dreamer 在数据效率、计算时间和最终性能方面均超过了当时的主流方法。...Dreamer 与当时主流方法的性能比较 Dreamer 继承了 PlaNet 的数据效率,同时超过了当时最好的 model-free agent 的渐近性能 (asymptotic performance...5×106 个 environment step 后,Dreamer 在各个任务中的平均性能达到了 823,而 PlaNet 仅为 332,最高的 model-free D4PG agent 在 108

    49220

    DeepMind 发布强化学习通用算法 DreamerV3,AI 成精自学捡钻石

    完整论文详见: https://arxiv.org/pdf/2301.04104v1.pdf 站在巨人的肩膀上,回顾Dreamer家族发展史 一代目:Dreamer 发布时间:2019 年 12 月...参与机构:多伦多大学、DeepMind、Google Brain 论文地址:https://arxiv.org/pdf/1912.01603.pdf 算法简介: Dreamer 是一个强化学习 agent...在 20 个极具挑战性的视觉控制任务中,Dreamer 在数据效率、计算时间和最终性能方面均超过了当时的主流方法。...Dreamer 与当时主流方法的性能比较 Dreamer 继承了 PlaNet 的数据效率,同时超过了当时最好的 model-free agent 的渐近性能 (asymptotic performance...5×106 个 environment step 后,Dreamer 在各个任务中的平均性能达到了 823,而 PlaNet 仅为 332,最高的 model-free D4PG agent 在 108

    94630
    领券