Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >OpenAI提出能测试强化学习智能体适应性的新方法

OpenAI提出能测试强化学习智能体适应性的新方法

作者头像
人工智能快报
发布于 2018-12-29 09:28:00
发布于 2018-12-29 09:28:00
6670
举报
文章被收录于专栏:人工智能快报人工智能快报

强化学习(RL)能通过奖励或惩罚使智能体实现目标,并将它们学习到的经验转移到新环境中。但强化学习存在众所周知的缺陷:由于数据科学家在它们接受训练的环境中对这个系统进行基准测试,所以产生了过拟合,即训练数据拟合程度过当的情况。非营利性人工智能研究公司OpenAI正在通过人工智能训练环境(CoinRun)来解决这个问题,该环境为智能体将其经验转移到不熟悉的场景的能力提供了一项衡量指标,它本质上就像一个拥有敌人、目标和不同难度关卡等完备信息的经典平台游戏。

OpenAI表示CoinRun在复杂性方面取得了理想的平衡效果,其训练环境比《刺猬索尼克》等传统游戏平台简单得多,但它仍然对最先进的算法提出了一个有价值的泛化问题。CoinRun的训练级别是程序生成的,可为智能体提供大量易于量化的训练数据。

正如OpenAI所解释的那样,之前在强化学习环境中所做的工作主要集中在程序生成的迷宫、像一般电子游戏AI框架这样的社区项目以及像《刺猬索尼克》这样的游戏上,通过在不同等级上的训练和测试智能体来衡量泛化效果。相比之下,CoinRun在每个等级训练结束时都会为智能体提供一个奖励。

在传统的训练中,AI智能体必须应对碰撞以后会导致死亡的固定或者移动的障碍。当收集完硬币,或者走1000步之后,训练就结束了。

似乎这还不够,所以OpenAI开发了两个额外的环境来探索过拟合的问题:CoinRun-Platforms和RandomMazes。CoinRun-Platforms包括随机分散在平台上的几个硬币,促使智能体积极探索关卡并时不时做一些回溯。RandomMazes是一个简单的迷宫导航任务。

为了验证CoinRun、CoinRun-Platforms和RandomMazes,OpenAI培训了9个智能体,每个智能体具有不同数量的训练等级。前8个接受了100到16000个等级的训练,最后一个接受了不受限制的等级训练——实际上大约是200万个——这样它就不会两次看到相同的等级。

智能体在4000训练等级处出现了过拟合,甚至在16000的训练等级处也是这样。表现最佳的智能体竟然是那些受到无限制水平训练的。在CoinRun-Platforms和RandomMazes中,智能体在所有情况下都过拟合了。

OpenAI称,使用程序生成的CoinRun环境可以精确地量化这种过拟合,可以更好地评估关键架构和算法决策。OpenAI相信从这种环境中汲取的经验教训将适用于更复杂的环境,也希望利用这一基准,以及其他类似的基准来迭代开发更通用的智能体。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-12-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人工智能快报 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
学界 | 量化深度强化学习算法的泛化能力
AI 科技评论按:OpenAI 近期发布了一个新的训练环境 CoinRun,它提供了一个度量智能体将其学习经验活学活用到新情况的能力指标,而且还可以解决一项长期存在于强化学习中的疑难问题——即使是广受赞誉的强化算法在训练过程中也总是没有运用监督学习的技术,例如 Dropout 和 Batch Normalization。但是在 CoinRun 的泛化机制中,OpenAI 的研究人员们发现这些方法其实有用,并且他们更早开发的强化学习会对特定的 MDP 过拟合。 CoinRun 在复杂性方面取得了令人满意的平衡:这个环境比传统平台游戏如《刺猬索尼克》要简单得多,但它仍是对现有算法的泛化性的有难度的挑战。
AI科技评论
2018/12/29
9780
学界 | 量化深度强化学习算法的泛化能力
OpenAI开发AI训练环境CoinRun,增强智能体经验的通用性
强化学习有一个问题:它不会实现可广泛通用的模型,受过训练的智能体很难将它们的经验转移到新环境中。这是一个众所周知的挑战,但它并没有阻止数据科学家在其接受训练的环境中对系统进行基准测试。这会导致过度拟合难以量化。
AiTechYun
2018/12/25
8950
OpenAI开发AI训练环境CoinRun,增强智能体经验的通用性
MeRL:强化学习分配奖励机制的新方法
强化学习一直是过去五年中一些最大的人工智能 (AI) 突破的核心。在围棋、雷神之锤 III 或星际争霸等游戏中,强化学习模型证明它们可以超越人类的表现,并创造出前所未有的独特长期策略。强化学习的部分魔力依赖于定期奖励能够带来更好结果的行为的智能体。该模型在密集奖励环境中效果很好,例如游戏中几乎每个动作都对应于特定反馈,但如果该反馈不可用会发生什么?在强化学习中,这被称为稀疏奖励环境,不幸的是,它代表了大多数现实世界的场景。19年谷歌的研究人员发表了一篇新论文,提出了一种通过在稀疏奖励环境中运行的强化学习实现泛化的技术。
deephub
2021/10/11
1.3K0
MeRL:强化学习分配奖励机制的新方法
OpenAI首届迁移学习竞赛,南大阿里团队夺冠,中科院第二
【新智元导读】OpenAI举行的首届迁移学习竞赛Retro Contest结束,各路AI玩《刺猬索尼克》游戏,在提交结果的229支队伍中,中国的团队获得了冠亚军。
新智元
2018/07/31
4770
OpenAI首届迁移学习竞赛,南大阿里团队夺冠,中科院第二
迁移学习比赛:OpenAI喊你重温「音速小子索尼克」
可算法的训练和测试环境都是同一个,这就会让那些本身带有超参数和靠死记硬背的算法获得不错的结果。
量子位
2018/07/24
3930
迁移学习比赛:OpenAI喊你重温「音速小子索尼克」
【AI学会“以牙还牙”】OpenAI发布多智能体深度强化学习新算法LOLA
【新智元导读】OpenAI和牛津大学等研究人员合作,提出了一种新的算法LOLA,让深度强化学习智能体在更新自己策略的同时,考虑到他人的学习过程,甚至实现双赢。每个LOLA智能体都调整自己的策略,以便用有利的方式塑造其他智能体的学习过程。初步试验结果表明,两个LOLA 智能体相遇后会出现“以牙还牙/投桃报李”(tit-for-tat)策略,最终在无限重复囚徒困境中出现合作行为。研究人员表示,即使是目前最先进的深度强化学习算法,也没能做到这一点。LOLA向构建能够考虑其他智能体的智能体迈出了一步。 OpenAI
新智元
2018/03/22
1.6K0
【AI学会“以牙还牙”】OpenAI发布多智能体深度强化学习新算法LOLA
【深度学习】强化学习(五)深度强化学习
  强化学习的基本任务是通过智能体与环境的交互学习一个策略,使得智能体能够在不同的状态下做出最优的动作,以最大化累积奖励。这种学习过程涉及到智能体根据当前状态选择动作,环境根据智能体的动作转移状态,并提供即时奖励的循环过程。
Qomolangma
2024/07/30
6340
【深度学习】强化学习(五)深度强化学习
多智能体强化学习算法【二】【MADDPG、QMIX、MAPPO】
    本章介绍OpenAI 2017发表在NIPS 上的一篇文章,《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》。主要是将AC算法进行了一系列改进,使其能够适用于传统RL算法无法处理的复杂多智能体场景。
汀丶人工智能
2022/12/21
3K0
多智能体强化学习算法【二】【MADDPG、QMIX、MAPPO】
业界 | OpenAI举办迁移学习竞赛:评估强化学习算法表现
选自OpenAI 作者: CHRISTOPHER HESSE等 机器之心编译 参与:李亚洲、刘晓坤 近日,OpenAI 发布了一个迁移学习竞赛,来评判强化学习算法从先前经验进行泛化的能力。在典型的强化学习研究中,算法的测试与训练环境是一样的,这对于记忆能力更好以及有很多超参数的算法来说更有优势。而 OpenAI 发布的这个竞赛是在先前未见过的视频游戏上测试算法。此外,该竞赛使用的是 OpenAI 将经典游戏融入到 Gym 中做出的新平台 Gym Retro。 竞赛地址:https://contest.ope
机器之心
2018/05/08
7570
业界 | OpenAI举办迁移学习竞赛:评估强化学习算法表现
DeepMind提出强化学习新方法,可实现人机合作
本文来自 BDTechTalks 网站的“AI 研究论文评论”专栏。该专栏提供人工智能最新发现的系列解读文章。
深度学习与Python
2021/12/22
4110
DeepMind提出强化学习新方法,可实现人机合作
用上强化学习和博弈论,EA开发的测试AI成精了
和普通只会打游戏的AI不同,这次EA提出的新模型不仅要让小人成功跳到终点,还要自己实时生成平台来“为难”自己。
量子位
2023/03/01
4720
用上强化学习和博弈论,EA开发的测试AI成精了
OpenAI强化学习游戏库大更新:游戏上千款,还能自己加
想把一个强化学习Agent训练成游戏高手?OpenAI今天推出的完整版Gym Retro必须了解一下。
量子位
2018/07/24
1.5K0
OpenAI强化学习游戏库大更新:游戏上千款,还能自己加
“人工智能课程是玩游戏”,贾扬清的话被这个课实现了|资源
在课程中,你可以建立自己的智能体,然后教他们学会玩太空侵略者,我的世界,星际争霸,刺猬索尼克等等!
量子位
2020/10/26
3500
“人工智能课程是玩游戏”,贾扬清的话被这个课实现了|资源
学界 | 伯克利与OpenAI整合强化学习与GAN:让智能体学习自动发现目标
选自arXiv 机器之心编译 参与:黄玉胜、吴攀 强化学习(RL)和生成对抗网络(GAN)都是近来的热门研究主题,已经在许多领域得到了非常出色的表现。近日,伯克利和 OpenAI 的一项新研究将这两者组合到了一起。在一篇名为《用于强化学习智能体的自动目标生成(Automatic Goal Generation for Reinforcement Learning Agents)》的论文中,研究者提出了一种让智能体可以自动发现目标的方法。机器之心对该论文进行了摘要介绍,论文原文请参阅:https://arxi
机器之心
2018/05/07
1K0
学界 | 伯克利与OpenAI整合强化学习与GAN:让智能体学习自动发现目标
学界 | 伯克利提出强化学习新方法,可让智能体同时学习多个解决方案
选自BAIR Blog 作者:Haoran Tang、Tuomas Haarnoja 机器之心编译 参与:Panda 强化学习可以帮助智能体自动找到任务的解决策略,但常规的强化学习方法可能对环境变化不够稳健。近日,伯克利人工智能研究所(BAIR)发表了一篇博客,解读了他们与 OpenAI 和国际计算机科学研究所(ICSI)在这方面的一项共同研究进展《Reinforcement Learning with Deep Energy-Based Policies》。该论文也是 ICML 2017 所接收的论文之一
机器之心
2018/05/08
6000
学界 | 伯克利提出强化学习新方法,可让智能体同时学习多个解决方案
FCP(虚拟合作)--- 无需人工生成数据训练强化学习智能体
一篇由 DeepMind 的人工智能研究人员最新预发布的论文中,提出了一种称为 FCP(Fictitious Co-Play,虚拟合作)的新方法。
不去幼儿园
2024/12/03
1550
FCP(虚拟合作)--- 无需人工生成数据训练强化学习智能体
业界 | OpenAI提出新型元学习方法EPG,调整损失函数实现新任务上的快速训练
选自OpenAI 机器之心编译 参与:路雪、刘晓坤 刚刚,OpenAI 提出一种实验性元学习方法 Evolved Policy Gradients(EPG),该方法演化学习智能体的损失函数,从而实现在新任务上的快速训练。 OpenAI 发布一种实验性元学习方法 Evolved Policy Gradients(EPG),该方法从学习智能体的损失函数发展而来,可实现在新任务上的快速训练。测试时,使用 EPG 训练的智能体可在超出训练范畴的基础任务上取得成功,比如学习从训练时某物体的位置导航至测试时该物体的位置
机器之心
2018/05/08
7710
业界 | OpenAI提出新型元学习方法EPG,调整损失函数实现新任务上的快速训练
【Nature重磅】OpenAI科学家提出全新强化学习算法,推动AI向智能体进化
近年来,人工智能(AI)在强化学习算法的加持下,取得了令人瞩目的成就。比如在围棋、星际争霸 II 和 Dota 2 等诸多策略、竞技类游戏中,AI 都有着世界冠军级的表现,以及在机器人跑步、跳跃和抓握等技能的自主学习方面,也起到了显著的推动作用。
深度强化学习实验室
2021/03/17
1.8K0
【Nature重磅】OpenAI科学家提出全新强化学习算法,推动AI向智能体进化
Facebook推基于NetHack的深度强化学习利器,超轻量级架构性价比远超GPT-2和BERT
近日,Facebook 的研究人员表示,NetHack这款游戏是专门为训练、测试和评估人工智能模型而设计的。为此,他们今日发布了 NetHack 学习环境,这是用于对强化学习智能体的鲁棒性和泛化性进行基准测试的研究工具。
新智元
2020/06/29
4970
Facebook推基于NetHack的深度强化学习利器,超轻量级架构性价比远超GPT-2和BERT
强化学习如何入门?看这篇文章就够了
对于大脑的工作原理,我们知之甚少,但是我们知道大脑能通过反复尝试来学习知识。我们做出合适选择时会得到奖励,做出不切当选择时会受到惩罚,这也是我们来适应环境的方式。如今,我们可以利用强大的计算能力,在软件中对这个具体过程进行建模,这就是强化学习。
量子位
2018/07/20
1.1K0
推荐阅读
学界 | 量化深度强化学习算法的泛化能力
9780
OpenAI开发AI训练环境CoinRun,增强智能体经验的通用性
8950
MeRL:强化学习分配奖励机制的新方法
1.3K0
OpenAI首届迁移学习竞赛,南大阿里团队夺冠,中科院第二
4770
迁移学习比赛:OpenAI喊你重温「音速小子索尼克」
3930
【AI学会“以牙还牙”】OpenAI发布多智能体深度强化学习新算法LOLA
1.6K0
【深度学习】强化学习(五)深度强化学习
6340
多智能体强化学习算法【二】【MADDPG、QMIX、MAPPO】
3K0
业界 | OpenAI举办迁移学习竞赛:评估强化学习算法表现
7570
DeepMind提出强化学习新方法,可实现人机合作
4110
用上强化学习和博弈论,EA开发的测试AI成精了
4720
OpenAI强化学习游戏库大更新:游戏上千款,还能自己加
1.5K0
“人工智能课程是玩游戏”,贾扬清的话被这个课实现了|资源
3500
学界 | 伯克利与OpenAI整合强化学习与GAN:让智能体学习自动发现目标
1K0
学界 | 伯克利提出强化学习新方法,可让智能体同时学习多个解决方案
6000
FCP(虚拟合作)--- 无需人工生成数据训练强化学习智能体
1550
业界 | OpenAI提出新型元学习方法EPG,调整损失函数实现新任务上的快速训练
7710
【Nature重磅】OpenAI科学家提出全新强化学习算法,推动AI向智能体进化
1.8K0
Facebook推基于NetHack的深度强化学习利器,超轻量级架构性价比远超GPT-2和BERT
4970
强化学习如何入门?看这篇文章就够了
1.1K0
相关推荐
学界 | 量化深度强化学习算法的泛化能力
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档