前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >超越AlphaZero!DeepMind让AI制霸「元宇宙」,玩转70万个独立游戏

超越AlphaZero!DeepMind让AI制霸「元宇宙」,玩转70万个独立游戏

作者头像
新智元
发布于 2021-07-30 07:45:19
发布于 2021-07-30 07:45:19
6330
举报
文章被收录于专栏:新智元新智元

新智元报道

来源:deepmind

编辑:yaxin

【新智元导读】五年前,AlphaGo打败李世石那一刻,全世界为之惊呼!直到AlphaZero面世,象棋、将棋一战而胜。现在,DeepMind 为AI打造了一个「元宇宙」,宣称能玩全宇宙的游戏。

AlphaGo打败李世石那一刻,全世界惊呼!

50天不到,进化版的最强围棋 AI AlphaGo Zero 面世,却成为了 AlphaZero 的手下败将。

从一开始只知道下围棋的基本规则,到后来「跨界」击败国际象棋、日本将棋、和围棋世界冠军。

AlphaZero 再次打破了人们的对AI玩游戏的认知。

AlphaZero登上Science封面

别急,还有更重磅的!

刚刚,DeepMind 说自家通过强化学习训练的AI能够玩儿遍「全宇宙的游戏」!

还有多人3D游戏也不在话下。

在最新发布的预印本 「Open-Ended Learning Leads to General Capable Agents」中,详细介绍了,在不需要人类交互数据的情况下,训练能够玩不同游戏的智能体。

别看是AI,「打怪」也需成长时间

通过强化学习,AlphaZero在不断重复试错的过程中学会了一个又一个游戏。

问题在于,AlphaZero若想能够在不同游戏中「单打独斗」,还得在每个游戏「从头训练」后才能够实现。

包括 Atari,Capture The Flag,StarCraft II,Dota 2,和 Hide-and-Seek在内的游戏也是如此。

由于「苦于」泛化能力差,强化学习只能针对单个任务来从头开始学习。

要知道,泛化能力并不是一蹴而就。

我们玩游戏的时候,也是先从简单任务起步,逐渐变为复杂。

为此,DeepMind 研究人员创建了一个巨大的游戏环境,称之为 XLand。

让AI玩转「元宇宙」

XLand这样的环境,更形象地来说,便是最近我们常谈的「元宇宙」。

这个「元宇宙」的创建是为了让智能体在不断扩展、升级的开放世界中学习,AI的新任务(训练数据)是基于旧任务不断生成的。

XLand 包含数十亿个任务,跨越不同的游戏、世界和玩家。

从简单到复杂的游戏,AI智能体在学习过程中不断完善训练任务。

简单的比如「靠近紫色立方体」,复杂一点的比如「靠近紫色立方体或将黄色球体放在红色地板上」。

这些智能体甚至还可以和其他智能体玩耍,比如捉迷藏和夺取旗帜。

每个小游戏正如宇宙中颗颗繁星,拼成了一个庞大的物理模拟世界。

这个世界的任务由3个要素构成:任务=游戏+世界+玩家。

根据3个要素的不同关系,来决定任务的复杂度。那么,如何判断任务的复杂度?

有以下4个纬度:竞争性,平衡性,可选项,探索难度。

基于这4个维度,一个任务空间的、超大规模的「元宇宙」XLand 就诞生了,而几何地球也只是这个元宇宙的一个小角落,只是这4纬空间的一个点。

终身学习

「元宇宙」XLand 解决了AI训练的数据问题,那么,接下来,用什么样的算法是合适的呢?

研究人员发现,目标注意网络 (GOAT) 可以学习更通用的策略。

还有,在如此广阔的环境下,什么样的训练任务分配能够产生最好的AI「特工」?

动态任务生成允许智能体的训练任务的分布不断变化:

生成的每个任务既不太难也不太容易,但正好适合训练。

然后利用基于PBT来调整基于动态任务生成参数,以提高智能体的综合能力。

最后,我们将多个训练运行链接在一起,这样每一代代理都可以引导上一代代理。

结果显示,智能体在泛化能力上有很好的表现,只需对一些新的复杂任务进行 30 分钟的集中训练,智能体就可以快速适应。

经过5代训练,智能体在 XLand 的 4000 个独立世界中玩大约 70万个独立游戏,涉及340 万个独立任务的结果,最后一代的每个智能体都经历了 2000 亿次训练步骤。

目前,智能体已经能够顺利参与几乎每个评估任务,除了少数即使是人类也无法完成的任务。

未来一天,当AI也能够在「元宇宙」中自己学习演化,《西部世界》那样的场景是否会在我们身边降临?

参考资料:

https://deepmind.com/blog/article/generally-capable-agents-emerge-from-open-ended-play

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-07-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
NIPS大会最精彩一日:AlphaZero遭受质疑;史上第一场正式辩论与LeCun激情抗辩;元学习&强化学习亮点复盘
机器之心原创 机器之心海外部 参与:Tony Peng、Alex Chen、Qintong Wu、之乎 美国时间周四,NIPS 大会走完了日程的一半。工业界的众多公司搬东西撤出了展览会场,受邀演讲也全
机器之心
2018/05/11
8140
杀疯了!通过游戏“元宇宙”,Deepmind让AI学会玩各种没玩过的游戏,骚操作不断
来源:大数据文摘 本文约1800字,建议阅读7分钟 面对任务一看就会的AI,离我们心里的通用人工智能还有多远呢? 对于AI来说,完成一个单一任务或许相对简单,但是涉及到合作和博弈时,AI往往显得有些愚蠢。 AI研究机构一直致力于通过一些涉及到合作和博弈的游戏来开发AI在这方面的能力。 在2019年,就有报道过,OpenAI开发的“捉迷藏AI”通过5亿轮次的训练成功学会了在游戏中相互合作和与对手博弈。 近期,Deepmind将这方面的研究又向前推进了一步。 根据7月27日Deepmind官方博客的介绍,De
数据派THU
2023/03/29
4580
杀疯了!通过游戏“元宇宙”,Deepmind让AI学会玩各种没玩过的游戏,骚操作不断
【复盘DeepMind2017】国际最顶级AI实验室:战柯洁、打星际、巨亏背后
来源:DeepMind 作者:Demis Hassabis, Mustafa Suleyman & Shane Legg 【新智元导读】 今天,DeepMind 哈萨比斯等人在官方博客发布2017年的研究总结。从AlphaGo到AlphaGo Zero,到已经实际应用的WaveNet,到医疗应用Stream的进展,DeepMind取得了一系列重大研究成果。AlphaGo团队已经开始着手下一个重大挑战,DeepMind明年的动作令人期待。 AlphaGo 回顾2017,不仅仅局限于DeepMind,Alpha
新智元
2018/03/20
8870
【复盘DeepMind2017】国际最顶级AI实验室:战柯洁、打星际、巨亏背后
DeepMind攻克50年数学难题!AlphaZero史上最快矩阵乘法算法登Nature封面
---- 新智元报道   编辑:David Joey 【新智元导读】DeepMind碾压人类高手的AI围棋大师AlphaZero,下一个目标是数学算法!现已发现50年以来最快的矩阵乘法算法。 下围棋碾压人类的AlphaZero,开始搞数学算法了,先从矩阵乘法开始! 在昨天DeepMind团队发表在Nature上的论文中,介绍了 AlphaTensor,这是第一个用于为矩阵乘法等基本计算任务发现新颖、高效、正确算法的AI系统。 论文链接: https://www.nature.com/article
新智元
2022/10/08
1K0
DeepMind攻克50年数学难题!AlphaZero史上最快矩阵乘法算法登Nature封面
DeepMind 的新强化学习系统是迈向通用 AI 的一步吗?
这篇文章是我们对 AI 研究论文评论的一部分,这是一系列探索人工智能最新发现的文章。
AI科技大本营
2021/10/14
5700
17年AI在游戏中完胜人类,AlphaGo的下一个目标是什么?DeepMind有一个45年超越人类计划
2017 年,AI在各种游戏中横扫人类: 在围棋比赛中,AlphaGo Master战胜世界排名最高的柯洁,随后又衍生出AlphaGoZero和更高水平的AlphaZero;在扑克比赛中Libratus已经可以在打牌时使诈,充分利用人类漏洞;马斯克的OpenAI在短短时间内在Dota 2中击败世界顶级选手。未来实现自我学习的AI将在更多的游戏中超越人类。 2017年,AI在游戏中大获全胜。在过去的12个月里,从古老的围棋到德州扑克,AI越过了一系列新的门槛,最终在各种不同的游戏中击败人类玩家。 围棋 在
企鹅号小编
2018/01/15
8160
17年AI在游戏中完胜人类,AlphaGo的下一个目标是什么?DeepMind有一个45年超越人类计划
【重磅】AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋类游戏
作者:闻菲,刘小芹,常佩琦 【新智元导读】或许“智能爆炸”不会发生,但永远不要低估人工智能的发展。推出最强围棋AI AlphaGo Zero不到50天,DeepMind又一次超越了他们自己,也刷新了世人对人工智能的认知。12月5日,包括David Silver、Demis Hassabis等人在内的DeepMind团队发表论文,提出通用棋类AI AlphaZero,从零开始训练,除了基本规则没有任何其他知识,4小时击败最强国际象棋AI、2小时击败最强将棋AI,8小时击败李世石版AlphaGo,连最强围棋AI
新智元
2018/03/20
1.6K0
【重磅】AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋类游戏
DeepMind的新强化学习系统是迈向通用AI的下一步吗?
对于精通围棋、星际争霸 2 以及其他游戏的深度强化学习模型而言,关键的挑战之一是它们无法将其能力泛化到训练领域之外。这种限制使得将这些系统应用到现实世界中变得非常困难,在现实世界中,情况比训练 AI 模型的环境复杂得多且不可预测。
代码医生工作室
2021/09/30
4180
DeepMind的新强化学习系统是迈向通用AI的下一步吗?
深挖谷歌 DeepMind 和它背后的技术
人工智能(AI)的子集已经成倍增长,并完成了只有人类才能完成的各种任务。像机器学习这样的技术可以执行管理任务、人脸识别、下棋,甚至翻译语言。
AI科技大本营
2020/04/20
9350
2000亿次开放学习后,DeepMind的智能体成精了
没有跳跃功能的它们,看似开始“焦躁”地乱扔起东西来,实则其中一块板子正好被“扔”成了楼梯,这不就巧了,目标完成!
量子位
2021/08/10
3330
DeepMind首席科学家:比起机器智能,我更担心人类智能造成的灾难
在 DeepMind 首席研究科学家、伦敦大学学院计算机科学教授David Silver 看来,游戏是激发创造力的关键,尤其是对AI而言。
新智元
2022/02/24
4790
DeepMind首席科学家:比起机器智能,我更担心人类智能造成的灾难
谷歌DeepMind打破十年算法封印,AlphaDev惊世登场,颠覆人类算法格局!
AlphaDev不仅可以将排序算法提速70%,甚至在有的算法上,能比人类快3倍之多。
新智元
2023/08/05
1940
谷歌DeepMind打破十年算法封印,AlphaDev惊世登场,颠覆人类算法格局!
AlphaZero登上Science封面:从小白开始制霸多个游戏
此前不久,DeepMind 还推出了 AlphaFold,成功地根据基因序列预测出蛋白质的 3D 形状,将人工智能技术应用在了科学研究领域。
机器之心
2018/12/25
5700
AlphaZero登上Science封面:从小白开始制霸多个游戏
DeepMind又出大招!新算法MuZero登顶Nature,AI离人类规划又近了一步
近日,DeepMind一篇关于MuZero的论文“Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model”在Nature发表。与AlphaZero相比,MuZero多了玩Atari的功能,这一突破进展引起科研人员的广泛关注。
AI科技评论
2021/01/08
1.4K0
DeepMind又出大招!新算法MuZero登顶Nature,AI离人类规划又近了一步
我“AI”发文——DeepMind在强化学习领域的最新突破
DeepMind 作为 AI 研究领域的领导者,一直专注于强化学习(Reinforcement Learning, RL)技术的创新,并在游戏、机器人、科学计算等多个领域取得了显著的突破。近年来,DeepMind 进一步推动了强化学习的发展,提出了更高效、更稳定、更具泛化能力的 RL 算法,并成功应用于现实世界的复杂问题。本文将详细解析 DeepMind 在强化学习领域的最新突破,并结合具体案例分析其影响。
LucianaiB
2025/03/25
1880
AlphaZero登上《科学》封面:一个算法“通杀”三大棋,完整论文首次发布
不仅会下围棋,还自学成才横扫国际象棋和日本将棋的DeepMind AlphaZero,登上了最新一期《科学》杂志封面。
用户1621951
2019/10/18
8110
AlphaZero完胜三大世界冠军棋类程序:5000个TPU、自学一天
Root 编译整理 量子位 出品 | 公众号 QbitAI 昨天,DeepMind团队又在arXiv上扔了个重磅炸弹,新一代AlphaZero在用了强劲的计算资源(5000个一代TPU和64个二代TPU)之后,用不到24小时的时间自我对弈(tabula rasa,也叫白板)强化学习,接连击败了三个世界冠军级的程序 (国际象棋、将棋、围棋)。 △ AlphaZero和国际象棋冠军程序对弈 其中包括上一代冠军围棋程序AlphaGo Zero,这个程序发布还不到两个月,DeepMind就又把自己颠覆了(所以谷歌团
量子位
2018/03/22
1.2K0
AlphaZero完胜三大世界冠军棋类程序:5000个TPU、自学一天
从α到μ:DeepMind棋盘游戏AI进化史
本文将简单介绍这些算法的演进历程。未来,DeepMind 能否创造出这一系列的终极算法 OmegaZero 呢?
机器之心
2020/02/24
7430
从α到μ:DeepMind棋盘游戏AI进化史
再进化!通用算法 AlphaZero 再攻克几种棋又有何难
本文介绍了 AlphaZero 是如何利用深度强化学习解决围棋问题的。首先,AlphaZero 在无任何人类指导的情况下,通过自我对弈的方式学会下围棋。然后,它利用蒙特卡洛树搜索和深度神经网络来评估局面和选择策略。最后,通过与人类世界冠军和之前的围棋 AI 进行比较,AlphaZero 证明了其强大的围棋下棋能力。
企鹅号小编
2017/12/27
9260
再进化!通用算法 AlphaZero 再攻克几种棋又有何难
一文详解如何使用Python和Keras构建属于你的“AlphaZero AI”
图:pixabay 本文来自于微信公众号:雷克世界 编译 | 嗯~是阿童木呀、KABUDA 在这篇文章中,我将试图对以下三件事情进行阐述: 1.AlphaZero之所以被认为是人工智能向前迈进一大步的两个理由。 2.如何构建AlphaZero方法的副本,从而使其能够玩Connect4游戏。 3.如何调整代码从而使其能够插入到其他游戏中。 ▌AlphaGoAlphaGo ZeroAlphaZero 2016年3月,在一场超过2亿人观看次数的比赛中,Deepmind的AlphaGo以 4-1的比分击败了获得
企鹅号小编
2018/02/02
7990
一文详解如何使用Python和Keras构建属于你的“AlphaZero AI”
推荐阅读
NIPS大会最精彩一日:AlphaZero遭受质疑;史上第一场正式辩论与LeCun激情抗辩;元学习&强化学习亮点复盘
8140
杀疯了!通过游戏“元宇宙”,Deepmind让AI学会玩各种没玩过的游戏,骚操作不断
4580
【复盘DeepMind2017】国际最顶级AI实验室:战柯洁、打星际、巨亏背后
8870
DeepMind攻克50年数学难题!AlphaZero史上最快矩阵乘法算法登Nature封面
1K0
DeepMind 的新强化学习系统是迈向通用 AI 的一步吗?
5700
17年AI在游戏中完胜人类,AlphaGo的下一个目标是什么?DeepMind有一个45年超越人类计划
8160
【重磅】AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋类游戏
1.6K0
DeepMind的新强化学习系统是迈向通用AI的下一步吗?
4180
深挖谷歌 DeepMind 和它背后的技术
9350
2000亿次开放学习后,DeepMind的智能体成精了
3330
DeepMind首席科学家:比起机器智能,我更担心人类智能造成的灾难
4790
谷歌DeepMind打破十年算法封印,AlphaDev惊世登场,颠覆人类算法格局!
1940
AlphaZero登上Science封面:从小白开始制霸多个游戏
5700
DeepMind又出大招!新算法MuZero登顶Nature,AI离人类规划又近了一步
1.4K0
我“AI”发文——DeepMind在强化学习领域的最新突破
1880
AlphaZero登上《科学》封面:一个算法“通杀”三大棋,完整论文首次发布
8110
AlphaZero完胜三大世界冠军棋类程序:5000个TPU、自学一天
1.2K0
从α到μ:DeepMind棋盘游戏AI进化史
7430
再进化!通用算法 AlphaZero 再攻克几种棋又有何难
9260
一文详解如何使用Python和Keras构建属于你的“AlphaZero AI”
7990
相关推荐
NIPS大会最精彩一日:AlphaZero遭受质疑;史上第一场正式辩论与LeCun激情抗辩;元学习&强化学习亮点复盘
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档