Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >谷歌AlphaZero发表在最新一期《Science》上的几点解读

谷歌AlphaZero发表在最新一期《Science》上的几点解读

作者头像
用户1594945
发布于 2019-03-06 07:21:57
发布于 2019-03-06 07:21:57
7660
举报
文章被收录于专栏:AI启蒙研究院AI启蒙研究院

如何评价谷歌在Science上发表的这篇论文?

谷歌旗下的deepmind公司又在Science上发表的论文,论文描述了AlphaZero如何快速学习每个游戏,如何从随机对弈开始训练,在没有先验知识、只知道基本规则的情况下,成为史上最强大的棋类人工智能。该论文的初稿去年就挂在网上了,我原来判断这篇文章不会在Nature或者Science上发表,因为创新点实在太小了,这也Science正式出版论文后,并没有掀起多大波澜的原因。

难到真的与去年版本没进步么?

正式出版内容与去年网上内容基本类似。只在一些细节上的差别:

1、有些游戏纯在平局的结果,因此在最方误差项目(z-v)2项中考虑了z=0的情况。

2、围棋的棋局具有平移和旋转不变,而国际象棋和日本将棋的规则是不对称的,为了使得方法的统一性,这版的AlphaZero并没将再次旋转90、180、270度后的数据纳入训练数据。

3、过往的AlphaGO Zero的训练参数是阶梯式的进步,而AlphaZero是连续进步的。具体而言,在AlphaGO Zero的训练过程中,随着自我对局结束,选取胜利一方的参数作为训练结果,这时有可能出现阶梯式突变;而AlphaZero一直维护同一个参数,自我对局的数据只是用来作为训练。从以前的阶梯式训练(每55%胜率获胜的玩家作为下一轮产生训练数据的模型),到连续训练(也就是维护单一的神经网络不断迭代更新),省去评估的环节。

综合来看,技术上有什么创新?

与二十年前的深蓝相比,这次Alpha的最大创新是利用近十年来的新技术的一次综合演练。如:用深度神经网络取代了人工特征及评估函数,用蒙特卡洛树搜索(MCTS)算法取代了alpha-beta搜索既准确又快速的降低系统的搜索量;用强化学习的方法自动更新系统参数。很难说这三种技术到底哪个起的作用大,非要排个序的话,我个人觉得是强化学习,就像论文的标题所示,这是一种在强化学习框架下的围棋、象棋、将棋系统。

有个有意思的点:执白比执黑赢的概率大13%。说明围棋规则对黑白两方而言不是平等的,如果AlphaZero能指导围棋规则修订,那它比只会下棋更有意义。

AlphaGO这么成功,适用高校研究么?

如果真正像要搭建一个Alphazero,论文给出了一些具体的实现细节。如在MTSC阶段,学习率是0.2,且在在30万和50万训练步骤以后,学习率调整为0.02,0.002,狄拉克噪声的参数为0.3。但作为研究者而言却是费时费力的事情,尤其是学生不可能像谷歌那样动用巨大的计算资源,每调整一次参数花很长时间,这也是高校无法做类似研究的原因。

未来还能在哪些地方做改进?

论文里虽然说这是机器下棋的终极版本,谷歌说以后也不会再更新这个系统了(毕竟已经远超人类冠军的水平,没动力再改进算法)。但是我觉得这个模型还有些啰嗦,模型的输入是棋局,输出是候选落子的概率及落子后的胜率。最终的版本不需要评价落子后的概率,而是直接以候选落子概率最大点作为输出。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-12-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI启蒙研究院 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
动态 | AlphaZero 荣登《科学》杂志封面
AI 科技评论按:一年前,Alphabet 旗下人工智能部门 DeepMind 发布 AlphaZero,称它可以自学国际象棋、日本将棋和中国围棋,并且项项都能击败世界冠军。而今天,经过同行评议,AlphaZero 一举登上《科学》杂志封面。
AI科技评论
2018/12/25
5770
动态 | AlphaZero 荣登《科学》杂志封面
再进化!通用算法 AlphaZero 再攻克几种棋又有何难
本文介绍了 AlphaZero 是如何利用深度强化学习解决围棋问题的。首先,AlphaZero 在无任何人类指导的情况下,通过自我对弈的方式学会下围棋。然后,它利用蒙特卡洛树搜索和深度神经网络来评估局面和选择策略。最后,通过与人类世界冠军和之前的围棋 AI 进行比较,AlphaZero 证明了其强大的围棋下棋能力。
企鹅号小编
2017/12/27
9360
再进化!通用算法 AlphaZero 再攻克几种棋又有何难
【重磅】AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋类游戏
作者:闻菲,刘小芹,常佩琦 【新智元导读】或许“智能爆炸”不会发生,但永远不要低估人工智能的发展。推出最强围棋AI AlphaGo Zero不到50天,DeepMind又一次超越了他们自己,也刷新了世人对人工智能的认知。12月5日,包括David Silver、Demis Hassabis等人在内的DeepMind团队发表论文,提出通用棋类AI AlphaZero,从零开始训练,除了基本规则没有任何其他知识,4小时击败最强国际象棋AI、2小时击败最强将棋AI,8小时击败李世石版AlphaGo,连最强围棋AI
新智元
2018/03/20
1.6K0
【重磅】AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋类游戏
AlphaZero登上Science封面:从小白开始制霸多个游戏
此前不久,DeepMind 还推出了 AlphaFold,成功地根据基因序列预测出蛋白质的 3D 形状,将人工智能技术应用在了科学研究领域。
机器之心
2018/12/25
5770
AlphaZero登上Science封面:从小白开始制霸多个游戏
读AlphaZero论文随想
本文介绍了AlphaZero和AlphaGo Zero的算法实现和进步,指出AlphaZero通过蒙特卡洛树搜索和神经网络实现棋牌游戏的超越,并分析了AlphaGo Zero在围棋、国际象棋和将棋上的表现。同时,文章还探讨了AlphaZero和AlphaGo Zero在落子选择策略上的不同,并预测了AlphaZero在未来可能的发展方向。
企鹅号小编
2018/01/04
9190
读AlphaZero论文随想
【业界】你也能与AlphaGo谈笑风生了, AlphaGo教学工具上线
【导读】12月11日晚,大家期待已有的 AlphaGo教学工具正式上线了,DeepMind资深研究员黄士杰和DeepMind围棋大使樊麾在Facebook和其新浪微博差不多同一时间发布一条重要消息,谷
WZEARW
2018/04/11
8690
【业界】你也能与AlphaGo谈笑风生了, AlphaGo教学工具上线
AlphaZero登上《科学》封面:一个算法“通杀”三大棋,完整论文首次发布
不仅会下围棋,还自学成才横扫国际象棋和日本将棋的DeepMind AlphaZero,登上了最新一期《科学》杂志封面。
量子位
2018/12/25
5980
现场报道 | 让天下三子,DeepMind官方解读新版AlphaGo强大实力
机器之心原创 记者:杜夏德 参与:李泽南、吴攀 5 月 23 日,乌镇围棋峰会第一场人机大战以柯洁落败而结束,DeepMind 和谷歌在今天的人工智能高峰论坛中详细回顾了昨天的比赛,并解读了 AlphaGo 背后的强大实力。 第一天比赛结束,DeepMind 创始人 Hassabis 表示,比赛进入了数子阶段,AlphaGo 的优势很小,柯洁完成了一场伟大的比赛。竭尽全力的柯洁表示,此次大赛之后不但不会再与机器交战,也不会利用机器来练习,他「更喜欢与人类棋手下棋,这样自己还有赢的可能。」 比赛之后,Deep
机器之心
2018/05/07
8020
现场报道 | 让天下三子,DeepMind官方解读新版AlphaGo强大实力
不只是围棋!AlphaGo Zero之后DeepMind推出泛化强化学习算法AlphaZero
选自arXiv 作者:David Silver等 机器之心编译 在 DeepMind 发表 Nature 论文介绍 AlphaGo Zero 之后,这家公司一直在寻求将这种强大算法泛化到其他任务中的可能性。昨天,AlphaGo 研究团队提出了 AlphaZero:一种可以从零开始,通过自我对弈强化学习在多种任务上达到超越人类水平的新算法。据称,新的算法经过不到 24 小时的训练后,可以在国际象棋和日本将棋上击败目前业内顶尖的计算机程序(这些程序早已超越人类世界冠军水平),也可以轻松击败训练 3 天时间的 A
机器之心
2018/05/09
7580
不只是围棋!AlphaGo Zero之后DeepMind推出泛化强化学习算法AlphaZero
深入浅出解读并思考AlphaGo
;其次我们要想一下我们下了某一步之后局面会怎么变化,对方会怎么下,我们又怎么接着对方的棋往下下,我们把这种思考叫做思考的深度
CristianoC
2021/03/11
9050
深入浅出解读并思考AlphaGo
AlphaZero最革命性的一点是,它没有棋子的概念
关注风云之声 提升思维层次 解读科学,洞察本质 戳穿忽悠,粉碎谣言 导读 AlphaZero下国际象棋的时候,最革命性的一点是,它没有棋子的概念。无论是人类高手还是过去的顶级AI,再怎么也是以棋子实力评估为基础的,被吃了大子会心疼,在这个基础上再去进行“重视中央”之类的局面评估理论。而AlphaZero却完全对棋子没有概念,只要它认为未来整体局势好,弃子根本不叫事。这次Deepmind新论文应该给出结论了,“MCTS+神经网络”就是先进生产力的代表。 2017年12月6号,Deepmind扔出了一篇论文
企鹅号小编
2018/02/11
1.5K0
AlphaZero最革命性的一点是,它没有棋子的概念
【柯洁战败解密】AlphaGo Master最新架构和算法,谷歌云与TPU拆解
【新智元发自中国乌镇】乌镇人工智能峰会进入第二天,哈萨比斯、David Silver和Jeff Dean等谷歌高管纷纷发表演讲。他们对AlphaGo 2.0的新技术进行了详细解读。几位“谷歌人”纷纷提到一个关键词——TPU。Jeff Dean 甚至直接放出了与GPU的性能对比图。从昨天的赛后采访到今天的主旨演讲,哈萨比斯等人一直在强调TPU对新版本的AlphaGo的巨大提升。看来,TPU将会成为接下来一段时间内谷歌的战略重点,GPU要小心了。本文带来哈萨比斯、David Silver现场演讲报道(附PPT)
新智元
2018/03/28
1.5K0
【柯洁战败解密】AlphaGo Master最新架构和算法,谷歌云与TPU拆解
AlphaZero诞生一周年:登上Science封面,完整论文首次公开
阿尔法元(AlphaZero)诞生一周年之际,《科学(Science)》杂志今天以封面文发布了阿尔法元(AlphaZero)经过同行审议的完整论文,Deepmind创始人兼CEO哈萨比斯亲自执笔了这一论文。
大数据文摘
2018/12/25
7230
AlphaZero诞生一周年:登上Science封面,完整论文首次公开
动态 | 围棋教学工具 AlphaGo Teach上线第二天,Deepmind 资深研究员黄士杰宣布离开 AlphaGo 项目
AI 科技评论消息,北京时间 12 月 11 日晚,DeepMind 在 twitter 上宣布推出围棋教学工具 AlphaGo Teach。
AI科技评论
2018/03/14
1.3K0
动态 | 围棋教学工具 AlphaGo Teach上线第二天,Deepmind 资深研究员黄士杰宣布离开 AlphaGo 项目
【21天完虐Master】AlphaGo Zero横空出世,DeepMind Nature论文解密不使用人类知识掌握围棋
【新智元导读】新智元AI World 2017世界人工智能大会倒计时进入20天,DeepMind 如约公布了他们最新版AlphaGo论文,也是他们最新的Nature论文,介绍了迄今最强最新的版本AlphaGo Zero,使用纯强化学习,将价值网络和策略网络整合为一个架构,3天训练后就以100比0击败了上一版本的AlphaGo。AlphaGo已经退休,但技术永存。DeepMind已经完成围棋上的概念证明,接下来就是用强化学习创造改变世界的价值。 今年5月乌镇围棋大赛时,DeepMind CEO Hassabi
新智元
2018/03/21
9340
【21天完虐Master】AlphaGo Zero横空出世,DeepMind Nature论文解密不使用人类知识掌握围棋
动态 | 围棋 AI ELF OpenGo 迎来更新,另有田渊栋呈上开源项目的详细解读
AI 科技评论按: Facebook 人工智能研究院(FAIR)于去年开源的 ELF OpenGo 日前再度迎来更新,本次 FAIR 不仅发布了该系统新的功能和研究成果,还发布了可在 Windows 上运行的 AI 版本,让围棋棋手能更易于使用该系统来帮助自己训练。以下是田渊栋等人对该开源项目的详细解读,原文发布在 FAIR 的官方博客上。
AI科技评论
2019/03/07
4130
动态 | 围棋 AI ELF OpenGo 迎来更新,另有田渊栋呈上开源项目的详细解读
又一棋坛AI崛起:AlphaZero自学4小时击败最强国际象棋程序,8小时击败AlphaGo
谷歌旗下人工智能公司DeepMind将围棋AI转战国际象棋和日本将棋领域——无须人类智慧加持,已胜券在握。 AlphaZero是由谷歌旗下DeepMind研发的通用棋类AI,以不到四小时的自学击败了世界最强的国际象棋程序。 重新改进的人工智能程序AlphaZero曾多次击败世界顶级围棋选手,并扩大到学习其他棋类项目。它从零开始学习国际象棋,仅用4小时,就在100盘比赛中击败了世界顶级国际象棋程序 Stockfish 8。 据在康奈尔大学图书馆的arXiv上发表的一篇未经同行评审的研究论文称,在这100场
企鹅号小编
2018/03/05
1.4K0
又一棋坛AI崛起:AlphaZero自学4小时击败最强国际象棋程序,8小时击败AlphaGo
柯洁又输了,关于人工智能AlphaGo你需要知道些什么
原作者 Mirek Stanek 编译 CDA 编译团队 本文为  CDA 数据分析师原创作品,转载需授权 前言 本月 23 日- 27 日,在乌镇主办“中国乌镇·围棋峰会”中,备受瞩目的要数中国围棋现役第一人、天才少年柯洁与Google AlphaGo(阿尔法狗)人工智能机器人的巅峰对决。AlphaGo与柯洁对弈的三局比赛,分别于 5 月 23 、25、27 日进行。 在 23 日和 25 日的对决中,柯洁虽然发挥神勇,但还是两局均战败。AlphaGo 2-0 领先,已经赢得了三番棋的胜利。 对于人类来说
CDA数据分析师
2018/02/26
8460
柯洁又输了,关于人工智能AlphaGo你需要知道些什么
最强AlphaGo怎样炼成?刚刚,DeepMind团队进行了全面解读
安妮 李林 发自 凹非寺 量子位 出品 | 公众号 QbitAI 昨天AlphaGo再次震惊所有人。 刚刚,这个史上最强围棋AI的两位主要开发者,David Silver和Julian Schritt
量子位
2018/03/26
9820
最强AlphaGo怎样炼成?刚刚,DeepMind团队进行了全面解读
读《Nature》论文,看AlphaGo养成
作者授权转载 作者:龙心尘、寒小阳 ◆ ◆ ◆ 文章声明 博主是围棋小白,下棋规则都记不清楚,也没有设计过棋类AI程序。这篇文章主要是阅读《Nature》论文及关于AlphaGo的相关文章的学习心得。 本文的主要目的是增进分享,交流学习,方便初学者了解AlphaGo中的算法,以及一些机器学习中的常见思路。真正的工程实现过程远比本文介绍得复杂。 本文更多是启发式地进行阐述与分析,包括一些作者结合自己的理解进行的简化处理。文章中不严谨和理解不当之处,欢迎大家批评指出,我们努力修改完善。 ◆ ◆ ◆ 围棋的业
大数据文摘
2018/05/24
7300
推荐阅读
动态 | AlphaZero 荣登《科学》杂志封面
5770
再进化!通用算法 AlphaZero 再攻克几种棋又有何难
9360
【重磅】AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋类游戏
1.6K0
AlphaZero登上Science封面:从小白开始制霸多个游戏
5770
读AlphaZero论文随想
9190
【业界】你也能与AlphaGo谈笑风生了, AlphaGo教学工具上线
8690
AlphaZero登上《科学》封面:一个算法“通杀”三大棋,完整论文首次发布
5980
现场报道 | 让天下三子,DeepMind官方解读新版AlphaGo强大实力
8020
不只是围棋!AlphaGo Zero之后DeepMind推出泛化强化学习算法AlphaZero
7580
深入浅出解读并思考AlphaGo
9050
AlphaZero最革命性的一点是,它没有棋子的概念
1.5K0
【柯洁战败解密】AlphaGo Master最新架构和算法,谷歌云与TPU拆解
1.5K0
AlphaZero诞生一周年:登上Science封面,完整论文首次公开
7230
动态 | 围棋教学工具 AlphaGo Teach上线第二天,Deepmind 资深研究员黄士杰宣布离开 AlphaGo 项目
1.3K0
【21天完虐Master】AlphaGo Zero横空出世,DeepMind Nature论文解密不使用人类知识掌握围棋
9340
动态 | 围棋 AI ELF OpenGo 迎来更新,另有田渊栋呈上开源项目的详细解读
4130
又一棋坛AI崛起:AlphaZero自学4小时击败最强国际象棋程序,8小时击败AlphaGo
1.4K0
柯洁又输了,关于人工智能AlphaGo你需要知道些什么
8460
最强AlphaGo怎样炼成?刚刚,DeepMind团队进行了全面解读
9820
读《Nature》论文,看AlphaGo养成
7300
相关推荐
动态 | AlphaZero 荣登《科学》杂志封面
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档