Loading [MathJax]/jax/input/TeX/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【碾压Master】AlphaGo Zero登上Nature,无需人类知识自我进化

【碾压Master】AlphaGo Zero登上Nature,无需人类知识自我进化

作者头像
IT阅读排行榜
发布于 2018-08-17 03:01:04
发布于 2018-08-17 03:01:04
4780
举报
文章被收录于专栏:华章科技华章科技

昨天,DeepMind 如约公布了他们最新版AlphaGo论文,也是他们最新的Nature论文,介绍了迄今最强最新的版本AlphaGo Zero,使用纯强化学习,将价值网络和策略网络整合为一个架构,3天训练后就以100比0击败了上一版本的AlphaGo。AlphaGo已经退休,但技术永存。DeepMind已经完成围棋上的概念证明,接下来就是用强化学习创造改变世界的价值。

今年5月乌镇围棋大赛时,DeepMind CEO Hassabis 表示,将在今年晚些时候公布战胜了柯洁的那版AlphaGo的技术细节。今天,这个承诺如约兑现,DeepMind在他们最新发表于Nature的一篇论文中,描述了迄今最强大的一版AlphaGo—— AlphaGo Zero 的技术细节。

AlphaGo Zero完全不依赖于人类数据,因此,这一系统的成功也是朝向人工智能研究长期以来的目标——创造出在没有人类输入的条件下,在最具挑战性的领域实现超越人类能力的算法——迈进的一大步。

作者在论文中写道,AlphaGo Zero 证明了即使在最具挑战的领域,纯强化学习的方法也是完全可行的:不需要人类的样例或指导,不提供基本规则以外的任何领域知识,使用强化学习能够实现超越人类的水平。此外,纯强化学习方法只花费额外很少的训练时间,但相比使用人类数据,实现了更好的渐进性能(asymptotic performance)。

在很多情况下,人类数据,尤其是专家数据,往往太过昂贵,或者根本无法获得。如果类似的技术可以应用到其他问题上,这些突破就有可能对社会产生积极的影响。

是的,你或许要说,AlphaGo已经在今年5月宣布退休,但AlphaGo的技术将永存,并进一步往前发展、进化。DeepMind已经完成围棋上的概念证明,接下来,就是用他们的强化学习改变世界。

这也是为什么接下来我们要介绍的这篇论文如此重要——它不仅是很多人期盼已久的技术报告,也是人工智能一个新的技术节点。在未来,它将得到很多引用,成为无数AI产业和服务的基础。

01 迄今最强大的围棋程序:不使用人类的知识

DeepMind这篇最新的Nature,有一个朴素的名字——《不使用人类知识掌握围棋》。

图丨《不使用人类知识掌握围棋》

摘要

人工智能长期以来的一个目标是创造一个能够在具有挑战性的领域,以超越人类的精通程度学习的算法,“tabula rasa”(译注:一种认知论观念,认为指个体在没有先天精神内容的情况下诞生,所有的知识都来自于后天的经验或感知)。此前,AlphaGo成为首个在围棋中战胜人类世界冠军的系统。AlphaGo的那些神经网络使用人类专家下棋的数据进行监督学习训练,同时也通过自我对弈进行强化学习。

在这里,我们介绍一种仅基于强化学习的算法,不使用人类的数据、指导或规则以外的领域知识。AlphaGo成了自己的老师。我们训练了一个神经网络来预测AlphaGo自己的落子选择和AlphaGo自我对弈的赢家。这种神经网络提高了树搜索的强度,使落子质量更高,自我对弈迭代更强。从“tabula rasa”开始,我们的新系统AlphaGo Zero实现了超人的表现,以100:0的成绩击败了此前发表的AlphaGo。

DOI:10.1038/nature24270

02 全新的强化学习:自己成为自己的老师

DeepMind 研究人员介绍 AlphaGo Zero。视频来源:DeepMind,视频中英文字幕由Nature 上海办公室制作

AlphaGo Zero 得到这样的结果,是利用了一种新的强化学习方式,在这个过程中,AlphaGo Zero 成为自己的老师。这个系统从一个对围棋游戏完全没有任何知识的神经网络开始。然后,通过将这个神经网络与一种强大的搜索算法相结合,它就可以自己和自己下棋了。在它自我对弈的过程中,神经网络被调整、更新,以预测下一个落子位置以及对局的最终赢家。

这个更新后的神经网络又将与搜索算法重新组合,进而创建一个新的、更强大的 AlphaGo Zero 版本,再次重复这个过程。在每一次迭代中,系统的性能都得到一点儿的提高,自我对弈的质量也在提高,这就使得神经网络的预测越来越准确,得到更加强大的 AlphaGo Zero 版本。

这种技术比上一版本的 AlphaGo 更强大,因为它不再受限于人类知识的局限。相反,它可以从一张白纸的状态开始,从世界上最强大的围棋玩家——AlphaGo 自身——学习。

AlphaGo Zero 在其他方面也与之前的版本有所不同:

  • AlphaGo Zero 只使用围棋棋盘上的黑子和白子作为输入,而上一版本的 AlphaGo 的输入包含了少量人工设计的特征。
  • 它只使用一个神经网络,而不是两个。以前版本的 AlphaGo 使用一个“策略网络”(policy network)来选择下一个落子位置和一个“价值网络”(value network)来预测游戏的赢家。这些在 AlphaGo Zero 中是联合进行的,这使得它能够更有效地进行训练和评估。
  • AlphaGo Zero 不使用“走子演算”(rollout)——这是其他围棋程序使用的快速、随机游戏,用来预测哪一方将从当前的棋局中获胜。相反,它依赖于高质量的神经网络来评估落子位置。

上面的所有这些不同之处都有助于提高系统的性能,使其更加通用。但使得这个系统更加强大和高效的是算法的改变。

在进行了3天的自我训练后,AlphaGo Zero 在100局比赛中以100:0击败了上一版本的 AlphaGo——而上一版本的 AlphaGo 击败了曾18次获得围棋世界冠军的韩国九段棋士李世乭。经过 40 天的自我训练后,AlphaGo Zero 变得更加强大,超越了“Master”版本的 AlphaGo——Master 曾击败世界上最优秀的棋士、世界第一的柯洁。

图丨Elo 棋力排名显示,AlphaGo 花了 3 天时间超越 AlphaGo 李世乭版本,21 天后超越 AlphaGo Master。

在经过数以百万计的 AlphaGo vs AlphaGo 的对弈后,这个系统逐渐从零开始学会了下围棋,在短短几天内积累了人类数千年积累的知识。AlphaGo Zero 也发现了新的知识,开发出非常规的策略和创造性的新下法,这些新下法超越了它在与柯洁和李世乭比赛时发明的新技巧。

尽管目前仍处于早期阶段,但 AlphaGo Zero 成为了朝着这个目标迈进的关键一步。DeepMind 联合创始人兼 CEO Demis Hassabis 评论称:“AlphaGo在短短两年里取得了如此令人惊叹的成果。现在,AlphaGo Zero是我们项目中最强大的版本,它展示了我们在更少的计算能力,而且完全不使用人类数据的情况下可以取得如此大的进展。

“最终,我们希望利用这样的算法突破来帮助解决现实世界的各种紧迫问题,例如蛋白质折叠或新材料设计。如果我们能在这些问题上取得与AlphaGo同样的进展,就有可能推动人类理解,并对我们的生活产生积极影响。”

03 AlphaGo Zero 技术细节拆解:将价值网络和策略网络整合为一个架构,整合蒙特卡洛搜索不断迭代

新方法使用了一个深度神经网络 fθ,参数为 θ。这个神经网络将原始棋盘表征 s(棋子位置和历史)作为输入,输出落子概率和一个值 (p, v)= fθ(s)。

落子概率向量 p 表示选择下每一步棋(包括不下)的概率。值 v 是一个标量估值,衡量当前棋手在位置 s 获胜的概率。

这个神经网络将最初的 AlphaGo(下文中的 AlphaGo Fan 和 AlphaGo Lee,分别指对战樊麾和对战李世石的版本)的策略网络和价值网络整合到一个架构里,含有很多基于卷积神经网络的残差模块,这些残差模块中使用了批正则化(batch normalization)和非线性整流函数(rectifier nonlinearities)。

AlphaGo Zero 的神经网络使用自我对弈数据做训练,这些自我对弈是在一种新的强化学习算法下完成的。在每个位置 s,神经网络 fθ 都会进行蒙特卡洛树搜索(MCTS)。MCTS 输出下每步棋的落子概率 π。这样搜索得出的概率通常比神经网络 fθ(s) 的原始落子概率 p 要更加强一些;MCTS 也因此可以被视为一个更加强大的策略提升 operator。

系统通过搜索进行自我对弈,也即使用增强的基于 MCTS 的策略选择下哪步棋,然后使用获胜者 z 作为价值样本,这个过程可以被视为一个强有力的策略评估 operator。

这一新的强化学习算法的核心思想是,在策略迭代的过程中,反复使用这些搜索 operator:神经网络的参数不断更新,让落子概率和价值 (p,v)= fθ(s) 越来越接近改善后的搜索概率和自我对弈赢家 (π, z)。这些新的参数也被用于下一次自我对弈的迭代,让搜索更强。下面的图1 展示了自我对弈训练的流程。

图1:AlphaGo Zero 自我对弈训练的流程:a. 程序自己和自己下棋,标记为s1, ..., sT。在每个位置st,一个MCTS αθ被执行(见图2),使用最新的神经网络fθ。每个走子选择的依据是通过MCTS, at ∼ πt计算的搜索概率。最终的位置sT根据游戏规则计算对局的最终胜者z。b. AlphaGo Zero 中神经网络的训练。该神经网络将棋盘位置st作为输入,与参数θ一起讲它传送到许多的卷积层,并同时输出表示每一走子的概率分布的向量 pt 和一个表示当前玩家在位置 st 上的赢率的标量值 vt。

MCTS 使用神经网络 fθ 指导其模拟(参见图2)。搜索树中的每条边 (s, a) 都存储了一个概率先验 P(s, a),一个访问数 N(s, a),以及动作值 Q(s, a)。每次模拟都从根节点状态开始,不断迭代,选择能将置信区间 Q(s, a)+ U(s, a) 的上层最大化的落子结果,直到走到叶节点 s′。

然后,网络会扩充这个叶节点,并且只进行一次评估,生成概率先验和评估值,(P(s′, ·), V(s′))= fθ(s′)。在模拟中,遍历每条边 (s, a) 后,会更新访问量 N(s, a),然后将动作值更新,取所有模拟的平均值:

MCTS 可以被看做一种自我对弈算法:给定神经网络参数 θ 和一个根节点位置 s,计算搜索概率向量推荐落子 π = αθ(s),与每步棋的访问量指数成正比,τ 是温度参数:

图2:MCTS 使用神经网络 fθ 模拟落子选择的过程示意

神经网络使用这个自我对弈的强化学习算法做训练,正如上文介绍,这个算法使用 MCTS 下每一步棋。首先,神经网络使用随机权重 θ0 初始化。在随后的每一次迭代中,i ≥ 1,生成自我对弈棋谱(参见图1的a)。在每个时间步长 t,运行一个 MCTS 搜索 πt = αθ (st),使用上一次神经网络 fθi−1 迭代的结果,然后根据搜索概率采样下出一步棋。一局棋在第 T 步结束,也就是双方都无法落子,搜索值降低到阈值以下的时候。随后,进行计分,得出奖励 rT ∈ {−1,+1}。

每一个时间步长 t 的数据都被存储为 (st, πt, zt),其中 zt = ± rT 就是从当前这步棋 t 看来最终获胜的赢家。

同时(参见图1 b),使用从最后一次自我对弈迭代的所有时间步长中获取的数据 (s, π, z),对新的网络参数 θi 进行训练。调整神经网络 (p, v) = fθi (s),将预测值 v 和自我对比胜者 z 之间的误差降低到最小,同时将神经网络落子概率 p 和搜索概率 π 之间的相似度提升到最大。

具体说,我们用损失函数 l 的梯度下降来调节参数 θ,这个损失函数表示如下,其中 c 是控制 L2 权重正则化水平的参数(防止过拟合):

04 评估结果:21天就比战胜柯洁的Master更加厉害

DeepMind官方博客上介绍了AlphaGo Zero与此前版本的对比。完全从零开始,3天超越AlphaGo李世石版本,21天达到Master水平。

几个不同版本的计算力对比如下:

图丨得益于硬件和算法的双重优化,AlphaGo 的效率已经得到了空前的提升

论文中,为了分开结构和算法的贡献,DeepMind研究人员还比较了 AlphaGo Zero 的神经网络架构和先前与李世乭对弈时的 AlphaGo (记为 AlphaGo Lee)的神经网络架构的性能(见图4)。

我们构建了4个神经网络,分别是在 AlphaGo Lee 中使用的分开的策略网络和价值网络,或者在 AlphaGo Zero 中使用的合并的策略和价值网络;以及 AlphaGo Lee 使用的卷积网络架构,或 AlphaGo Zero 使用的残差网络架构。每个网络都被训练以最小化同一个损失函数(公式1),训练使用的是 AlphaGo Zero 在72小时的自我对弈之后产生的同一个自我对弈棋局数据集。

使用残差网络的准确率更高,误差更低,在 AlphaGo 达到600 Elo(等级分)的性能提高。将策略(policy)和价值(value)结合到一个单一的网络中的话,走子预测的准确性略微降低了,但是价值错误也降低了,并且将 AlphaGo 的性能再提高了600 Elo。这在一定程度上是由于提高了计算效率,但更重要的是,双目标使网络成为支持多个用例的常规表示。

图4:AlphaGo Zero 和 AlphaGo Lee 的神经网络架构比较。使用分开的策略和价值网络记为(sep),使用组合的策略和价值网络记为(dual),使用卷积网络记为(conv),使用残差网络记为(res)。“dual-res”和“sep-conv”分别表示在 AlphaGo Zero 和 AlphaGo Lee 中使用的神经网络架构。每个网络都在同一个数据集上训练,该数据集由 AlphaGo Zero 的自我对弈产生。a,每个训练好的网络都与 AlphaGo Zero 的搜索相结合,以得到一个不同的玩家。Elo等级分是由这些不同玩家之间的评估游戏计算得到的,每一步棋有5秒的思考时间。b,对每个网络架构的职业棋手的走法(从GoKifu数据集得来)的预测准确性。c,每个网络架构的人类职业棋手的棋局结果(从GoKifu数据集得来)的MSE。

AlphaGo Zero学到的知识。a,AlphaGo Zero训练期间发现的五个人类定式(常见的角落序列)。b)自我对弈中爱用的5个定式。c)在不同训练阶段进行的3次自我对弈的前80步棋,每次搜索使用1,600次模拟(约0.4s)。最开始,系统关注夺子,很像人类初学者。而后,关注势和地,也即围棋根本。最后,整场比赛体现出了很好的平衡,涉及多次战斗和一场复杂的战斗,最终以白棋多半子获胜。

05 AlphaGo 小传

姓名:AlphaGo(Fan,Lee,Master,Zero)

别名:阿老师,阿尔法狗

生日:2014年

出生地:英国伦敦

1.击败樊麾

2015年10月,AlphaGo击败樊麾,成为第一个无需让子即可在19路棋盘上击败围棋职业棋手的电脑围棋程序,写下了历史,相关成果在2016年1月发表于Nature

2.击败李世石

2016年3月,AlphaGo在一场五番棋比赛中4:1击败尖端职业棋手李世石,成为第一个不借助让子而击败围棋职业九段棋手的电脑围棋程序,再创历史。五局赛后韩国棋院授予AlphaGo有史以来第一位名誉职业九段

3.排名短暂超越柯洁

2016年7月18日,AlphaGo在Go Ratings网站的排名升至世界第一。但几天之后被柯洁反超。

4.化名“Master”横扫棋界

2016年底至2017年年初,再度强化的AlphaGo以“Master”为名,在未公开其真实身份的情况下,借非正式的网络快棋对战进行测试,挑战中韩日台的一流高手,60战全胜

5.战胜柯洁,成为世界第一

2017年5月23至27日乌镇围棋峰会,最新的强化版AlphaGo和世界第一棋手柯洁对局,并配合八段棋手协同作战与对决五位顶尖九段棋手等五场比赛,获取3比零全胜的战绩,团队战与组队战也全胜。这次AlphaGo的运算资源消耗仅李世石版本的十分之一。在与柯洁的比赛结束后,中国围棋协会授予AlphaGo职业围棋九段的称号

AlphaGo在没有人类对手后,2017年5月25日,AlphaGo之父杰米斯·哈萨比斯宣布AlphaGo退役。AlphaGo的研究计划于2014年开始,从业余棋手的水平到世界第一,AlphaGo的棋力获取这样的进步,仅仅花了两年左右。

AlphaGo虽已退休,但技术永存。

谨以此文,致敬AlphaGo,以及研发AlphaGo的人。

来源:新智源

END

投稿和反馈请发邮件至hzzy@hzbook.com。转载大数据公众号文章,请向原文作者申请授权,否则产生的任何版权纠纷与大数据无关。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-10-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据DT 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
无需人类知识,DeepMind新一代围棋程序AlphaGo Zero再次登上Nature
选自DeepMind 机器之心编译 在今年五月击败柯洁之后,AlphaGo 并没有停止自己的发展。昨天,DeepMind 在《自然》杂志上发表了一篇论文,正式推出 AlphaGo Zero——人工智能围棋程序的最新版本。据称,这一版本的 AlphaGo 无需任何人类知识标注,在历时三天,数百万盘的自我对抗之后,它可以轻松地以 100 比 0 的成绩击败李世乭版本的AlphaGo。DeepMind 创始人哈萨比斯表示:「Zero 是迄今为止最强大,最具效率,最有通用性的 AlphaGo 版本——我们将见证这项
机器之心
2018/05/08
7230
无需人类知识,DeepMind新一代围棋程序AlphaGo Zero再次登上Nature
仅用3天,AlphaGo Zero就凭借自学以100:0击败AlphaGo,柯洁表示人类太多余了
AlphaGo Zero3天时间就能达到击败李世石的AlphaGo Lee的水平,21天可以达到了之前击败柯洁的AlphaGo Master的水平。 今天凌晨,谷歌旗下Deepmind人工智能团队发布了一篇轰动AI界的论文,《Mastering the game of Go without human knowledge》(在没有人类知识的情况下掌握围棋),一句话总结这篇论文,他们研发的AlphaGo大表哥AlphaGo Zero能够在没有人类围棋对弈数据的情况下,直接通过自我纯强化学习,于短短的3天自我训
镁客网
2018/05/30
8450
登顶世界第一! 相比其他AI,AlphaGo究竟有何不同?
世界职业围棋排名网站GoRatings最新排名显示,连续24个月排名世界第一的中国棋手柯洁被谷歌人工智能机器人AlphaGo反超。截止目前,AlphaGo以3612分登顶世界第一,超越了所有人类棋手。
AI科技评论
2018/03/07
1K0
登顶世界第一! 相比其他AI,AlphaGo究竟有何不同?
起底AlphaGo历史
一、AlphaGo zero横空出世 10月19日DeepMind在Nature上发表了名为Mastering the game of Go without human knowledge(不使用人类知识掌握围棋)的论文,在论文中,Deepmind展示了他们强大的新版本围棋程序“AlphaGo Zero”—— 仅经过三天训练,就能以100:0击败此前击败李世石的AlphaGo Lee,经过21天训练,就能达到击败柯洁的AlphaGo Master的水平。 论文一出,AlphaGo Zero又出名了一把,有
大数据和云计算技术
2018/03/08
2K0
起底AlphaGo历史
洞察|AlphaGo之父揭开打败柯洁的秘密:强AI是人类的终极工具
5月24日,在新版本AlphaGo首战以1/4子微弱优势战胜中国围棋职业九段棋手柯洁之后,“AlphaGo之父”DeepMind创始人兼CEO Demis Hassabis、AlphaGo团队负责人David Silver在人工智能高峰论坛上详解了AlphaGo的研发并就“AlphaGo意味着什么?”的问题进行了详细解答。 “AlphaGo已经展示出了创造力,也已经可以模仿人类直觉了。在过去一年,我们继续打造AlphaGo,我们想打造完美的AlphaGo,弥补它知识方面的空白。因为在与李世石的比赛中,它
灯塔大数据
2018/04/08
6390
洞察|AlphaGo之父揭开打败柯洁的秘密:强AI是人类的终极工具
【柯洁战败解密】AlphaGo Master最新架构和算法,谷歌云与TPU拆解
【新智元发自中国乌镇】乌镇人工智能峰会进入第二天,哈萨比斯、David Silver和Jeff Dean等谷歌高管纷纷发表演讲。他们对AlphaGo 2.0的新技术进行了详细解读。几位“谷歌人”纷纷提到一个关键词——TPU。Jeff Dean 甚至直接放出了与GPU的性能对比图。从昨天的赛后采访到今天的主旨演讲,哈萨比斯等人一直在强调TPU对新版本的AlphaGo的巨大提升。看来,TPU将会成为接下来一段时间内谷歌的战略重点,GPU要小心了。本文带来哈萨比斯、David Silver现场演讲报道(附PPT)
新智元
2018/03/28
1.5K0
【柯洁战败解密】AlphaGo Master最新架构和算法,谷歌云与TPU拆解
【业界】你也能与AlphaGo谈笑风生了, AlphaGo教学工具上线
【导读】12月11日晚,大家期待已有的 AlphaGo教学工具正式上线了,DeepMind资深研究员黄士杰和DeepMind围棋大使樊麾在Facebook和其新浪微博差不多同一时间发布一条重要消息,谷
WZEARW
2018/04/11
8930
【业界】你也能与AlphaGo谈笑风生了, AlphaGo教学工具上线
不只是围棋!AlphaGo Zero之后DeepMind推出泛化强化学习算法AlphaZero
选自arXiv 作者:David Silver等 机器之心编译 在 DeepMind 发表 Nature 论文介绍 AlphaGo Zero 之后,这家公司一直在寻求将这种强大算法泛化到其他任务中的可能性。昨天,AlphaGo 研究团队提出了 AlphaZero:一种可以从零开始,通过自我对弈强化学习在多种任务上达到超越人类水平的新算法。据称,新的算法经过不到 24 小时的训练后,可以在国际象棋和日本将棋上击败目前业内顶尖的计算机程序(这些程序早已超越人类世界冠军水平),也可以轻松击败训练 3 天时间的 A
机器之心
2018/05/09
7800
不只是围棋!AlphaGo Zero之后DeepMind推出泛化强化学习算法AlphaZero
AlphaGo Zero幕后开发心路历程大公开!DeepMind资深研究员黄士杰最新演讲解密
【导读】11月10日,黄士杰应台湾人工智能年会之邀来台演讲,演讲主题是「AlphaGo——深度学习与强化学习的胜利」,也是他首次公开演讲。不久前,在DeepMind发表了《Mastering the game of Go without humanknowledge》的最新论文后,黄士杰曾在Facebook写下:AlphaGo Zero是完全脱离人类知识的AlphaGo版本。在演讲上,他强调,DeepMind的目标是要做出一个通用人工智能,也就是强人工智能,但他也认为,对DeepMind来说,强人工智能还是
WZEARW
2018/04/10
1.2K0
AlphaGo Zero幕后开发心路历程大公开!DeepMind资深研究员黄士杰最新演讲解密
1:2,李世石最后一战被AI击败,唯一战胜过AlphaGo的人退役了
12 月 21 日,全罗道新安郡曾岛 EI dorado 度假村,李世石在第 181 手投子认输。这是与 Handol 退役赛对战的最后一局,前两局,李世石一胜一负。最后一盘棋,还是惜败于 AI。
机器之心
2019/12/26
5800
1:2,李世石最后一战被AI击败,唯一战胜过AlphaGo的人退役了
【重磅】AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋类游戏
作者:闻菲,刘小芹,常佩琦 【新智元导读】或许“智能爆炸”不会发生,但永远不要低估人工智能的发展。推出最强围棋AI AlphaGo Zero不到50天,DeepMind又一次超越了他们自己,也刷新了世人对人工智能的认知。12月5日,包括David Silver、Demis Hassabis等人在内的DeepMind团队发表论文,提出通用棋类AI AlphaZero,从零开始训练,除了基本规则没有任何其他知识,4小时击败最强国际象棋AI、2小时击败最强将棋AI,8小时击败李世石版AlphaGo,连最强围棋AI
新智元
2018/03/20
1.7K0
【重磅】AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋类游戏
动态 | AlphaZero 荣登《科学》杂志封面
AI 科技评论按:一年前,Alphabet 旗下人工智能部门 DeepMind 发布 AlphaZero,称它可以自学国际象棋、日本将棋和中国围棋,并且项项都能击败世界冠军。而今天,经过同行评议,AlphaZero 一举登上《科学》杂志封面。
AI科技评论
2018/12/25
5940
动态 | AlphaZero 荣登《科学》杂志封面
DeepMind官方解密新版 AlphaGo 棋艺制胜奇招:价值网络把控通盘局面
【新智元导读】4月10日,中国棋院与谷歌在北京宣布,今年5月在“中国乌镇·围棋峰会”上AlphaGo升级版将与最顶尖的人类棋手进行对弈,世界冠军柯洁将出战。 随后,DeepMind CEO Demis Hassabis 在官方博客上撰文介绍了这一比赛和全新版的 AlphaGo,并强调 AlphaGo 不仅会下棋,在节约能源、医疗、翻译等方面也得到了应用。其团队详细也解读了AlphaGo 在围棋上的最新技术进步,包括策略和战略上的创新。 今天,中国围棋协会和浙江省体育局携手Google共同宣布,三方将联合主办
新智元
2018/03/27
7140
DeepMind官方解密新版 AlphaGo 棋艺制胜奇招:价值网络把控通盘局面
专栏 | 阿尔伯塔大学李玉喜博士:我们应该如何面对强大的计算机围棋AlphaGo?
机器之心专栏 作者:李玉喜 AlphaGo 与世界第一的人类棋手柯洁的对弈比赛已经引起了全世界的广泛关注。不出意外,尽管柯洁表现出色,但 AlphaGo 仍然连续取得了两场胜利。明天柯洁还将与 AlphaGo 展开最后一场比赛,是否会出现意外惊喜,让我们拭目以待。最后的比赛之前,加拿大阿尔伯塔大学计算机系博士、博士后李玉喜撰写了一篇解读 AlphaGo 背后的技术以及讨论我们应该如何应对这些技术的文章。李玉喜博士致力于深度学习、强化学习、机器学习、人工智能等前沿技术及其应用。曾任电子科技大学副教授;在美国
机器之心
2018/05/07
1.2K0
专栏 | 阿尔伯塔大学李玉喜博士:我们应该如何面对强大的计算机围棋AlphaGo?
【Nature重磅封面】Google人工智能击败欧洲围棋冠军,3月挑战世界冠军!
围棋一直被视为人工智能最难破解的游戏。就在今天,《Nature》杂志以封面论文的形式,介绍了 Google DeepMind 开发的人工智能程序 AlphaGo,它击败了欧洲围棋冠军樊麾,并将在 3 月和世界冠军李世乭对战!Google 特地为此准备了 100 万美元奖金。 从国际象棋的经验看,1997 年人工智能第一次打败人类后,2006 年成为了人类在国际象棋的绝唱,自此之后人类没有战胜过最顶尖的人工智能国际象棋选手。在 AlphaGo 打败了欧洲围棋冠军后,世界冠军李世乭和 AlphaGo 的对弈,
新智元
2018/03/14
1.6K0
【Nature重磅封面】Google人工智能击败欧洲围棋冠军,3月挑战世界冠军!
动态 | 围棋教学工具 AlphaGo Teach上线第二天,Deepmind 资深研究员黄士杰宣布离开 AlphaGo 项目
AI 科技评论消息,北京时间 12 月 11 日晚,DeepMind 在 twitter 上宣布推出围棋教学工具 AlphaGo Teach。
AI科技评论
2018/03/14
1.3K0
动态 | 围棋教学工具 AlphaGo Teach上线第二天,Deepmind 资深研究员黄士杰宣布离开 AlphaGo 项目
人类太多余?且慢,先听AI科学家详解AlphaGo Zero的伟大与局限
夏乙 李根 发自 凹非寺 量子位 报道 | 公众号 QbitAI “人类太多余了。” 面对无师自通碾压一切前辈的AlphaGo Zero,柯洁说出了这样一句话。 如果你无法理解柯洁的绝望,请先跟着量
量子位
2018/03/23
1.1K0
新AlphaGo首度揭秘:单机运行,4个TPU,算法更强(专访+演讲)
舒石 唐旭 发自 东瑶村 量子位 报道 | 公众号 QbitAI 到底是谁击败了柯洁? 答案似乎显而易见。但量子位之所以问这个问题,是因为如今击败柯洁的AlphaGo,与去年击败李世乭的AlphaGo
量子位
2018/03/30
1.3K0
柯洁第二局投子认负,独家专访AlphaGo开发者导师Martin Müller
机器之心原创 参与:李泽南、杜夏德 今天下午 13:37,「中国乌镇·围棋峰会」人机大战的第二场比赛落下帷幕。在耗时 3 小时 7 分钟的比赛后,柯洁投子认负,AlphaGo 取得了胜利。 在 23 日的首轮比赛中,AlphaGo 以四分之一子的优势,击败了世界第一人类围棋手柯洁。赢得比赛后,这场人机大战引起了人们广泛的关注和讨论。DeepMind 也在赛后分析解读了 AlphaGo 背后的技术,表示当前版本 AlphaGo Master 的棋力,较与李世乭对弈的 AlphaGo 版本有三子提升,就连柯洁本
机器之心
2018/05/07
6640
柯洁第二局投子认负,独家专访AlphaGo开发者导师Martin Müller
柯洁又输了,关于人工智能AlphaGo你需要知道些什么
原作者 Mirek Stanek 编译 CDA 编译团队 本文为  CDA 数据分析师原创作品,转载需授权 前言 本月 23 日- 27 日,在乌镇主办“中国乌镇·围棋峰会”中,备受瞩目的要数中国围棋现役第一人、天才少年柯洁与Google AlphaGo(阿尔法狗)人工智能机器人的巅峰对决。AlphaGo与柯洁对弈的三局比赛,分别于 5 月 23 、25、27 日进行。 在 23 日和 25 日的对决中,柯洁虽然发挥神勇,但还是两局均战败。AlphaGo 2-0 领先,已经赢得了三番棋的胜利。 对于人类来说
CDA数据分析师
2018/02/26
8590
柯洁又输了,关于人工智能AlphaGo你需要知道些什么
推荐阅读
无需人类知识,DeepMind新一代围棋程序AlphaGo Zero再次登上Nature
7230
仅用3天,AlphaGo Zero就凭借自学以100:0击败AlphaGo,柯洁表示人类太多余了
8450
登顶世界第一! 相比其他AI,AlphaGo究竟有何不同?
1K0
起底AlphaGo历史
2K0
洞察|AlphaGo之父揭开打败柯洁的秘密:强AI是人类的终极工具
6390
【柯洁战败解密】AlphaGo Master最新架构和算法,谷歌云与TPU拆解
1.5K0
【业界】你也能与AlphaGo谈笑风生了, AlphaGo教学工具上线
8930
不只是围棋!AlphaGo Zero之后DeepMind推出泛化强化学习算法AlphaZero
7800
AlphaGo Zero幕后开发心路历程大公开!DeepMind资深研究员黄士杰最新演讲解密
1.2K0
1:2,李世石最后一战被AI击败,唯一战胜过AlphaGo的人退役了
5800
【重磅】AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋类游戏
1.7K0
动态 | AlphaZero 荣登《科学》杂志封面
5940
DeepMind官方解密新版 AlphaGo 棋艺制胜奇招:价值网络把控通盘局面
7140
专栏 | 阿尔伯塔大学李玉喜博士:我们应该如何面对强大的计算机围棋AlphaGo?
1.2K0
【Nature重磅封面】Google人工智能击败欧洲围棋冠军,3月挑战世界冠军!
1.6K0
动态 | 围棋教学工具 AlphaGo Teach上线第二天,Deepmind 资深研究员黄士杰宣布离开 AlphaGo 项目
1.3K0
人类太多余?且慢,先听AI科学家详解AlphaGo Zero的伟大与局限
1.1K0
新AlphaGo首度揭秘:单机运行,4个TPU,算法更强(专访+演讲)
1.3K0
柯洁第二局投子认负,独家专访AlphaGo开发者导师Martin Müller
6640
柯洁又输了,关于人工智能AlphaGo你需要知道些什么
8590
相关推荐
无需人类知识,DeepMind新一代围棋程序AlphaGo Zero再次登上Nature
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档