AlphaGo Zero 为什么可以这么厉害？

文章来源：企鹅号 - Vaga速绘课堂

AlphaGo Zero 为什么可以这么厉害？

在DeepMind团队放弃了广泛地搜索，取而代之的是深度搜索，用这种搜索更节省计算资源，对于有限的情况，分析更加准确，不过单单有这种树形搜索是远远不够的，所以我们还将会加上正在飞速发展的神经网络结构，用来对当前状态进行评估和做决策，一个简单的神经网络包括了三个方面，接收外部讯息，譬如一张棋谱，然后通过神经网络内部千万个神经节点，将接收到的讯息进行加工处理，换作我们人类这个过程叫做理解，最后将理解的东西输出，它可以是下一个要採取的动作，或者是对当前下棋状态的评估，AlphaGo中就採取了两套神经网络系统。

一个神经网络基于当前的状态给出下一个动作，一个神经网络用来评估当前的状态是否对我方有利，使用神经网络配合搜索树来提供好的下棋行为，将这些好的行为作为训练数据反过来训练神经网络，这样一来一回使用强化学习的方法不断地训练，我们的神经网络就能不断地提升自己下棋的能力，这就是AlphaGo能战胜人类的主要原因。

可是AlphaGo的新版本AlphaGo Zero为什么被提出？而且被提出后为什么又能引起轩然大波？很显然它肯定比前几个AlphaGo要好，首先也是最重要的是，它完全没有学习过任何人类棋谱，人类学习下棋，学习前辈们留下来的优秀棋谱是必不可少的，所以上几个AlphaGo中继承了这个思想，「我要从人类那里学习下棋的原则」。

有一个好老师将会比无师自通方便很多，如果你和这样有一个人类老师的AlphaGo交手，那可能还会在它背后看到人类下棋的影子，但是AlphaGo Zero完全是一个无师自通的家伙，和它下棋你可能会闻到强烈的机械味，从另外一个方面想，这样的AlphaGo打破了数千年来，人类下棋的思维侷限，探索了人类想不到的下棋境界，学会了一个崭新的下棋方式，在技术方面来说AlphaGo Zero使用的不再是两套神经网络系统，而是将它们融合成一个网路神经系统，这样做能更加有效地利用资源，学习效果更好，而且它不再使用GPU进行训练，转而使用自家专门为机器学习打造的TPU进行训练，而且使用的个数正在逐步地降低，然而学习的效果却在不断上升。

在短短40天没有老师教的训练中，AlphaGo (Zero)超越了它所有的前辈，在这个时候我相信它真正能做到在围棋场上无人能敌，最后正如AlphaGo之父David Silver所说，「一个无师自通AlphaGo的产生，并不仅仅意味着我们的AI能在围棋场上战胜人类，放眼未来，它还意味着，在更多方面，我们能使用这样的AI，创造出更多人类历史上的新篇」，以上便是竟日分享的全部内容了。

发表于: 2021-03-092021-03-09 17:37:35
原文链接：https://kuaibao.qq.com/s/20210309A0AFK500?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

AlphaGo Zero 为什么可以这么厉害？

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐