首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

AlphaGo Zero 为什么可以这么厉害?

AlphaGo Zero 为什么可以这么厉害?

在DeepMind团队放弃了广泛地搜索,取而代之的是深度搜索,用这种搜索更节省计算资源,对于有限的情况, 分析更加准确,不过单单有这种树形搜索是远远不够的,所以我们还将会加上正在飞速发展的神经网络结构,用来对当前状态进行评估和做决策,一个简单的神经网络包括了三个方面,接收外部讯息,譬如一张棋谱,然后通过神经网络内部千万个神经节点,将接收到的讯息进行加工处理,换作我们人类这个过程叫做理解,最后将理解的东西输出,它可以是下一个要採取的动作,或者是对当前下棋状态的评估,AlphaGo中就採取了两套神经网络系统。

一个神经网络基于当前的状态给出下一个动作,一个神经网络用来评估当前的状态是否对我方有利,使用神经网络配合搜索树来提供好的下棋行为,将这些好的行为作为训练数据反过来训练神经网络,这样一来一回使用强化学习的方法不断地训练,我们的神经网络就能不断地提升自己下棋的能力,这就是AlphaGo能战胜人类的主要原因。

可是AlphaGo的新版本AlphaGo Zero为什么被提出?而且被提出后为什么又能引起轩然大波?很显然它肯定比前几个AlphaGo要好,首先也是最重要的是,它完全没有学习过任何人类棋谱,人类学习下棋,学习前辈们留下来的优秀棋谱是必不可少的,所以上几个AlphaGo中继承了这个思想,「我要从人类那里学习下棋的原则」。

有一个好老师将会比无师自通方便很多,如果你和这样有一个人类老师的AlphaGo交手,那可能还会在它背后看到人类下棋的影子,但是AlphaGo Zero完全是一个无师自通的家伙,和它下棋你可能会闻到强烈的机械味,从另外一个方面想,这样的AlphaGo打破了数千年来,人类下棋的思维侷限,探索了人类想不到的下棋境界,学会了一个崭新的下棋方式,在技术方面来说AlphaGo Zero使用的不再是两套神经网络系统,而是将它们融合成一个网路神经系统,这样做能更加有效地利用资源,学习效果更好,而且它不再使用GPU进行训练,转而使用自家专门为机器学习打造的TPU进行训练,而且使用的个数正在逐步地降低,然而学习的效果却在不断上升。

在短短40天没有老师教的训练中,AlphaGo (Zero)超越了它所有的前辈,在这个时候我相信它真正能做到在围棋场上无人能敌,最后正如AlphaGo之父David Silver所说,「一个无师自通AlphaGo的产生,并不仅仅意味着我们的AI能在围棋场上战胜人类,放眼未来,它还意味着,在更多方面,我们能使用这样的AI,创造出更多人类历史上的新篇」,以上便是竟日分享的全部内容了。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20210309A0AFK500?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券