人工智能
难度堪称人工智能“阿波罗计划”的围棋挑战,最终还是被一只机器“狗”取得了胜利。
它的致命法宝就是模仿人类的“深度学习”工作原理。
机器到底是怎样像人类一样学习的?
有一天它无所不能,人类的未来又将怎样?
文 | Mr.Zhang
No.18
Fineworld
Sat.May.12
AlphaGo(阿法狗)由位于英国伦敦的谷歌旗下DeepMind公司开发。
它的主要工作原理是“深度学习”。
面对任何棋类,一种直观又偷懒的思路是暴力列举所有能赢的方案,这些方案会形成一个树形地图。
然而,在规定时间内想要让计算机利用这种方法战胜人类下围棋,并不容易做到,因为围棋的可能性太多。
有一种说法是,围棋的可能性数量要比可观测到的宇宙中原子的总数还要多得多。
同时,围棋的规律十分微妙,在某种程度上落子选择依靠的是经验积累而形成的“直觉”。
因此,围棋挑战称作人工智能的“阿波罗计划”。这一次,研究者们终于拿出了终极武器——“深度学习”,让机器模仿人类高端棋手的下棋方式,机器可以通过学习人类打败人类。
阿法狗通过“神经网络”学习所有高水平围棋棋谱,大概是历史上有的20万个左右职业棋谱,从而获得了在盘面上如何落子的直觉。
假设我们看过很多猫,再看图片的时候,就是通过第一直觉判断图片上是否有猫,这种直觉并不是天生而来的,而是通过学习获得的。
那么,阿法狗取胜的杀手锏真的就是直觉和第六感?针对这样的疑问,我想说,它获得的这种直觉又和人类不同,背后有坚实的数学模型,计算机做了大量的计算,在大量悬念中找到一个胜率,这和人脑的直觉不完全相同,是数学、科学的体现,人类是不可能达到的。
但在打败了世界第一的围棋选手后,“阿法狗”仍在积攒实力。今年1月,一个神秘账号Master公布自己正是“阿法狗”新版。该账号在知名围棋平台上先后挑战柯洁、朴廷桓和井山裕太等顶级高手,豪取胜利,随后战赢“棋圣”聂卫平,直至60盘时自爆身份,决胜收官。
“阿法元”的无师自通
此次在最新论文中,英国伦敦深度思维公司“阿法狗”项目的主要负责人戴维·西尔弗、戴密斯·哈萨比斯及其同事,报告了新版“阿法狗”软件——“阿法元”。
“阿法元”最引人注目之处在于其无师自通的本领。其学习从“零”开始,单纯基于与自己的对弈,不需要任何历史棋谱的指引,也不需要任何人类经验的点拨。
对于这个新软件,人类的输入仅仅限于一张棋盘和一副棋子,没有任何人类数据参与。“阿法元”只用到了一张神经网络,这张网络经过训练,专门预测程序自身的棋步和棋局的赢家,在每次自我对弈中进步。
通过3天的训练——包括近500万局自我对弈——“阿法元”已能够超越人类并打败所有之前的“阿法狗”版本。戴维·西尔弗表示,“阿法元”远比“阿法狗”强大,它已不再为人类的知识所限,而能够自行发现新知识。
摆脱了人类经验的辅助和依赖,人工智能竟然变得更强!在“阿法元”崭露头角后,人们揣测:难道我们人类还耽误“阿法狗”了?
震惊中.......
其实,人工智能的最大挑战之一,即是研发一种能从“零”开始、以超人类的水平学习复杂概念的算法。
在去年3月那场世所瞩目的比赛中,“阿法狗”软件打败了人类围棋世界冠军。当时的这款围棋程序,是利用价值网络去计算局面,用策略网络去选择下子。
但为了赢得这场人机大战,科学家团队在训练“阿法狗”时,同时用到了监督式学习(基于上百万种人类专业选手的下棋步骤)和基于自我对弈的强化学习。
旧“阿法狗”训练过程长达几个月,用到多台机器和48个TPU(神经网络训练所需的专业芯片)。而此次,据研究团队介绍,新程序“阿法元”只使用了一台机器和4个TPU。
在“阿法狗”之前,最成功的围棋程序仅能达到人类业余选手的程度,还不能在不让子的情况下和专业赛手一较高下。
原本人们认为,至少要10年后人工智能才有可能达到这一成就。但“阿法狗”的横空出世改写了预言。而在其问世不足两年的时间里,“阿法元”再次刷新人们的认知——随着程序训练的进行,人工智能已独立发现了人类用几千年才总结出来的围棋规则,还建立了新的策略,可以说,人工智能已经为这个古老的游戏,带来了全新的见解。
Fineworld
长按下方二维码关注我们
用零碎时间涨知识!
关注我们,与Fineworld一起探索世界!
领取专属 10元无门槛券
私享最新 技术干货