12月11日晚,AlphaGo“人肉臂”黄士杰和DeepMind围棋大使樊麾分别在自己的社交网站上公布重磅消息——AlphaGo教学工具(AlphaGo Tech)正式上线。这款教学工具收录了近期围棋史上最受欢迎的6000个开放序列的分析,使用了来自23.1万个人类棋谱的数据,以及AlphaGo对人类玩家的75场游戏数据。
图片来自黄士杰的朋友圈
据了解,这是一个AlphaGo教学的开局库,共由两万多个变化,三十七万多步棋组成,可以通过AlphaGo的视角,分析并建议围棋开局的诸多下法。此教学工具的目的是帮助人们学习围棋,它让用户在开始游戏后,观看AlphaGo在不同动作下的预期获胜概率。
不得不说,这是DeepMind的一项重要举措,可以帮助玩家更好地理解AlphaGo的行为。AlphaGo Tech 不会让新手成为大师,但可以帮助玩家更好的理解基于机器学习的程序在特定的情况下了解到的信息。不熟悉围棋的人,可能觉察不到这个工具对学习围棋游戏的帮助,因为这项技术的前提是假设玩家对围棋有一定的了解。
AlphaGo Tech的历史及介绍
今年五月,在乌镇举行的围棋峰会上,谷歌DeepMind的创始人Demis Hassabis曾表示,他们正在研究如何利用AlphaGo教人类更好地理解围棋。
如今,半年多的时间过去了,AlphaGo Teach真的出现了。在该项目的官网介绍中,我们可以通过点击棋盘上的彩色圆圈,或者使用棋盘下方的导航工具,来探索不同的开局策略,以及AlphaGo对于每一步棋的黑棋胜率预测。
其中,蓝色虚线圆圈代表AlphaGo的下法,蓝紫色圆圈代表人类棋手的下法。圈中的数字为黑棋的胜率。
AlphaGo家族的发展史
DeepMind围棋大使樊麾已经在微博中说明,AlphaGo教学工具使用的版本是AlphaGo Master,即战胜中国围棋选手柯洁的版本。
下面,小智君为大家细数一下AlphaGo的发展史:
2014年,DeepMind推出原始版AlphaGo;
2016年,升级为AlphaGo Lee,击败了世界冠军李世石;
2017年5月,化身为AlphaGo Master与柯洁交战,大获全胜;
2017年10月,AlphaGo Zero问世,通过三天的学习,完败AlphaGo Lee;21天后,达到AlphaGo Master的水平;40天后,成为最强版本;
2017年12月,AlphaZero出现,经过不到24小时的自我对弈后,击败国际象棋、将棋和围棋三个世界冠军级程序。
到现在,AlphaGo Tech的推出说明了DeepMind在人工智能领域不断取得突破,不断向人们展示出一个有趣的前沿——创造一个超人类的系统,然后教人类如何去思考。这一发展,反过来想,在一定程度上也促进了人类的发展。
柯洁还在微博中打趣的说到,自己要重新学习下围棋,向AlphaGo Tech学习,看来柯洁也要回炉重造了!
DeepMind与《星际争霸联手》,开发新AI系统
其实,除了棋盘类游戏的研究,DeepMind也在试图解决其他的游戏问题。该公司最近与暴雪娱乐公司(Blizzard Entertainment)合作,将其游戏《星际争霸II》作为机器学习系统的训练环境,希望借此开发一套可以像AlphaGo一样击败人类的人工智能系统,至于其终极目标,则是将这一技术应用于现实世界,而不仅仅停留在游戏层面。
暴雪首席软件工程师Jacob Repp表示:“我们正试图理解人类大脑的工作方式。 如果我们能得到这种高质量的数据流——人类玩儿游戏时的原始输入及其结果 ——这对行为研究的人来说是非常有用的数据。”
《星际争霸2》对人工智能研究人员来说是个有趣的挑战。与国际象棋或围棋不同,星际玩家的信息并不完美。这种“战争迷雾”意味着玩家(真实的或虚拟的)必须制定计划,做出决定,或者对那些只会在几分钟后才能产生后果的行为作出回应。正如DeepMind的研究人员所说,其结果“在时间信用分配和探索上将面临大量挑战”。
DeepMind的首次测试,涉及到神经网络和人工智能的训练,之后再将其应用投入到游戏中。即便没有进一步的指令,人工智能也可以随意在地图上走动、移动镜头甚至排兵布阵。
当然现在星际人工智能的研究,还处于早期的阶段。最近在首尔的一场竞赛中,《星际争霸》职业玩家宋炳具用了不到半小时就击败了4个人工智能机器人。但他也表示,机器人的防守打法“有时候让人震惊”。
不管怎么说,DeepMind一直都在给大家带来惊喜,《星际争霸》AI系统能否成功,我们拭目以待!
领取专属 10元无门槛券
私享最新 技术干货