------每天晚上 · 一起看趣味科学------
还记得打败柯洁大魔王的阿尔法狗吗?现在,它的弟弟正式出道了,在今天的「人机大战·星际版」中,它用10-1的战绩,把人类的职业选手们按在地上摩擦。
今天凌晨,开发AlphaGo的公司DeepMind与暴雪进行了联合直播,并公布了两位《星际争霸2》职业选手与AI星际版「AlphaStar」在去年12月的对战视频。
两位选手分别是世界排名第68位的TLO与两届WCS亚军MaNa,每人与AI分别进行了5次较量,而结果是当时两位选手一场未胜,AlphaStar横扫10场。
事实上DeepMind的研发团其实也没有想到会赢得这么顺利,TLO输掉第一局的时候他们直接乐疯了。
原因很简单,《星际争霸2》与围棋等游戏的玩法有着明显的区别。
在狂丸个人看来这倒不是谁更难的问题,而是游戏模式完全不同。《星际争霸2》是一款即时战略类游戏,游戏中存在人类、异虫、星灵三个种族。玩家需要在游戏中运营的基地,赚钱,赞科技,出兵,搭配兵种,依靠战略、操作、反应意识战胜对手,听着就很复杂。
而对AlphaStar来说,还有更头疼的问题存在,例如不完全信息博弈。游戏中没有必赢的策略,玩家需要了解对手的动向并根据此做出改变。不同于棋盘的玩家可以看到一切,星际的地图带有战争迷雾,重要的信息对星际玩家是隐藏的,所以玩家在运营自己的基地时,还必需要主动去侦查敌方的动作,而侦查需求则代表AlphaStar需要具备一定的长远规划能力。此外AlphaStar还需要持续性的长期运营,不再是下棋时给你计算的时间间隔,而是需要连续计算。
(单位离开视野消失)
所以,这款游戏对于AI来说这么难玩,人类到底是怎么输的?今早的直播中一共展示了人类和AI的三次较量。第一场发生在去年12月12日,虫族选手TLO与AlphaStar展开了交锋。
这里我们的人类代表TLO是有点吃亏的,因为他最擅长的种族是虫族,但DeepMind出于简化难度,仅做了神族内战的训练,所以TLO不得不使用自己不擅长的种族应对人工智能。
(地图、版本、对战种族)
当然战斗前DeepMind对AlphaStar进行了一定的能力限制,使其在反应能力上更靠近人类。例如APM(每分钟操作的次数)限定在280,反应速度间隔为350毫秒,低于大部分职业玩家。
而在初战的过程有些让游戏粉丝大跌眼镜,因为此时的AlphaStar完全没有当初下围棋那位的风采,宛如一个仅是操作有点犀利的初学者,摆弄着一些人类无法理解的「非」主流打法。而且脑筋比较死,经常出现直来直往,不会绕路等情况。
不过此时的AlphaStar也对游戏大局走势做出了几次看得过去的判断,例如不吃亏的前提下会换兵、不硬刚,机智撤退等等。
最终,它凭借稳定的运营和天生的操作优势,还是稳吃了发挥更差的TLO,让人类不知不觉连跪五盘。
而DeepMind发现能打赢TLO后也是有点喜出望外,于是在让AlphaStar再次学习一周后,在12月19号约战了世界级神族选手,MaNa。
不过在与MaNa的战斗中,AlphaStar经过再度学习已经变得今非昔比,不再菜鸡,部分操作思维已经接近人类。很多网友说相比上局的「菜鸡互啄」,MaNa的AI对手更像是黑化后的邪恶版本。
它的运营更加完美,建筑开始参考对手的打法修补之前的不足,甚至AI的一些打法让MaNa自己都觉得值得学习。同时战斗计算能力更强,例如逃命时机,伤害损失预估、攻击节奏与间距等等。
不过在战斗中,AlphaStar凭借强大操作,还是轻松的教育了MaNa。在一场战斗中,MaNa原本操控优势兵种追击AlphaStar的劣势兵种,结果被对方从三面伏击包围,然后AI硬生生靠操作将其打退,由劣势打到对方GG。
而靠操作死死压住MaNa的相似情况在比赛中还有很多,这也最终导致他同样连跪五把。
(蓝色为AI)
其实AlphaStar相对于人类玩家存在一个优势,那就能够一次看到除战争阴影外的整个地图,也就是不用切换地图,不必像人类玩家那样转移注意力减少失误的可能。
在今天早上的直播中,DeepMind就放出了一个新的AlphaStar,它运行方式更加拟人化,也就是需要像人一样切换镜头,判断自己的注意力应该集中在哪里。
而它则正是第三次交战中人类的对手。这次交手依然由MaNa出场,尽管AlphaStar前期的运营依然压住了他,但MaNa在连败后也发现了AI致命的弱点,并利用对方战术单一的短板与死脑筋的特点不断骚扰,最终获取胜利,复仇成功,同时比分也最终定格在1-10上。
MaNa的胜利真心让人感觉来之不易,而Alphastar之所以强的离谱,还是因为训练到位。DeepMind的研究项目负责人Oriol Vinyals表示他们会从职业选手的战斗中收集资料,然后通过观察人类选手的所处的环境让其理解与模仿相应的操作。
另外比较特别的是它还会自己和自己举办联赛。根据DeepMind官网的博客介绍,它们为AI设立了一个The AlphaStar League,这是一个神经网络训练程序,不同版本的AlphaStar将在一周内不停地相互比赛,每个版本都有自己偏好的兵种、战术。简单理解,有点像不同人格之间自己打自己。
而这种训练的成果则像是筛选更加成熟的战术,例如从早期的但兵种冲锋在不断失败后会学会多兵种配合。另外据官网介绍,这种训练几乎每一个AlphaStar一周的训练量都相当于玩了200年的《星际争霸2》。也就是就算AI再傻,随便练几天估计就能比狂丸这种半吊子强了。
(随着训练时间变化,兵种搭配时间变化)
其实在AI击败柯洁时,狂丸就曾提过DeepMind曾与暴雪在2016年达成合作,
进行了一次关于星际的「约战」
,不过当时无论是《星际2》制作总监Time Morten还是作为玩家都比较乐观,觉得AI战胜职业玩家的时间并不会这么快就到来,然而AlphaStar的成长确实飞速。
所以,这样的战绩与难以战胜的对手,是否意味着星际已经像围棋一样被AI攻破了?事实上距离这一天还有段距离。在这11场比赛中,AlphaStar的闪光点确实很多,它出色的操作可以让人尖叫,出色运营总能占据经济优势,一些操作思维也能看到属于人类的影子。更让人感到有压力的是,这个对手是个机器,没有感情,只相信数据判断。
根据日复一日的数据训练,它面对任何情况都不会去怀疑自己计算出的胜算概率最大的判断。所以它不会害怕、紧张、疲惫,更别说有什么操作失误。
但你也不得不承认,现在的AlphaStar的脑子依然很笨,不会分兵、不够狡猾、不够谐、不能理解什么是拼一枪,还喜欢A岩石,可能连换家都不会。很多玩家认为,操作它可以说无敌,但对于游戏的理解,它依然还很菜。毕竟10把比赛,几乎大半数都在想用相似的战术战胜对方。
(双方互A的时候,AI突然打一下路边的岩石···)
而狂丸个人认为,造成这种情况的原因,很有可能是AlphaStar在和人类对战中靠操作吃到了太多甜头,以至于导致它误以为某一种战术是万金油战术,可以百战百胜,也是通向胜利的最优解,进而放弃其他战术不用,而这就走向了一个死胡同。狂丸觉得人类选手依然可以利用套路战胜这样的AI。
此外比赛的公平性其实也有待商榷,例如DeepMind对操作的限制实在一言难尽,网友吐槽APM虽然平均为280,但峰值可以玩到1500,神族内战本就吃操作,你这让人类玩家怎么打。
另外挑选选手方面DeepMind其实也可以有更多选择,虽然TOL与MaNa都是不错的选手,不过明显粉丝们更期待战术鬼才们登场与AI较量。
所以总的来说,虽然10:1看着悬殊,但双方依然有拉近比分的可能。不过最后狂丸还是那句话,趁现在还打得赢电脑,大家赶紧奔走相告,多虐几把吧。
(文中图片素材来源自网络,仅供娱乐分享使用)
来试试你的个性新年签?长按下图二维码即可获取:
参考资料:
https://www.youtube.com/watch?v=cUTMhmVh1qs&t=1945s
https://venturebeat.com/2019/01/24/alphastar-deepmind-beats-starcraft-pros/
https://www.engadget.com/2019/01/24/deepmind-ai-starcraft-ii-demonstration-tlo-mana/
https://deepmind.com/blog/alphastar-mastering-real-time-strategy-game-starcraft-ii/
2019猪年创意红包
内含28个国家地区的52张不同面额纸币
过年收到这样的红包,隔壁小孩都羡慕哭了
领取专属 10元无门槛券
私享最新 技术干货