这两天DeepMind公布了他们的人工智能研究新成果——AlphaStar,一款星际争霸人工智能AI。这是AI第一次打败职业选手,第一次在完整功能的实时战略游戏中达到职业玩家水平。
从他们公布的博客来看,他们初步使用了监督学习和强化学习的结合,利用监督学习学习到人类玩家的一些经典策略,利用强化学习来学习策略中的环境变化情况。这与AlphaStar的哥哥”AlphaGo"不太一样,AlphaGo在学习下围棋是几乎全部是用的是自我对弈的强化学习方式。
他们这次和两位职业玩家比赛MaNa和TLO,取得了10:1的成绩,相当不错了。各种媒体和报道的赞美之词不以言表。
但是我们是否还应该深入探讨下AlphaStar有什么优缺点和意义。
首先,要说AlphaStar的优点当然是很多了,能够在全局环境下仅仅利用图像输入达到超高纬度action的执行效果,这首先就是一个非常难得事情。他们说是没有使用任何规则的算法,纯粹是用的是学习方法,这让机器学习的研究者们都非常兴奋,可以说是给了人工智能领域下一个研究热点带了方向——深度强化学习。
缺点的话,我们可以从那之前几把replay和那一盘AlphaStar输的比赛可以看到,AI目前对神族追猎情有独钟,这个兵种在Rush阶段有非常强大的优势,加上闪烁需要的超级操作能力,AI可以将这套闪烁追猎rush玩到极致。因此,可见AI还是将自己的学习路径落入了一个偷懒的局部优化点。在最后一把输给职业选手的比赛中,被棱镜骚扰的也是非常被动,主力被各种调来调去,非常耽误战机。导致最后MaNa造出了大量追猎克星的兵种”不朽”。从这些细节可以看到,AI对后期能力和比赛理解能力还是和人类相差较远,需要DeepMind进一步训练和构思网络优化路径。
但是即便有这些缺点,我们也可以看到了,AlphaStar确实在即时战略游戏中表现出了超高的技术水平,同时仅仅7天训练时间就达到了这样不错的战绩。期待后续DeepMind战胜人类最强选手的那一天。
AlphaStar这套思路如何迁移到真正的人类应用领域,为世界级难题做出贡献也是非常值得探讨和研究的。这或许是DeepMind科学家们下一步要做的事情,就像AlphaFold一样,这些AI一点点的进步最终将推动技术领域持续迭代,人类才能不断攀登的科技巅峰。
期待后续的进展!
7/100
领取专属 10元无门槛券
私享最新 技术干货