首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

AlphaStar 人工智能再下一城

这两天DeepMind公布了他们的人工智能研究新成果——AlphaStar,一款星际争霸人工智能AI。这是AI第一次打败职业选手,第一次在完整功能的实时战略游戏中达到职业玩家水平。

从他们公布的博客来看,他们初步使用了监督学习和强化学习的结合,利用监督学习学习到人类玩家的一些经典策略,利用强化学习来学习策略中的环境变化情况。这与AlphaStar的哥哥”AlphaGo"不太一样,AlphaGo在学习下围棋是几乎全部是用的是自我对弈的强化学习方式。

他们这次和两位职业玩家比赛MaNa和TLO,取得了10:1的成绩,相当不错了。各种媒体和报道的赞美之词不以言表。

但是我们是否还应该深入探讨下AlphaStar有什么优缺点和意义。

首先,要说AlphaStar的优点当然是很多了,能够在全局环境下仅仅利用图像输入达到超高纬度action的执行效果,这首先就是一个非常难得事情。他们说是没有使用任何规则的算法,纯粹是用的是学习方法,这让机器学习的研究者们都非常兴奋,可以说是给了人工智能领域下一个研究热点带了方向——深度强化学习。

缺点的话,我们可以从那之前几把replay和那一盘AlphaStar输的比赛可以看到,AI目前对神族追猎情有独钟,这个兵种在Rush阶段有非常强大的优势,加上闪烁需要的超级操作能力,AI可以将这套闪烁追猎rush玩到极致。因此,可见AI还是将自己的学习路径落入了一个偷懒的局部优化点。在最后一把输给职业选手的比赛中,被棱镜骚扰的也是非常被动,主力被各种调来调去,非常耽误战机。导致最后MaNa造出了大量追猎克星的兵种”不朽”。从这些细节可以看到,AI对后期能力和比赛理解能力还是和人类相差较远,需要DeepMind进一步训练和构思网络优化路径。

但是即便有这些缺点,我们也可以看到了,AlphaStar确实在即时战略游戏中表现出了超高的技术水平,同时仅仅7天训练时间就达到了这样不错的战绩。期待后续DeepMind战胜人类最强选手的那一天。

AlphaStar这套思路如何迁移到真正的人类应用领域,为世界级难题做出贡献也是非常值得探讨和研究的。这或许是DeepMind科学家们下一步要做的事情,就像AlphaFold一样,这些AI一点点的进步最终将推动技术领域持续迭代,人类才能不断攀登的科技巅峰。

期待后续的进展!

7/100

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190128G01LGL00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券