首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

OpenAI Five 在TI前最后一次练兵,机器和人类的终极对决即将开打?

原文:By Dave Gershgorn,Quartz

编译:他乡不远

8月5日,太平洋时间下午12:30,北京时间8月六日3:30,一场牵动极客目光的比赛将在旧金山举行:OpenAI Five Benchmark比赛。

这场被称为机器和人类的终极对决有哪些看点?对人类,它意味着什么?或者说,它对近年来喋喋不休地人工智能与人类未来的争论,究竟可以贡献哪些可能的范本?

关于OpenAI Five

去年,OpenAI Five在1v1版本中击败了世界顶级专业人士; 上个月,OpenAI Five在5v5的完整比赛中成功击败业余队伍。

那么,这次的比赛,OpenAI是否有希望在8月底达到国际顶级专业人士的水平?几个小时之后,答案即将揭晓。但是比赛的结果并非最重要的,无论Open AI是赢是输,理论上来讲,这都是一场没有悬念的比赛。人工智能,正以前所未有的速度,走进人类的舞台。这些正在进行深度学习的一行行代码,究竟是人类的朋友还是敌人,是将人类推向更高智慧,还是以代码控制人类的荒诞剧目?一切都尚不可知。

OpenAI Five和之前的版本比又有哪些进步?

让我们把目光再投向OpenAI Five Benchmark比赛。

这次,人工智能系统OpenAI Five将与Dota 2中的五个前职业选手进行对战,这五位人类包括Blitz、Cap、Fogged和Merlini 等,他们很多都是前职业选手。

Twitch频道将播放这一场比赛,由Purge和ODPixel进行解说。OpenAI Five Benchmark 游戏比赛是一场高水准的电竞比赛,既需要选手的快速反应,更重要的是,需要团队合作。

在这个游戏中,两支由五名玩家组成的团队被放置在一个方形竞技场的两端,并使用近战攻击和法术来摧毁对手的基地。

对于研究人员来说,在这样一个项目上以智能AI战胜专业人士,就像一个机器人在学习如何在篮球上打败迈克尔乔丹。

据Open AI宣称,他们已经取消了对OpenAI Five在6月份版本中游戏玩法的最重要限制,如眼位,Roshan和固定英雄等。今天,OpenAI将会通过和前0.05%的Dota玩家对决来衡量AI的进步。

OpenAI 团队使用的训练系统叫做Rapid,它是一个非常通用的深度学习系统,可以应用于很多场景,比如体育馆。

通过这一深度学习系统,OpenAI Five 得以学习许多复杂的技能。相比六月份的版本,OpenAI已经集成了许多新的功能和随机化,比如眼位和Roshan。他们还将OpenAI竞赛的英雄池增加到了18位英雄。

我们将看到这些新游戏机制在8月5日的运作情况,如果足够成功的话,在八月底的国际邀请赛上,OpenAI Five必将更近一步。

同时,OpenAI Five的反应时间将会从80ms增加到200ms。这个反应时间更接近人类的实际水平,OpenAI Five的力量来自团队合作和协调,而不是反应。记住这一点很重要,因为团队合作和协调,是机器模仿人类、进行深度学习的一个突破性的动作。

和AlphaGo相比,OpenAI为什么更重要呢?

可能大家对AlphaGo与李世石的对决记忆犹新。如果OpenAI Five能打出漂亮的一仗,它的影响力和实际应用将会超过DeepMind的AlphaGo给人带来的惊喜。我们还有理由相信,OpenAI Five有望在2019年彻底超过人类玩家。

真实世界的AI应用要比在围棋领域中的问题更为复杂。相比于围棋,dota2需要在在信息不完整,策略空间和观测空间维度巨大做出更佳决策。如何在短期收益和长期收益中取得平衡是目前需要解决的难点。OpenAI团队的“协作型”AI和强化学习(Reinforcement Learning)将有望学会完成真实世界中复杂而混乱的重要任务。

目前,通过游戏领域的“自我对局”系统,AI已经可以实现掌握一系列动作技能,比如进攻、躲避、假动作、踢、抓等等。我们有理由相信,配合逐渐成熟的机器人工艺,过去只出现在科幻小说中的智能机器人,可能真的离我们不远了。

OpenAI Five的训练模式是强化学习,把 AI 放到虚拟环境中,并通过自我尝试学会实现目标,获得程序员设定的奖励机制。这样一遍一遍地反复训练,强化学习。

通过自我对抗学习,OpenAI Five 每天相当于玩 180 年的游戏。训练上,它使用 256 块 GPU、12 万 8000 个 CPU 核心使用近端策略优化(Proximal Policy Optimization)方法进行训练。

和现在国内以大量数据库为基础的智能应用不同,OpenAI的模型可以在没有人类数据干预的情况下学到可识别的策略,这表明强化学习即使没有根本性的进步,也能够产生大规模但也可接受的长期规划。

我们可以这么算,如果一个人需要花10000小时来接近职业玩家的水平,那OpenAI的速度要快得多,因为它每天积累的游戏经验是一个人一生积累经验的100倍

为什么游戏更能帮助我们理解人工智能?

我们可以通过AI在游戏上的表现,了解人工智能研究的进展:

我们可以理解IBM的DeepBlue在国际象棋中击败世界冠军意味着什么。同样,DeepMind的AlphaGo通过击败李世石再次证明了,人类通过几十年积累的实践和技能可以被机械的计算超越。

除了这些公开的比赛之外,事实上,人工智能研究人员已经工作了数十年,他们在玩雅达利游戏,在玩跳棋,甚至任天堂明星大乱斗,当然,在这些游戏中,人工智能都是“超人”。

所有这些起源于实验室的研究,都是要追问一个问题:当处于复杂的情况时,人工智能可以击败人类吗?OpenAI曾经宣布,它的研究可以在更广泛的领域得到应用,例如,为播放Dota 2的相同算法也可以用来移动机械手。

作为教授机器人玩游戏的最流行的方法之一,OpenAI使用的技术称为强化学习。

当你为机器人提供一个目标时,比如收集硬币,并在完成目标时奖励机器人。起初,机器人的动作是完全随机的,直到它意外地弄清楚如何完成任务。机器人用于完成任务的移动被加权为更好,机器人就更有可能在下次尝试时遵循这些操作。经过数百,数千或数百万次尝试,策略出现了。

例如,OpenAI的Dota 2游戏机器人在两周内进行了数百万场比赛。在每场比赛中,机器人的奖励从获得积分转移到增加整个团队的分数。研究团队称之为“团队精神”。人类是有极限的,但是,AI极有可能突破极限。

不仅仅是一场比赛

OpenAI的视频游戏追求的不仅仅是在游戏中击败专业人士,而是学习如何制定数以千计的小决策来实现更大的目标。

在另一个使用与Dota 2机器人相同的学习系统和算法的OpenAI项目中,它的研究人员设计了一种算法来控制机械手,它可以握住一个块并用它的手指将它操纵成特定的方向。

这两个项目大约在同一时间启动,但是,当Dota 2团队去年在比赛中击败人类专业人员时,OpenAI技术人员Jonas Schneider表明了机器人团队已经意识到强化学习系统的潜力。

“我们基本上使用与Dota实验完全相同的代码达到了相同的性能水平,”Schneider说, “在短短几个星期内,我们与之前几个月试图建立的产品达到了平衡。我想我们都非常惊讶。”

这些实验使用由OpenAI构建的程序Rapid来运行,该程序协调数千个同时运行数百个强化学习算法的处理器。每个算法都为机器人提供动力,机器人通过游戏或模拟移动手,然后在试验结束时将其学到的内容与其他机器人同步。

使用比普通笔记本电脑高出数千倍的计算能力,机械手已经能够实现令人印象深刻的灵活性,而无需程序员们编码每个手指应该如何移动。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180805A1FECP00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券