Lucille 发自 人类办公室
NEXTTECH 报道 | 公众号 TechMix
电子游戏开始普及的年代,诞生的除了叱咤风云carry战场的大腿,还有一堆眼神不好人还手残的老年型玩家。
一套风骚操作,依然深陷万年鱼塘。别怕,你们的大腿来了~
RL 能干啥?
看了那么多会下象棋、玩扑克、打电游的 AI,以至于我们对 AI 总有种不切实际的幻想。
所有厉害的AI 公司、实验室都会忽悠你:他们的高端游戏机器人将有朝一日飞入寻常百姓家,它们会带你装B带你飞。管你是 DOTA,CSGO 还是啥,一路上分不是梦。
更重要的是,除了让你在游戏中变成强力党,它们的新算法还能被用到生活的各个方面——研发新型药物,控制机器人,甚至对电脑进行谈判教学。
别问,问就是一个字,牛~
但实际上呢?他们向你描绘的美好场景都是浮云,谁也不知道这些先进的 RL(加强学习) 算法,到了其他领域,还能有几分靠谱。
因此,一家美国有着同样雄心壮志的创业公司 Kindred.AI 打算替我们做个测试,把这些新设想付诸测试。
他们从机器人下手,把这些 RL 算法移植到气人身上,看看它们的表现如何。
结果,emmmm,一言难尽…机器人时不时出现过热和失败的情况,甚至还会犯傻把电缆缠成一团。
我们先说说这个不明觉厉的 RL 算法。
RL,即 Reinforcement Learning,是“强化学习”的简称,它是一种流行的人工智能学习方法。
简单来说,智能体以“试错”的方式进行学习,通过与环境进行交互来获得奖赏指导。只要做出正确的选择,就能得到相应奖励。
继续拿游戏打比方。
在经典射击游戏 Doom 中,智能体只要捡到枪支弹药就能得分,但如果挨了枪子儿,才热乎的分就要被扣掉了。时日一长,智能体玩起 Doom 来就越发熟练。快速剿灭敌人,并埋头专注捡装备20年。
四大算法花落谁家
Kindred.AI 的研究人员在机器人身上测试了四种 RL 算法,这些机器人分别受命去执行不同的任务。
四种算法分别是:“深度确定性策略梯度(DDPG)”,“Q-learning算法”,“近端策略优化(PPO)算法”和“置信域策略优化(TRPO)算法”。
测试过程中的小白鼠,是 UR5 和 Create 2 机器人。其中,UR5 是一台灵活轻巧的协作式工业机械臂,执行器型号是 Dynamixel MX-64AT。而 Create 2 是一台扫地机器人。
两个机器人的任务是追踪物体和对接充电站。
研究人员对两台机器人分别进行了不同算法的测试。
整个测试过程是个劳民伤财的浩大的工程,每个算法进行 450 项独立实验,用时要超过 950 小时。
所有结果和代码都发布在了 arXiv 和 GitHub 上。可以翻到最后找链接~
直接说结果,DDPG 算法惨兮兮垫底,TRPO 则美滋滋登顶。
DDPG 的成功秘诀在于它算法的鲁棒性。
鲁棒性这词可能有点生涩,具体来说,就是 AI 在面对外界超参数变化时的灵敏度。在研发者设置的特定条件下,深度学习系统都能良好运行,这些超参数都经过了精心调整,用于帮助机器从数据中学习模式。
烦skr人的超参数
其实在实验室里,超参数灵敏度并没那么关键。你可以尝试一堆数值,然后选结果最佳的那个。
但一旦机器人走出实验室这个安全区,开始到社会上闯荡,超参数的选择就变得至关重要了。
假如有一天,我们要用机器学习模型实时操控驾驶无人车,算法上一个小小的超参数错误,就可以酿成车毁人亡的惨剧。
再往细点说,限速标志上的发射光就可能晃瞎摄像头,傻乎乎的无人驾驶车可能根本不知道要减速慢行。
从安全的角度考虑,超参数的选择甚至比算法本身的影响更大。这也意味着在大多数情况下,使用控制器对机器人预先编程的标准方法其实更为有效。但RL 算法也并非没有用武之地。
Kindred.AI 公司 Mahmood 表示,在脚本或工程解决方案尚不明确或暂不可行的情况下,表现优异的脚本程序就体现出自身优势了。
比如说,若要学习在动态情境中控制并操纵任意物体,脚本就需要设想各种合理的场景,并能够对其作出解释。
RL算法宝宝:我的人生才刚刚起步
元老级别的脚本程序是以数十年的科学技术和工程进步为基础的。
而初出茅庐的 RL 算法人生经验还是一张白纸,只能算个萌新。它对这些任务一无所知,解决方案也是在几小时内才学会的。
想要赶上脚本的步伐,RL 算法还要迈动小短腿追上一会儿。
同时,机器人的训练过程中还出现了硬件方面的冰晶。RL 算法鼓励智能体或机器人去探索自己周边的环境,但经常在还没来得及学习特定任务时,它们就出了各种各样的问题,浪费了之前的进步。
傻归傻,Mahmood 还是对 RL 的前景持乐观态度。他坚信,当 RL 算法的表现与传统算法旗鼓相当的时候,将迎来自己的春天,比起人类专家编写的脚本,RL 算法将更具成本效益。
它与机器人技术的一些用例并无太多差异。在他设想中,用不了多久就能看到一些基于当前算法的应用程序啦。
到那时,人在家中坐,五百强天上来,嘿嘿嘿…(一位青铜玩家流着口水笑醒)
论文及代码地址:
arXiv: https://arxiv.org/pdf/1809.07731.pdf
GitHub: https://github.com/kindredresearch/SenseAct
领取专属 10元无门槛券
私享最新 技术干货