人工智能研究组织OpenAI在建造通用的自学习机器人方面取得了新的里程碑。该组织的机器人部门说,去年首次开发的仿人机器人手Dactyl已经学会了单手解决魔方问题。OpenAI将这一壮举视为机器人附属物的灵巧性和它自己的人工智能软件的飞跃,它允许Dactyl在面临真正的物理世界挑战之前,通过虚拟仿真训练来学习新任务。
Dactyl用了3分多钟通过独自摸索复原了魔方
在上面展示Dactyl新能力的演示视频中,我们可以看到机械手笨拙而精确的动作摸索着走向一个完整的魔方解决方案。它需要很多分钟,但Dactyl最终能够解决这个难题。虽然这些动作看起来明显不如人类流畅,尤其是在与人类在几秒钟内解决魔方问题时所展示的盲目速度和原始灵巧性相比,这些动作就显得尤其不连贯,似乎看着让人有点担心。
但对于OpenAI来说,Dactyl的成就使它更接近于更广泛的人工智能和机器人行业的一个备受追捧的目标:一个可以学习执行各种现实世界任务的机器人,无需训练数月到数年的现实世界时间,也无需专门编程。所以,重点在于“自学习”。
“很多机器人都能很快解决魔方问题。“他们在那里做的和我们在这里做的重要区别在于,这些机器人都是被制造出来专门解魔方的,”OpenAI的研究科学家和机器人技术负责人彼得·韦林德(Peter Welinder)说,“显然,你不可能用同样的机器人或同样的方法来完成另一项任务。OpenAI的机器人团队有着截然不同的雄心壮志。我们正在试着制造一个通用机器人。类似于人类和我们的手可以做很多事情,而不仅仅是一个特定的任务,我们正试图建立一个更普遍的范围。”
韦林德上述所指的那些机器人,是过去几年里一系列的机器人,这些机器人将魔方的求解远远超越了人类的手和大脑的限制。2016年,半导体制造商Infineon专门研发了一款机器人,以超人的速度解决魔方问题,机器人在不到一秒钟的时间内成功复原魔方。这打破了当时不到5秒的人类世界纪录。两年后,麻省理工学院开发的一台机器在不到0.4秒的时间内复原了一个魔方。2018年底,一个名为Human controller的日本YouTube频道,甚至通过连接到可编程伺服电机上的3D打印核心开发了一款自动复原魔方。
换言之,一个为一个特定任务而制造的机器人,通过编程来尽可能高效地执行该任务,通常能打败人类,而魔方求解是软件早已掌握的。因此,开发一个机器人来解决魔方问题,即使是一个人形机器人,本身也不是那么了不起,更不用说在Dactyl这种运行缓慢的速度下了。
但是OpenAI的Dactyl机器人和驱动它的软件在设计和用途上与专用的魔方求解机有很大的不同。正如韦林德所说,OpenAI正在进行的机器人技术工作并不是为了在狭隘的任务中取得优异结果,因为这只需要你开发一个更好的机器人,并相应地对其进行编程。没有现代人工智能就可以做到这一点。
相反,Dactyl是一种“自学习”的机械手,可以像人类一样完成新的任务。它是用软件来训练的,这种软件试图以一种目前最基本的方式,复制数百万年来的进化,帮助我们在孩提时代学会本能地使用双手。OpenAI希望有一天,这将有助于人类开发出我们只从科幻小说中知道的那种类人机器人,这些机器人能够在社会上安全运行,而不会危及我们,并在城市街道和工厂楼层这样混乱的环境中执行各种各样的任务。
为了学习如何单手解决魔方问题,OpenAI并没有显式地编程Dactyl来解决这个玩具(互联网上的免费软件可以轻松解决这个问题);OpenAI还选择不为机器人手的动作编程,因为他们希望Dactyl能自己摸索出这些动作。相反,机器人技术团队只给了这只手的底层软件一个最终目标——复原一个混乱的魔方,并使用了现代人工智能——特别是一种被称为强化学习的基于激励的深度学习类型——来帮助它沿着自己的路走出来。训练人工智能代理的方法与OpenAI开发世界级dota 2机器人的方法相同。
Dactyl机器人手的研发和训练过程
但直到最近,训练人工智能代理做一些虚拟的事情(例如玩电脑游戏)要比训练它执行现实任务容易得多。这是因为可以加快在虚拟世界中做某事的训练软件的速度,这样人工智能就可以在短短几个月的真实世界时间内花费相当于数万年的训练时间,这要归功于数千个高端CPU和超强大的GPU并行工作。
用一个实体机器人进行同样水平的训练来完成一项现实任务是不可能的。这就是为什么OpenAI正在尝试用模拟环境代替现实世界来开创机器人训练的新方法,而这正是机器人行业几乎从未尝试过的。这样,软件可以同时在许多不同的计算机上以加速的速度进行广泛的实践,希望它在开始控制真正的机器人时继续拥有这些知识。
由于训练的局限性和明显的安全问题,现在商业上使用的机器人不使用人工智能,而是使用非常具体的指令进行编程。韦林德说:“过去人们采用的方法是,使用非常专业的算法来解决任务,在这里,你可以对机器人和操作环境都有一个精确的模型。”“对于一个工厂机器人来说,你有非常精确的模型,而且你很了解你工作的环境。你完全知道它将如何学会特定部分。”
这也是为什么现在的机器人远不如人类多才多艺的原因。它需要大量的时间、精力和金钱来重新编程一个机器人来做其他事情。如果一个机器人没有经过适当的训练,即使是一个简单的任务,涉及到任何程度的人类灵巧性或视觉处理,它也会惨败。然而,随着现代人工智能技术的发展,机器人可以像人类一样建模,这样他们就可以使用对世界的相同直觉来做从开门到煎蛋的所有事情。至少,梦想是如此。
Dactyl复原后的魔方
我们离这一水平的实现还有几十年的时间,人工智能行业在软件方面的飞跃——比如自动驾驶汽车、机器翻译和图像识别——还没有完全转化为下一代机器人。目前,OpenAI正试图模仿人体部分的复杂性,并使机器人模拟更自然地操作。
这就是为什么Dactyl是一种模仿人手的24关节机械手,而不是工厂里常见的爪式或钳形机械手。为了让dactyl能够学习如何以人类的方式利用所有这些关节,OpenAI在尝试现实魔方复原之前,已经进行了数千年时间的虚拟仿真训练。
“如果你是在真实世界的机器人上训练,很明显你所学的都是在做你实际想为之部署算法的事情。这样那就简单多了。但是现在的算法需要大量的数据。要训练一个真实世界的机器人做任何复杂的事情,你需要多年的经验,”韦林德说,“即使对一个人来说,也需要几年的时间,而人类有数百万年的进化史,才具备操作一只手的学习能力。”
然而,在一次模拟中,韦林德说训练可以加速,就像游戏和其他作为人工智能基准的任务一样。“这大约需要数千年的时间来训练算法。但因为我们可以将训练并行化,最终只需要几天时间。你也不必担心机器人在训练这些算法时会摔坏或伤害别人,”他补充道。然而,过去研究人员在试图让虚拟训练在物理机器人上有效时遇到了相当大的困难。OpenAI说,它是第一批真正看到这方面进展的组织之一。
当给它一个真正的魔方时,Dactyl开始使用它的训练并独立去解决,它是在各种从未被明确训练过的条件下这样做的。这包括一只手戴手套,用两个手指粘在一起求解魔方,而OpenAI成员则不断地用其他物体戳它,并用泡泡和像纸屑一样的纸片来干扰它(如上面第二个视频中所示)。
“我们发现,在所有这些扰动中,机器人仍然能够成功地转动魔方。但它并没有在训练中经历这些,”韦林德的同事、OpenAI的机器人团队负责人Matthias Plappert说,“当我们在物理机器人上试验时发现的健壮性让我们感到惊讶。”
这就是为什么OpenAI认为Dactyl新获得的技能对于机器人硬件的发展和人工智能训练都同样重要。即使是世界上最先进的机器人,如行业领袖波士顿动力公司(Boston Dynamics)开发的仿人机器人和仿狗机器人,也无法自主操作,它们需要大量的特定任务编程和频繁的人工干预才能执行甚至是基本的动作。
OpenAI说,Dactyl是朝着机器人的方向迈出的一小步,但却是至关重要的一步,这种机器人有一天可能会执行体力劳动或家务劳动,甚至与人类一起工作,而不是在封闭的环境中,也没有任何显式的编程来控制它们的行为。
在未来的愿景中,机器人学习新任务和适应变化环境的能力将与人工智能的灵活性一样,也与物理机器的健壮性有关。Plappert说:“这些方法真的开始证明,这是解决我们所生活的物理世界中所有固有复杂性和混乱的方法。”
——end——
爱吧机器人网原创,转载请先获得许可。
领取专属 10元无门槛券
私享最新 技术干货