你是否曾经想过,如果有一天,机器人能够像人类一样,自主地学习和执行各种任务,那么世界会变成什么样子?
你是否曾经想过,如果有一天,你能够通过简单的语言指令,就能让机器人为你做任何事情,那么你的生活会变得多么便捷和有趣?
这些问题可能听起来像是科幻小说或电影中的情节,但其实,在现实世界中,已经有一些科学家和工程师正在努力实现这些愿景。他们所做的研究,就是Eureka。(源码和论文见文末)
什么是Eureka?
Eureka 是Nvidia 开发的新型 AI 代理,该代理由 OpenAI 的 GPT-4 提供支持,可以自主教授机器人复杂的技能。
Eureka的核心思想是,通过让机器人观察人类的行为和语言,并利用GPT-4等自然语言处理模型来理解和生成语言指令,机器人就能够从人类的示范中学习,并根据人类的指令来执行任务 。
Eureka的优势!
Eureka的优势在于,它不需要对机器人进行复杂和耗时的编程或手动操作,也不需要对任务进行详细和固定的规范。只要有一个智能手机或平板电脑,就可以通过语音或文字输入指令,让机器人自动完成任务 。
传统的方法是由人类专家手工设计奖励函数,但这种方法往往需要大量的时间和经验,并且难以适应不同的任务和环境。另一种方法是通过人类反馈来学习奖励函数,但这种方法也存在一些问题,比如人类反馈的稀疏性、噪声性、不一致性和成本性等。
Eureka算法的基本思想是利用LLM作为一个高层次的语义规划器,根据任务描述和环境代码生成可执行的奖励函数代码,并通过进化搜索、GPU加速评估和反思等步骤来不断地优化其输出。Eureka算法不需要任何任务特定的提示或预定义的奖励模板,它可以适应各种复杂和多样化的任务和环境。
Eureka算法在一个包含29个开源RL环境3 的多样化测试集上进行了实验,这些环境涵盖了10种不同形态的机器人,包括手臂、手指、腿、蜘蛛等。实验结果表明,Eureka算法生成的奖励函数在83% 的任务上优于人类专家设计的奖励函数,并且平均提升了52% 的性能。
此外,Eureka算法还可以轻松地结合人类监督来改进生成奖励函数的质量和安全性,从而实现了一种新型的基于上下文的人类反馈强化学习(RLHF)。
最令人惊叹的是,Eureka算法还可以用来学习一些复杂的低层次操作任务,比如灵巧地旋转笔等。通过将Eureka算法与课程学习结合,研究者首次演示了一个模拟的五指阴影手能够执行各种笔旋转技巧,如下图所示:
这些技巧不仅需要高度的协调和精确度,而且还需要在不同的轴上进行旋转,从而形成不同的模式。这些技巧在人类中也是相当罕见和困难的,但Eureka算法却能够让机器人掌握它们。
Eureka算法的研究为强化学习领域带来了一种全新的视角和方法,它展示了大型语言模型在奖励设计方面的巨大潜力和创造力。Eureka算法不仅可以提高强化学习的效率和效果,而且还可以拓展强化学习的应用范围和难度。Eureka算法也为人类与机器之间的交互和协作提供了一种新的方式,让人类可以更容易地指导和监督机器的学习过程。
博客地址:
https://eureka-research.github.io/
代码地址:
https://github.com/eureka-research/Eureka
论文地址:
https://arxiv.org/abs/2310.12931
领取专属 10元无门槛券
私享最新 技术干货