前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >在NVIDIA眼中,边缘AI和机器人的未来挑战是什么?

在NVIDIA眼中,边缘AI和机器人的未来挑战是什么?

作者头像
GPUS Lady
发布2024-04-19 17:00:06
1380
发布2024-04-19 17:00:06
举报
文章被收录于专栏:GPUS开发者

本文整理自NVIDIA GTC2024讲座:

我正在谈论将来会发生的事情。但是今天的演讲将非常注重实际挑战,以及我们认为可以帮助应对人工智能和机器人技术挑战的新兴趋势。

但在展望未来之前,回顾过去和现在是很重要的。所以我们,我们在十年前开始研究机器人技术。事实证明,2014年3月我们创建了第一个产品,呃,在那个时候我们,并不知道它将被用于机器人技术。嗯,这是我们开始的一个项目。然后,我们一直在学习行业的需求,开发者的需求,并逐渐建立起我们的产品组合。在过去的十年里,我们推出了一些真正优秀的产品,帮助开发者在边缘采用人工智能技术。最新推出的基于Orin的产品系列是我们带来的最重要的平台更新之一,首次使相同的架构在我们的入门级产品(如nano)和最高性能产品(如AGX)上都可用。你们中的许多人是这一旅程的关键成员。我们有130万名开发者,对此我们感到非常自豪。所以,感谢大家拥抱这个平台,以及你们为使其成为更好的平台所做的一切。

我也想要表扬一些Jetson社区所做的工作。我们经常与我们的大客户一起庆祝成功。但是有一个非常庞大的开发者社区,他们积极贡献并致力于嵌入式边缘和机器人技术。如果你还没有访问过这个页面,我强烈鼓励你去看看。这里只列出了189个项目,但我知道负责这些项目的团队,还有很多项目可以加入到这里来。所以再次,让我们庆祝开发者在这个平台上所做的所有工作,这帮助我们继续投资并使其变得更好。

但是边缘AI和机器人技术面临的挑战是什么呢?我们都看到过ChatGPT,在五天内吸引了一百万用户。我假设这里大多数人都在从事机器人技术和人工智能方面的工作。我理解,你们所面临的最大挑战是现实的。在机器人技术或边缘AI方面,我们无法看到这种曲线呈现出“冰球棒”式的增长。扩展是一个很大的问题。有许多因素导致为什么扩展很困难。有技术因素,有市场因素,还有工程挑战。因此,我们在思考未来的边缘AI和机器人技术时,重点是为我们的开发者和客户提供扩展能力。我们将如何帮助人们从几十、几百个设备发展到拥有数千万个设备呢?所以今天,我将分享一些我们正在做的事情,一些正在行业中发生的事情,我们坚信这些事情将有助于解决边缘和机器人技术领域一直存在的扩展挑战。

我们首先要做的是,并且已经开始看到这种趋势逐渐普及的,就是“AI工厂”的概念。当你在为边缘构建应用程序,或者要在许多不同的客户站点进行部署时,你会遇到一个问题:缺乏每个客户所需的数据。因此,结合合成数据和预训练模型,我们现在正看到这些工作流程的发展,你几乎可以拥有自己的I数据工厂,这就是其中一个项目的很好例子。我们从一个预训练模型开始,该模型经过训练可以分割出人物,但它只接受了从顶部视角(例如从CCTV摄像头)观看的人物的训练。然而,对于机器人技术,你需要从离地面几英寸的机器人的视角来观察。因此,你可以看到,当我们尝试使用这种预训练模型进行分割时,它的表现非常糟糕。但我们回到Omnibus,这是一个用于创建合成数据的工具。仅使用200张图像,我们就能够重新训练,将这个特定模型进行迁移学习,你可以看到下面新模型的输出。那么,它如何帮助扩展呢?如果你从第一个用例到第二个用例再到第三个用例,我敢肯定每个用例都有其细微差别和你需要处理的客户数据。有人想要识别货架标签,另一个人想要识别标签的大小,对吧?因此,每个新客户都有自己的需求集。因此,你需要拥有自己的数据工厂,以便在这些AI模型上进行训练。现在,这已经成为可能,这要归功于合成数据生成工具和允许你进行迁移学习的预训练模型。

在这里,我举几个例子。第一个例子是一家名为Soft Robotics的公司。他们最初的业务是用软式抓取器抓取鸡,但他们想要扩展到其他领域。他们拥有使用特殊效应器和传感器抓取物品的技术。于是,他们开始使用合成数据。从销售团队发现新的商机到演示运行,以前需要花费很长时间,但现在只需要几个小时。他们通过数据工厂创建新的模型,部署它,然后就可以立即使用。

第二个例子是机器人领域的,一家名为Festo 的公司试图为细胞构建产品,其中会有各种各样的物体出现,机器人需要抓取并堆叠它们。他们需要处理的物体种类不断变化,因此需要了解每种物体的特性。于是,他们再次使用Omniversy进行合成数据生成,创建了一个数据管道,可以快速获取CAD模型,创建合成数据训练模型进行物体识别和估计,并进行部署。

最后一个例子是亚马逊机器人。他们有用于抓取包裹的机器人,而这些包裹经常发生变化。那么,如何在包裹变化的同时保持系统正常运行呢?有新的节日包装即将出现,因此他们再次建立了数据工厂,使他们能够不断创建新模型并更新模型。这真的帮助他们扩大了可以在其配送中心部署的机器人数量。

这就是一个解决方案,对吧?拥有你的数据工厂,以便你可以扩展并解决新的需求。

这里讨论的是另一种即将出现的强大力量,它将帮助我们解决一个关键问题,那就是基础模型。对于那些新加入且尚未听说过基础模型的人来说,这里有一个定义,它可能来自最早讨论基础模型的论文。基础模型是一种在大量原始数据上进行训练的模型,通常使用无监督学习,能够适应并完成各种任务。

这个定义中有两个关键点非常重要。一是无监督学习,二是能够完成各种任务。即使在之前的例子中,我们谈到了合成数据,那都是有监督学习。生成的数据是有标签的,并经过训练。但有了基础模型,你只需要做的就是收集数据,对吧?这些模型能够从数据本身学习,而不需要监督标签。

第二点是它们能够执行各种任务的能力。正如我之前提到的,从一个客户切换到另一个客户,从一个用例切换到另一个用例,今天这需要大量的工作,而AI应用也是如此。每个客户都有不同的需求,这与搜索引擎不同,因为大多数人只是想要搜索并回答问题。你可以为他们构建一个单一的解决方案,但每个客户都需要一些稍有不同的东西。因此,它们能够泛化并完成各种任务的能力是非常有帮助的。

新兴的基础模型在机器人学和计算机视觉领域的应用。:

  1. 机器人学中的基础模型:在机器人学中,有许多任务可以通过基础模型来完成。这些模型可以执行诸如检测、分割、场景表示和承担能力等多种功能。
  2. 多样的模型应用:在机器人学领域,有各种各样的模型正在涌现,这些模型涉及机器人策略、学习以及语言、图像和条件池等多个方面。
  3. 价值学习:价值学习是给定一个目标,模型学习如何达到这个目标的过程。这对于机器人来说非常重要,因为它们需要了解如何根据给定的指令或目标来行动。
  4. 代码生成:基础模型在生成代码方面表现出色。对于机器人项目,可以使用基于LLM的代码生成技术,从而大大简化了编程工作。
  5. 机器人转换器:最大的应用之一是机器人转换器,它能够从各种传感器输入(包括用户的文本输入或动作)中直接转换出控制机器人的指令。
  6. 硬件与软件的整合:随着这些基础模型在机器人学中的应用,使用相同的硬件执行更多样化的任务将变得更加容易。这主要转化为一个软件问题,而不是硬件限制。

基础模型在机器人学和计算机视觉领域有着广泛应用和巨大潜力,它们使这些领域的工作更加简便和高效。

在计算机视觉领域也同样发生着这样的事情。嗯,这张图表来自吴恩达。

基础模型在视觉应用中的广泛应用,体现在一下几个方面:

  1. 计算机视觉领域的发展:与机器人学类似,计算机视觉领域也在经历巨大的变革。各种基础模型正在被应用于视觉任务中,如分割、姿态估计、检测和深度估计等。
  2. 基础模型的应用:对于任何边缘视觉应用,这些基础模型现在已经可用。这意味着开发者可以使用这些模型来执行复杂的视觉任务,而无需从头开始构建模型。
  3. 基础模型与机器人和边缘计算的结合:作者提出了一个问题,即当我们将这些基础模型应用到机器人和边缘计算时,世界将会变成什么样子。这是一个富有前瞻性的问题,暗示着基础模型的应用将极大地改变机器人和边缘计算领域的格局。

基础模型在计算机视觉领域有很大重要性,以及它们与机器人和边缘计算的结合将带来巨大的潜在变革。

目前,边缘人工智能正在被大量使用,从亚马逊部署的各种机器人中可以看出,每个机器人都专门负责特定的任务,例如分类、包装或移动物品。这些机器人在边缘利用人工智能,但它们是单一用途的机器。然而,边缘人工智能的未来预计将转向更通用的机器人。想象一个机器人可以执行多项任务,例如从地上拾起袜子并将其放入传送带上的空盒子中。

实现这一目标的挑战在于对此类任务进行编程的复杂性,即使使用良好的探测器和机器人操纵器也是如此。它通常需要机器人技术的高级学位或丰富的经验。凭借基础模型的功能、为机器人生成代码的能力以及通过策略学习的能力,即使不是机器人专家的操作员也可以指导机器人,然后机器人将指令翻译成机器人的特定语言并完成任务。虽然机器人的硬件已经通用一段时间了,但大脑(人工智能)却更加专业化。机器人技术向更通用的人工智能的转变将使同一个机器人能够执行多种任务,从而实现更有效的行业扩展。

目前,机器人可以很好地执行任务,但它们通常无法完全取代人类工人,因为人类执行的是机器人难以完成的辅助任务。通过让机器人执行这些额外的技能,自动化可以变得更加完整,解决机器人目前无法解决的剩余 20% 的问题,从而在行业中实现更有效的扩展和自动化。

这是一个关于医院视频分析的用例草图。许多公司都在构建边缘应用程序,但每个公司都有特定的用例集合。为它们开发新的用例需要三、四、六个月的时间。例如,今天你可以使用一款能够进行跌倒检测的边缘设备。但如果你希望该设备还能检测一个人是否醒着,那就是一个巨大的任务。关键是,人类观察者不仅会检测到人摔倒,还会确保他们吃完饭,不做医生告诉他们不要做的事情。所有这些技能、所有这些能力,今天是人类在做的,并且被期望让AI来做。随着我们看到的视觉、语言模型,我们认为这是可能的,你拥有传感器、边缘计算机和用户界面来定义不同的任务。我把这称为移动到无限的、任意的应用空间。作为边缘AI开发人员,你设计一次系统,就可以应用于各种各样的用例。因此,这一切都与规模有关。比如,记录患者咳嗽次数的简单事情,如果我们知道这个患者有摔倒的风险,你可以拥有一个系统,它可以告诉你这个人是否站着,但你真正关心的是他们是自己站着还是有人在帮助他们,对吧?今天有一个模型、一个单一的基础模型,配备合适的用户界面和工具,可以完成所有这些任务。这就是令人兴奋的地方,对于AI、对于计算机视觉!

我们为所有开发者采用这一技术做了什么呢?首先,我们正在努力构建几个基础模型,AGTC,我们宣布了Isaac manipator,它带有三个不同的基础模型。一个是合成数据,这是一个有趣的基础模型,用于目标检测;第二个是基础姿势,为你提供了一个用于估计六十种姿势的基础模型;最后一个是基础抓取,如果你给它一个物体,它会告诉你正确的抓取位置,不仅是点,还有末端执行器的抓取方向,这将导致成功的抓取。这些很重要,因为我们与许多公司交谈时发现,他们可以做AI来处理单个零件,但是这些零件每隔几个小时就会变化。这意味着用以前的AI方法,要花几个月时间重新训练一个新模型,这是不切实际的,但是这些基础模型可以让你即时更新它们,为新事物使用基础模型。

我们的第二项工作是关于这个基础模型的边缘化。我们需要将它们缩小以适应边缘环境。你知道,现在已经创建了许多巨大的模型,参数数量达到万亿级别。考虑到我们面临的计算、电力和成本限制,这些模型不可能全部部署到边缘。然而,它们对于边缘环境仍然非常有用。我们不再需要人工进行标注,这些大型模型正在被积极用于数据标注。另外,它们还被用于学生-教师模型中。我想我可能已经提到过,这些设计用于全球规模智能的大型模型,可以被提炼成针对特定用例的模型。一个为70亿人服务的模型需要知道的内容,远远超过一个只需服务于医院环境的模型,那个模型只需了解相关的环境、人员和用例,对吧?因此,通过知识蒸馏,我们可以从一个教师模型中提取特定领域的知识,并创建一个新的模型。这也是一个生成的模型,它使用相同的架构,但已被压缩。我们在这个领域做了很多工作。这个例子展示了我们创建的一个模型(注意不是Sam),但还有很多其他的模型正在开发中。

以下是一些可以部署在边缘的大型模型。第一个模型是LLama,我们正在从这些大型模型中创建一些小型语言模型。只需要通过改变提示,就可以改变模型的功能,这是非常重要的.在过去,即使你拥有所有能做五十种不同事情的AI模型,如果你想要改变相机从检测人到检测人的动作的功能,你还是需要进行大量的编码工作,这不仅仅是模型的问题,还有与之相关的逻辑,每个用例都需要进行更改。但现在,通过简单的文本提示,你可以实时地改变边缘设备的任务和功能。所以,我们有LLama,还有Nano OWL和Nano Sam。我们正在为深度模型而努力,并将继续开发更多可以在边缘运行的模型。

这些基础模型需要部署在边缘设备上。正如我之前所说,你的编程接口将发生很大的变化。每个新的应用不再需要编写新的代码或新的代码路径。最初,人工智能需要依赖库,后来我们有了SDK,但现在我们认为我们正在达到一个阶段,即这些东西可以成为服务。有模板化的东西,你只需要更改配置,对吧?这种配置更改可以通过文本提示来完成,然后转换为Jetson可以理解和执行的指令,去更新你的微服务的配置。这就是我们目前正在投入的方向,你可以利用这些模型,所有可用的微服务和服务都可以进行参数化设置,你可以非常快速地开发你的应用。在最新的Jetson Jetpack中,我们引入了这些功能,并将继续增强这些能力。

我们宣布了Groot项目。为了运行这些大型模型,特别是非常大的多模态模型,我们将需要更专业的边缘计算机。Orin非常出色,它拥有运行当今模型所需的所有计算能力,并且我们在边缘设备上展示了几个例子。但如果你考虑像具有30到40个自由度的人形机器人这样的应用,以及复杂性的显著增加,那么我们就需要更大的模型。因此,我们宣布明年将推出Jetson Thor,它的计算能力将是现有产品的八倍,特别适用于Transformer模型,因为我们相信很多边缘设备将转向基于Transformer的模型。它配备了专用于Blackwell架构的硬件,并有专门的Transformer引擎。此外,它的一个亮点是支持FP8(可能是指8位浮点数)。众所周知,许多人在将训练时的高精度模型量化为低精度模型进行推理时遇到了挑战,但使用FP8,你可以在训练时使用高精度,并在部署时也保持高精度。关于这些大型模型所需的内存,我们将把可支持的内存容量翻倍。同时,为了处理更多的传感器输入数据,我们将把I/O能力提高十倍,因为要实现真正的通用性,就需要消耗更多的传感器输入来做出决策。

强调边缘人工智能和机器人技术已经到来。所有这些产品都由NVIDIA的边缘平台提供支持,但随着这一新领域的发展,包括基础模型、仿真、Transformer以及基于引擎的边缘硬件,我们相信这一机遇将在未来几年里以数量级的速度增长。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-04-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 GPUS开发者 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
边缘可用区
腾讯云边缘可用区(TencentCloud Edge Zone,TEZ)是腾讯云的本地扩展,适用于解决计算、存储和服务可用性问题。腾讯云边缘可用区可为您带来云的诸多优势,例如弹性、可扩展性和安全性。借助腾讯云边缘可用区,您可以在靠近最终用户的地理位置运行对延迟敏感的应用程序,基本消除延迟问题。腾讯云边缘可用区提供与中心节点一致的体验,助力业务下沉,具备更低延时、更广覆盖、更少成本等特点。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档