首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Nvidia世界基础模型

世界基础模型是模拟现实世界环境并基于文本、图像或视频输入预测准确结果的神经网络。机器人和自动驾驶汽车等物理 AI 系统使用世界基础模型来加速训练和测试。

什么是世界模型?

世界模型是理解现实世界动态(包括物理和空间属性)的生成式 AI 模型。它们使用包括文本、图像、视频和运动在内的输入数据来生成视频。通过学习表示和预测运动、力和空间关系等动态,它们理解现实世界环境的物理特性.

生成式基础模型

基础模型是经过大规模未标记数据集训练的 AI 神经网络,用于完成广泛的任务。由于其通用性,它们可以大大加速各种生成式 AI 应用的开发。开发者可以在特定数据集上微调基础模型,以比以往更快的速度定制和迭代生成式 AI 应用.

通过世界基础模型,开发者可以利用基础模型的力量构建用于下游应用或特定领域的世界模型,例如工厂车间、仓库或高速公路。这对于开发物理 AI 系统至关重要,因为这些系统需要视觉、空间和物理上准确的数据来进行学习.

世界基础模型的实际应用

世界模型作为虚拟环境,可以安全地简化和扩展自动驾驶机器的训练。通过生成、策划和编码视频数据,开发者可以更好地训练自动驾驶机器以感知、感知和与动态环境互动.

自动驾驶汽车

世界基础模型为自动驾驶汽车(AV)的每个阶段带来显著的好处。通过预标记和编码的视频数据,开发者可以更容易地策划和更准确地训练 AV 堆栈以理解周围车辆、行人和物体的意图。世界模型还可以生成新的场景,包括行人、交通和道路状况,帮助解决训练中的差距或扩展测试到新地点.

机器人

世界基础模型通过模拟虚拟环境帮助机器人构建空间智能能力,以便它们从中学习。通过利用模拟环境,这些模型提高了数据效率,并允许快速迭代和同时训练过程。这不仅加快了机器人的学习曲线,还通过在受控环境中进行探索来确保安全.

世界基础模型通过整合各种输入模式、支持迁移学习和适应环境变化,有助于提高更好的泛化能力和适应能力。它们使机器人能够通过在更长时间范围内的高级规划、模拟与物体的互动以及预测人类行为来掌握复杂任务。此外,它们通过模拟场景和使用演员-评论家方法来优化策略学习.

世界基础模型的好处

为物理 AI 系统(如自动驾驶汽车)构建世界模型是资源和时间密集型的。首先,从全球各种地形和条件下收集真实世界数据需要数 PB 的数据、时间和数百万小时的模拟视频。接下来,过滤和准备这些数据需要数千小时的人力。最后,训练这些大型模型需要数百万美元的 GPU 计算成本和许多 GPU.

世界基础模型旨在捕捉世界的底层结构和动态,从而实现更复杂的推理和规划能力。这些神经网络经过大量策划的高质量真实世界数据训练,作为物理 AI 系统的强大物理模拟器和合成数据生成器.

世界基础模型使开发者能够将生成式 AI 扩展到 2D 软件的限制之外,并以物理 AI 的形式将其能力带入现实世界。虽然 AI 的力量传统上在数字领域中被利用,但世界模型将为有形的现实世界体验解锁 AI.

逼真的视频生成

世界模型可以通过理解物体运动和互动的基本原理来创建更逼真和物理准确的视觉内容。这些模型有潜力按需生成逼真的 3D 世界,用于许多用途,包括视频游戏和互动体验。在某些情况下,来自高度准确的世界模型的输出可以以合成数据的形式出现,可以用于训练感知 AI.

当前的 AI 视频生成可能在复杂场景中遇到困难,并且对因果关系的理解有限。但世界模型显示出在视觉场景中展示更深层次因果关系理解的潜力,例如模拟画家在画布上留下笔触.

增强的泛化和决策制定

世界模型使物理 AI 系统能够通过测试行动和接收反馈来学习和适应不同的环境。通过从训练数据中学习,代理可以减少对现实世界互动的需求,提高样本效率。这使代理能够通过模拟潜在结果来“想象”和规划未来的行动,从而做出更明智的决策。此外,理解环境的动态有助于代理泛化到新情况并更有效地探索,因为它们可以在不进行现实世界执行的情况下评估潜在的行动序列.

将大型语言模型(LLM)与世界模型结合可以带来语义理解,使系统能够解释和生成类似人类的语言和额外的多模态能力,从而实现与环境的更全面互动.

改进的策略学习

策略学习涉及探索策略以找到最佳行动。策略模型帮助系统(如机器人)根据其当前状态和世界更广泛的状态决定最佳行动。它将系统状态(例如位置)与行动(例如移动)联系起来以实现目标或提高性能。策略模型可以从微调模型中派生出来。策略模型通常用于强化学习中,通过互动和反馈进行学习.

前瞻性

世界模型使先进的预测智能成为可能,使系统能够预测未来场景并做出数据驱动的决策。通过利用前瞻性生成——基于历史数据和上下文输入生成预测模拟——这些模型赋予 AI 系统识别最佳策略的能力。这种能力提高了效率、适应性和安全性,在跨行业的动态和复杂环境中具有不可估量的价值.

优化效率和可行性

世界基础模型中的成本模型有助于评估不同行动或策略的效率和可行性。通过模拟各种场景,这些模型可以估计与不同决策相关的成本,例如能源消耗、时间或资源。此信息对于优化操作和在现实世界应用中做出具有成本效益的选择非常宝贵.

如何构建世界模型?

世界模型需要大量的真实世界数据,特别是视频和图像,以学习 3D 环境中的动态行为。具有数十亿参数的神经网络分析此数据以创建和更新环境的隐藏状态或内部表示。这使机器人能够理解和预测变化,例如从视频中感知运动和深度、预测隐藏物体以及准备对可能发生的事情做出反应。通过深度学习不断改进隐藏状态,使世界模型能够适应新场景.

以下是构建世界模型的一些关键组成部分:

数据策划

数据策划是世界模型预训练和持续训练的关键步骤,尤其是在处理大规模多模态数据时。它涉及过滤、注释、分类和去重等处理步骤,以确保在训练或微调高度准确的模型时图像或视频数据的高质量.

在视频处理中,这从将视频分割和转码为较小的片段开始,然后进行质量过滤以保留高质量数据。最先进的视觉语言模型用于注释关键对象或动作,而视频嵌入有助于语义去重以去除冗余数据.

然后对数据进行组织和清理以进行训练。在整个过程中,高效的数据编排确保 GPU 之间的数据流顺畅,以处理大规模数据并实现高吞吐量.

Tokenization

标记化将高维视觉数据转换为称为标记的小单元,便于机器学习处理。标记器将图像和视频中的像素冗余转换为紧凑的语义标记,从而实现大规模生成模型的有效训练和在有限资源上的推理。主要有两种方法:

离散标记化:将图像和视频表示为整数.

连续标记化:将图像和视频表示为连续向量. 这种方法提高了模型的学习速度和性能.

微调世界基础模型

基础模型是经过大规模未标记数据集训练的 AI 神经网络,用于执行各种生成任务。开发者可以从头开始训练模型架构,或使用额外数据对预训练的基础模型进行微调以用于下游任务.

世界基础模型作为通用 AI 系统,经过广泛的视觉数据集训练以模拟物理环境。它们采用两种架构:

扩散模型:从随机噪声开始,逐渐细化以生成高质量视频。它在视频生成和风格转换等任务中表现出色.

自回归模型:一次生成一帧视频,基于前一帧预测下一帧。它非常适合预测未来帧或完成视频序列. 使用微调框架,这些通用模型可以专门用于下游任务,使机器人、自动驾驶系统和其他物理 AI 领域的精确应用成为可能.

为了轻松开始并简化端到端的开发过程,开发者可以利用包括数据准备、模型训练、优化和性能评估及部署的库、SDK 和工具在内的训练框架.

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O2OEri5aCdNS1P4zWGQY9rMA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券