谢赛宁：如何开发出像真实世界中人类一样灵活感知、思考和行动的AI Agent？

AIGC新知

发布于 2024-10-08 17:23:38

1520

文章被收录于专栏：AIGC新知AIGC新知

本文来源于谢赛宁团队关于AI Agent新工作的论文。

为了在现实世界环境中灵活可靠运行agent，引入了 V-IRL，这是一个可扩展的平台，使代理能够与现实世界的虚拟传真进行交互。

利用地图、地理空间和街景图像 API，V-IRL 将代理嵌入到地球上的真实城市中。
模拟了以下9种Agent在真实世界导航、地点推荐、城市规划、探索和互动等真实情况。
通过Agent评估和改进模型在处理现实世界数据和执行复杂任务方面的能力。

1、V-IRL 分层架构

将真实环境转变为一个巨大的虚拟游乐场，在其中可以构建代理来解决实际任务。该平台位于基础之上，为代理商提供底层组件和基础设施。该平台的组件呈现出更高级别的感知、推理、行动和协作功能。代理在特定于任务的 run() 例程中利用这些功能以及用户定义的元数据来解决任务。

2、V-IRL Agent范例

在全球真实城市中虚拟地实例化几个示例代理，并让它们执行各种实际任务。为 V-IRL agent提供角色元数据，包括 8 位头像、姓名、简短的个人简介以及他们试图实现的意图。

每个后续代理及其任务旨在揭示平台的新功能。我们通过使用标签和相应的彩色部分来强调使用的特定 V-IRL 功能：

行动和地理定位/绘图功能：§地球 Agents

使用 V-IRL 平台的代理居住在全球真实城市的虚拟代表中。这种表示的核心是与地球表面上的点相对应的地理坐标。

Peng 需要访问纽约市的多个地点，利用地理定位和地图功能，Peng 沿着最短路径步行，而不是按顺序访问路径点，从而节省了 7 分钟。

推理和语言模型：§语言驱动代理

为了处理更复杂的任务，遵循语言驱动代理的模式。LLMs 使代理能够推理、规划和使用外部工具和 API。

Aria 搜索附近可能的餐馆。综合公众评论，通过 GPT-4 提出最终建议。由于彭是四川人，初来乍到，她推荐了辛辣的中式连锁店粤德轩，让他尝尝家乡的味道。

感知与计算机视觉：§视觉代理

代理可以通过 V-IRL 平台利用街景图像，在视觉上将自己置于现实世界中，从而开启各种感知驱动的任务。

RX-399 沿着预定义的城市路线导航，使用其开放世界探测器和地理定位模块标记所有垃圾桶，如下图所示。

纽约市 RX-399 系统记录的部分内容

RX-399在香港的部分系统记录

Imani 为 RX-399 设置了跨越中央公园和感兴趣对象的路线，RX-399 遍历这些路线并记录所有检测到的实例。RX-399 完成其路线后，Imani 对 RX-399 收集的数据进行不同详细程度的分析。

Imani 使用 RX-399 收集的数据对纽约中央公园的垃圾桶、消防栓和公园长椅进行可视化。最粗层次显示了公园内垃圾桶、消防栓和长凳的总体分布。

Imani 还可以放大特定区域，其中较浅的颜色代表识别出更多独特实例的位置。

代理-{代理，人类}协作：§协作代理

协作通过将复杂的任务分解为更简单的子任务来提高效率和效果，从而使每个任务都由其领域的专家来处理。

从当地人那里获得路线描述后，Ling 开始了她的旅程。基于平台，Ling 可以使用开放世界识别和地图来调整姿势并识别街道上的视觉地标。识别这些地标有助于 GPT-4 做出正确的决定，即在哪里转向、前进和停止。

Ling 和 Local 的合作实例。

Diego 不仅会考虑您的身心内感受状态、每项活动的预算，还会预测您关注每项活动时的状态变化和成本。能够通过 V-IRL 平台考虑真实的旅行时间，并通过与另一家餐厅推荐代理合作来选择合适的用餐选择。

可以通过调整内感受状态或为Diego提供口头反馈来干预Diego的计划过程。对此，Diego及时修改了原来的计划，使其适应你的需求，并重新估计修改后你的状态变化。

Diego熟练地制定行程的背后是他的迭代规划流程。

首先是 Diego 使用 GPT-4 为第一个活动创建初始计划草案，同时考虑到用户的简介、要求和工作记忆中以前的活动。
通过层次协调（真实地理空间/地点信息）、内感受估计（活动成本和对人类国家的影响）和监督者（人类内感受、预算和潜在干预），对该草案进行精心完善。

基于紧密相关的街景和 V-IRL 地图，Diego 会在其行程中的各个地点为您寻找潜在的风景点。使用 VQA 来评估每个捕获的视图，并将高度评价的位置附加到您的行程中。

3、V-IRL 基准测试

开发三个 V-IRL 基准来评估现有视觉模型在此类开放世界数据分布中的能力。

V-IRL 地点：本地化

2D 对象提案与街道地点之间的匹配

V-IRL 地点：认可和 VQA

V-IRL 放置 VQA 流程

地理多样性

引用：

The rise and potential of large language model based agents: A survey Xi, Z., Chen, W., Guo, X., He, W., Ding, Y., Hong, B., Zhang, M., Wang, J., Jin, S., Zhou, E. and others,, 2023. arXiv preprint arXiv:2309.07864.
Learning transferable visual models from natural language supervision Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J. and others,, 2021. ICML.
Grounded language-image pre-training Li, L.H., Zhang, P., Zhang, H., Yang, J., Li, C., Zhong, Y., Wang, L., Yuan, L., Zhang, L., Hwang, J. and others,, 2022. CVPR.
LightGlue: Local Feature Matching at Light Speed Lindenberger, P., Sarlin, P. and Pollefeys, M., 2023. ICCV.
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Li, J., Li, D., Savarese, S. and Hoi, S., 2023. ICML.
GPT-4 technical report Achiam, J., Adler, S., Agarwal, S., Ahmad, L., Akkaya, I., Aleman, F.L., Almeida, D., Altenschmidt, J., Altman, S., Anadkat, S. and others,, 2023. arXiv preprint arXiv:2303.08774.
Llama 2: Open foundation and fine-tuned chat models Touvron, H., Martin, L., Stone, K., Albert, P., Almahairi, A., Babaei, Y., Bashlykov, N., Batra, S., Bhargava, P., Bhosale, S. and others,, 2023. arXiv preprint arXiv:2307.09288.
Google Map Platform Google Map Team, .. https://mapsplatform.google.com/.
Grounding dino: Marrying dino with grounded pre-training for open-set object detection Liu, S., Zeng, Z., Ren, T., Li, F., Zhang, H., Yang, J., Li, C., Yang, J., Su, H., Zhu, J. and others,, 2023. arXiv preprint arXiv:2303.05499.
Simple Open-Vocabulary Object Detection with Vision Transformers Minderer, M., Gritsenko, A., Stone, A., Neumann, M., Weissenborn, D., Dosovitskiy, A., Mahendran, A., Arnab, A., Dehghani, M., Shen, Z. and others,, 2022. ECCV.
InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning Dai, W., Li, J., Li, D., Tiong, A.M.H., Zhao, J., Wang, W., Li, B., Fung, P. and Hoi, S., 2023. NeurIPS.
Improved Baselines with Visual Instruction Tuning Liu, H., Li, C., Li, Y. and Lee, Y.J., 2023. arXiv:2310.03744.
EVA-CLIP: Improved Training Techniques for CLIP at Scale Sun, Q., Fang, Y., Wu, L., Wang, X. and Cao, Y., 2023. arXiv preprint arXiv:2303.15389.
PP-OCR: A practical ultra lightweight OCR system. arXiv 2020 Du, Y., Li, C., Guo, R., Yin, X., Liu, W., Zhou, J., Bai, Y., Yu, Z., Yang, Y., Dang, Q. and others,, 2020. arXiv preprint arXiv:2009.09941.
Large-scale privacy protection in google street view Frome, A., Cheung, G., Abdulkader, A., Zennaro, M., Wu, B., Bissacco, A., Adam, H., Neven, H. and Vincent, L., 2009. ICCV.
Image geo-localization based on multiplenearest neighbor feature matching usinggeneralized graphs 2014. TPAMI.
Touchdown: Natural language navigation and spatial reasoning in visual street environments Chen, H., Suhr, A., Misra, D., Snavely, N. and Artzi, Y., 2019. CVPR.