Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >港大&上海AI实验室 | GPT4Scene:使用视觉语言模型理解视频中的3D场景

港大&上海AI实验室 | GPT4Scene:使用视觉语言模型理解视频中的3D场景

作者头像
一点人工一点智能
发布于 2025-01-07 04:29:21
发布于 2025-01-07 04:29:21
5280
举报

编辑:陈萍萍的公主@一点人工一点智能

论文地址:https://arxiv.org/pdf/2501.01428

项目地址:https://gpt4scene.github.io/

本文介绍了一种名为GPT4Scene的新方法,用于训练和推理视觉语言模型(VLM),以帮助其理解三维空间中的场景。传统的VLM在处理三维空间知识时存在局限性,主要原因是缺乏全局局部对应关系。

为了解决这个问题,作者提出了GPT4Scene,它构建了一个三维鸟瞰图,并标记了视频帧中的一致对象ID。通过将鸟瞰图像与视频帧连接起来输入模型,可以显著提高模型对室内场景的理解能力。实验结果表明,在零样本评估中,GPT4Scene比闭源VLM如GPT-4o表现更好。此外,作者还准备了一个包含165000个文本注释的视频数据集,用于微调开源VLM,取得了最先进的性能。

值得注意的是,经过GPT4Scene训练后,VLM能够在没有视觉提示和鸟瞰图像的情况下持续改进,这表明该方法有助于VLM发展内在的能力去理解三维场景,为扩展预训练VLM提供了一种非侵入式的方法。

论文方法

1.1 方法描述

该论文提出了一种名为GPT4Scene的框架,用于增强视觉语言模型(VLM)在理解三维场景中的能力。其主要思路是通过提供全局场景信息和对象级别的注释来改善VLM对三维场景的理解。

具体实现过程包括以下步骤:

1)对于给定的室内视频序列,从中均匀采样若干帧。

2)利用3D重建技术将每个帧转换为点云,并将其渲染成鸟瞰图,以提供全局场景信息。

3)在鸟瞰图上标记出特定物体的位置,并在原始视频帧中显示这些标记,以便VLM能够关注特定的物体。

4)将以上处理后的视频序列和鸟瞰图像输入到VLM中,以完成任务。

此外,论文还提出了两种方法来进一步提高VLM的能力:一种是使用零提示解锁强大的封闭源VLM,另一种是通过对ScanAlign数据集进行单阶段指令微调来增强开源、较小规模的VLM。

1.2 方法改进

论文提出的GPT4Scene框架和两种方法都针对VLM在理解三维场景方面的不足进行了改进。具体来说,它们提供了更多的全局场景信息和对象级别注释,使得VLM能够更好地理解三维场景。此外,论文还提出了零提示解锁和ScanAlign微调这两种方法,分别适用于不同的VLM类型,从而提高了不同VLM的能力。

1.3 解决的问题

论文的主要目标是解决VLM在理解三维场景时存在的问题。由于VLM通常只能获得局部信息,因此很难准确地理解整个场景。为了解决这个问题,论文提出了GPT4Scene框架和两种方法,以提供更多全局场景信息和对象级别注释,从而使VLM能够更好地理解三维场景。这些方法可以应用于各种类型的VLM,从而提高了它们的能力。

论文实验

本文主要介绍了基于GPT-4的场景理解模型(GPT4Scene)在3D问题回答、密集标注和视觉定位等任务上的表现,并进行了多个对比实验来验证其有效性。

首先,在3D问题回答任务上,作者将方法分为三类:专注于3D问答任务的经典模型、基于3D点的LLM模型以及基于视觉的LLM模型。结果表明,使用GPT-4零样本优于所有专门针对3D问答任务的方法,而开放源代码的LLM模型在零样本模式下表现不佳。通过使用GPT4Scene策略对Qwen2-VL-7B进行微调,可以显著提高问答性能,达到SOTA水平。

其次,在密集标注和视觉定位任务中,由于需要标记才能完成这些任务,因此与问题回答不同。作者还评估了模型在这两个任务中的性能,并发现经过GPT4Scene微调后的Qwen2-VL-7B显著提高了VLM的3D标注和定位能力。此外,在高分辨率和更大帧设置(HD)下,该模型达到了SOTA性能,超越了所有现有方法。

最后,作者进行了多个Ablation研究来验证设计模块的有效性并分析因素如分辨率和帧数的影响。结果表明,BEV图像和STO标记增强了空间理解能力,删除它们会导致性能下降。同时,增加帧数可以增强室内场景的理解能力,对于定位任务效果更明显。

总之,本文证明了GPT4Scene在多种场景理解任务中的有效性,并提供了多个对比实验来支持这一结论。

方法创新点

本文的方法创新点在于将全局场景信息和视频帧与对象之间的对应关系纳入考虑范围,通过重构三维点云并生成鸟瞰图像来实现全局信息的提取。同时,通过添加空间时间对象标记(STO标记)来建立全局和局部数据的对应关系。这种方法使得VLM能够更好地理解三维场景信息,并取得了显著的性能提升。

未来展望

本文的研究成果为VLM在三维场景理解方面的应用提供了新的思路和方法。未来可以进一步探索如何结合其他传感器的数据(如激光雷达或深度相机),以提高VLM对三维场景的理解能力。此外,也可以尝试将该方法应用于其他领域,如自动驾驶或机器人导航等。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-01-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 一点人工一点智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
ICCV 2025 | HERMES:首个统一3D场景理解与生成的世界模型
在复杂的城市场景中,HERMES 不仅能准确预测未来三秒的车辆与环境动态(如红圈中标注的货车),还能对当前场景进行深度理解和问答(如准确识别出 “星巴克” 并描述路况)。
机器之心
2025/08/15
2030
ICCV 2025 | HERMES:首个统一3D场景理解与生成的世界模型
论 视觉大模型(VLLM)在实时视频流分析中的应用
在过去十年中,视频理解技术经历了从离线分析、单点识别,到实时检测、多任务协同,再到大模型驱动的视频智能体(Video AI Agents)的快速演进。随着算力成本的下降与模型能力的提升,视频系统正从传统的“检测并报警”模式,迈向能够 实时理解场景、进行复杂推理,并执行自主行动 的高度智能化阶段。
JanYork_简昀
2025/11/24
4331
论 视觉大模型(VLLM)在实时视频流分析中的应用
NeurIPS 2025 | 腾讯优图实验室14篇论文入选,涵盖大语言模型、AIGC检测、视觉上下文学习等方向
近日,神经信息处理系统大会Conference and Workshop on Neural Information Processing Systems(NeurIPS)公布了2025年论文录用结果。本届会议共收到 21575 份有效论文投稿,录用5290 篇,录用率为 24.52%。NeurIPS是人工智能与机器学习领域的三大国际会议(NeurIPS、ICML、ICLR)之一,CCF A类会议,具有较高的国际影响力。
小腾资讯君
2025/09/30
5620
破解长视频理解困局!MIT&英伟达最新开源StreamingVLM:统一实时流式视觉语言理解框架
文章链接:https://arxiv.org/pdf/2510.09608 Git链接:https://github.com/mit-han-lab/streaming-vlm Demo链接:https://streamingvlm.hanlab.ai/
AI生成未来
2025/11/17
1850
破解长视频理解困局!MIT&英伟达最新开源StreamingVLM:统一实时流式视觉语言理解框架
告别人工标注!首个MLLM数据流水线!中国团队重构AIGC生态:2D→3D→4D全自动生成
随着AI生成内容(AIGC)需求的增长,对高质量、多样化且可扩展数据的需求变得日益关键。然而,收集大规模真实世界数据仍然成本高昂且耗时,阻碍了下游应用的发展。尽管部分工作尝试通过渲染过程收集任务特定数据,但大多数方法仍依赖手动场景构建,限制了其可扩展性和准确性。为应对这些挑战,提出Follow-Your-Instruction,一个由多模态大语言模型(MLLM)驱动的框架,用于自动合成高质量的2D、3D和4D数据。
AI生成未来
2025/08/27
3400
告别人工标注!首个MLLM数据流水线!中国团队重构AIGC生态:2D→3D→4D全自动生成
NaVILA:基于视觉-语言-动作模型的腿式机器人导航系统
摘要:NaVILA(Navigation Vision-Language-Action)是一种面向足式机器人(如四足机器狗或人形机器人)的视觉-语言导航系统。该系统通过两层架构将高级视觉语言理解与低级运动控制相结合,实现了在复杂环境中基于自然语言指令的自主导航。与传统方法不同,NaVILA不直接输出低级别关节动作,而是生成中级别语言指令(如“前进75厘米”),再由专门的运动策略执行。这种设计既保留了视觉语言模型的推理能力,又提升了系统的可迁移性和鲁棒性。论文在多个仿真与真实环境实验中验证了NaVILA的优越性能,特别是在VLN-CE基准测试中取得了超过17%的成功率提升。
一点人工一点智能
2025/11/26
1450
NaVILA:基于视觉-语言-动作模型的腿式机器人导航系统
​新加坡 & 纽约大学 & 字节 提出 PLLaVA | 简单高效视频语言模型适应方法,超越GPT4V,突破资源限制 !
多模态大型语言模型(MLLMs)在训练大规模图像-文本对时已显示出在图像理解方面的卓越能力。与图像领域类似,最近的视频理解模型也探索了类似的流程,在大规模视频-文本数据上对LLMs进行微调。然而,这种方法需要高昂的计算资源和视频数据标注成本。一种更为实用的方法是调整预先训练好的图像领域MLLMs以适应视频数据。
AIGC 先锋科技
2024/07/08
6910
​新加坡 & 纽约大学 & 字节 提出 PLLaVA | 简单高效视频语言模型适应方法,超越GPT4V,突破资源限制 !
懂3D的语言模型来了!UCLA、上交、MIT等联合提出3D-LLM:性能大涨9%
大型语言模型(LLM)和视觉语言模型(VLM)在各种评测基准中都展现出了强大的性能,比如可以看图说话、进行常识推理。
新智元
2023/09/09
7470
懂3D的语言模型来了!UCLA、上交、MIT等联合提出3D-LLM:性能大涨9%
3D版Sora来了?UMass、MIT等提出3D世界模型,具身智能机器人实现新里程碑
在最近的研究中,视觉-语言-动作(VLA,vision-language-action)模型的输入基本都是2D数据,没有集成更通用的3D物理世界。
新智元
2024/03/25
2890
3D版Sora来了?UMass、MIT等提出3D世界模型,具身智能机器人实现新里程碑
每日学术速递1.6
作者:Shaoteng Liu, Tianyu Wang, Jui-Hsien Wang, Qing Liu, Zhifei Zhang, Joon-Young Lee, Yijun Li, Bei Yu, Zhe Lin, Soo Ye Kim, Jiaya Jia
AiCharm
2025/01/06
2720
每日学术速递1.6
当 LLMs 步入3D世界,通过多模态大语言模型对3D任务的调查和元分析 !
大型语言模型的出现标志着自然语言处理领域的一个变革性时代,使机器能够以前所未有的方式理解、生成和与人类语言互动。然而,作者周围的现实世界本质上是三维的,理解三维空间环境对于涉及在这些三维空间内进行感知、导航和交互的许多现实世界应用至关重要。随着近期的发展,LLM的应用已经远远超出了文本领域。将LLM与3D数据结合为计算模型理解和与物理世界互动提供了独特的机会,从而在包括自主系统、增强现实、机器人导航和机器人操作在内的多个领域引发创新。
AIGC 先锋科技
2024/07/31
9050
当 LLMs 步入3D世界,通过多模态大语言模型对3D任务的调查和元分析 !
清华叉院、理想提出DriveVLM,视觉大语言模型提升自动驾驶能力
与生成式 AI 相比,自动驾驶也是近期 AI 最活跃的研究和开发领域之一。要想构建完全的自动驾驶系统,人们面临的主要挑战是 AI 的场景理解,这会涉及到复杂、不可预测的场景,例如恶劣天气、复杂的道路布局和不可预见的人类行为。
机器之心
2024/02/26
4280
清华叉院、理想提出DriveVLM,视觉大语言模型提升自动驾驶能力
无监督3D场景理解,LLM 在 3D 场景理解中的应用与探索 !
开发能够理解3D世界的系统是计算机视觉领域的一个重要目标。这类系统需要一个语义丰富的3D表示,将目标嵌入空间结构中。此外,场景理解系统需要能够理解和推理特定场景下的自然语言 Query 。传统的场景理解方法依赖专门的模块进行目标/空间理解,需要针对一组已标记的目标进行3D监督训练。这导致了由于缺乏3D数据来源和可行的大规模训练方案而产生的瓶颈。此外,这些模型在特定专业任务(例如3D分割、定位)的训练数据集上具有有限的类别集,并且不能泛化到新 Query 、任务和目标,从而限制了其用于实际应用的能力。
AIGC 先锋科技
2024/08/27
5940
无监督3D场景理解,LLM 在 3D 场景理解中的应用与探索 !
首个精通3D任务的具身通才智能体:感知、推理、规划、行动统统拿下
想要迈向通用人工智能,必须要构建一个能够理解人类生活的真实世界,并掌握丰富技能的具身通用智能体。
机器之心
2023/12/12
8610
首个精通3D任务的具身通才智能体:感知、推理、规划、行动统统拿下
OpenAnnotate3D:一个目标取代人类的标注工具
文章:OpenAnnotate3D: Open-Vocabulary Auto-Labeling System for Multi-modal 3D Data
点云PCL博主
2023/11/03
1.8K0
OpenAnnotate3D:一个目标取代人类的标注工具
Lexicon3D: 探索复杂3D场景理解的视觉基础模型 !
近年来,复杂的3D场景理解成为计算机视觉的一个重要领域,涵盖了诸如场景生成、推理和交互。利用大规模视觉基础模型,方法如[42; 64; 68; 84; 91]已经取得了有前途的结果,从而使一系列实际应用得以实现,从自动驾驶,机器人学[57; 108],到多模态代理[1; 78]。尽管有许多研究[6; 67; 99]提供了关于视觉基础模型在2D图像任务的使用的指导,但3D场景的战略仍然不清楚。对复杂实际场景的系统化理解不仅包括语义和深度意识[6],这可以在2D领域进行评估,还包括几何意识和对多模态信息进行推理和定位任务的能力。为了填补这一空白,作者的工作评估了不同类型的视觉基础模型对复杂场景理解的适用性,并寻求确定每种模型在不同场景中的优势和局限。最终,这项研究旨在为场景理解系统的更有效性、高效性的发展做出贡献。
AIGC 先锋科技
2024/09/13
4990
Lexicon3D: 探索复杂3D场景理解的视觉基础模型 !
腾讯优图实验室22篇论文入选,含深度伪造检测、自回归视觉生成、多模态大语言模型等研究方向
近日, CVPR 2025(IEEE/CVF Conferenceon on Computer Vision and Pattern Recognition)论文录用结果揭晓,本次大会共2878篇被录用,录用率为22.1%。CVPR是计算机视觉领域的顶级国际会议,CCF A类会议,每年举办一次。CVPR 2025将于6月11日-15日,在美国田纳西州纳什维尔音乐城市中心召开。
小腾资讯君
2025/04/28
8600
视觉语言模型导论:这篇论文能成为你进军VLM的第一步
近些年,语言建模领域进展非凡。Llama 或 ChatGPT 等许多大型语言模型(LLM)有能力解决多种不同的任务,它们也正在成为越来越常用的工具。
机器之心
2024/06/17
1.4K0
视觉语言模型导论:这篇论文能成为你进军VLM的第一步
Sora场景转「3D资产」!浙大CAD&CG全重实验室提出文本转3D新SOTA:多功能、可拓展
在这个数字化飞速发展的时代,我们的生活被越来越多的3D内容所包围,从电影中令人惊叹的特效到游戏中栩栩如生的场景,再到虚拟现实中的沉浸体验,这一切都离不开背后复杂的3D场景建模/生成技术。
新智元
2024/03/26
2550
Sora场景转「3D资产」!浙大CAD&CG全重实验室提出文本转3D新SOTA:多功能、可拓展
Occ-BEV:通过3D场景重建实现多相机统一预训练
文章:Occ-BEV: Multi-Camera Unified Pre-training via 3D Scene Reconstruction
点云PCL博主
2023/08/21
1.1K0
Occ-BEV:通过3D场景重建实现多相机统一预训练
推荐阅读
ICCV 2025 | HERMES:首个统一3D场景理解与生成的世界模型
2030
论 视觉大模型(VLLM)在实时视频流分析中的应用
4331
NeurIPS 2025 | 腾讯优图实验室14篇论文入选,涵盖大语言模型、AIGC检测、视觉上下文学习等方向
5620
破解长视频理解困局!MIT&英伟达最新开源StreamingVLM:统一实时流式视觉语言理解框架
1850
告别人工标注!首个MLLM数据流水线!中国团队重构AIGC生态:2D→3D→4D全自动生成
3400
NaVILA:基于视觉-语言-动作模型的腿式机器人导航系统
1450
​新加坡 & 纽约大学 & 字节 提出 PLLaVA | 简单高效视频语言模型适应方法,超越GPT4V,突破资源限制 !
6910
懂3D的语言模型来了!UCLA、上交、MIT等联合提出3D-LLM:性能大涨9%
7470
3D版Sora来了?UMass、MIT等提出3D世界模型,具身智能机器人实现新里程碑
2890
每日学术速递1.6
2720
当 LLMs 步入3D世界,通过多模态大语言模型对3D任务的调查和元分析 !
9050
清华叉院、理想提出DriveVLM,视觉大语言模型提升自动驾驶能力
4280
无监督3D场景理解,LLM 在 3D 场景理解中的应用与探索 !
5940
首个精通3D任务的具身通才智能体:感知、推理、规划、行动统统拿下
8610
OpenAnnotate3D:一个目标取代人类的标注工具
1.8K0
Lexicon3D: 探索复杂3D场景理解的视觉基础模型 !
4990
腾讯优图实验室22篇论文入选,含深度伪造检测、自回归视觉生成、多模态大语言模型等研究方向
8600
视觉语言模型导论:这篇论文能成为你进军VLM的第一步
1.4K0
Sora场景转「3D资产」!浙大CAD&CG全重实验室提出文本转3D新SOTA:多功能、可拓展
2550
Occ-BEV:通过3D场景重建实现多相机统一预训练
1.1K0
相关推荐
ICCV 2025 | HERMES:首个统一3D场景理解与生成的世界模型
更多 >
领券
社区新版编辑器体验调研
诚挚邀请您参与本次调研,分享您的真实使用感受与建议。您的反馈至关重要,感谢您的支持与参与!
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
首页
学习
活动
专区
圈层
工具
MCP广场
首页
学习
活动
专区
圈层
工具
MCP广场