首页
学习
活动
专区
圈层
工具
发布

空间智能:AI正在学会理解这个世界

2025年成都世运会期间,一只搭载空间智能模型的机器狗为运动员提供导览服务。它不仅能理解“带我去最近的洗手间”这样的指令,还能在拥挤的人群中自主规划路径、避开障碍——这标志着AI开始真正理解我们所处的三维世界,而不仅仅是处理文本和图像。

从“纸上谈兵”到“身临其境”的AI进化

当前的大型语言模型虽然能熟练生成文字与图像,却仍停留在“语言的世界”中,缺乏对现实空间、物理规律与因果关系的真正理解。即使是最新的多模态大模型,在估算距离、方向、大小时的表现也往往不及随机水平。它们无法在空间中导航、辨识捷径,也不能稳定预测最基本的物理规律——这让AI难以真正赋能需要理解物理世界的创造性工作!空间智能正是要突破这一瓶颈,让AI像人类一样在现实世界中感知、推理和行动。

构建理解物理世界的技术蓝图

空间智能的技术架构核心是“世界模型”——这种新型生成模型的理解、推理、生成以及与语义、物理、几何和动态复杂世界交互的能力,远远超出了当今大型语言模型的能力范围。整体架构包含三个关键层次:感知层通过RGB-D(彩色图+深度图)等传感器获取三维空间数据;推理层通过空间理解大模型处理几何关系和物理规律;执行层则将空间智能转化为机器人、AR/VR设备等具体行动。考拉悠然的“悠然无界大模型BLM-1.0”展示了如何实现“三跨”能力统一:从虚拟空间到物理场景的环境适配,从文本理解到机械控制的任务切换,从机器人到工业设备的本体适配。

深度技术解析:空间智能如何实现

世界模型:从生成图像到生成世界

李飞飞团队提出的“大型世界模型”(LWM)代表了这一方向的前沿进展。用户只需上传一张图片,系统便能根据图片中的环境信息,自动生成一个相应范围内的3D虚拟世界。这背后的技术原理是什么?关键是模型在大量的3D数据训练后,对图像内容达成了充分理解,从而能够遵循3D几何物理基本规则。与传统的3D建模工具不同,LWM通过深度学习直接理解场景的几何结构,而不是依赖人工预设的建模规则。例如,当输入一张博物馆照片时,模型不仅能识别物体,还能推断出空间布局、视角关系,甚至预测相邻展馆的结构——这种能力源自对海量3D点云数据的学习。

多模态空间理解模型的技术实现

上海交通大学赵波副教授团队提出的SpatialBot模型展示了如何将大语言模型扩展到3D空间理解任务中。该模型采用RGB-D(彩色图+深度图)双路输入架构:首先基于用户问题和RGB-D图片信息生成API调用指令,用于提取关键人物/物体/场景的深度信息;随后将提取的深度信息与用户输入再次输入大模型,使模型基于前一轮语义和空间信息做出新一轮推理。这种方法突破了传统大模型对物理世界几何与空间关系的理解局限,让机器具备空间认知与推理能力。团队开源的SpatialQA数据集包含多模态大模型多层次的空间感知训练数据,特别设计了机器人物体抓取任务中的空间理解数据,为模型训练提供了重要基础。

从空间理解到具身行动的跨越

空间智能的最终目标是实现具身智能——让机器能够在物理世界中行动。考拉悠然的BLM-1.0模型通过“原生指令能力与跨本体控制无缝衔接”技术,实现了从自然语言指令到机器人行动的端到端闭环。例如,用户下达“分拣特定物料”指令后,模型能直接转化为机器人的运动控制逻辑,无需额外开发中间适配层。这背后的关键技术是单一模型覆盖多本体能力:针对工业场景中多设备协同的需求,BLM-1.0可通过单一模型同时适配机械臂、AGV、工业机器人等多种设备,实现不同设备间的知识共享和协同作业控制一致性。

如何进入空间智能领域

空间智能是典型的交叉学科,需要计算机视觉、机器人学、几何深度学习等多领域知识。初学者可以从群核科技开源的SpatialLM模型入手,该模型提供了完整的训练代码和评测基准。上海交通大学发布的STI-Bench基准是评估空间智能模型的重要工具,包含桌面、室内、室外三个场景中的8类任务。中级学习者可以深入研究考拉悠然开源的“悠然无界大模型BLM-1.0”,该模型全面开源了模型权重、训练代码与评测基准。高级研究者应关注World Labs的Marble平台和大型世界模型(LWM)技术,这些代表了空间智能的最前沿。领先的机构包括斯坦福大学李飞飞团队、上海交通大学人工智能学院、群核科技和考拉悠然等。空间智能工程师是目前就业市场的热门岗位,初级岗位年薪约30-50万,高级研究员年薪可达80-120万!但企业更看重项目经验,特别是具有物理仿真、机器人运动规划或3D视觉项目背景的候选人。

中国在空间智能赛道的位置与未来

中国在空间智能的应用落地和产业化方面具有明显优势。群核科技的SpatialLM模型登上HuggingFace全球趋势榜前三,考拉悠然的技术在工业场景快速落地,说明中国企业在“技术-产业”闭环上步伐敏捷。但在基础理论研究和世界模型等前沿领域,与国际顶尖水平仍有差距。李飞飞提出的空间智能理论框架和World Labs的技术成果目前引领着方向。中国需要加强基础理论研究,特别是在物理引擎、世界模型等核心环节突破,而不仅仅是应用创新!

未来三年,空间智能将在三个方向突破:创意产业(虚拟制片、游戏开发)、工业(智能制造、机器人)和消费领域(AR/VR)。最具颠覆性的可能是“空间智能即服务”——通过云平台提供世界模型能力,让任何设备都能获得空间理解能力。但挑战也不小:能源消耗是最大瓶颈之一,国际能源署报告称到2030年全球数据中心电力需求将增长一倍以上!空间智能模型需要更高效的算法和专用芯片。当我们克服这些挑战,AI将不再只是工具,而是真正理解物理世界的伙伴——这一天比想象中更近。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OaUkVgouaHQNKHwA4ROwQ2iQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券