编辑:陈萍萍的公主@一点人工一点智能
横跨2012–2025年,把计算机视觉(CV)、自然语言处理(NLP)、强化学习(RL)、大语言/多模态模型(LLMs/MLLMs)以及世界模型(WMs)五条技术线的里程碑工作放在同一条时间轴上,直观呈现它们如何交替推动具身智能从“单模块感知”走向“多模态-物理-语义”统一体。

下面按时间顺序对图中出现的30个核心模型逐一给出技术要点与在具身智能中的角色。

CV模型(粉色)


NLP模型(黄色)


RL模型(绿色)


LLMs/MLLMs(靛蓝色)


World Models(蓝色)

此图用一张“地铁线路图”式的时间轴,把原本碎片化的 30 余个里程碑串成五条“技术快线”,帮助初入具身智能的研究者一眼看清:“我该在哪一站上车、在哪一站换乘、最终在哪一站下车”。
参考:《Embodied AI:From LLMs to World Models》