首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    告别单一视角:DA4LG在多视图设置下的惊艳表现 !

    视觉语言定位旨在识别由自然语言描述的视觉内容中的区域或目标[7, 21]。它作为当前具身代理连接符号概念与可感知现实世界的重要桥梁,使得代理的智能可以从感知决策发展到认知决策[16, 5]。例如,代理可以根据来自大型语言模型的计划器提供的一系列原始指令,包括对目标目标的详细描述,来制作一杯咖啡。在这一过程中,视觉语言定位在将每步指令与物理观察到的目标连接起来方面发挥着关键作用[3, 36]。因此,与3D目标的视觉语言定位是使代理能够与真实世界互动的不可或缺手段。有限的、高质量的视觉-语言配对数据阻碍了视觉语言定位技术的发展,尤其是3D视觉语言定位。为了解决这个问题,现有工作尝试[9, 28, 38, 42]使用多视角感知或外部先验,这需要额外的数据成本以及由于在固定设置中预训练的特征编码器引起的现有领域差距。在本文中,作者从领域适应的角度对语言定位任务进行了探索,受到了大型语言模型参数高效调整的领域适应的启发。

    01
    领券