首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >每日学术速递12.20

每日学术速递12.20

作者头像
AiCharm
发布2023-12-20 16:15:56
发布2023-12-20 16:15:56
3530
举报
文章被收录于专栏:AiCharmAiCharm

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

点击下方卡片,关注「AiCharm」公众号

Subjects: cs.CV

1.General Object Foundation Model for Images and Videos at Scale

标题:大规模图像和视频的通用对象基础模型

作者:Junfeng Wu, Yi Jiang, Qihao Liu, Zehuan Yuan, Xiang Bai, Song Bai

文章链接:https://arxiv.org/abs/2312.09158

项目代码:https://glee-vision.github.io/

摘要:

我们在这项工作中展示了 GLEE,这是一种用于定位和识别图像和视频中的对象的对象级基础模型。GLEE通过统一的框架,完成开放世界场景中任意物体的检测、分割、跟踪、接地和识别等各种物体感知任务。GLEE 采用内聚学习策略,从具有不同监督级别的不同数据源获取知识,以制定通用对象表示,在零样本迁移到新数据和任务方面表现出色。具体来说,我们采用图像编码器、文本编码器和视觉提示器来处理多模式输入,从而能够同时解决各种以对象为中心的下游任务,同时保持最先进的性能。通过对来自不同基准的超过 500 万张图像进行广泛训练,GLEE 展示了卓越的多功能性和改进的泛化性能,可以有效地处理下游任务,而无需针对特定任务进行调整。通过集成大量自动标记数据,我们进一步增强了其零样本泛化能力。此外,GLEE 能够集成到大型语言模型中,作为基础模型为多模式任务提供通用对象级信息。我们希望我们方法的多功能性和通用性将标志着 AGI 系统高效视觉基础模型开发的重要一步。

2.Toward General-Purpose Robots via Foundation Models: A Survey and Meta-Analysis

标题:通过基础模型走向通用机器人:调查和荟萃分析

作者:Yafei Hu, Quanting Xie, Vidhi Jain, Jonathan Francis, Jay Patrikar, Nikhil Keetha, Seungchan Kim, Yaqi Xie

文章链接:https://arxiv.org/abs/2312.08782

项目代码:https://robotics-fm-survey.github.io/

摘要:

构建能够在任何环境、任何物体上无缝操作的通用机器人,并利用各种技能完成不同的任务一直是人工智能领域的长期目标。然而不幸的是,大多数现有的机器人系统都受到限制——是为特定任务而设计、在特定数据集上进行训练并在特定环境中部署的。这些系统通常需要广泛标记的数据,依赖于特定于任务的模型,在现实场景中部署时存在许多泛化问题,并且很难对分布变化保持鲁棒性。受自然语言处理(NLP)和计算机视觉(CV)等研究领域中网络规模、大容量预训练模型(即基础模型)令人印象深刻的开放集性能和内容生成能力的推动,我们致力于这项调查旨在探索 (i) 如何将 NLP 和 CV 的现有基础模型应用于机器人领域,并探索 (ii) 机器人特定的基础模型是什么样子。我们首先概述传统机器人系统的构成以及使其普遍适用的基本障碍。接下来,我们建立一个分类法来讨论当前的工作,探索如何利用现有的机器人基础模型并开发适合机器人的模型。最后,我们讨论了使用基础模型来实现通用机器人系统的主要挑战和有希望的未来方向。我们鼓励读者查看我们的“实时” GitHub 资源库,包括本次调查中审查的论文以及用于开发机器人基础模型的相关项目和存储库。

3.Mosaic-SDF for 3D Generative Models

标题:用于 3D 生成模型的 Mosaic-SDF

作者:Lior Yariv, Omri Puny, Natalia Neverova, Oran Gafni, Yaron Lipman

文章链接:https://arxiv.org/abs/2312.09222

项目代码:https://lioryariv.github.io/msdf

摘要:

当前用于 3D 形状的扩散或基于流的生成模型分为两种:提取预先训练的 2D 图像扩散模型,以及直接在 3D 形状上进行训练。在 3D 形状上训练扩散或流动模型时,关键的设计选择是形状表示。有效的形状表示需要遵循三个设计原则:它应该允许将大型 3D 数据集有效地转换为表示形式;它应该提供近似功效与参数数量的良好权衡;它应该具有与现有强大的神经架构兼容的简单张量形式。虽然体积网格和点云等标准 3D 形状表示不能同时遵守所有这些原则,但我们在本文中提倡一种新的表示。我们引入 Mosaic-SDF (M-SDF):一种简单的 3D 形状表示,它通过使用一组分布在形状边界附近的局部网格来近似给定形状的符号距离函数 (SDF)。M-SDF 表示可以快速地单独计算每个形状,使其易于并行化;它的参数效率很高,因为它只覆盖形状边界周围的空间;它具有简单的矩阵形式,与基于 Transformer 的架构兼容。我们通过使用 M-SDF 表示来训练 3D 生成流模型,包括使用 3D Warehouse 数据集进行类条件生成,以及使用约 600k 标题形状对的数据集进行文本到 3D 生成,从而证明了 M-SDF 表示的有效性。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-12-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AiCharm 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档