点击下方卡片,关注「AiCharm」公众号
Subjects: cs.CV
1.JourneyDB: A Benchmark for Generative Image Understanding
标题:JourneyDB:生成图像理解的基准
作者:Junting Pan, Keqiang Sun, Yuying Ge, Hao Li, Haodong Duan, Xiaoshi Wu, Renrui Zhang
文章链接:https://arxiv.org/abs//2307.00716
项目代码:https://journeydb.github.io/
摘要:
虽然视觉语言模型的最新进展彻底改变了多模态理解,但仍不清楚它们是否具有理解生成图像的能力。与真实数据相比,合成图像在内容和风格上表现出更高程度的多样性,而模型要完全理解这些多样性存在很大的困难。为此,我们提出了一个大规模数据集 JourneyDB,用于生成图像中的多模式视觉理解。我们精心策划的数据集涵盖 400 万张多样化且高质量的生成图像,以及用于生成这些图像的文本提示。我们进一步设计了 4 个基准来量化生成图像理解在内容和风格解释方面的性能。这些基准包括提示反转、风格检索、图像字幕和视觉问答。最后,我们评估了当前最先进的多模态模型应用于 JourneyDB 时的性能,并深入分析了它们在生成内容理解方面的优势和局限性。我们希望所提出的数据集和基准能够促进生成内容理解领域的研究。该数据集将在此 https URL 上提供。
2.ViNT: A Foundation Model for Visual Navigation
标题:ViNT:视觉导航的基础模型
作者:Chung-Ching Lin, Jiang Wang, Kun Luo, Kevin Lin, Linjie Li, Lijuan Wang, Zicheng Liu
文章链接:https://arxiv.org/abs/2306.14846
项目代码:https://visualnav-transformer.github.io/
摘要:
通用预训练模型(“基础模型”)使从业者能够为单个机器学习问题生成通用的解决方案,其数据集比从头开始学习所需的数据集要小得多。此类模型通常在监督较弱的大型且多样化的数据集上进行训练,消耗的训练数据比任何单个下游应用程序可用的训练数据多得多。在本文中,我们描述了视觉导航变压器(ViNT),这是一个基础模型,旨在将通用预训练模型的成功带入基于视觉的机器人导航。ViNT 经过训练,可实现一般目标,可与任何导航数据集一起使用,并采用灵活的基于 Transformer 的架构来学习导航可供性,并能够有效适应各种下游导航任务。ViNT 在许多现有的导航数据集上进行了训练,包括来自各种不同机器人平台的数百小时的机器人导航,并表现出正迁移,优于在单一数据集上训练的专业模型。ViNT 可以通过基于扩散的子目标建议进行增强,以探索新的环境,并且在配备远程启发式技术时可以解决公里级的导航问题。ViNT 还可以采用受提示调整启发的技术来适应新的任务规范,其中目标编码器被嵌入到相同目标标记空间中的另一种任务模态(例如 GPS 航路点或路由命令)的编码所取代。这种灵活性和适应各种下游问题领域的能力使 ViNT 成为移动机器人的有效基础模型。有关视频、代码和模型检查点,请参阅此 https URL 的项目页面。
3.Meta-training with Demonstration Retrieval for Efficient Few-shot Learning(ACL 2023)
标题:具有演示检索的元训练可实现高效的小样本学习
作者:Aaron Mueller, Kanika Narang, Lambert Mathias, Qifan Wang, Hamed Firooz
文章链接:https://arxiv.org/abs//2307.00119
摘要:
大型语言模型在少量 NLP 任务上显示出令人印象深刻的结果。然而,这些模型是内存和计算密集型的。元训练允许人们以领域通用和任务无关的方式利用较小的模型进行几次泛化;然而,仅这些方法会导致模型可能没有足够的参数化或知识来快速适应各种任务。为了克服这个问题,我们提出了带有演示检索的元训练,其中我们使用密集的段落检索器来检索与每个示例语义相似的标记演示,以实现更多样化的监督。通过将外部知识与模型参数分离,我们可以使用元训练来训练参数高效的模型,这些模型可以很好地泛化更多种类的任务。我们从 UnifiedQA 和 CrossFit 构建了一个元训练集,并提出了一个基于 UnifiedQA 任务的演示库。据我们所知,我们的工作是第一个将检索与元训练相结合,使用 DPR 模型检索演示,并同时利用来自多个任务的演示,而不是从目标任务的训练集中随机采样演示。我们的方法在 QA、NLI 和文本分类任务(包括 SQuAD、QNLI 和 TREC)上优于各种目标参数高效和检索增强的小样本方法。我们的方法可以在单个 GPU 上快速进行元训练和微调。
SIGGRAPH2023|DreamFace:一句话生成 3D 数字人
CVPR 2023 | BundleSDF:对未知物体进行6D追踪和3D重建新SOTA
CVPR 2023 | 浙大&南洋理工提出PADing:零样本通用分割框架
点击卡片,关注「AiCharm」公众号
喜欢的话,请给我个在看吧!