首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

AAAI-2024 | Mono3DVG:首个基于单目RGB图像实现3D Visual Grounding的方法

关注公众号,发现CV技术之美 本文分享论文Mono3DVG: 3D Visual Grounding in Monocular Images,该论文已被 AAAI 2024 接收,数据集和代码已开源。...然而,现有的2D Visual Grounding无法捕捉指代物体的真实3D范围。...3D Visual Grounding又需要激光雷达或RGB-D传感器,由于昂贵的成本和设备限制,极大地限制了其应用场景。单目3D目标检测成本低、适用性强,但无法定位特定目标。...本文提出一种新的任务,用具有外观和模糊的几何信息的语言描述在单目RGB图像中实现3D Visual Grounding。 数据集 为解决Mono3DVG任务,本文创建了Mono3DRefer数据集。...具体由多模态特征编码器、双文本引导适配器、Grounding解码器和Grounding头组成。

53010

全新的多模态预训练范式:微软提出GLIP统一了对象检测和短语定位任务

这有两个好处: GLIP可以同时从 detection 和 grounding 数据中训练学习,以改进两种任务,训练一个优秀的 grounding 模型; GLIP可以通过 self-training...主要贡献 「1、Unifying detection and grounding by reformulating object detection as phrase grounding」 改变了检测模型的输入...「Object detection as phrase grounding」 作者不是将每个 region/box 分类为c类,而是将检测任务重新定义为一个 grounding 任务,通过将每个 region...「Equivalence between detection and grounding」 通过上述方法,将任意detection  模型转化为grounding模型,且理论上训练和推理都是等价的。...c、Pre-training with Scalable Semantic-Rich Data GLIP模型可以在检测和更重要的grounding数据上进行训练,作者表明,grounding数据可以提供丰富的语义

3K30
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    CV领域不断突破,原创成果连连!音频领域初探自带光环!OpenMMLab季报报告请收好

    项目地址: https://github.com/open-mmlab/Amphion MM-Grounding-DINO: 轻松涨点, 数据到评测全面开源 Grounding DINO 是一个统一了...2d 开放词汇目标检测和 Phrase Grounding 的检测预训练模型,应用广泛,但是其训练部分并未开源,为此我们提出了 MM-Grounding-DINO。...其不仅作为 Grounding DINO 的开源复现版,MM-Grounding-DINO 基于重新构建的数据类型出发,在探索了不同数据集组合和初始化策略基础上实现了 Grounding DINO 的性能极大提升...,并且从多个维度包括 OOD、REC、Phrase Grounding、OVD 和 Finetune 等方面进行评测,充分挖掘 Grounding 预训练优缺点,希望能为后续工作提供启发。...Neptune,DVCLive 和 Aim 发布 mmengine-lite 包,精简第三方库依赖 MMDetection MMDetection 新版本带来了多项重要的算法更新: 全新开源 MM-Grounding

    29610

    探索Google的Gemini语言模型的API

    Grounding 是另一种技术,它通过将特定于上下文的 data 纳入其处理中来增强 Gemini 提供相关且准确信息的能力。...Grounding 提供以下好处: 减少幻觉:Grounding 通过防止生成非事实内容来最大程度地减少模型幻觉的发生。...锚定响应:Grounding 确保模型响应牢固地锚定在特定信息上,从而增强其相关性和可靠性。 增强可信度和适用性:Grounding 内容更可信且更实用,从而提高用户满意度和对生成输出的信心。...Google 已将 Vertex AI Search 与 Gemini 集成,为 LLM 提供 Grounding 功能。...此外,Gemini 的 Grounding 和函数调用功能极大地扩展了其实用性,使其能够将外部数据源和服务无缝集成到其响应中。

    19710

    Diffusion+目标检测=可控图像生成!华人团队提出GLIGEN,完美控制对象的空间位置

    GLIGEN 基于上述目的和想法,研究人员提出的GLIGEN模型仍然保留文本标题作为输入,但也启用了其他输入模态,如grounding概念的边界框、grounding参考图像和grounding部分的关键点...这里面的关键难题是在学习注入新的grounding信息的同时,还保留预训练模型中原有的大量概念知识。...训练数据 用于生成grounding图像的训练数据需要文本c和grounding实体e作为条件,在实践中可以通过考虑更灵活的输入来放松对数据的要求。...由于名词实体直接取自自然语言的标题,它们可以涵盖更丰富的词汇,有利于开放世界词汇的grounding生成。 2....提出了一种新的text2img生成方法,赋予了现有text2img扩散模型新的grounding可控性; 2.

    72620

    CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

    尽管取得了显著进展,但仍存在两个根本性问题,导致它们在细粒度语言 - 图像对齐(Fine-grained Visual Grounding)方面能力不足: 1....图 2:现有算法的缺陷 在近期一篇 CVPR 2024 工作中,来自清华大学自动化系和博世中央研究院的联合研究团队设计了一种新的辅助任务 Mask Grounding。...论文标题:Mask Grounding for Referring Image Segmentation 论文地址:https://arxiv.org/abs/2312.12198 在 RefCOCO、...1.Mask Grounding 图 3:Mask Grounding 流程图 如图 3 所示,在给定输入图像、对应的指代表达以及分割掩码的情况下,作者随机选取句子中的某些词汇,并将其替换为一个特殊的可学习掩码...虽然 Mask Grounding 需要通过语言编码器进行额外的前向传递来处理被掩码的表达式,但由于语言编码器非常小,整体计算成本几乎可以忽略不计。

    27910

    视觉CV-AIGC一周最新技术精选(2023-11)

    PG-Video-LLaVA: Pixel Grounding Large Video-Language Models https://github.com/mbzuai-oryx/Video-LLaVA...最近将基于图像的LMM扩展到视频的方法要么缺乏grounding定位能力(例如,VideoChat,Video-ChatGPT,Video-LLaMA),要么不利用音频信号来更好地理解视频(例如,Video-ChatGPT...为解决这些问题,提出PG-Video-LLaVA,第一个具有像素级grounding能力的LMM,通过转录音频提示为文本来丰富视频上下文的理解。...框架用一个现成的跟踪器和一个新颖的grounding模块,使其能够根据用户的指令在视频中空间上和时间上定位对象。...使用基于视频的生成和问答基准测试评估了PG-Video-LLaVA,并引入了专门为测量基于提示的视频对象grounding性能而设计的新基准测试。

    30710

    ICCV2021 Oral-新任务!新数据集!康奈尔大学提出了类似VG但又不是VG的PVG任务

    2108.07253 项目链接:https://whoswaldo.github.io/(尚未开源) 导言: 在本文中,作者提出了一个新的任务和基准数据集,Person-centric Visual Grounding...与之前的基于对象的Visual Grounding不同,本文的新任务mask了caption中人的名字,来鼓励模型关注上下文线索,如多个人之间丰富的交互,而不是学习名字和外观之间的联系。...在本文中,作者提出了一个以人为中心的视觉语言Grounding(PVG)任务和基准数据集。文本描述和图像区域之间连接的一般问题被称为Visual Grounding。...传统的Visual Grounding能够根据Object的表达来进行物体的定位,但是如果在PVG任务中也采用这种方式就会产生一定的问题:根据人名来定位会产生一定的偏置(比如性别等)。...除此之外,本文的数据都是在网络上获得,所以相比于传统的Visual Grounding数据,本文的数据更接近真实分布。

    1K30

    Meta「分割一切」超进化版来了!IDEA领衔国内顶尖团队打造:检测、分割、生成一切,狂揽2k星

    而现在,国内研究者基于这个模型想到了新的点子,将强大的零样本目标检测器Grounding DINO与之结合,便能通过文本输入,检测和分割一切。...借助Grounding DINO强大的零样本检测能力,Grounded SAM可以通过文本描述就可以找到图片中的任意物体,然后通过SAM强大的分割能力,细粒度的分割出mas。...这一项目结合了以下模型: · BLIP:强大的图像标注模型 · Grounding DINO:最先进的零样本检测器 · Segment-Anything:强大的零样本分割模型 · Stable-Diffusion...· 全自动标注系统: 首先使用BLIP模型为输入图像生成可靠的标注,然后让Grounding DINO检测标注中的实体,接着使用SAM在其框提示上进行实例分割。...个人主页:http://www.lsl.zone/ 顺便提一句,刘世隆也是今年3月份发布的目标检测模型Grounding DINO的一作。

    71420

    NeurIPS 2022 | 开放域检测新方法DetCLIP,推理效率提升20倍

    现有 SOTA 开放域检测模型 GLIP[3]通过将检测数据的格式转化为 Grounding 数据的格式进行多数据源的联合训练,充分利用不同数据源的优势(检测数据集对常见类别有较为完全的标注,而 Grounding...多数据源并行输入预训练框架 相对于 GLIP 中将 detection 数据通过拼接类别名词的方式转化为 grounding 形式(串行),我们通过将 grounding 数据中的对应名词词组抽取出来和...由于 grounding 数据以及 image-caption 中数据存在 caption 标注不完全的问题(图片上出现的类别在 caption 中并没有出现),导致训练这些图片的时候可以作为负样本的类别数目极少...对于无框标注的 image-text pair 数据,我们通过华为诺亚自研大模型 FILIP[5]和预训练好的 RPN 对其进行标注,使其可以转化为正常的 grounding 数据进行训练。

    92710

    在视觉提示中加入「标记」,微软等让GPT-4V看的更准、分的更细

    然而,尽管 GPT-4V 具有前所未有的视觉语言理解能力,但其细粒度 visual grounding(输入是图片和对应的物体描述,输出是描述物体的 box)能力相对较弱,或者尚未发挥出来。...短语关联(Phrase Grounding):与参考分割略有不同,短语关联使用由多个名词短语组成的完整句子。该研究要求 GPT-4V 为所有标记的短语分配相应的区域。...结果显示,GPT-4V+SoM 击败了 Grounding DINO、Polyformer 等专用模型以及 Shikra、LLaVA-1.5、MiniGPT-v2 和 Ferret 等最近的开源 LMM...接着是 Flickr30K 上的短语关联任务,研究者使用 Grounding DINO 为每个图像生成框建议。...GPT-4V+SoM 实现了比 GLIPv2 和 Grounding DINO 更强的零样本性能。 最后研究者在 DAVIS2017 数据集上评估了视频分割任务。

    37320

    【源头活水】最新月份计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题!

    https://blobgen-2d.github.io/ 目标检测 1、Grounding DINO 1.5: Advance the “Edge” of Open-Set Object Detection...该套件包括两种模型:Grounding DINO 1.5 Pro,一种高性能模型,在广泛的场景中具有更强的泛化能力;Grounding DINO 1.5 Edge,一种高效模型,针对许多需要边缘部署的应用所需的更快速度进行了优化...Grounding DINO 1.5 Pro模型通过扩展模型架构,集成增强的视觉骨干,并将训练数据集扩展到超过2000万张带有注释的图像,从而实现更丰富的语义理解,从而改进了其前身。...Grounding DINO 1.5 Edge模型虽然是为降低特征尺度的效率而设计的,但通过在相同的综合数据集上进行训练,保持了强大的检测能力。

    14110

    ECCV2020 | 即插即用,涨点明显!FPT:特征金字塔Transformer

    在不失一般性的前提下,顶层/底层特征图没有rendering/grounding 转换器。...2)Grounding Transformer(GT)。它是以自上而下的方式,输出与下层特征图具有相同的比例。直观地说,将上层特征图的 "概念 "与下层特征图的 "像素 "接地。...基于MoS的归一化函数Fmos表达式如下: 自变换器可以表达为: 3、Grounding Transformer Grounding Transformer(GT)可以归类为自上而下的非局部non-local...所以我们更倾向于使用euclidean距离Fedu作为相似度函数,其表达方式为: 于是,Grounding Transformer可以表述为: 在特征金字塔中,高/低层次特征图包含大量全局/局部图像信息...Locality-constrained Grounding Transformer。因此,作者引入了局域性GT转换进行语义分割,这是一个明确的局域特征交互作用。

    2.1K21
    领券