首页
学习
活动
专区
圈层
工具
发布

突破边界:探索Grounding-DINO,重新定义视觉与语言的交汇

Grounding-DINO 是一种创新的视觉-语言模型,旨在提升视觉推理和对象检测任务的表现。...Grounding DINO在相同设置下优于GLIP。 Grounding DINO在长尾对象检测任务上表现良好,尤其是在常见对象上,但它在罕见类别上的表现仍有提升空间。...在这个基准测试中,Grounding DINO表现良好。仅使用O365和GoldG进行预训练的Grounding-DINO-T在少量样本和全样本设置上都优于DINO。...结果显示,Grounding DINO在相同的设置下表现优于GLIP。...总结 在这篇论文中,介绍了一个名为Grounding-DINO的模型。Grounding-DINO扩展了DINO模型,使其能够进行开放集对象检测,即能够根据文本查询检测任意对象。

1.5K10

智能饮食:通过基于Grounding DINO的膳食辅助应用程序推进健康信息学

应用程序使用Grounding DINO模型来提高食物识别的准确性,而无需依赖标记数据集,使其适用于多种食物类型。...01、摘要 Smart Dietary Assistant项目结合了技术和机器学习(ML),为患有糖尿病等饮食问题的人提供个性化建议这种方法侧重于用户使用Grounding DIN0模型帮助他们做出饮食决策...应用程序使用Grounding DINO模型来提高食物识别的准确性,而无需依赖标记数据集,使其适用于多种食物类型。...此外,文章还提到该应用程序的系统架构,包括使用Firebase Authentication进行安全登录,Python和Django作为后端处理,TensorFlow用于机器学习任务,特别是使用Grounding...• 先进食物识别:使用Grounding DINO模型提高食物识别准确性,无需标记数据集。 • 数据安全与隐私:采用PostgreSQL数据库和AES加密,确保数据完整性和用户隐私。

37410
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    全新的多模态预训练范式:微软提出GLIP统一了对象检测和短语定位任务

    这有两个好处: GLIP可以同时从 detection 和 grounding 数据中训练学习,以改进两种任务,训练一个优秀的 grounding 模型; GLIP可以通过 self-training...主要贡献 「1、Unifying detection and grounding by reformulating object detection as phrase grounding」 改变了检测模型的输入...「Object detection as phrase grounding」 作者不是将每个 region/box 分类为c类,而是将检测任务重新定义为一个 grounding 任务,通过将每个 region...「Equivalence between detection and grounding」 通过上述方法,将任意detection  模型转化为grounding模型,且理论上训练和推理都是等价的。...c、Pre-training with Scalable Semantic-Rich Data GLIP模型可以在检测和更重要的grounding数据上进行训练,作者表明,grounding数据可以提供丰富的语义

    3.6K30

    突破高分辨率图像推理瓶颈,复旦联合南洋理工提出基于视觉Grounding的多轮强化学习框架MGPO

    相比监督微调(SFT)需要昂贵的 Grounding 标注作为监督,MGPO 证明了在强化学习(RL)范式中,即使没有 Grounding 标注,模型也能从 「最终答案是否正确」的反馈中,涌现出鲁棒的视觉...Grounding 能力。...但传统视觉 Grounding 模型需依赖大量 Grounding 标注进行训练,而此类标注成本较高。...2.RL 训练过程中视觉 Grounding 能力的涌现 我们统计了 GRPO 与 MGPO 两种 RL 框架训练过程中,模型生成的有效 Grounding 坐标比例。...同时,实验证明了,相比 SFT 需要昂贵的 Grounding 标注,RL 算法可以仅通过最终答案的奖励反馈,使得模型自主涌现出鲁棒的 Grounding 能力,避免了对昂贵 Grounding 标注的依赖

    20910

    AAAI-2024 | Mono3DVG:首个基于单目RGB图像实现3D Visual Grounding的方法

    关注公众号,发现CV技术之美 本文分享论文Mono3DVG: 3D Visual Grounding in Monocular Images,该论文已被 AAAI 2024 接收,数据集和代码已开源。...然而,现有的2D Visual Grounding无法捕捉指代物体的真实3D范围。...3D Visual Grounding又需要激光雷达或RGB-D传感器,由于昂贵的成本和设备限制,极大地限制了其应用场景。单目3D目标检测成本低、适用性强,但无法定位特定目标。...本文提出一种新的任务,用具有外观和模糊的几何信息的语言描述在单目RGB图像中实现3D Visual Grounding。 数据集 为解决Mono3DVG任务,本文创建了Mono3DRefer数据集。...具体由多模态特征编码器、双文本引导适配器、Grounding解码器和Grounding头组成。

    96010

    CV领域不断突破,原创成果连连!音频领域初探自带光环!OpenMMLab季报报告请收好

    项目地址: https://github.com/open-mmlab/Amphion MM-Grounding-DINO: 轻松涨点, 数据到评测全面开源 Grounding DINO 是一个统一了...2d 开放词汇目标检测和 Phrase Grounding 的检测预训练模型,应用广泛,但是其训练部分并未开源,为此我们提出了 MM-Grounding-DINO。...其不仅作为 Grounding DINO 的开源复现版,MM-Grounding-DINO 基于重新构建的数据类型出发,在探索了不同数据集组合和初始化策略基础上实现了 Grounding DINO 的性能极大提升...,并且从多个维度包括 OOD、REC、Phrase Grounding、OVD 和 Finetune 等方面进行评测,充分挖掘 Grounding 预训练优缺点,希望能为后续工作提供启发。...Neptune,DVCLive 和 Aim 发布 mmengine-lite 包,精简第三方库依赖 MMDetection MMDetection 新版本带来了多项重要的算法更新: 全新开源 MM-Grounding

    55910

    Diffusion+目标检测=可控图像生成!华人团队提出GLIGEN,完美控制对象的空间位置

    GLIGEN 基于上述目的和想法,研究人员提出的GLIGEN模型仍然保留文本标题作为输入,但也启用了其他输入模态,如grounding概念的边界框、grounding参考图像和grounding部分的关键点...这里面的关键难题是在学习注入新的grounding信息的同时,还保留预训练模型中原有的大量概念知识。...训练数据 用于生成grounding图像的训练数据需要文本c和grounding实体e作为条件,在实践中可以通过考虑更灵活的输入来放松对数据的要求。...由于名词实体直接取自自然语言的标题,它们可以涵盖更丰富的词汇,有利于开放世界词汇的grounding生成。 2....提出了一种新的text2img生成方法,赋予了现有text2img扩散模型新的grounding可控性; 2.

    97620

    探索Google的Gemini语言模型的API

    Grounding 是另一种技术,它通过将特定于上下文的 data 纳入其处理中来增强 Gemini 提供相关且准确信息的能力。...Grounding 提供以下好处: 减少幻觉:Grounding 通过防止生成非事实内容来最大程度地减少模型幻觉的发生。...锚定响应:Grounding 确保模型响应牢固地锚定在特定信息上,从而增强其相关性和可靠性。 增强可信度和适用性:Grounding 内容更可信且更实用,从而提高用户满意度和对生成输出的信心。...Google 已将 Vertex AI Search 与 Gemini 集成,为 LLM 提供 Grounding 功能。...此外,Gemini 的 Grounding 和函数调用功能极大地扩展了其实用性,使其能够将外部数据源和服务无缝集成到其响应中。

    81010

    让「幻觉」无处遁形!谷歌DeepMind全新基准,三代Gemini同台霸榜

    最近,谷歌的研究人员发布了一个全新的基准测试FACTS Grounding,可以评估语言模型在给定上下文的情况下,生成事实准确文本的能力,其中每条数据的输入都包括一个用户请求和一个完整的文档,最大长度为...论文链接:https://goo.gle/FACTS_paper 数据链接:https://www.kaggle.com/datasets/deepmind/facts-grounding-examples...FACTS Grounding在Kaggle上有一个在线排行榜,实时维护,目前gemini以较大优势领先。...榜单链接:https://www.kaggle.com/facts-leaderboard 数据构建 FACTS Grounding的样本被划分为Public集合(860条)和Private集合(859...对非新颖文档的新颖请求做出回复是语言模型的一个重要用例,而事实grounding也是其中不可或缺的一部分。目前可用的事实性基准测试只是重新利用了可能已经被污染的学术任务。

    24410

    GUI Agent 借鉴R1-Zero范式:结合在线RL与思维链推理,三策略突破GUIAgent定位性能瓶颈 !

    综上所述,本文的贡献如下: (1)作者识别出R1风格GUI Agent R1-Zero-Like训练流程中的三个挑战:由于grounding依赖于图像token,较长的推理会损害grounding;常见的...(3)仅使用17K个完全开源的grounding样本进行训练,作者的GUI-G1-3B在测试时使用更少的token即达到了当前最佳性能。...更长的推理会导致更差的 grounding 性能。...这表明更长的链不仅是不必要的,而且在 GUI grounding 中可能会越来越有害,尤其是在要 grounding 的目标项是文本时。 定位受益于适当缩放的图像 Token ,而非缩放的文本推理。...为了更清晰地展示差异,表3提供了GUI-G1与现有R1风格GUI Agent 在 grounding 任务中的结构化比较。

    55010

    GUI定位还在玩「非黑即白」?浙大&蚂蚁提出GUI-G²,显著提升GUI智能体定位性能

    但要实现这一切,有一个关键技术环节不能忽视:GUI Grounding(图形界面定位)。这是 GUI 智能体的 "眼睛" 和 "手",负责将自然语言指令精确映射到屏幕上的具体像素位置。...就像人类看到 "点击保存按钮" 时能迅速定位并操作一样,GUI Grounding 让 AI 能够 "看懂" 界面并知道该点击哪里。 然而,这个看似简单的任务实际上充满挑战。...现有的 GUI Grounding 方法普遍存在一个致命缺陷:它们把复杂的空间交互简化成了 "非黑即白" 的二元判断。...正是在这样的背景下,一个关键问题摆在了研究者面前: “GUI Grounding 是否有更适合该任务特性的奖励机制?”...来自浙江大学的研究团队提出新方法 ——GUI-G²(GUI Gaussian Grounding Rewards),一个将 GUI 交互从离散的 "打靶游戏" 转变为连续的 "空间建模" 的全新方案。

    23810

    CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

    尽管取得了显著进展,但仍存在两个根本性问题,导致它们在细粒度语言 - 图像对齐(Fine-grained Visual Grounding)方面能力不足: 1....图 2:现有算法的缺陷 在近期一篇 CVPR 2024 工作中,来自清华大学自动化系和博世中央研究院的联合研究团队设计了一种新的辅助任务 Mask Grounding。...论文标题:Mask Grounding for Referring Image Segmentation 论文地址:https://arxiv.org/abs/2312.12198 在 RefCOCO、...1.Mask Grounding 图 3:Mask Grounding 流程图 如图 3 所示,在给定输入图像、对应的指代表达以及分割掩码的情况下,作者随机选取句子中的某些词汇,并将其替换为一个特殊的可学习掩码...虽然 Mask Grounding 需要通过语言编码器进行额外的前向传递来处理被掩码的表达式,但由于语言编码器非常小,整体计算成本几乎可以忽略不计。

    55510

    在视觉提示中加入「标记」,微软等让GPT-4V看的更准、分的更细

    然而,尽管 GPT-4V 具有前所未有的视觉语言理解能力,但其细粒度 visual grounding(输入是图片和对应的物体描述,输出是描述物体的 box)能力相对较弱,或者尚未发挥出来。...短语关联(Phrase Grounding):与参考分割略有不同,短语关联使用由多个名词短语组成的完整句子。该研究要求 GPT-4V 为所有标记的短语分配相应的区域。...结果显示,GPT-4V+SoM 击败了 Grounding DINO、Polyformer 等专用模型以及 Shikra、LLaVA-1.5、MiniGPT-v2 和 Ferret 等最近的开源 LMM...接着是 Flickr30K 上的短语关联任务,研究者使用 Grounding DINO 为每个图像生成框建议。...GPT-4V+SoM 实现了比 GLIPv2 和 Grounding DINO 更强的零样本性能。 最后研究者在 DAVIS2017 数据集上评估了视频分割任务。

    49620

    NeurIPS 2022 | 开放域检测新方法DetCLIP,推理效率提升20倍

    现有 SOTA 开放域检测模型 GLIP[3]通过将检测数据的格式转化为 Grounding 数据的格式进行多数据源的联合训练,充分利用不同数据源的优势(检测数据集对常见类别有较为完全的标注,而 Grounding...多数据源并行输入预训练框架 相对于 GLIP 中将 detection 数据通过拼接类别名词的方式转化为 grounding 形式(串行),我们通过将 grounding 数据中的对应名词词组抽取出来和...由于 grounding 数据以及 image-caption 中数据存在 caption 标注不完全的问题(图片上出现的类别在 caption 中并没有出现),导致训练这些图片的时候可以作为负样本的类别数目极少...对于无框标注的 image-text pair 数据,我们通过华为诺亚自研大模型 FILIP[5]和预训练好的 RPN 对其进行标注,使其可以转化为正常的 grounding 数据进行训练。

    1.1K10
    领券