首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

突破边界:探索Grounding-DINO,重新定义视觉与语言的交汇

Grounding-DINO 是一种创新的视觉-语言模型,旨在提升视觉推理和对象检测任务的表现。...Grounding DINO在相同设置下优于GLIP。 Grounding DINO在长尾对象检测任务上表现良好,尤其是在常见对象上,但它在罕见类别上的表现仍有提升空间。...在这个基准测试中,Grounding DINO表现良好。仅使用O365和GoldG进行预训练的Grounding-DINO-T在少量样本和全样本设置上都优于DINO。...结果显示,Grounding DINO在相同的设置下表现优于GLIP。...总结 在这篇论文中,介绍了一个名为Grounding-DINO的模型。Grounding-DINO扩展了DINO模型,使其能够进行开放集对象检测,即能够根据文本查询检测任意对象。

34710

智能饮食:通过基于Grounding DINO的膳食辅助应用程序推进健康信息学

应用程序使用Grounding DINO模型来提高食物识别的准确性,而无需依赖标记数据集,使其适用于多种食物类型。...01、摘要 Smart Dietary Assistant项目结合了技术和机器学习(ML),为患有糖尿病等饮食问题的人提供个性化建议这种方法侧重于用户使用Grounding DIN0模型帮助他们做出饮食决策...应用程序使用Grounding DINO模型来提高食物识别的准确性,而无需依赖标记数据集,使其适用于多种食物类型。...此外,文章还提到该应用程序的系统架构,包括使用Firebase Authentication进行安全登录,Python和Django作为后端处理,TensorFlow用于机器学习任务,特别是使用Grounding...• 先进食物识别:使用Grounding DINO模型提高食物识别准确性,无需标记数据集。 • 数据安全与隐私:采用PostgreSQL数据库和AES加密,确保数据完整性和用户隐私。

17110
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    全新的多模态预训练范式:微软提出GLIP统一了对象检测和短语定位任务

    这有两个好处: GLIP可以同时从 detection 和 grounding 数据中训练学习,以改进两种任务,训练一个优秀的 grounding 模型; GLIP可以通过 self-training...主要贡献 「1、Unifying detection and grounding by reformulating object detection as phrase grounding」 改变了检测模型的输入...「Object detection as phrase grounding」 作者不是将每个 region/box 分类为c类,而是将检测任务重新定义为一个 grounding 任务,通过将每个 region...「Equivalence between detection and grounding」 通过上述方法,将任意detection  模型转化为grounding模型,且理论上训练和推理都是等价的。...c、Pre-training with Scalable Semantic-Rich Data GLIP模型可以在检测和更重要的grounding数据上进行训练,作者表明,grounding数据可以提供丰富的语义

    3.2K30

    AAAI-2024 | Mono3DVG:首个基于单目RGB图像实现3D Visual Grounding的方法

    关注公众号,发现CV技术之美 本文分享论文Mono3DVG: 3D Visual Grounding in Monocular Images,该论文已被 AAAI 2024 接收,数据集和代码已开源。...然而,现有的2D Visual Grounding无法捕捉指代物体的真实3D范围。...3D Visual Grounding又需要激光雷达或RGB-D传感器,由于昂贵的成本和设备限制,极大地限制了其应用场景。单目3D目标检测成本低、适用性强,但无法定位特定目标。...本文提出一种新的任务,用具有外观和模糊的几何信息的语言描述在单目RGB图像中实现3D Visual Grounding。 数据集 为解决Mono3DVG任务,本文创建了Mono3DRefer数据集。...具体由多模态特征编码器、双文本引导适配器、Grounding解码器和Grounding头组成。

    69710

    CV领域不断突破,原创成果连连!音频领域初探自带光环!OpenMMLab季报报告请收好

    项目地址: https://github.com/open-mmlab/Amphion MM-Grounding-DINO: 轻松涨点, 数据到评测全面开源 Grounding DINO 是一个统一了...2d 开放词汇目标检测和 Phrase Grounding 的检测预训练模型,应用广泛,但是其训练部分并未开源,为此我们提出了 MM-Grounding-DINO。...其不仅作为 Grounding DINO 的开源复现版,MM-Grounding-DINO 基于重新构建的数据类型出发,在探索了不同数据集组合和初始化策略基础上实现了 Grounding DINO 的性能极大提升...,并且从多个维度包括 OOD、REC、Phrase Grounding、OVD 和 Finetune 等方面进行评测,充分挖掘 Grounding 预训练优缺点,希望能为后续工作提供启发。...Neptune,DVCLive 和 Aim 发布 mmengine-lite 包,精简第三方库依赖 MMDetection MMDetection 新版本带来了多项重要的算法更新: 全新开源 MM-Grounding

    37410

    Diffusion+目标检测=可控图像生成!华人团队提出GLIGEN,完美控制对象的空间位置

    GLIGEN 基于上述目的和想法,研究人员提出的GLIGEN模型仍然保留文本标题作为输入,但也启用了其他输入模态,如grounding概念的边界框、grounding参考图像和grounding部分的关键点...这里面的关键难题是在学习注入新的grounding信息的同时,还保留预训练模型中原有的大量概念知识。...训练数据 用于生成grounding图像的训练数据需要文本c和grounding实体e作为条件,在实践中可以通过考虑更灵活的输入来放松对数据的要求。...由于名词实体直接取自自然语言的标题,它们可以涵盖更丰富的词汇,有利于开放世界词汇的grounding生成。 2....提出了一种新的text2img生成方法,赋予了现有text2img扩散模型新的grounding可控性; 2.

    78720

    探索Google的Gemini语言模型的API

    Grounding 是另一种技术,它通过将特定于上下文的 data 纳入其处理中来增强 Gemini 提供相关且准确信息的能力。...Grounding 提供以下好处: 减少幻觉:Grounding 通过防止生成非事实内容来最大程度地减少模型幻觉的发生。...锚定响应:Grounding 确保模型响应牢固地锚定在特定信息上,从而增强其相关性和可靠性。 增强可信度和适用性:Grounding 内容更可信且更实用,从而提高用户满意度和对生成输出的信心。...Google 已将 Vertex AI Search 与 Gemini 集成,为 LLM 提供 Grounding 功能。...此外,Gemini 的 Grounding 和函数调用功能极大地扩展了其实用性,使其能够将外部数据源和服务无缝集成到其响应中。

    31010

    CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

    尽管取得了显著进展,但仍存在两个根本性问题,导致它们在细粒度语言 - 图像对齐(Fine-grained Visual Grounding)方面能力不足: 1....图 2:现有算法的缺陷 在近期一篇 CVPR 2024 工作中,来自清华大学自动化系和博世中央研究院的联合研究团队设计了一种新的辅助任务 Mask Grounding。...论文标题:Mask Grounding for Referring Image Segmentation 论文地址:https://arxiv.org/abs/2312.12198 在 RefCOCO、...1.Mask Grounding 图 3:Mask Grounding 流程图 如图 3 所示,在给定输入图像、对应的指代表达以及分割掩码的情况下,作者随机选取句子中的某些词汇,并将其替换为一个特殊的可学习掩码...虽然 Mask Grounding 需要通过语言编码器进行额外的前向传递来处理被掩码的表达式,但由于语言编码器非常小,整体计算成本几乎可以忽略不计。

    38810

    视觉CV-AIGC一周最新技术精选(2023-11)

    PG-Video-LLaVA: Pixel Grounding Large Video-Language Models https://github.com/mbzuai-oryx/Video-LLaVA...最近将基于图像的LMM扩展到视频的方法要么缺乏grounding定位能力(例如,VideoChat,Video-ChatGPT,Video-LLaMA),要么不利用音频信号来更好地理解视频(例如,Video-ChatGPT...为解决这些问题,提出PG-Video-LLaVA,第一个具有像素级grounding能力的LMM,通过转录音频提示为文本来丰富视频上下文的理解。...框架用一个现成的跟踪器和一个新颖的grounding模块,使其能够根据用户的指令在视频中空间上和时间上定位对象。...使用基于视频的生成和问答基准测试评估了PG-Video-LLaVA,并引入了专门为测量基于提示的视频对象grounding性能而设计的新基准测试。

    32710

    让「幻觉」无处遁形!谷歌DeepMind全新基准,三代Gemini同台霸榜

    最近,谷歌的研究人员发布了一个全新的基准测试FACTS Grounding,可以评估语言模型在给定上下文的情况下,生成事实准确文本的能力,其中每条数据的输入都包括一个用户请求和一个完整的文档,最大长度为...论文链接:https://goo.gle/FACTS_paper 数据链接:https://www.kaggle.com/datasets/deepmind/facts-grounding-examples...FACTS Grounding在Kaggle上有一个在线排行榜,实时维护,目前gemini以较大优势领先。...榜单链接:https://www.kaggle.com/facts-leaderboard 数据构建 FACTS Grounding的样本被划分为Public集合(860条)和Private集合(859...对非新颖文档的新颖请求做出回复是语言模型的一个重要用例,而事实grounding也是其中不可或缺的一部分。目前可用的事实性基准测试只是重新利用了可能已经被污染的学术任务。

    12310

    ICCV2021 Oral-新任务!新数据集!康奈尔大学提出了类似VG但又不是VG的PVG任务

    2108.07253 项目链接:https://whoswaldo.github.io/(尚未开源) 导言: 在本文中,作者提出了一个新的任务和基准数据集,Person-centric Visual Grounding...与之前的基于对象的Visual Grounding不同,本文的新任务mask了caption中人的名字,来鼓励模型关注上下文线索,如多个人之间丰富的交互,而不是学习名字和外观之间的联系。...在本文中,作者提出了一个以人为中心的视觉语言Grounding(PVG)任务和基准数据集。文本描述和图像区域之间连接的一般问题被称为Visual Grounding。...传统的Visual Grounding能够根据Object的表达来进行物体的定位,但是如果在PVG任务中也采用这种方式就会产生一定的问题:根据人名来定位会产生一定的偏置(比如性别等)。...除此之外,本文的数据都是在网络上获得,所以相比于传统的Visual Grounding数据,本文的数据更接近真实分布。

    1.1K30

    Meta「分割一切」超进化版来了!IDEA领衔国内顶尖团队打造:检测、分割、生成一切,狂揽2k星

    而现在,国内研究者基于这个模型想到了新的点子,将强大的零样本目标检测器Grounding DINO与之结合,便能通过文本输入,检测和分割一切。...借助Grounding DINO强大的零样本检测能力,Grounded SAM可以通过文本描述就可以找到图片中的任意物体,然后通过SAM强大的分割能力,细粒度的分割出mas。...这一项目结合了以下模型: · BLIP:强大的图像标注模型 · Grounding DINO:最先进的零样本检测器 · Segment-Anything:强大的零样本分割模型 · Stable-Diffusion...· 全自动标注系统: 首先使用BLIP模型为输入图像生成可靠的标注,然后让Grounding DINO检测标注中的实体,接着使用SAM在其框提示上进行实例分割。...个人主页:http://www.lsl.zone/ 顺便提一句,刘世隆也是今年3月份发布的目标检测模型Grounding DINO的一作。

    75220

    NeurIPS 2022 | 开放域检测新方法DetCLIP,推理效率提升20倍

    现有 SOTA 开放域检测模型 GLIP[3]通过将检测数据的格式转化为 Grounding 数据的格式进行多数据源的联合训练,充分利用不同数据源的优势(检测数据集对常见类别有较为完全的标注,而 Grounding...多数据源并行输入预训练框架 相对于 GLIP 中将 detection 数据通过拼接类别名词的方式转化为 grounding 形式(串行),我们通过将 grounding 数据中的对应名词词组抽取出来和...由于 grounding 数据以及 image-caption 中数据存在 caption 标注不完全的问题(图片上出现的类别在 caption 中并没有出现),导致训练这些图片的时候可以作为负样本的类别数目极少...对于无框标注的 image-text pair 数据,我们通过华为诺亚自研大模型 FILIP[5]和预训练好的 RPN 对其进行标注,使其可以转化为正常的 grounding 数据进行训练。

    97610

    在视觉提示中加入「标记」,微软等让GPT-4V看的更准、分的更细

    然而,尽管 GPT-4V 具有前所未有的视觉语言理解能力,但其细粒度 visual grounding(输入是图片和对应的物体描述,输出是描述物体的 box)能力相对较弱,或者尚未发挥出来。...短语关联(Phrase Grounding):与参考分割略有不同,短语关联使用由多个名词短语组成的完整句子。该研究要求 GPT-4V 为所有标记的短语分配相应的区域。...结果显示,GPT-4V+SoM 击败了 Grounding DINO、Polyformer 等专用模型以及 Shikra、LLaVA-1.5、MiniGPT-v2 和 Ferret 等最近的开源 LMM...接着是 Flickr30K 上的短语关联任务,研究者使用 Grounding DINO 为每个图像生成框建议。...GPT-4V+SoM 实现了比 GLIPv2 和 Grounding DINO 更强的零样本性能。 最后研究者在 DAVIS2017 数据集上评估了视频分割任务。

    40420
    领券
    首页
    学习
    活动
    专区
    圈层
    工具
    MCP广场