grounding - 腾讯云开发者社区

文章/答案/技术大牛

发布

AAAI 2026 Oral｜InfiGUI-G1模型来了，刷新GUI Grounding SOTA

然而，在通往通用计算机控制的道路上，如何让模型精准地将自然语言指令对应到屏幕上的具体元素 —— 即 GUI Grounding 任务，依然是一大难题。...论文标题：InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization 论文链接：https://...arxiv.org/abs/2508.05731 代码链接：https://github.com/InfiXAI/InfiGUI-G1 从 “空间对齐” 到 “语义对齐”：被忽视的探索瓶颈 GUI Grounding...GUI Grounding 的主要失败模式： (a) 空间对齐失败，(b) 语义对齐失败 InfiGUI-G1：自适应探索策略优化（AEPO）为了解决这一探索效率低下的问题，InfiGUI-G1 引入了...通过引入自适应探索机制，InfiGUI-G1 以极高的数据效率和较小的模型规模，实现了超越大模型的 GUI Grounding 能力。

1161 0

突破边界：探索Grounding-DINO，重新定义视觉与语言的交汇

Grounding-DINO 是一种创新的视觉-语言模型，旨在提升视觉推理和对象检测任务的表现。...Grounding DINO在相同设置下优于GLIP。 Grounding DINO在长尾对象检测任务上表现良好，尤其是在常见对象上，但它在罕见类别上的表现仍有提升空间。...在这个基准测试中，Grounding DINO表现良好。仅使用O365和GoldG进行预训练的Grounding-DINO-T在少量样本和全样本设置上都优于DINO。...结果显示，Grounding DINO在相同的设置下表现优于GLIP。...总结在这篇论文中，介绍了一个名为Grounding-DINO的模型。Grounding-DINO扩展了DINO模型，使其能够进行开放集对象检测，即能够根据文本查询检测任意对象。

1.9K1 0

您找到你想要的搜索结果了吗？

是的

没有找到

智能饮食：通过基于Grounding DINO的膳食辅助应用程序推进健康信息学

应用程序使用Grounding DINO模型来提高食物识别的准确性，而无需依赖标记数据集，使其适用于多种食物类型。...01、摘要 Smart Dietary Assistant项目结合了技术和机器学习(ML)，为患有糖尿病等饮食问题的人提供个性化建议这种方法侧重于用户使用Grounding DIN0模型帮助他们做出饮食决策...应用程序使用Grounding DINO模型来提高食物识别的准确性，而无需依赖标记数据集，使其适用于多种食物类型。...此外，文章还提到该应用程序的系统架构，包括使用Firebase Authentication进行安全登录，Python和Django作为后端处理，TensorFlow用于机器学习任务，特别是使用Grounding...• 先进食物识别：使用Grounding DINO模型提高食物识别准确性，无需标记数据集。 • 数据安全与隐私：采用PostgreSQL数据库和AES加密，确保数据完整性和用户隐私。

4251 0

全新的多模态预训练范式：微软提出GLIP统一了对象检测和短语定位任务

这有两个好处： GLIP可以同时从 detection 和 grounding 数据中训练学习，以改进两种任务，训练一个优秀的 grounding 模型； GLIP可以通过 self-training...主要贡献「1、Unifying detection and grounding by reformulating object detection as phrase grounding」改变了检测模型的输入...「Object detection as phrase grounding」作者不是将每个 region/box 分类为c类，而是将检测任务重新定义为一个 grounding 任务，通过将每个 region...「Equivalence between detection and grounding」通过上述方法，将任意detection 模型转化为grounding模型，且理论上训练和推理都是等价的。...c、Pre-training with Scalable Semantic-Rich Data GLIP模型可以在检测和更重要的grounding数据上进行训练，作者表明，grounding数据可以提供丰富的语义

3.7K3 0

AAAI-2024 | Mono3DVG：首个基于单目RGB图像实现3D Visual Grounding的方法

关注公众号，发现CV技术之美本文分享论文Mono3DVG: 3D Visual Grounding in Monocular Images，该论文已被 AAAI 2024 接收，数据集和代码已开源。...然而，现有的2D Visual Grounding无法捕捉指代物体的真实3D范围。...3D Visual Grounding又需要激光雷达或RGB-D传感器，由于昂贵的成本和设备限制，极大地限制了其应用场景。单目3D目标检测成本低、适用性强，但无法定位特定目标。...本文提出一种新的任务，用具有外观和模糊的几何信息的语言描述在单目RGB图像中实现3D Visual Grounding。数据集为解决Mono3DVG任务，本文创建了Mono3DRefer数据集。...具体由多模态特征编码器、双文本引导适配器、Grounding解码器和Grounding头组成。

1K1 0

突破高分辨率图像推理瓶颈，复旦联合南洋理工提出基于视觉Grounding的多轮强化学习框架MGPO

相比监督微调（SFT）需要昂贵的 Grounding 标注作为监督，MGPO 证明了在强化学习（RL）范式中，即使没有 Grounding 标注，模型也能从「最终答案是否正确」的反馈中，涌现出鲁棒的视觉...Grounding 能力。...但传统视觉 Grounding 模型需依赖大量 Grounding 标注进行训练，而此类标注成本较高。...2.RL 训练过程中视觉 Grounding 能力的涌现我们统计了 GRPO 与 MGPO 两种 RL 框架训练过程中，模型生成的有效 Grounding 坐标比例。...同时，实验证明了，相比 SFT 需要昂贵的 Grounding 标注，RL 算法可以仅通过最终答案的奖励反馈，使得模型自主涌现出鲁棒的 Grounding 能力，避免了对昂贵 Grounding 标注的依赖

2771 0

国科大&港中文提出带视觉语言验证和迭代推理的Visual Grounding框架，性能SOTA，代码已开源！（CVPR2022）

02 Motivation Visual grounding的目的是通过自然语言的表达来定位图像中所指的对象或区域。...因此，为了避免推理中的歧义，充分利用文本信息并为Visual grounding建模有区别的视觉特征至关重要。...现有的方法，无论是两阶段的还是一阶段的，都将Visual grounding视为检测到的候选区域的排序问题。...受此启发，TransVG提出了一种基于Transformer的Visual grounding框架。...因此，作者提出为准确的Visual grounding建立一个更专门的框架。

1.1K2 0

CPT：刷爆少样本REC任务！清华刘知远团队提出跨模态预训练Prompt Tuning

因此，需要大量的标记数据来激发VL-PTM对下游任务的Visual Grounding能力。...因此，微调VL-PTM需要大量的标记样本来激发模型visual grounding的能力。 2.2....如上图所示，作者将visual grounding定义为了一个填空问题。...Image Region Batching 在Visual Grounding中，图像中区域proposal的数量通常超过的大小。此外，作者观察到严重重叠的色块会阻碍Visual Grounding。...实验结果证明了CPT在零样本和少样本的Visual Grounding任务上的有效性。然而，尽管它在Visual Grounding方面的性能很不错，但CPT有几个局限性: 颜色干扰。

1.4K2 0

CV领域不断突破，原创成果连连！音频领域初探自带光环！OpenMMLab季报报告请收好

项目地址: https://github.com/open-mmlab/Amphion MM-Grounding-DINO: 轻松涨点，数据到评测全面开源 Grounding DINO 是一个统一了...2d 开放词汇目标检测和 Phrase Grounding 的检测预训练模型，应用广泛，但是其训练部分并未开源，为此我们提出了 MM-Grounding-DINO。...其不仅作为 Grounding DINO 的开源复现版，MM-Grounding-DINO 基于重新构建的数据类型出发，在探索了不同数据集组合和初始化策略基础上实现了 Grounding DINO 的性能极大提升...，并且从多个维度包括 OOD、REC、Phrase Grounding、OVD 和 Finetune 等方面进行评测，充分挖掘 Grounding 预训练优缺点，希望能为后续工作提供启发。...Neptune，DVCLive 和 Aim 发布 mmengine-lite 包，精简第三方库依赖 MMDetection MMDetection 新版本带来了多项重要的算法更新：全新开源 MM-Grounding

6101 0

激发创新，助力研究：CogVLM，强大且开源的视觉语言模型亮相

, **World Knowledge**, **Referring Expression Comprehension**, **Programming with Visual Input**, **Grounding...with Caption**, **Grounding Visual Question Answering**, etc....from_pretrained cogvlm-chat --version chat --english --bf16python web_demo.py --from_pretrained cogvlm-grounding-generalist...cogvlm-grounding-generalist 这个权重支持不同的视觉定位任务，例如 REC、Grounding Captioning 等。...from_pretrained cogvlm-chat --version chat --english --bf16python cli_demo.py --from_pretrained cogvlm-grounding-generalist

7043 0

Diffusion+目标检测=可控图像生成！华人团队提出GLIGEN，完美控制对象的空间位置

GLIGEN 基于上述目的和想法，研究人员提出的GLIGEN模型仍然保留文本标题作为输入，但也启用了其他输入模态，如grounding概念的边界框、grounding参考图像和grounding部分的关键点...这里面的关键难题是在学习注入新的grounding信息的同时，还保留预训练模型中原有的大量概念知识。...训练数据用于生成grounding图像的训练数据需要文本c和grounding实体e作为条件，在实践中可以通过考虑更灵活的输入来放松对数据的要求。...由于名词实体直接取自自然语言的标题，它们可以涵盖更丰富的词汇，有利于开放世界词汇的grounding生成。 2....提出了一种新的text2img生成方法，赋予了现有text2img扩散模型新的grounding可控性； 2.

1K2 0

微软提出：多模态视觉语言理解和视觉定位的大一统

该模型对open-vocabulary对象检测任务具有很强的zero/few-shot适应能力，对VL理解任务也具有很强的grounding能力。...因此，作者将Localization任务重新定义为VL grounding任务，其中语言输入是一个由类别名称拼接的合成的sentence。...大规模的VL understanding数据(图像文本对)可以通过self-training的方式转化为VL grounding数据，因此，GLIPv2具有统一的预训练过程：将所有任务的数据转化为grounding...，实现了detection与grounding的统一。...One Set of Model Parameters for All 预训练的GLIPv2可以在任何对象检测任务和visual grounding任务上直接推理，而无需进一步微调。

1.4K2 0

探索Google的Gemini语言模型的API

Grounding 是另一种技术，它通过将特定于上下文的 data 纳入其处理中来增强 Gemini 提供相关且准确信息的能力。...Grounding 提供以下好处：减少幻觉：Grounding 通过防止生成非事实内容来最大程度地减少模型幻觉的发生。...锚定响应：Grounding 确保模型响应牢固地锚定在特定信息上，从而增强其相关性和可靠性。增强可信度和适用性：Grounding 内容更可信且更实用，从而提高用户满意度和对生成输出的信心。...Google 已将 Vertex AI Search 与 Gemini 集成，为 LLM 提供 Grounding 功能。...此外，Gemini 的 Grounding 和函数调用功能极大地扩展了其实用性，使其能够将外部数据源和服务无缝集成到其响应中。

1K1 0

CVPR 2024 | 擅长处理复杂场景和语言表达，清华&博世提出全新实例分割网络架构MagNet

尽管取得了显著进展，但仍存在两个根本性问题，导致它们在细粒度语言 - 图像对齐（Fine-grained Visual Grounding）方面能力不足： 1....图 2：现有算法的缺陷在近期一篇 CVPR 2024 工作中，来自清华大学自动化系和博世中央研究院的联合研究团队设计了一种新的辅助任务 Mask Grounding。...论文标题：Mask Grounding for Referring Image Segmentation 论文地址：https://arxiv.org/abs/2312.12198 在 RefCOCO、...1.Mask Grounding 图 3：Mask Grounding 流程图如图 3 所示，在给定输入图像、对应的指代表达以及分割掩码的情况下，作者随机选取句子中的某些词汇，并将其替换为一个特殊的可学习掩码...虽然 Mask Grounding 需要通过语言编码器进行额外的前向传递来处理被掩码的表达式，但由于语言编码器非常小，整体计算成本几乎可以忽略不计。

6031 0

GUI Agent 借鉴R1-Zero范式：结合在线RL与思维链推理，三策略突破GUIAgent定位性能瓶颈！

综上所述，本文的贡献如下：（1）作者识别出R1风格GUI Agent R1-Zero-Like训练流程中的三个挑战：由于grounding依赖于图像token，较长的推理会损害grounding；常见的...（3）仅使用17K个完全开源的grounding样本进行训练，作者的GUI-G1-3B在测试时使用更少的token即达到了当前最佳性能。...更长的推理会导致更差的 grounding 性能。...这表明更长的链不仅是不必要的，而且在 GUI grounding 中可能会越来越有害，尤其是在要 grounding 的目标项是文本时。定位受益于适当缩放的图像 Token ，而非缩放的文本推理。...为了更清晰地展示差异，表3提供了GUI-G1与现有R1风格GUI Agent 在 grounding 任务中的结构化比较。

6591 0

GUI定位还在玩「非黑即白」？浙大&蚂蚁提出GUI-G²，显著提升GUI智能体定位性能

但要实现这一切，有一个关键技术环节不能忽视：GUI Grounding（图形界面定位）。这是 GUI 智能体的 "眼睛" 和 "手"，负责将自然语言指令精确映射到屏幕上的具体像素位置。...就像人类看到 "点击保存按钮" 时能迅速定位并操作一样，GUI Grounding 让 AI 能够 "看懂" 界面并知道该点击哪里。然而，这个看似简单的任务实际上充满挑战。...现有的 GUI Grounding 方法普遍存在一个致命缺陷：它们把复杂的空间交互简化成了 "非黑即白" 的二元判断。...正是在这样的背景下，一个关键问题摆在了研究者面前： “GUI Grounding 是否有更适合该任务特性的奖励机制？”...来自浙江大学的研究团队提出新方法 ——GUI-G²（GUI Gaussian Grounding Rewards），一个将 GUI 交互从离散的 "打靶游戏" 转变为连续的 "空间建模" 的全新方案。

3011 0

5 分钟内搭建一个免费问答机器人：Milvus + LangChain

model=tiny_llm, tokenizer=tokenizer) result = nlp(QA_input) Print the question, answer, grounding...Answer = assemble_grounding_sources(result[‘answer’], context_metadata) print(f"Question: {question}"...answer = assemble_grounding_sources(answer, grounding_sources) return answer Generate response...response = generate_response( llm="gpt-3.5-turbo-1106", temperature=0.0, grounding_sources...", user_content=f"question: {QUESTION}, context: {context}") Print the question, answer, grounding

2.1K1 1

让「幻觉」无处遁形！谷歌DeepMind全新基准，三代Gemini同台霸榜

最近，谷歌的研究人员发布了一个全新的基准测试FACTS Grounding，可以评估语言模型在给定上下文的情况下，生成事实准确文本的能力，其中每条数据的输入都包括一个用户请求和一个完整的文档，最大长度为...论文链接：https://goo.gle/FACTS_paper 数据链接：https://www.kaggle.com/datasets/deepmind/facts-grounding-examples...FACTS Grounding在Kaggle上有一个在线排行榜，实时维护，目前gemini以较大优势领先。...榜单链接：https://www.kaggle.com/facts-leaderboard 数据构建 FACTS Grounding的样本被划分为Public集合（860条）和Private集合（859...对非新颖文档的新颖请求做出回复是语言模型的一个重要用例，而事实grounding也是其中不可或缺的一部分。目前可用的事实性基准测试只是重新利用了可能已经被污染的学术任务。

2841 0

FACTS 基准测试套件问世，用于评估大型语言模型的事实准确性

FACTS 基准测试套件基于原先的 FACTS Grounding Benchmark，并增加了三个新基准：参数化（Parametric）、搜索（Search）和多模态（Multimodal）。...结合更新后的 Grounding Benchmark v2，该套件可以从反映现实世界常见模型使用场景的四个维度评估事实性。该基准测试总共包括 3513 个精选示例，分为公共和私有评估集两部分。...更新后的 Grounding Benchmark v2 评估响应是否基于提供的上下文信息进行了合理推演。初步结果既凸显了进展，也揭示了接下来要面对的挑战。

921 0

激发创新，助力研究：CogVLM，强大且开源的视觉语言模型亮相

from_pretrained cogvlm-chat --version chat --english --bf16 python web_demo.py --from_pretrained cogvlm-grounding-generalist...cogvlm-grounding-generalist 这个权重支持不同的视觉定位任务，例如 REC、Grounding Captioning 等。...from_pretrained cogvlm-chat --version chat --english --bf16 python cli_demo.py --from_pretrained cogvlm-grounding-generalist

5801 1

点击加载更多

AAAI 2026 Oral｜InfiGUI-G1模型来了，刷新GUI Grounding SOTA

突破边界：探索Grounding-DINO，重新定义视觉与语言的交汇

智能饮食：通过基于Grounding DINO的膳食辅助应用程序推进健康信息学

全新的多模态预训练范式：微软提出GLIP统一了对象检测和短语定位任务

AAAI-2024 | Mono3DVG：首个基于单目RGB图像实现3D Visual Grounding的方法

突破高分辨率图像推理瓶颈，复旦联合南洋理工提出基于视觉Grounding的多轮强化学习框架MGPO

国科大&港中文提出带视觉语言验证和迭代推理的Visual Grounding框架，性能SOTA，代码已开源！（CVPR2022）

CPT：刷爆少样本REC任务！清华刘知远团队提出跨模态预训练Prompt Tuning

CV领域不断突破，原创成果连连！音频领域初探自带光环！OpenMMLab季报报告请收好

激发创新，助力研究：CogVLM，强大且开源的视觉语言模型亮相

Diffusion+目标检测=可控图像生成！华人团队提出GLIGEN，完美控制对象的空间位置

微软提出：多模态视觉语言理解和视觉定位的大一统

探索Google的Gemini语言模型的API

CVPR 2024 | 擅长处理复杂场景和语言表达，清华&博世提出全新实例分割网络架构MagNet

GUI Agent 借鉴R1-Zero范式：结合在线RL与思维链推理，三策略突破GUIAgent定位性能瓶颈！

GUI定位还在玩「非黑即白」？浙大&蚂蚁提出GUI-G²，显著提升GUI智能体定位性能

5 分钟内搭建一个免费问答机器人：Milvus + LangChain

让「幻觉」无处遁形！谷歌DeepMind全新基准，三代Gemini同台霸榜

FACTS 基准测试套件问世，用于评估大型语言模型的事实准确性

激发创新，助力研究：CogVLM，强大且开源的视觉语言模型亮相

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐