首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >北京大学彭宇新教授团队开源最新多轮交互式商品检索模型、数据集及评测基准

北京大学彭宇新教授团队开源最新多轮交互式商品检索模型、数据集及评测基准

作者头像
机器之心
发布于 2025-03-04 13:28:55
发布于 2025-03-04 13:28:55
2370
举报
文章被收录于专栏:机器之心机器之心

本文是北京大学彭宇新教授团队在多轮交互式商品检索的最新研究成果,已被 ICLR 2025 接收并开源。

图像检索是计算机视觉的经典任务,近年来在电商等场景中广泛应用。然而,单一图像难以满足用户需求,用户常需要修改图像以适配特定场景。为此,组合图像检索(CIR)应运而生,旨在通过结合参考图像和修改文本来定位目标图像。随着多轮交互需求的增加,多轮组合图像检索(MTCIR)逐渐成为研究热点,能够利用用户迭代反馈不断优化检索结果。然而,现有MTCIR方法通常通过串联单轮CIR数据集构建多轮数据集,存在两点不足:(1)历史上下文缺失:修改文本缺乏对历史图像的关联,导致检索偏离实际场景;(2)数据规模受限:单轮数据集规模有限,串联方式进一步压缩了多轮数据集的规模,难以满足研究和应用需求。

为解决上述问题,本文构建了新的多轮组合图像检索数据集和评测基准FashionMT。其特点包括:(1)回溯性:每轮修改文本可能涉及历史参考图像信息(如保留特定属性),要求算法回溯利用多轮历史信息;(2)多样化:FashionMT包含的电商图像数量和类别分别是MT FashionIQ的14倍和30倍,且交互轮次数量接近其27倍,提供了丰富的多模态检索场景。

本文进一步提出了多轮聚合-迭代模型MAI,重点应对MTCIR中的两大挑战:(1)多模态语义聚合,(2)多轮信息优化。具体而言,MAI引入了一种新的两阶段语义聚合(TSA)范式,并结合循环组合损失(CCL)计算。TSA通过引入描述文本作为过渡,逐步将图像与其描述文本聚合,再与修改文本聚合。CCL的循环结构进一步增强了语义一致性和模态对齐。此外,本文设计了一种无参数的多轮迭代优化(MIO)机制,动态选择具有高语义多样性的代表性标记,有效压缩了历史数据表征的存储空间。实验结果表明,本方法在所提出的新基准FashionMT的召回指标上平均提升了8%,优于现有方法。

  • 论文标题:MAI: A Multi-turn Aggregation-Iteration Model for Composed Image Retrieval
  • 论文链接:https://openreview.net/pdf?id=gXyWbl71n1
  • 开源代码:https://github.com/PKU-ICST-MIPL/MAI_ICLR2025
  • 实验室网址:https://www.wict.pku.edu.cn/mipl

背景与动机

多轮组合图像检索(MTCIR)作为电商场景的关键技术,旨在通过持续对话理解用户动态调整的需求。现有方法采用"多轮串联单轮"范式时,模型陷入仅依赖当前轮次图像的路径依赖,导致历史语义链路断裂——当用户修改需求涉及历史属性时(如"保留前两轮的袖口设计"),检索系统因无法回溯上下文而失效。这一现象暴露两大关键不足:首先,现有数据集构建方式割裂了跨轮次的语义关联,使模型陷入局部最优陷阱;其次,传统单轮优化范式难以适应多轮场景的语义累积特性,在长程信息传递与动态记忆压缩方面存在设计局限。

针对上述不足,本文提出了系统性解决方案:(1) 跨轮次语义建模框架:通过显式标注多轮修改需求与历史图像的语义关联,构建首个具备历史回溯特性的数据集和评测基准FashionMT;(2) 两阶段跨模态语义聚合:设计基于TSA模块与CCL损失的渐进式对齐架构,通过图像-文本-指令的层级交互解决模态鸿沟问题;(3) 动态记忆压缩机制:设计MIO模块,利用基于聚类算法的token选择策略实现长程依赖建模中的信息优化,在保持检索精度的同时减少历史信息冗余存储。本文方法实现了多轮检索中语义连续性与计算效率的协同优化。

图1. 多轮组合图像检索样例展示

数据集和评测基准

本文的数据主要来源于两个渠道:1. 从现有的单轮组合图像检索数据集收集图像及相关文本;2. 从多个电商平台爬取图像及相关文本。在数据预处理过程中,本文对爬取的图像进行了清洗,去除损坏、模糊以及非商品类图像。

图2. 数据集和评测基准FashionMT数据分布图

受现有修改文本手工标注过程的启发,本文提出了一个自动化的数据集构建框架-修改生成框架(MGF),旨在通过捕捉参考图像和目标图像对之间的差异,自动构建数据集。该框架包括以下步骤:

1. 图像选择:从某一产品子类中选择N+1张图像用于N轮交易;2. 标题生成:利用图像描述模型为这些图像生成标题;3. 基础修改生成:采用大型语言模型(LLM)描述相邻轮次图像标题之间的差异;4. 回溯性修改生成:确定需要回溯分析的特定轮次,并根据最新图像与历史图像之间的属性交集生成相应的修改文本。

为了更好地适应现实场景中的回溯性需求,本文设定了两种回溯性修改文本生成情境:回滚和组合。在回滚设置中,通过回滚的方式在指定的参考图像与目标图像之间生成修改文本。该情境下的示例为:“Compared to the most recent turn, I still prefer the item from the second turn. Building on that, I like...”。在组合设置中,用户结合多个历史轮次中的图像属性来构建修改请求。该情境下的示例为:“I like ... from the first turn, and ... from the second turn” 。在此设置中,修改文本由两部分组成:第一部分是描述需要保留的公共属性,并以提示 “Keep the {Attr} in the {ID} turn” 开头,其中 {Attr}表示如颜色、logo、图案等属性,{ID}表示与目标图像共享属性的轮次;第二部分描述附加的修改需求。

FashionMT在规模和丰富性上显著超越现有数据集,图像数量是MT FashionIQ的14倍,类别数量是MT Shoes的近10倍。通过利用修改生成框架,FashionMT实现了高效的交易构建,数据集规模为MT FashionIQ的27倍。此外,FashionMT的修改文本更加详尽,平均长度是MT FashionIQ的两倍。作为专为MTCIR任务设计的数据集,FashionMT为多模态图像检索任务提供了更加全面和真实的数据支持。

技术方案

为应对MTCIR中的两大挑战——多模态语义聚合多轮信息优化,本文提出了多轮聚合-迭代模型(MAI)。如图3所示,MAI包含4个主要模块:

1.多模态语义聚合(BSA):通过聚合图像描述和修改文本的语义信息,增强图像与文本之间的语义对齐。

2.多轮迭代优化(MIO):通过优化多轮交互中的关键语义 tokens,减少冗余信息,提升检索性能。

3.修改语义聚合(MSA):将修改文本与参考图像的语义信息进行融合,以强化修改内容对图像的语义影响。

4.循环组合损失(CCL):通过多轮训练中的循环优化机制,强化目标图像与修改文本之间的匹配度。

图3. 多轮聚合-迭代模型方法框架图

模块1:多模态语义聚合(BSA)

在第 n 轮,首先对修改文本进行语法分析,判断是否存在回滚操作,判断标准是基于预设模板生成的修改文本。如果修改文本匹配回滚模板,则将参考图像指定为回滚轮次中的图像;如果不匹配,则默认选择第 n 轮的参考图像。通过冻结视觉编码器提取图像的视觉补丁嵌入

。BSA 框架通过可学习的 tokens,首先学习图像及其描述之间的模态语义,然后与修改文本进行交互,从而在与修改文本交互时增强模态之间的相关性。经过 BSA 后,tokens 聚合了参考图像和图像描述的多模态语义,记为

模块2:多轮迭代优化(MIO)

尽管tokens 比视觉嵌入更节省空间,但为每一轮存储这些 tokens 仍会消耗大量空间。电商图像通常具有不同的属性,如颜色、风格、尺寸等,而多轮检索往往涉及同一子类别的商品,导致多轮图像之间存在相似属性。因此,提出了一种无参数机制,用于优化并保留在多轮交互中关键的语义属性。本方法将上一轮的学习到的

与当前轮的

拼接得到

,优化过程包括以下几个步骤:

(1)聚类:基于 k-最近邻的密度峰值聚类算法(DPC-kNN),对

进行聚类,聚类操作可表示如下

其中

表示第 i 个聚类,

为第 i 个聚类的质心。

(2)密度估计:聚类后,根据簇内 tokens 与其他 tokens 的距离,估计每个簇的密度,低密度的 tokens 会被过滤掉。密度估计公式为:

其中 Nei(v) 表示 v 的邻近 tokens。

(3)修剪:通过计算每个 token 的密度和与邻近点的距离,过滤得分较低的 tokens,保留得分高即语义显著的 tokens。最终表示为

,有效保留了携带判别性语义的 tokens,减少了计算资源的消耗。

模块3:修改语义聚合(MSA)

在 MSA 阶段,本文将包含参考语义的tokens

与修改文本嵌入 m_n 进行交互。通过冻结文本编码器提取修改文本的嵌入,将其与

拼接后输入自注意力层。随后,经过线性变换和归一化处理,最终得到参考端的嵌入

,该嵌入同时包含来自参考图像、图像描述和修改文本的多模态语义。由于涉及多个历史图像,BSA 将通过拼接前几轮的tokens 与对应的图像描述,进行多模态嵌入的聚合。随后,这些嵌入将与修改文本在 MSA 中进行语义聚合。

模块4:循环组合损失(CCL)

在多轮组合图像检索任务中,修改文本在检索过程中的引导作用至关重要。为此,本文提出了循环组合损失(CCL),旨在通过对多模态信息进行精确对齐,强化图像与文本之间的语义关联,特别是文本修改的语义。具体而言,本文设计的循环组合损失目标是通过多轮迭代中图像和文本的语义对齐,确保检索结果更加准确。该损失函数结合了4种嵌入的约束,包括参考图像的语义嵌入、目标图像的语义嵌入、修改文本的语义嵌入以及目标图像的文本特征。通过多轮训练,强化每轮之间语义的传递和优化,使得最终的目标图像能更好地与修改文本匹配。循环组合损失(CCL) 由以下4项损失组成:

(1)参考图像语义与目标图像语义之间的相似度损失

(2)目标图像语义与修改文本语义之间的相似度损失

(3)修改文本语义与目标图像文本特征之间的相似度损失

(4)目标图像文本特征与参考图像语义之间的相似度损失

每一项相似度损失通过批量分类损失计算,使用内积方法(余弦相似度)衡量嵌入之间的相似性。最终,循环组合损失为各轮损失的累积,确保在多轮交互中,所有语义信息得到充分融合和优化,其公式展示如下:

实验结果

表1. 在FashionMT数据集上的实验结果

表1的实验结果表明,本文所提出的MAI方法显著优于现有方法,在检索的召回率平均指标上相比新加坡A*STAR研究院的SPRC方法提高了8.63%,相比北京大学发布的多模态混合输入大模型MMICL提高了11.77%。

图4. 在FashionMT数据集上的检索结果可视化

图4表明, MAI通过利用TSA和CCL高效聚合图像-描述文本的语义,能够有效处理细粒度需求,使其对“绉布”和“复古设计”等领域特定术语具有识别能力。此外,MAI通过使用MIO组件保留多轮历史关键信息,能够精确解释诸如“肩带设计”等模糊表达,从而满足回溯性需求。

更多内容,请参见原文。

© THE END

转载请联系本公众号获得授权

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
微软新作,ImageBERT虽好,千万级数据集才是亮点
继 2018 年谷歌的 BERT 模型获得巨大成功之后,在纯文本之外的任务上也有越来越多的研究人员借鉴了 BERT 的思维,开发出各种语音、视觉、视频融合的 BERT 模型。
AI科技评论
2020/02/21
1.5K0
微软新作,ImageBERT虽好,千万级数据集才是亮点
机器学习 | 图像检索开源项目合集
关于更多机器学习、人工智能、增强现实、Unity、Unreal资源和技术干货,可以关注公众号:三次方AIRX
三次方AIRX
2020/12/15
2.1K0
北大提出PKU FG-XMedia:细粒度跨媒体检索数据集和评测基准
跨媒体检索(Cross-media Retrieval)是指用户给定任意一种媒体类型数据作为查询样例,系统检索得到与查询样例相关的各种媒体数据。如图 1 所示,当用户给定一张灰背鸥(Slaty-backed Gull)的图像作为查询样例,检索结果包含了图像、文本、视频和音频 4 种媒体数据。现有跨媒体检索研究一般聚焦在粗粒度跨媒体检索(Coarse-grained Cross-media Retrieval),只是将灰背鸥的图像作为鸟的图像进行分析检索,因此检索结果中会包含各种相似鸟类的媒体数据(如灰翅鸥、银鸥、加州海鸥等),而不是灰背鸥的图像、文本、视频和音频数据,如图 1(a) 所示。为了克服上述问题,本文提出了细粒度跨媒体检索(Fine-grained Cross-media Retrieval),即用户给定任意一种媒体类型数据作为查询样例,系统检索得到与查询样例细粒度类别相同的各种媒体数据,如图 1(b) 所示,检索得到灰背鸥的图像、文本、视频和音频数据。
机器之心
2019/10/17
1.5K0
Magiclens:新一代图像搜索技术及产品形态
“MagicLens: Self-Supervised Image Retrieval with Open-Ended Instructions” 是一项关于图像检索的新研究。这项研究的核心在于,通过使用大型多模态模型和大型语言模型,能够将图像对中的隐含关系(如网页上的"内部视图")显式化。MagicLens 是一种自监督的图像检索模型,支持开放式指令。这些模型基于一个关键的新见解:自然出现在同一网页上的图像对包含广泛的隐含关系,并且可以通过合成指令来使这些关系明确化。
用户3578099
2024/05/27
4940
Magiclens:新一代图像搜索技术及产品形态
ICCV 2021 | 腾讯优图17篇论文入选,含跨模态检索与分割、车辆识别、视频理解等领域
计算机视觉世界三大顶会之一的ICCV 2021论文接收结果出炉!本次大会收到来自全球共6236篇有效投稿,最终有1617篇突出重围被录取,录用率约为25.9%。此次ICCV 2021接收的论文分为检测、分割、跟踪、视觉定位、底层图像处理、图像视频检索、三维视觉等多个方向。本次腾讯优图实验室共有17篇论文被收录,其中Oral论文2篇,涵盖跨模态检索、分割、行人识别、神经网络、人群计数、车辆识别、物体识别、视频偏好推理、多标签识别等前沿领域。
优图实验室
2021/08/02
1.1K0
ICCV 2021 | 腾讯优图17篇论文入选,含跨模态检索与分割、车辆识别、视频理解等领域
VLm2Vec:基于 MMEB 训练,通用多模态嵌入模型的崛起 !
嵌入模型对于实现各种下游任务如语义相似度、信息检索和聚类等至关重要。近年来,开发通用文本嵌入模型以实现跨任务泛化(例如MTEB)引起了广泛关注。
未来先知
2025/01/10
1K0
VLm2Vec:基于 MMEB 训练,通用多模态嵌入模型的崛起 !
X-Pool:多伦多大学提出基于文本的视频聚合方式,在视频文本检索上达到SOTA性能!(CVPR 2022)
本文分享 CVPR 2022 论文『X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval』,多伦多大学提出基于文本的视频聚合方式,《X-Pool》,在视频文本检索上达到SOTA性能!
CV君
2022/09/01
1.2K0
X-Pool:多伦多大学提出基于文本的视频聚合方式,在视频文本检索上达到SOTA性能!(CVPR 2022)
跨越视觉与文本的界限,MVLMs 在分割与检索中的应用研究 !
医学视觉语言模型(MVLMs)由于能够提供自然语言接口来解释复杂医疗数据而引起了广泛关注。它们的应用领域非常广泛,有可能通过更高效地分析大型数据集来提高个体患者的诊断准确性和决策。
AIGC 先锋科技
2024/12/24
4440
跨越视觉与文本的界限,MVLMs 在分割与检索中的应用研究 !
BLIP3-o:一系列完全开源的统一多模态模型——开源架构、训练与数据集
在近期关于多模态模型的研究中,将图像理解与生成统一起来受到了越来越多的关注。尽管图像理解的设计选择已经得到了广泛研究,但对于具有图像生成功能的统一框架而言,其最优模型架构和训练方案仍有待进一步探索。鉴于自回归和扩散模型在高质量生成和可扩展性方面具有强大潜力,我们对它们在统一多模态环境中的使用进行了全面研究,重点关注图像表示、建模目标和训练策略。基于这些研究,我们提出了一种新方法,该方法采用扩散Transformer生成语义丰富的CLIP图像特征,这与传统的基于VAE的表示方法不同。这种设计既提高了训练效率,又提升了生成质量。此外,我们证明了统一模型的顺序预训练策略——先进行图像理解训练,再进行图像生成训练——具有实际优势,能够在发展强大的图像生成能力的同时,保持图像理解能力。最后,我们通过使用涵盖各种场景、物体、人体姿态等的多样化字幕提示GPT-4o,精心策划了一个高质量的指令调优数据集BLIP3o-60k,用于图像生成。基于我们创新的模型设计、训练方案和数据集,我们开发了BLIP3-o,这是一套最先进的统一多模态模型。BLIP3-o在大多数涵盖图像理解和生成任务的流行基准测试中均取得了优异表现。为促进未来的研究,我们完全开源了我们的模型,包括代码、模型权重、训练脚本以及预训练和指令调优数据集。
AI浩
2025/05/25
4900
BLIP3-o:一系列完全开源的统一多模态模型——开源架构、训练与数据集
谷歌出品 | TIGER:生成式检索推荐系统
这篇文章提出了一种新的生成式检索推荐系统的范式TIGER。当前基于大规模检索模型的现代推荐系统,一般由两个阶段的流程实现:训练双编码器模型得到在同一空间中query和候选item的embedding,然后通过ANN搜索来检索出给定query的embedding的最优候选集。相比于当前主流的推荐系统,本文提出了一种新的单阶段范式:一种生成式检索模型。
Houye
2023/12/28
4K0
谷歌出品 | TIGER:生成式检索推荐系统
BERT新转变:面向视觉基础进行预训练!
ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks
AI科技评论
2019/12/31
1.1K0
BERT新转变:面向视觉基础进行预训练!
多语言BERT与图像编码器:EfficientNet0和微型Swin Transformer在视觉检索中的应用 !
数字世界充斥着大量信息。文本、图像和视频以空前的速度被生产出来,针对文本 Query 的传统搜索系统跟不上节拍。基于关键词的搜索通常产生大量的结果,无法捕捉用户的意图或多媒体数据的丰富性,为获取所需信息设置了障碍。理想情况下,信息检索系统应该允许用户不受本族语言或首选交互方式的限制找到所需内容。这就是多模态检索变得至关重要的地方,因为它允许使用不仅仅是文本,还有图片、口头语言或不同输入模态的组合进行搜索。这种方法显著提高了搜索能力,使信息对人们来说更加触手可及,无论他们说的是哪种语言,无论他们喜欢如何搜索。例如,在图像到图像的搜索中,可以将相机对准一座建筑物来搜索其建筑风格,或者使用一幅画来在网上找到衣服。这些例子说明了多模态数据检索如何帮助人们更高效地搜索。
AIGC 先锋科技
2024/09/10
3110
多语言BERT与图像编码器:EfficientNet0和微型Swin Transformer在视觉检索中的应用 !
万字综述!从21篇最新论文看多模态预训练模型研究进展
在传统的NLP单模态领域,表示学习的发展已经较为完善,而在多模态领域,由于高质量有标注多模态数据较少,因此人们希望能使用少样本学习甚至零样本学习。最近两年出现了基于Transformer结构的多模态预训练模型,通过海量无标注数据进行预训练,然后使用少量有标注数据进行微调即可。
NewBeeNLP
2021/11/19
5K0
万字综述!从21篇最新论文看多模态预训练模型研究进展
CVPR2021-《T2VLAD》-浙大&百度&悉尼科技提出用局部全局对齐来进行视频文本检索!效果优于MMT!
文本视频检索是一项具有挑战性的任务,其目的是基于自然语言描述搜索相关的视频内容。这个问题的关键是在联合嵌入空间中测量文本视频的相似性。然而,大多数现有的方法只考虑全局交叉模态相似性,忽略局部细节。有些作品通过跨模态局部匹配和推理结合了局部比较。这些复杂的操作会带来巨大的计算量。
CV君
2021/12/02
1.4K0
CVPR2021-《T2VLAD》-浙大&百度&悉尼科技提出用局部全局对齐来进行视频文本检索!效果优于MMT!
《CLIP2Video》-腾讯PCG提出CLIP2Video,基于CLIP解决视频文本检索问题,性能SOTA!代码已开源!
在本文中,作者提出了CLIP2Video网络,以端到端的方式将图像语言预训练模型转换为视频文本检索模型。视频和语言学习领域的主流方法试图从大规模视频文本数据集中提取时空视频特征以及视频和语言之间的多模态交互。
CV君
2021/11/18
2.8K0
《CLIP2Video》-腾讯PCG提出CLIP2Video,基于CLIP解决视频文本检索问题,性能SOTA!代码已开源!
【图像检索】【TPAMI重磅综述】 SIFT与CNN的碰撞:万字长文回顾图像检索任务十年探索历程
基于内容的图像检索任务(CBIR)长期以来一直是计算机视觉领域重要的研究课题,自20世纪90年代早期,研究人员先后采用了图像的全局特征,局部特征,卷积特征的方法对CBIR任务进行研究和探索,并取得了卓越的成果。
keloli
2018/09/10
4.3K0
30篇亮点论文、5大主题带你一览ECCV 2020研究趋势
ECCV 2020已圆满落幕。会议收到了1360篇论文投稿,其中包含104篇Oral论文、160篇Spotlight论文和1096篇Poster论文。为了更好地了解ECCV 2020的会议内容,来自深度学习专业的博士生Yassine Ouali整理了论文投稿的数据,并从以下五大主题总结了一些取得突破性成就的论文,对其进行了简要概述:
AI科技评论
2020/09/14
9060
30篇亮点论文、5大主题带你一览ECCV 2020研究趋势
ICML 2024 Oral|外部引导的深度聚类新范式
本文作者李云帆,四川大学计算机学院 2020级直博研究生。在导师彭玺教授的指导下,博士期间主要围绕深度聚类开展理论、方法和应用的研究。目前已在国际权威刊物Nature Communications/JMLR/TPAMI/IJCV/ICML/CVPR等上发表学术论文13篇,谷歌学术引用共954次;发表于AAAI2021的Contrastive Clustering被引516次,是2021年以来聚类领域引用最高的论文;获首批国家自然科学基金青年学生基础研究项目(博士研究生)资助。
机器之心
2024/06/17
3570
ICML 2024 Oral|外部引导的深度聚类新范式
AI代理内存消耗过大?9种优化策略对比分析
在AI代理系统的架构设计中,虽然多代理协作可以提升系统的整体准确性,但对话式AI的性能优化远不止于此。内存管理已成为影响系统性能的关键因素之一。
deephub
2025/08/20
2650
AI代理内存消耗过大?9种优化策略对比分析
1亿组图文对,填补中文开源多模态数据集空白!还附带基础模型,来自华为诺亚方舟实验室
行早 发自 凹非寺 量子位 | 公众号 QbitAI 华为诺亚方舟实验室开源了第一个亿级中文多模态数据集:悟空。 这个新发布的数据集不仅规模大——包含1亿组图文对,而且质量也很高。 所有图像都是筛选过的,长宽都在200个像素以上,比例从1/3-3不等。 而和图像对应的文本也根据其语言、长度和频率进行了过滤,隐私和敏感词也都考虑在内。 例如这一组数据集中的例子,内容还相当新,像进门扫码登记,社区疫苗接种的防疫内容都有。 这一波可以说是填上了大规模中文多模态数据集的缺口。 悟空数据集 自一年前OpenAI的C
量子位
2022/03/04
4140
推荐阅读
微软新作,ImageBERT虽好,千万级数据集才是亮点
1.5K0
机器学习 | 图像检索开源项目合集
2.1K0
北大提出PKU FG-XMedia:细粒度跨媒体检索数据集和评测基准
1.5K0
Magiclens:新一代图像搜索技术及产品形态
4940
ICCV 2021 | 腾讯优图17篇论文入选,含跨模态检索与分割、车辆识别、视频理解等领域
1.1K0
VLm2Vec:基于 MMEB 训练,通用多模态嵌入模型的崛起 !
1K0
X-Pool:多伦多大学提出基于文本的视频聚合方式,在视频文本检索上达到SOTA性能!(CVPR 2022)
1.2K0
跨越视觉与文本的界限,MVLMs 在分割与检索中的应用研究 !
4440
BLIP3-o:一系列完全开源的统一多模态模型——开源架构、训练与数据集
4900
谷歌出品 | TIGER:生成式检索推荐系统
4K0
BERT新转变:面向视觉基础进行预训练!
1.1K0
多语言BERT与图像编码器:EfficientNet0和微型Swin Transformer在视觉检索中的应用 !
3110
万字综述!从21篇最新论文看多模态预训练模型研究进展
5K0
CVPR2021-《T2VLAD》-浙大&百度&悉尼科技提出用局部全局对齐来进行视频文本检索!效果优于MMT!
1.4K0
《CLIP2Video》-腾讯PCG提出CLIP2Video,基于CLIP解决视频文本检索问题,性能SOTA!代码已开源!
2.8K0
【图像检索】【TPAMI重磅综述】 SIFT与CNN的碰撞:万字长文回顾图像检索任务十年探索历程
4.3K0
30篇亮点论文、5大主题带你一览ECCV 2020研究趋势
9060
ICML 2024 Oral|外部引导的深度聚类新范式
3570
AI代理内存消耗过大?9种优化策略对比分析
2650
1亿组图文对,填补中文开源多模态数据集空白!还附带基础模型,来自华为诺亚方舟实验室
4140
相关推荐
微软新作,ImageBERT虽好,千万级数据集才是亮点
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档