据站长之家 10 月 18 日报道,首个多模态开放世界检测大模型 MQ-Det 近日在 NeurIPS 2023 上首次亮相,引起广泛关注。该模型的核心创新在于融合了文本描述和视觉示例查询,以显著提升目标检测的精确率,整体性能提高了 7.8%。MQ-Det 的设计包括门控感知模块和视觉为条件的掩码语言预测训练策略,使其兼容现有检测大模型且具备多模态查询能力。
实验结果表明,MQ-Det 在 LVIS 基准数据集上取得显著的性能提升,支持 finetuning-free 和小样本检测,展现了多模态查询目标检测的潜力。
领取专属 10元无门槛券
私享最新 技术干货