
如今的多模态大语言模型(MLLMs)已经展现出令人惊叹的图像理解和推理能力,能够回答关于图片的问题、生成描述,甚至进行复杂的视觉推理。然而,一个长期存在的挑战是:当图像质量下降时——比如模糊、噪声、遮挡或光线不足——模型的性能往往会大幅下滑。
在真实世界中,图像退化无处不在:拍摄时的抖动、传输中的压缩、恶劣天气下的雾霾、后期处理添加的水印……这些因素都可能导致AI“看走眼”,输出错误或荒谬的回答,限制了其在安防、自动驾驶、医疗影像等关键领域的可靠应用。
以往提升模型鲁棒性的方法,大多聚焦于增强视觉编码器的抗干扰能力,通过对抗训练、大规模对抗预训练等方式,让模型“习惯”各种失真。但这些方法存在两个根本局限:
近日,来自香港科技大学、西北工业大学等机构的研究团队提出了一种全新框架——Robust-R1,其核心思想是:不让模型默默忍受图像退化,而是教它主动识别退化、分析影响,并重建出清晰的语义理解。
简单来说,Robust-R1为模型装备了一套“退化感知推理链”,使其能够:

左边(A)是传统方法,只关注视觉编码器的特征对齐;
右边(B)是Robust-R1,明确引入了一条从退化感知到语义重建的推理链条。
这不仅提高了模型在退化图像上的表现,还让它的推理过程变得可解释、可追踪——我们可以清楚地看到模型是如何一步步“纠偏”的。
团队首先构建了一个包含11K样本的数据集(基于A-OKVQA),为每张退化图像标注了完整的推理链,包含:
<类型> 运动模糊,强度0.7 <类型结束> <影响> 图中人物轮廓变得模糊,难以判断其动作 <影响结束> <推理> 原图中人物正在跑步,背景为公园 <推理结束> <结论> 因此,图中人物正在运动 <结论结束>
模型通过学习这种结构化输出,初步掌握了“识别退化 → 分析影响 → 重建语义”的推理模式。
仅仅会推理还不够,还要感知得准。研究团队设计了一个退化奖励函数,用于强化模型对退化类型和强度的判断准确性。
例如,如果模型把“运动模糊”误判为“高斯噪声”,就会受到惩罚;如果判断正确但强度估计有偏差,奖励也会相应减少。
研究发现:退化越严重,需要的推理步骤就越多。如果对所有图像都使用相同深度的推理,会导致简单场景“想太多”(效率低下),复杂退化“想不够”(精度不足)。
因此,团队引入了长度奖励函数,鼓励模型根据退化强度自适应调整推理链的长度,实现“该长则长、该短则短”的高效推理。

(A)监督微调阶段:模型学习生成结构化推理链;
(B)强化学习阶段:通过两个奖励函数分别优化退化感知准确性和推理长度适宜性。
为了训练这样一个模型,研究团队系统地合成了覆盖图像采集 → 传输 → 环境 → 后处理四个阶段的退化类型,包括:
每种退化都随机采样强度,确保数据多样性。随后,利用GPT-4o自动生成每一步的推理文本,形成完整的训练样本。

从原始图像出发,经过多阶段退化合成,再逐步生成“影响描述”“干净推理”“最终结论”,最后根据退化强度对推理链进行长度缩放。
团队在多个标准测试集上验证了Robust-R1的有效性:
在涵盖选择题、视觉问答、图像描述三类任务,并包含低、中、高三种退化强度的R-Bench上,Robust-R1在所有退化强度下均取得最佳整体性能,明显优于原版Qwen2.5-VL、Gemma3等通用模型,也超过了TeCoA、Robust CLIP等专用鲁棒模型。
研究团队还对图像施加了25%、50%、100%三种强度的随机退化,模拟极端干扰条件。结果显示,Robust-R1的性能下降幅度显著小于所有基线模型,展现出强大的抗退化鲁棒性。

可以看到,经过SFT和RL优化后,模型不仅能给出更准确的答案,还能生成清晰、结构化的推理过程,同时避免冗余输出。
为了验证各个部分的作用,团队进行了消融研究:

Robust-R1 不仅仅是一个“更强壮的模型”,更是一套“更聪明的视觉理解范式”。它首次将退化感知与结构化推理深度融合,让模型在面对质量不佳的输入时,能够像人类一样“脑补”信息、排除干扰,最终做出可靠判断。
这一研究为多模态大模型的鲁棒性提升开辟了新路径:可解释、可控制、高效率。未来,这类方法有望广泛应用于自动驾驶、视频监控、遥感影像分析、老旧影像修复等对噪声和退化极为敏感的领域。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。