异常检测一直是计算机视觉领域里的“老大难”:你得在大规模数据里,揪出那些“不合群”的小缺陷。
前不久,Meta 发布的 DINOv3 让我们见识了视觉基础模型的强大能力。而就在大家还沉浸于 DINOv3 的震撼时,中山大学的研究团队顺势出手,提出了一个新框架——AD-DINOv3。
这不仅仅是“把 DINOv3 用起来”那么简单,而是一次针对异常检测场景的精心设计。
如果你在工厂车间巡检,一个产品上有个细小划痕,你能立马发现;如果是医院里的一张影像,有一块区域比正常组织略微异常,医生也能敏锐察觉。但换成计算机,这事就没那么容易了。
传统异常检测方法,往往有几个痛点:
于是,研究者们就盯上了“零样本异常检测”(Zero-Shot Anomaly Detection, ZSAD)。顾名思义,就是不用给模型提前喂目标数据,它也能识别出新的异常。听上去是不是很像“天赋异禀”的检测器?
在这个节点上,DINOv3(Meta 提出的超大规模自监督视觉模型)出现了。它通过对大量自然图像的训练,学到了非常强的通用视觉特征。用人话讲,就是它看过的东西足够多,能抓住“什么是物体”的关键语义。
这就像一个经验老道的质检员:虽然没见过你厂的产品,但凭直觉也能发现“这儿有点不对”。
但问题也随之而来:DINOv3 学到的主要是全局语义,它会更关注“整体是什么”,而对那些细小的、局部的异常未必足够敏感。要让它胜任异常检测,还得做点“定制化”。
于是,中山大学的研究团队提出了AD-DINOv3,一个把 DINOv3 真正带入 ZSAD 的框架。和“生搬硬套”不同,他们做了几步关键的“微调”:
图像特征由 DINOv3 提取(包括 Patch tokens 和 CLS token)。
文本特征由 CLIP 的文本编码器提供(比如“一张正常的电路板照片”“一张有缺陷的电路板照片”)。
两者之间通过对比学习,让视觉和语言特征对齐。
这点有点像请了一个“语言专家”和一个“视觉专家”坐在一起讨论:一个告诉你“这是有裂痕的金属”,另一个去图像里找对应区域。
为了缩小 DINOv3 预训练和异常检测任务之间的差异,作者在图像和文本两边都插入了轻量级适配器。
好处是:模型主体保持冻结,不需要大规模重训。
相当于在“专家”和“任务需求”之间加了一层“翻译官”。
这一部分专门训练视觉特征和文本特征,让它们在异常/正常的划分上更加一致。
结果就是:同样是“裂纹”,视觉分支和文本分支都能说“这不正常”。
这是论文的核心创新之一。CLS Token 原本关注的是整体语义,但现在作者通过 AACM 引导它去“盯”异常区域。
在训练时,CLS Token 会被迫对照异常掩码,学习更关注缺陷位置。
换句话说,AACM 就像一位师傅手把手教徒弟:“别光看大概,仔细看那条裂缝!”
DINOv3 是分层的,低层捕捉细节,高层捕捉语义。AD-DINOv3 融合了 6th、12th、18th、24th 层的特征,保证既能看清楚“小瑕疵”,又能理解“大语义”。
光说原理没用,得看效果。团队在 8 个工业和医疗数据集上做了全面测试。
数据集:MVTec AD、VisA、BTAD、MPDD。
结果:AD-DINOv3 在 AUROC 和 F1 上全面领先,平均 AUROC 达到 94.2%。
比如在 MVTec AD 上,AUROC 提升到了 91.6%。
可视化结果:相比其他方法的模糊热图,AD-DINOv3 的缺陷定位更清晰,比如电路板上的小裂纹一眼就能看出来。
数据集:ISIC、ColonDB、ClinicDB、TN3K。
结果:在 ClinicDB 上,AUROC 高达 90.4%,比 AnomalyCLIP 提升近 8 个百分点。
可视化:在皮肤病灶、肠镜等场景中,AD-DINOv3 能更精准地圈出病变区域,误报更少。
一句话总结:无论是工厂质检还是医学影像,这个框架都能打。
团队还做了消融实验,把模型“拆开”看每个组件的贡献。
这里我自己的理解是:DINOv3 本身像个全能运动员,但缺乏针对异常检测的“专项训练”。CMCL 和 AACM 就相当于私人教练,帮它把注意力放在正确的地方。
我读完论文最大的感受是:
这让我想到一句话:大模型就像“原石”,真正的价值要靠应用场景里精雕细琢才能体现。
AD-DINOv3 是第一个将 DINOv3 应用于零样本异常检测的框架。
创新点包括:轻量级适配器、跨模态对比学习、异常感知校准模块、多层特征融合。
在 8 个工业和医疗数据集上验证有效,全面领先当前 SOTA 方法。
更重要的是,它展示了视觉基础模型在细粒度检测任务中的巨大潜力。
未来,像 AD-DINOv3 这样的框架,或许能让工业质检更高效、让医学影像诊断更精准,也为基础模型和应用结合提供了更多启发。
论文地址:https://arxiv.org/pdf/2509.14084
源码地址:https://github.com/Kaisor-Yuan/AD-DINOv3
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。