在计算机视觉领域,视频运动对象分割(MOS)一直是自动驾驶、动作识别等应用的核心技术。然而,传统算法常因光照变化、遮挡、复杂运动等问题表现不佳,而Meta的SAM模型虽在图像分割领域表现优异,却无法区分视频中的运动与静止对象。近日,一项名为SAMV(Segment Any Moving Video)的研究在CVPR 2025上引发轰动,其通过长轨迹运动线索+语义特征融合的创新设计,在多个基准测试中性能**最高提升25%**,彻底改写了视频分割的技术格局!
项目主页:https://motion-seg.github.io/
代码链接:https://github.com/nnanhuang/SegAnyMo
论文链接:https://arxiv.org/pdf/2503.22268
视频运动分割的核心挑战在于区分真实运动与背景干扰。例如,自动驾驶中需准确识别行人(运动对象)与路牌(静止对象),但传统方法存在以下局限:
SAMV的突破在于:首次将运动轨迹分析与语义理解深度结合,既能精准捕捉移动目标,又能通过语义标签区分对象类别,解决了传统方法在复杂场景下的“盲区”。

在DAVIS、FBMS-59等权威测试集上,SAMV展现了全面领先的优势:

SAMV的提出标志着视频分割技术迈入“运动+语义”双驱时代。未来,结合4D重建与实时边缘计算,该技术有望在机器人导航、元宇宙构建等领域释放更大潜力。研究者表示,下一步将优化算法效率,推动其在低算力设备(如手机、车载芯片)上的部署。