每日学术速递2.19

AiCharm

发布于 2025-02-19 15:49:12

680

文章被收录于专栏：AiCharmAiCharm

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

Power by Kimi&苏神编辑丨AiCharm

Subjects: cs.CV

1.Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding

标题：文本引导的稀疏体素修剪，实现高效的 3D 视觉基础

作者：Wenxuan Guo, Xiuwei Xu, Ziwei Wang, Jianjiang Feng, Jie Zhou, Jiwen Lu

文章链接：https://arxiv.org/abs/2502.10392

项目代码：https://github.com/GWxuan/TSP3D

摘要：

在本文中，我们提出了一种用于 3D 视觉接地的高效多级卷积架构。由于采用两阶段或基于点的架构，传统方法难以满足实时推理的要求。受到多层次全稀疏卷积架构在 3D 目标检测中的成功的启发，我们的目标是遵循这条技术路线构建一个新的 3D 视觉接地框架。然而，由于在 3D 视觉接地任务中，3D 场景表示应该与文本特征深度交互，由于体素特征量大，基于稀疏卷积的架构对于这种交互效率低下。为此，我们提出了文本引导修剪（TGP）和基于完成的添加（CBA），通过逐步区域修剪和目标完成，以有效的方式将 3D 场景表示和文本特征深度融合。具体来说，TGP 迭代地稀疏化 3D 场景表示，从而通过交叉注意力有效地将体素特征与文本特征交互。为了减轻修剪对精细几何信息的影响，CBA 通过体素完成自适应地修复过度修剪的区域，计算开销可以忽略不计。与以前的单阶段方法相比，我们的方法实现了最高的推理速度，并以 100% FPS 的速度超过了以前的最快方法。即使与两阶段方法相比，我们的方法也达到了最先进的准确性，ScanRecreference 上的 +1.13 导联为 Acc@0.5，NR3D +2.6 和 SR3D 上的 +3.2 导联分别为 NR3D 导联。

这篇论文试图解决什么问题？

这篇论文试图解决3D视觉定位（3D Visual Grounding, 3DVG）任务中的效率问题，即如何构建一个高效的实时3DVG模型，以满足在机器人、AR/VR等领域对实时推理的需求。传统的3DVG方法，无论是两阶段方法还是单阶段方法，都存在计算成本高、难以实时处理的问题。两阶段方法由于需要先进行目标检测再进行匹配，存在大量冗余计算；而现有的单阶段方法虽然在效率上有一定提升，但仍然无法满足实时性要求（<6 FPS），并且在性能上不如两阶段方法。

论文如何解决这个问题？

为了解决3D视觉定位（3DVG）任务中的效率问题，论文提出了一个高效的单阶段3DVG框架，名为**TSP3D**（Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding）。该框架基于多级稀疏卷积架构，并引入了两个关键模块：文本引导的稀疏体素剪枝（Text-guided Pruning, TGP）和基于补全的添加（Completion-based Addition, CBA），以高效地融合3D场景表示和文本特征。以下是具体的方法描述：

1. 多级稀疏卷积架构（Multi-Level Sparse Convolutional Architecture）

论文首先构建了一个基于稀疏卷积的多级架构，用于高效提取3D场景表示。输入的点云数据首先被体素化，然后通过多个稀疏卷积块（MinkResBlocks）生成多级体素特征。随着层级的增加，体素的空间分辨率逐渐降低，而上下文信息逐渐增加。这种架构不仅提供了高分辨率的场景表示，还比基于点的架构具有更快的推理速度。

2. 文本引导的稀疏体素剪枝（Text-guided Pruning, TGP）

TGP的核心思想是利用文本信息来指导3D场景表示的剪枝过程，从而减少体素数量并增强体素和文本特征的交互。具体步骤如下：

特征剪枝：在每个层级，TGP通过远点采样（Farthest Point Sampling, FPS）减少体素数量，然后利用交叉注意力（Cross-Attention）与文本特征进行交互，并通过一个简单的MLP预测每个体素的保留概率分布。根据这个概率分布，TGP生成一个二值掩码，用于剪枝操作。
渐进式剪枝：TGP分为两个阶段，场景级剪枝（Scene-level TGP）和目标级剪枝（Target-level TGP）。场景级剪枝主要去除背景体素，而目标级剪枝则专注于保留文本中提到的目标对象和相关对象，同时去除其他区域的体素。
简化版TGP：为了进一步提高效率，论文提出了一个简化的TGP版本，移除了FPS操作，并将多模态特征交互合并到一起，提前到剪枝操作之前进行。

3. 基于补全的添加（Completion-based Addition, CBA）

由于剪枝可能会误删目标对象的表示，尤其是在处理小或窄的对象时，CBA模块用于动态补偿过度剪枝的区域。具体步骤如下：

特征补全：CBA首先通过交叉注意力增强背景特征，然后利用一个MLP预测目标对象的区域掩码。通过比较这个掩码和剪枝后的特征，CBA识别出缺失的体素，并从高分辨率的背景特征中插值补全这些缺失的体素。
多级特征融合：CBA在两个层级上分别应用，以确保在不同分辨率下都能有效地补偿过度剪枝的区域。

4. 训练损失（Training Loss）

TSP3D的总损失函数由以下几个部分组成：

剪枝损失（Pruning Loss）：用于监督TGP的剪枝过程，采用Focal Loss处理类别不平衡问题。
补全损失（Completion Loss）：用于监督CBA的补全过程，同样采用Focal Loss。
目标性损失（Objectness Loss）：用于预测目标对象的置信度，也采用Focal Loss。
边界框回归损失（Bounding Box Regression Loss）：采用Distance-IoU (DIoU) Loss来优化边界框的回归。

通过上述方法，TSP3D不仅能够高效地处理3D场景数据，还能通过文本引导的剪枝和基于补全的添加，实现高精度的目标定位。

论文做了哪些实验？

论文进行了以下实验来验证所提出的TSP3D方法的有效性和效率：

1. 数据集

ScanRefer [3]：基于ScanNet框架构建，包含51,583个场景描述。主要评估指标是Acc@mIoU。
ReferIt3D [2]：分为Nr3D和Sr3D两个子集，分别包含41,503个人工生成的描述和83,572个合成表达。主要评估指标是目标对象选择的准确率。

2. 实验设置

实现细节：TSP3D基于PyTorch实现。剪枝阈值分别设置为σsce = 0.7和σtar = 0.3，补全阈值τ = 0.15。初始体素化点云的体素大小为1cm，随着层级增加，体素大小按2i+2 cm缩放。所有损失函数的权重λ1, λ2, λ3, λ4均设为1。训练使用4个GPU，推理速度在单个RTX 3090 GPU上评估，批大小为1。
评估指标：主要使用Acc@0.25和Acc@0.5来评估模型的准确率，同时记录推理速度（FPS）。

3. 与现有方法的比较

ScanRefer数据集：
- 两阶段方法：包括ScanRefer [3]、TGNN [14]、InstanceRefer [39]、SAT [38]等。
- 单阶段方法：包括3D-SPS [22]、BUTD-DETR [16]、EDA [35]等。
- TSP3D：在单阶段方法中，TSP3D的推理速度最快，达到12.43 FPS，比之前的最快方法快了100%。在准确率方面，TSP3D达到了56.45%的Acc@0.25和46.71%的Acc@0.5，超越了所有单阶段方法，并且在Acc@0.5上比两阶段方法的最好结果高出1.13%。
Nr3D和Sr3D数据集：
- 两阶段方法：包括InstanceRefer [39]、LanguageRefer [28]、3D-SPS [22]等。
- 单阶段方法：包括3D-SPS [22]、BUTD-DETR [16]、EDA [35]等。
- TSP3D：在单阶段方法中，TSP3D在Nr3D上达到了48.7%的准确率，在Sr3D上达到了57.1%的准确率，分别比之前的最好结果高出2.6%和3.2%。

4. 消融研究

TGP和CBA的有效性：
- 无TGP：使用简单的特征拼接，准确率较低（Acc@0.25为40.13%，Acc@0.5为32.87%），但推理速度较快（14.58 FPS）。
- 仅使用TGP：准确率显著提升（Acc@0.25为55.20%，Acc@0.5为46.15%），推理速度略有下降（13.22 FPS）。
- 仅使用CBA：对性能提升有限（Acc@0.25为41.34%，Acc@0.5为33.09%），推理速度为13.51 FPS。
- TGP和CBA结合：达到了最佳性能（Acc@0.25为56.45%，Acc@0.5为46.71%），推理速度为12.43 FPS。
不同层级的CBA影响：
- 仅在Level 2使用CBA：对性能提升有限（Acc@0.25为55.17%，Acc@0.5为46.06%），推理速度为12.79 FPS。
- 仅在Level 1使用CBA：性能提升显著（Acc@0.25为56.45%，Acc@0.5为46.71%），推理速度为12.43 FPS。
- 在Level 2和Level 1都使用CBA：性能略有下降（Acc@0.25为56.22%，Acc@0.5为46.68%），推理速度为12.19 FPS。
不同特征上采样方法的影响：
- 简单拼接：推理速度快（14.58 FPS），但准确率低（Acc@0.25为40.13%，Acc@0.5为32.87%）。
- 注意力机制：由于体素数量过多，计算成本过高，无法实际应用。
- TGP：显著提升性能（Acc@0.25为56.27%，Acc@0.5为46.58%），但推理速度较慢（10.11 FPS）。
- 简化版TGP：在保持性能的同时，提高了推理速度（Acc@0.25为56.45%，Acc@0.5为46.71%，12.43 FPS）。

5. 定性结果

文本引导的剪枝（TGP）：通过可视化TGP的两个剪枝阶段，展示了TSP3D如何逐步聚焦于目标对象，并在特征上采样过程中动态调整特征范围。
基于补全的添加（CBA）：通过可视化CBA的补全过程，展示了CBA如何动态补偿过度剪枝的区域，尤其是在处理小或窄的目标对象时。

这些实验结果表明，TSP3D在准确率和推理速度方面均优于现有的3D视觉定位方法，证明了其在实时3DVG任务中的有效性和实用性。

论文的主要内容：

本文提出了一种高效的单阶段3D视觉定位（3D Visual Grounding, 3DVG）框架，名为TSP3D（Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding）。该框架基于多级稀疏卷积架构，并引入了文本引导的稀疏体素剪枝（Text-guided Pruning, TGP）和基于补全的添加（Completion-based Addition, CBA）两个关键模块，以高效地融合3D场景表示和文本特征，实现高精度和实时性的目标定位。

研究背景

3D视觉定位任务旨在根据自然语言描述在3D场景中定位目标对象。该任务具有挑战性，因为它需要同时理解3D场景和语言描述。现有的3DVG方法主要分为两阶段方法和单阶段方法。两阶段方法通常先进行目标检测，再进行文本匹配，存在大量冗余计算；而现有的单阶段方法虽然在效率上有一定提升，但仍然无法满足实时性要求，并且在性能上不如两阶段方法。

研究方法

多级稀疏卷积架构：TSP3D采用基于稀疏卷积的多级架构，输入的点云数据首先被体素化，然后通过多个稀疏卷积块生成多级体素特征。这种架构不仅提供了高分辨率的场景表示，还比基于点的架构具有更快的推理速度。
文本引导的稀疏体素剪枝（TGP）：TGP利用文本信息指导3D场景表示的剪枝过程，减少体素数量并增强体素和文本特征的交互。TGP分为场景级剪枝和目标级剪枝两个阶段，逐步去除背景和无关对象的特征，保留目标对象和相关对象的特征。
基于补全的添加（CBA）：CBA用于动态补偿过度剪枝的区域，特别是在处理小或窄的目标对象时。CBA通过高分辨率的背景特征补全缺失的体素，确保目标对象的完整性。
训练损失：TSP3D的总损失函数包括剪枝损失、补全损失、目标性损失和边界框回归损失，采用Focal Loss处理类别不平衡问题，并使用Distance-IoU Loss优化边界框的回归。

实验

数据集：使用ScanRefer和ReferIt3D（包括Nr3D和Sr3D）数据集进行评估。
实验设置：基于PyTorch实现，使用RTX 3090 GPU进行推理速度评估，批大小为1。
性能比较：
- 在ScanRefer数据集上，TSP3D达到了56.45%的Acc@0.25和46.71%的Acc@0.5，推理速度为12.43 FPS，超越了所有单阶段方法，并且在Acc@0.5上比两阶段方法的最好结果高出1.13%。
- 在Nr3D和Sr3D数据集上，TSP3D分别达到了48.7%和57.1%的准确率，分别比之前的最好结果高出2.6%和3.2%。
消融研究：
- TGP和CBA的结合显著提升了性能，推理速度略有下降。
- 在不同层级上应用CBA的效果不同，Level 1的CBA对性能提升更为显著。
- 简化版TGP在保持性能的同时，提高了推理速度。

关键结论

TSP3D通过文本引导的稀疏体素剪枝和基于补全的添加，实现了高效的3D场景表示和文本特征融合，显著提升了3D视觉定位任务的准确率和推理速度。该方法在多个数据集上取得了最先进的性能，证明了其在实时3DVG任务中的有效性和实用性。未来的工作可以进一步优化多模态特征交互机制，探索实时点云输入和动态场景处理，以及扩展到多语言环境和更广泛的应用场景。

2.Simplifying DINO via Coding Rate Regularization

标题：通过编码率正则化简化 DINO

作者：Ziyang Wu, Jingyuan Zhang, Druv Pai, XuDong Wang, Chandan Singh, Jianwei Yang, Jianfeng Gao, Yi Ma

文章链接：https://arxiv.org/abs/2502.10385

摘要：

DINO 和 DINOv2 是两个模型族，广泛用于从大比例下的未标注影像数据中学习制图表达。他们学习的表示通常可以为下游任务（例如图像分类和分割）提供最先进的性能。然而，他们采用了许多基于经验的设计选择，并且他们的训练管道非常复杂且不稳定——许多超参数需要仔细调整以确保表示不会崩溃——这给改进它们或使它们适应新领域带来了相当大的困难。在这项工作中，我们假设我们可以在预训练管道中删除大多数此类动机的特质，并且只需要在损失函数中添加一个明确的编码率项，以避免表示的崩溃。结果，我们获得了 DINO 和 DINOv2 的高度简化变体，我们分别称为 SimDINO 和 SimDINOv2。值得注意的是，这些简化模型对不同的设计选择（例如网络架构和超参数）更健壮，并且它们学习了更高质量的表示，通过下游任务的性能来衡量，与相应的 DINO 和 DINOv2 模型相比，提供了帕累托改进。这项工作强调了使用简化设计原则来改进深度学习的实证实践的潜力。

这篇论文试图解决什么问题？

这篇论文试图解决的问题是**如何简化DINO和DINOv2模型的预训练流程，同时保持或提升其在下游任务中的性能**。DINO和DINOv2是两种广泛用于从大规模无标记图像数据中学习表示的模型家族。尽管这些模型在下游任务（如图像分类和分割）中表现出色，但它们的训练流程高度复杂且不稳定，需要仔细调整许多超参数以避免表示坍塌，这给模型的改进和适应新领域带来了很大困难。

论文的主要贡献是提出了两个简化的模型变体，SimDINO和SimDINOv2，通过在损失函数中添加一个显式的编码率（coding rate）项来避免表示坍塌，从而移除了许多经验性的设计选择和复杂的训练流程。这些简化的模型不仅更加鲁棒，能够适应不同的网络架构和超参数选择，而且在下游任务中学习到了更高质量的表示，实现了对原始DINO和DINOv2模型的帕累托改进（Pareto improvement）。

论文如何解决这个问题？

论文通过以下步骤解决简化DINO和DINOv2模型预训练流程的问题：

1. 移除复杂的后处理步骤

DINO的复杂后处理：DINO在教师和学生网络的输出上添加了多个后处理步骤，包括权重归一化的线性层（DINO头）、中心化操作、softmax以及基于交叉熵的损失函数。这些步骤增加了训练的复杂性和计算成本。
SimDINO的简化：SimDINO直接比较教师和学生网络的输出特征，避免了这些复杂的后处理步骤。具体来说，SimDINO使用简单的平方欧几里得距离作为损失函数，直接在归一化的特征上进行优化。

2. 引入编码率正则化

编码率正则化的动机：DINO和DINOv2通过复杂的机制（如中心化操作和温度缩放）来避免表示坍塌。这些机制不仅难以理解和调整，而且需要精心设计的超参数。
编码率正则化的实现：SimDINO和SimDINOv2通过在损失函数中添加一个编码率正则化项来显式地避免表示坍塌。编码率正则化项通过惩罚特征的协方差来确保特征的多样性，从而避免所有输入映射到相同的输出。

3. 简化DINOv2的训练流程

DINOv2的复杂性：DINOv2在DINO的基础上增加了掩蔽机制和对patch特征的额外损失，进一步提高了模型的性能，但同时也增加了训练流程的复杂性。
SimDINOv2的简化：SimDINOv2继承了DINOv2的掩蔽机制，但移除了DINO头、Sinkhorn-Knopp中心化和softmax操作。SimDINOv2直接在归一化的特征上计算欧几里得距离损失，并使用编码率正则化来避免坍塌。

4. 实验验证

性能提升：通过在ImageNet-1K数据集上进行预训练，并在多个下游任务（如图像分类、目标检测和分割）上进行评估，SimDINO和SimDINOv2不仅在性能上优于DINO和DINOv2，而且在训练过程中更加稳定。
鲁棒性：SimDINO和SimDINOv2对网络架构和超参数的选择更加鲁棒。例如，SimDINO在使用与DINO相同的超参数设置时能够稳定训练，而DINO在某些设置下会发散。

5. 理论分析

简化框架的优势：SimDINO和SimDINOv2的简化框架为理论分析提供了便利。例如，论文中提到，SimDINO可以在没有自蒸馏的情况下进行训练，这使得理论分析更加容易，同时模型仍然具有很强的实用性。

6. 未来工作

理论研究：简化后的框架为研究自监督学习损失的全局最优性质提供了新的视角。
应用扩展：将这种简化和显式正则化的方法应用到更多的自监督学习框架中，以提高现有模型的稳定性和性能。

通过这些步骤，论文不仅成功简化了DINO和DINOv2的预训练流程，还提高了模型的性能和鲁棒性，为自监督学习领域提供了新的研究方向。

论文做了哪些实验？

论文中进行了以下实验来验证SimDINO和SimDINOv2模型的性能和鲁棒性：

1. ImageNet-1K分类实验

实验设置：使用ImageNet-1K数据集进行预训练，采用k-NN和线性评估协议来评估预训练模型的性能。
实验结果：
- SimDINO在ViT-B上100个epoch的k-NN准确率为74.9%，线性准确率为77.3%，优于DINO的72.9%和76.3%。
- SimDINO在ViT-L上100个epoch的k-NN准确率为75.6%，线性准确率为77.4%，而DINO在ViT-L上训练发散。
- SimDINOv2在ViT-B上100个epoch的k-NN准确率为78.1%，线性准确率为79.7%，优于DINOv2的76.0%和77.2%。
- SimDINOv2在ViT-L上100个epoch的k-NN准确率为81.1%，线性准确率为82.4%，优于DINOv2的80.8%和82.0%。

2. 训练动态和稳定性分析

实验设置：比较DINO和SimDINO在训练过程中的性能变化。
实验结果：
- SimDINO的性能随着训练的进行稳步提升，而DINO的优化速度明显减慢，甚至在训练末期出现轻微的性能下降。
- 在ViT-L上，DINO的训练发散，而SimDINO能够稳定训练并取得良好的性能。

3. 下游任务评估

目标检测和分割：使用MaskCut方法在COCO val2017数据集上评估预训练模型的性能。
- SimDINO在ViT-B/16上的AP50为5.2，AP75为2.0，AP为2.5，优于DINO的3.9、1.5和1.8。
- SimDINO在ViT-L/16上的AP50为5.4，AP75为1.9，AP为2.4。
语义分割：在ADE20K数据集上进行语义分割任务，采用线性评估协议。
- SimDINO在ViT-B/16上的mIoU为33.7，优于DINO的33.1。
- SimDINOv2在ViT-B/16上的mIoU为36.9，显著优于DINOv2的32.5。
- SimDINOv2在ViT-L/16上的mIoU为41.8，优于DINOv2的41.0。
视频目标分割：在DAVIS-2017数据集上进行视频目标分割任务。
- SimDINO在ViT-B/16上的(J&F)m为63.0，优于DINO的61.5。
- SimDINOv2在ViT-B/16上的(J&F)m为60.9，优于DINOv2的53.2。
- SimDINOv2在ViT-L/16上的(J&F)m为62.6，优于DINOv2的62.0。

4. 鲁棒性测试

不同数据集上的训练：在COCO train2017数据集上训练DINO和SimDINO，验证模型在不同数据集上的鲁棒性。
- SimDINO在COCO train2017上的k-NN准确率为69.7%，显著优于DINO的NaN（发散）。
不同超参数设置：通过调整DINO特定的超参数（如教师动量、最后层归一化、教师温度等），验证DINO的稳定性。
- 轻微调整这些超参数会导致DINO训练发散，而SimDINO对这些超参数的变化更加鲁棒。
不同批次大小：在ViT-S上使用SimDINO进行训练，测试不同批次大小对性能的影响。
- SimDINO在批次大小为256时的k-NN准确率为68.3%，在512时为69.7%，在1024时为69.6%，显示出对批次大小的鲁棒性。
更长的训练周期：将SimDINO的训练周期加倍，验证更长训练周期对性能的影响。
- SimDINO在200个epoch的k-NN准确率为76.0%，线性准确率为77.7%，优于100个epoch的74.9%和77.3%。

5. 注意力图可视化

实验设置：对不同模型的注意力图进行可视化，以定性比较模型的分割特性。
实验结果：所有方法（包括DINO、DINOv2、SimDINO和SimDINOv2）的注意力图都显示出从视觉自监督学习中出现的显著分割特性。

这些实验结果表明，SimDINO和SimDINOv2在性能和鲁棒性方面优于DINO和DINOv2，同时简化了训练流程，降低了训练的复杂性和计算成本。

论文的主要内容：

论文《Simplifying DINO via Coding Rate Regularization》的主要内容是提出了一种简化DINO和DINOv2模型预训练流程的方法，通过引入编码率正则化来避免表示坍塌，从而得到更简洁、更鲁棒的模型变体SimDINO和SimDINOv2。这些简化模型在下游任务中表现出色，优于原始DINO和DINOv2模型。以下是论文的主要内容概述：

1. 研究背景

DINO和DINOv2是两种广泛用于从大规模无标记图像数据中学习表示的模型家族。这些模型在下游任务（如图像分类和分割）中表现出色，但其训练流程复杂且不稳定，需要精心调整许多超参数以避免表示坍塌。

2. 研究动机

论文提出，通过在损失函数中添加一个显式的编码率正则化项，可以显著简化DINO和DINOv2的训练流程，同时保持或提升其在下游任务中的性能。

3. 方法

SimDINO：通过移除DINO中的复杂后处理步骤（如DINO头、中心化操作、softmax和交叉熵损失），直接在归一化的特征上使用平方欧几里得距离作为损失函数，并引入编码率正则化来避免表示坍塌。
SimDINOv2：在SimDINO的基础上，继承了DINOv2的掩蔽机制，但移除了DINO头、Sinkhorn-Knopp中心化和softmax操作，直接在归一化的特征上计算欧几里得距离损失，并使用编码率正则化。

4. 实验验证

ImageNet-1K分类：SimDINO和SimDINOv2在ImageNet-1K数据集上的k-NN和线性评估性能优于DINO和DINOv2。
目标检测和分割：使用MaskCut方法在COCO val2017数据集上评估，SimDINO和SimDINOv2在目标检测和分割任务上的性能优于DINO和DINOv2。
语义分割：在ADE20K数据集上进行语义分割任务，SimDINO和SimDINOv2的性能优于DINO和DINOv2。
视频目标分割：在DAVIS-2017数据集上进行视频目标分割任务，SimDINO和SimDINOv2的性能优于DINO和DINOv2。
鲁棒性测试：SimDINO和SimDINOv2在不同数据集、超参数设置和批次大小下的表现更加鲁棒，能够稳定训练并取得良好的性能。

5. 结论

论文证明了通过简化DINO和DINOv2的训练流程，并引入编码率正则化，可以得到更简洁、更鲁棒的模型变体SimDINO和SimDINOv2。这些模型在下游任务中表现出色，优于原始DINO和DINOv2模型。论文还提出了未来工作的方向，包括理论分析、模型架构改进、超参数优化等。

6. 未来工作

理论分析：进一步研究简化后的自监督学习损失函数的全局最优性质。
模型架构改进：探索更高效的网络架构，以进一步提高模型的性能和计算效率。
超参数优化：使用自动化方法优化超参数，研究动态超参数调整方法。
数据增强和正则化：探索新的数据增强策略和正则化方法的组合。
跨模态学习：将SimDINO和SimDINOv2扩展到多模态学习场景。
下游任务优化：针对特定的下游任务进一步优化预训练表示。
分布式训练和扩展性：研究大规模分布式训练策略和模型压缩量化方法。
实验验证和应用：在更多数据集和下游任务上验证模型性能，探索实际应用中的潜力和挑战。

通过这些研究和实验，论文展示了简化设计原则在提升深度学习模型性能方面的潜力，并为未来的研究提供了新的方向。

3.Dream2Real: Zero-Shot 3D Object Rearrangement with Vision-Language Models(CVPR 2023)

标题：动态视频的自适应人类抠图

作者：Chung-Ching Lin, Jiang Wang, Kun Luo, Kevin Lin, Linjie Li, Lijuan Wang, Zicheng Liu

文章链接：https://arxiv.org/abs/2304.06018

项目代码：https://github.com/microsoft/AdaM

摘要：

视

这篇论文试图解决什么问题？

这篇论文试图解决在医学图像分割任务中，如何在仅有涂鸦（scribble）标注的情况下实现高效且准确的分割。具体来说，它面临以下挑战：

高质量标注数据稀缺：传统的深度学习模型通常需要大量精确标注的数据来训练，但在医学图像领域，获取这样的数据成本高昂且耗时。因此，论文探索了弱监督学习（weakly-supervised learning）方法，特别是涂鸦监督（scribble-supervised）学习，以减少对密集标注数据的依赖。
模型性能提升：在涂鸦监督学习中，如何利用有限的标注信息来训练出性能接近全监督学习（fully-supervised learning）的模型是一个关键问题。论文提出了一个新颖的框架QMaxViT-Unet+，旨在通过改进的网络架构和训练策略来提高分割精度和鲁棒性。
边界信息不足：涂鸦标注通常缺乏精确的边界信息，这可能导致分割结果的边界不够准确。为了解决这一问题，论文引入了边缘增强模块（Edge enhancement module），以增强模型对边界信息的感知能力。
模型泛化能力：在不同的医学图像数据集之间，模型的泛化能力也是一个重要的考量因素。论文通过实验验证了所提出模型在不同数据集上的表现，以评估其泛化能力。

总的来说，这篇论文的目标是在减少标注成本的同时，提高医学图像分割的准确性和效率，使其更适用于实际的医疗图像分析场景。

论文如何解决这个问题？

论文提出了一个名为 **QMaxViT-Unet+** 的框架来解决涂鸦监督医学图像分割问题。该框架通过以下关键方法和组件来解决上述挑战：

1. 使用 MaxViT 块的 U-Net 架构

MaxViT 块：QMaxViT-Unet+ 采用了基于 U-Net 的架构，但将传统的编码器和解码器块替换为 Multi-Axis Vision Transformer (MaxViT) 块。MaxViT 块结合了卷积层和 Transformer 层的优点，能够高效地学习局部和全局特征。具体来说，MaxViT 块通过以下机制实现高效特征提取：
- Mobile Convolution Blocks (MBConv)：用于计算特征。
- Squeeze-and-Excitation (SE) 注意力机制：用于通道注意力。
- Block Attention 和 Grid Attention：用于空间注意力。
预训练：利用预训练的 MaxViT 作为骨干网络，通过转移学习进一步提升分割精度。

2. 查询引导的 Transformer 解码器

查询引导的 Transformer 解码器：为了进一步细化特征并提高分割质量，QMaxViT-Unet+ 引入了一个查询引导的 Transformer 解码器。该解码器通过以下步骤工作：
- 定义一组查询 q={q1,q2,…,qi}q={q1,q2,…,qi}，其中 ii 表示分割任务中的类别数。
- 使用 Query Enhancer 将零初始化的查询与边缘增强模块生成的注意力图结合，生成增强的可学习查询。
- 将增强的查询和来自最后一个 E-block 的特征输入到 Transformer 解码器中，以更新查询并增强对重要特征的关注。
- 使用 PPM-FPN 模块处理来自最后三个 E-block 的特征，并通过矩阵乘法将更新的查询分配到多尺度特征上，生成辅助分割掩码 Y2Y2。

3. 边缘增强模块

边缘增强模块：为了解决涂鸦标注中边界信息不足的问题，QMaxViT-Unet+ 引入了一个边缘增强模块。该模块的具体步骤如下：
- 第一个分支通过 1x1 卷积层生成边缘掩码，这些掩码由自动生成的边缘真值监督。
- 第二个分支通过 MaxViT Stage 生成注意力图，这些注意力图用于与零初始化的查询结合，并在 Query Enhancer 中使用。
- 从第一个和第二个 E-block 提取特征，这些特征通常包含低级特征（如边缘）。
- 将第二个 E-block 的输出上采样以对齐第一个 E-block 的分辨率，然后通过 1x1-3x3 卷积层处理。
- 将处理后的特征分为两个分支：
- 将注意力图上采样并通过 1x1 卷积层增强 D-blocks 的边缘信息。

4. 损失函数

涂鸦监督损失：使用部分交叉熵损失（Partial Cross-Entropy Loss），忽略涂鸦标注中的未标记像素（UP）。 Lssl(Y1,Y2)=12[Lpce(Y1,s)+Lpce(Y2,s)] 其中，Lpce 是部分交叉熵损失函数。
伪监督损失：通过动态混合两个预测 Y1Y1 和 Y2Y2 生成伪标签，并使用 Dice 损失函数计算伪监督损失。 Lpsl(Y1,Y2)=12[Ldice(Y1,Y)+Ldice(Y2,Y)] 其中，Y=argmax(α⋅Y1+β⋅Y2)，αα 和 ββ 是动态生成的随机数。
边缘监督损失：使用均方误差（MSE）回归损失函数监督边缘增强模块。

Lesl=1n∑p=1n(EEM(p)−Egt(p))2

其中，EEM(p)是边缘增强模块的预测边缘值，Egt(p)是对应的边缘真值。
总损失：将上述三种损失函数组合起来，形成最终的损失函数。 Ltotal=λ1⋅Lssl+λ2⋅Lpsl+λ3⋅Lesl 其中，λ1,λ2,λ3是平衡不同损失的权重。

5. 实验验证

数据集：在四个公共数据集上评估 QMaxViT-Unet+ 的性能，包括 ACDC、MS-CMRSeg、SUN-SEG 和 BUSI。这些数据集涵盖了心脏结构、结直肠息肉和乳腺癌等不同的医学图像。
评估指标：使用 Dice 相似系数（DSC）和 Hausdorff 距离的 95th 百分位（HD95）作为评估指标。
实验结果：QMaxViT-Unet+ 在 ACDC 数据集上实现了 89.1% 的 DSC 和 1.316mm 的 HD95，在 MS-CMRSeg 数据集上实现了 88.4% 的 DSC 和 2.226mm 的 HD95，在 SUN-SEG 数据集上实现了 71.4% 的 DSC 和 4.996mm 的 HD95，在 BUSI 数据集上实现了 69.4% 的 DSC 和 50.122mm 的 HD95。这些结果表明，QMaxViT-Unet+ 在准确性和鲁棒性方面优于现有的方法，并且在效率上与全监督学习方法相当。

通过上述方法，QMaxViT-Unet+ 在减少标注成本的同时，显著提高了医学图像分割的性能，使其更适合于实际的医疗图像分析场景。

论文做了哪些实验？

论文中进行了以下实验来验证所提出的 **QMaxViT-Unet+** 模型的性能和有效性：

1. 数据集选择与预处理

数据集：在四个公共医学图像数据集上评估 QMaxViT-Unet+ 的性能，包括：
- ACDC：包含 150 名患者的 cine-MRI 扫描，手动标注了左心室（LV）、右心室（RV）和心肌（MYO）。
- MS-CMRSeg：包含 45 名心肌病患者的 late gadolinium enhancement (LGE) MRI 扫描，标注了 LV、MYO 和 RV。
- SUN-SEG：包含 100 个不同息肉视频案例，标注了息肉和背景。
- BUSI：包含 2018 年从 25 至 75 岁女性收集的乳腺超声图像，标注了乳腺癌和背景。
预处理：对于每个数据集，进行了数据增强（随机旋转和翻转），并将图像调整为 256×256 像素大小。对于边缘信息提取，使用预训练模型生成边缘掩码。

2. 模型训练与优化

训练细节：
- 使用 PyTorch 实现模型，并在单个 NVIDIA RTX 4090 GPU 上进行训练。
- 学习率设置为 1e-3，权重衰减为 0.01，使用 AdamW 优化器进行 200 个 epoch 的训练。
- 使用 CosineAnnealingLR 调度器调整学习率。
- 损失函数的权重 λ1,λ2,λ3λ1,λ2,λ3 分别设置为 1, 0.5, 0.2。

3. 性能评估

评估指标：使用 Dice 相似系数（DSC）和 Hausdorff 距离的 95th 百分位（HD95）作为主要评估指标。
结果比较：将 QMaxViT-Unet+ 的性能与其他现有的弱监督学习方法和全监督学习方法进行了比较。具体结果如下：
- QMaxViT-Unet+：DSC = 69.4%，HD95 = 50.122mm。
- 其他弱监督方法：S2ME（DSC = 67.3%，HD95 = 69.126mm）。
- 全监督方法：Unet𝐹（DSC = 72.2%，HD95 = 68.512mm）。
- QMaxViT-Unet+：DSC = 71.4%，HD95 = 4.996mm。
- 其他弱监督方法：S2ME（DSC = 67.4%，HD95 = 4.583mm）。
- 全监督方法：Unet𝐹（DSC = 71.3%，HD95 = 4.405mm）。
- QMaxViT-Unet+：DSC = 88.4%，HD95 = 2.226mm。
- 其他弱监督方法：ScribbleVC（DSC = 86.7%，HD95 = 9.446mm）、ScribFormer（DSC = 83.8%，HD95 = 6.058mm）。
- 全监督方法：Unet𝐹（DSC = 85.4%，HD95 = 3.290mm）。
- QMaxViT-Unet+：DSC = 89.1%，HD95 = 1.316mm。
- 其他弱监督方法：ScribbleVC（DSC = 85.2%，HD95 = 1.778mm）、ScribFormer（DSC = 87.4%，HD95 = 6.466mm）。
- 全监督方法：TransUnet（DSC = 89.1%，HD95 = 1.568mm）。
- ACDC 数据集：
- MS-CMRSeg 数据集：
- SUN-SEG 数据集：
- BUSI 数据集：

4. 消融研究

模型组件的有效性：通过消融实验验证了查询引导的 Transformer 解码器和边缘增强模块对模型性能的贡献。实验结果表明，这两个组件都显著提高了模型的分割性能。
- 基线模型（无查询和边缘组件）：DSC = 87.3%，HD95 = 6.749mm。
- 添加边缘组件：DSC = 87.8%，HD95 = 2.508mm。
- 添加查询组件：DSC = 87.9%，HD95 = 2.611mm。
- 同时添加查询和边缘组件：DSC = 88.4%，HD95 = 2.226mm。
- 基线模型（无查询和边缘组件）：DSC = 75.2%，HD95 = 178.712mm。
- 添加边缘组件：DSC = 77.2%，HD95 = 173.583mm。
- 添加查询组件：DSC = 78.3%，HD95 = 167.621mm。
- 同时添加查询和边缘组件：DSC = 81.8%，HD95 = 139.566mm。
- 单解码器设置：
- 双解码器设置：

5. 模型泛化能力

跨数据集实验：在 ACDC 和 MS-CMRSeg 数据集之间进行跨数据集实验，评估模型在不同数据集上的泛化能力。结果表明，QMaxViT-Unet+ 在跨数据集测试中表现出色，性能下降幅度较小。
- ACDC → MS-CMRSeg：DSC = 70.3%，HD95 = 10.840mm。
- MS-CMRSeg → ACDC：DSC = 72.5%，HD95 = 22.217mm。

6. 模型复杂度分析

模型复杂度比较：分析了 QMaxViT-Unet+ 与其他现有方法的参数数量、乘积累加操作（MACs）和平均推理时间。结果表明，尽管 QMaxViT-Unet+ 的参数数量较多，但其计算复杂度较低，推理时间合理。
- QMaxViT-Unet+：参数数量 = 109.01M，MACs = 39.10G，推理时间 = 0.593s。
- 其他方法：例如，ScribbleVC（参数数量 = 50.27M，MACs = 54.48G，推理时间 = 0.529s）。

7. 可视化分析

特征可视化：通过可视化 QMaxViT-Unet+ 模型在推理过程中提取的特征，验证了查询引导的 Transformer 解码器能够有效地聚焦于相关特征，并过滤掉不必要的信息。
注意力图可视化：展示了模型在不同数据集上的注意力图，验证了模型能够有效地关注医学图像中的重要特征。

通过这些实验，论文全面验证了 QMaxViT-Unet+ 在涂鸦监督医学图像分割任务中的性能和有效性，证明了其在减少标注成本的同时，能够实现与全监督学习方法相当的分割精度。

论文的主要内容：

本文提出了一种名为 **QMaxViT-Unet+** 的新型框架，用于解决医学图像分割中的涂鸦监督学习问题。该框架通过结合 MaxViT 块、查询引导的 Transformer 解码器和边缘增强模块，有效地提高了分割精度和鲁棒性，同时减少了对密集标注数据的依赖。以下是论文的主要内容总结：

研究背景与动机

背景：医学图像分割是医学图像分析中的一个重要任务，但传统的深度学习方法通常需要大量精确标注的数据，这在实际应用中成本高昂且耗时。因此，研究者们开始探索弱监督学习方法，特别是涂鸦监督学习，以减少对密集标注数据的需求。
动机：尽管已有研究在涂鸦监督学习方面取得了一定进展，但现有方法在处理复杂结构和边界信息时仍存在不足。此外，如何利用预训练模型来进一步提升分割性能也是一个值得研究的问题。

QMaxViT-Unet+ 框架

架构：QMaxViT-Unet+ 基于 U-Net 架构，将传统的编码器和解码器块替换为 MaxViT 块，以更高效地学习局部和全局特征。此外，该框架还集成了查询引导的 Transformer 解码器和边缘增强模块。
MaxViT 块：MaxViT 块结合了卷积层和 Transformer 层的优点，能够高效地建模空间交互，同时保持线性复杂度。
查询引导的 Transformer 解码器：通过增强的查询和特征交互，进一步细化特征表示，提高分割精度。
边缘增强模块：通过提取和增强边缘信息，弥补涂鸦标注中边界信息的不足，提高分割的边界准确性。

损失函数

涂鸦监督损失：使用部分交叉熵损失，忽略未标记的像素。
伪监督损失：通过动态混合两个预测生成伪标签，并使用 Dice 损失进行监督。
边缘监督损失：使用均方误差损失监督边缘增强模块。
总损失：将上述三种损失函数组合，通过权重平衡不同损失的贡献。

实验与结果

数据集：在四个公共医学图像数据集上进行评估，包括 ACDC、MS-CMRSeg、SUN-SEG 和 BUSI。
评估指标：使用 Dice 相似系数（DSC）和 Hausdorff 距离的 95th 百分位（HD95）作为主要评估指标。
性能比较：QMaxViT-Unet+ 在所有数据集上均优于现有的弱监督学习方法，并且在某些数据集上接近全监督学习方法的性能。具体结果如下：
- ACDC：DSC = 89.1%，HD95 = 1.316mm。
- MS-CMRSeg：DSC = 88.4%，HD95 = 2.226mm。
- SUN-SEG：DSC = 71.4%，HD95 = 4.996mm。
- BUSI：DSC = 69.4%，HD95 = 50.122mm。

消融研究

模型组件的有效性：通过消融实验验证了查询引导的 Transformer 解码器和边缘增强模块对模型性能的贡献。结果表明，这两个组件显著提高了分割精度和边界准确性。
跨数据集实验：在 ACDC 和 MS-CMRSeg 数据集之间进行跨数据集实验，评估模型的泛化能力。QMaxViT-Unet+ 在跨数据集测试中表现出色，性能下降幅度较小。

结论

QMaxViT-Unet+ 通过结合 MaxViT 块、查询引导的 Transformer 解码器和边缘增强模块，有效地提高了涂鸦监督医学图像分割的性能。该方法在减少标注成本的同时，实现了与全监督学习方法相当的分割精度，具有较高的实用性和推广价值。

未来工作

改进边缘信息的提取和利用：开发更先进的自动化技术来增强边界信息，同时最小化噪声。
处理复杂结构和小区域检测：应用更高级的医学图像处理技术和注意力机制改进，以提高对复杂结构和小区域的检测能力。
扩大数据集和跨数据集验证：开发更多涂鸦标注的医学图像数据集，并在更多不同的数据集上进行模型验证。
模型优化和效率提升：应用模型压缩技术和硬件加速，以减少模型的参数数量和推理时间。
无监督预训练和迁移学习：探索在大规模未标注医学图像数据上进行无监督预训练，以学习更通用的特征表示。
多任务学习和联合训练：将分割任务与其他相关任务联合训练，以提高模型的综合性能。
临床验证和应用：与临床医生合作，在实际的医疗环境中验证模型的性能和实用性。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-02-19，如有侵权请联系 cloudcommunity@tencent.com 删除

模型

本文分享自 AiCharm 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！