CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
点击下方卡片,关注「AiCharm」公众号
Subjects: cs.CV
1.PIXART-δ: Fast and Controllable Image Generation with Latent Consistency Models
标题:PIXART-δ:具有潜在一致性模型的快速且可控的图像生成
作者:Junsong Chen, Yue Wu, Simian Luo, Enze Xie, Sayak Paul, Ping Luo, Hang Zhao, Zhenguo Li
文章链接:https://arxiv.org/abs/2401.05252
摘要:
本技术报告介绍了 PIXART-{\delta},这是一种文本到图像合成框架,它将潜在一致性模型 (LCM) 和 ControlNet 集成到先进的 PIXART-{\alpha} 模型中。PIXART-{\alpha} 因其通过非常高效的训练过程生成 1024px 分辨率的高质量图像的能力而受到认可。PIXART-{\delta}中 LCM 的集成显着加快了推理速度,只需 2-4 个步骤即可生成高质量图像。值得注意的是,PIXART-{\delta} 在生成 1024x1024 像素图像方面突破了 0.5 秒,比 PIXART-{\alpha} 提高了 7 倍。此外,PIXART-{\delta} 设计为可在一天内在 32GB V100 GPU 上进行高效训练。凭借其 8 位推理能力(von Platen 等人,2023),PIXART-{\delta} 可以在 8GB GPU 内存限制内合成 1024px 图像,大大增强了其可用性和可访问性。此外,结合类似 ControlNet 的模块可以对文本到图像扩散模型进行细粒度控制。我们引入了一种新颖的 ControlNet-Transformer 架构,专为 Transformer 量身定制,可在生成高质量图像的同时实现明确的可控性。作为最先进的开源图像生成模型,PIXART-{\delta} 为稳定扩散模型系列提供了一种有前途的替代方案,为文本到图像的合成做出了重大贡献。
2.Surgical-DINO: Adapter Learning of Foundation Model for Depth Estimation in Endoscopic Surgery( IPCAI 2024 (IJCAR Special Issue))
标题:Surgical-DINO:内窥镜手术深度估计基础模型的适配器学习
作者:Cui Beilei, Islam Mobarakol, Bai Long, Ren Hongliang
文章链接:https://arxiv.org/abs/2401.06013
项目代码:https://github.com/BeileiCui/SurgicalDINO
摘要:
目的:机器人手术中的深度估计对于 3D 重建、手术导航和增强现实可视化至关重要。尽管基础模型在许多视觉任务中表现出出色的性能,包括深度估计(例如 DINOv2),但最近的工作观察到其在医疗和外科领域特定应用中的局限性。这项工作提出了用于手术深度估计的基础模型的低阶适应(LoRA)。方法:我们设计了一种基于基础模型的深度估计方法,称为 Surgical-DINO,是 DINOv2 的低阶改编,用于内窥镜手术中的深度估计。我们构建 LoRA 层并将其集成到 DINO 中,以适应手术特定的领域知识,而不是传统的微调。在训练过程中,我们冻结了 DINO 图像编码器,该编码器显示出出色的视觉表示能力,并且仅优化 LoRA 层和深度解码器以集成手术场景的特征。结果:我们的模型在 SCARED 的 MICCAI 挑战数据集上得到了广泛验证,该数据集是从达芬奇 Xi 内窥镜手术中收集的。我们的经验表明,在内窥镜深度估计任务中,Surgical-DINO 显着优于所有最先进的模型。消融研究的分析证明了 LoRA 层和适应的显着效果。结论:Surgical-DINO 为将基础模型成功应用于手术领域进行深度估计提供了一些启示。结果中有明确的证据表明,对计算机视觉数据集中预训练权重的零样本预测或朴素微调不足以直接在外科领域使用基础模型。
3.Structure from Duplicates: Neural Inverse Graphics from a Pile of Objects
标题:重复的结构:一堆对象的神经逆向图形
作者:Tianhang Cheng, Wei-Chiu Ma, Kaiyu Guan, Antonio Torralba, Shenlong Wang
文章链接:https://arxiv.org/abs/2401.05236
项目代码:https://github.com/Tianhang-Cheng/SfD
摘要:
我们的世界充满了相同的物体(例如,可乐罐、相同型号的汽车)。当将这些重复项放在一起查看时,它们为我们有效地推理 3D 提供了额外且强有力的线索。受这一观察的启发,我们引入了重复结构(SfD),这是一种新颖的逆向图形框架,可以从包含多个相同对象的单个图像中重建几何形状、材质和照明。SfD 首先识别图像中对象的多个实例,然后联合估计所有此 http URL 反向图形管道的 6DoF 姿态,随后用于联合推理对象的形状、材质和环境光,同时遵循跨实例共享几何和材料约束。我们的主要贡献包括利用对象重复作为单图像逆向图形的稳健先验,并提出用于联合 6-DoF 对象姿态估计的面内旋转稳健运动结构 (SfM) 公式。通过利用单个图像的多视图线索,SfD 生成更真实、更详细的 3D 重建,显着优于现有的单图像重建模型和具有相似或更多数量观察的多视图重建方法