作者:Yang Zheng、Zhendong Mao等
解读:AI生成未来
论文链接:https://arxiv.org/pdf/2506.00512
代码链接:https://github.com/shuoyueli4519/Pro3D-Editor-Code
项目网页:https://shuoyueli4519.github.io/Pro3D-Editor
亮点直击
- 提出了渐进式视图编辑范式,将编辑信息从编辑显著视图投影到编辑稀疏视图上,解决了多视图编辑时特征不一致的问题。
- 基于提出的范式设计了3D物体编辑框架Pro3D-Editor,实现了一致且精确的3D物体编辑。
- 在3D物体编辑任务上表现突出,编辑质量及编辑准确性优于现有方法。
总结速览
效果对比
解决的问题
- 编辑一致性问题:在多视图引导的3D编辑范式中,多视图之间容易出现编辑特征不一致的情况,限制了3D物体的编辑质量。
- 编辑准确性问题:现有的方法对所有视图采用同一编辑文本进行编辑引导,忽略了不同编辑指令所引发的差异化跨视图依赖关系,难以准确编辑同一块3D区域。
提出的方案
- 根据Multi-view Diffusion model(I2MV)结构而精心设计了LoRA变体(MoVE-LoRA),通过原物体的渲染多视图对MoVE-LoRA进行微调,实现了多视图之间的一致性的编辑。
- Primary-view Sampler模块通过计算相似性分数挑选出编辑最显著的主视图,然后通过Key-view Render模块将主视图的编辑信息投影到其余关键视图以实现一致且准确的多视图编辑,最后通过Full-view Refiner模块完成多视图引导下的3D编辑。
应用的技术
- 设计渐进式视图编辑范式,实现3D物体的精准区域编辑。
- 基于I2MV模型MV-Adapter设计了MoVE-LoRA微调方法,实现多视图一致性编辑。
- 修改GaussianObject方法使其支持3D物体编辑。
达到的效果
- 在3D物体区域编辑测试中,Pro3D-Editor在编辑准确性和一致性上均优于现有方法。
- 显著减少了多视图编辑时编辑特征不一致的情况,提高了3D物体编辑的质量。
- 在3D物体编辑任务上实现了局部编辑的效果,并不局限在3D物体全局编辑的形式上。
方法
渐进式视图编辑范式
现有的多视图引导下的3D编辑范式忽略了不同编辑指令所引发的差异化跨视图依赖关系,难以在多视图层面做到准确且一致的多视图编辑,这种多视图层面的特征不一致最终导致了编辑出的3D物体质量下降。
为了克服这一问题,论文提出了渐进式视图编辑范式,分为三个阶段:
- 主视图采样(Primary-view Sampler)
1.目标:从渲染出的多张视图中筛选出编辑信息密度最高的视图作为主视图。
2.方法:计算编辑文本与所有视图间的相似度分数,其中需加入一项惩罚项。该惩罚项用于应对 I2MV 基模生成视图视角不均匀的问题。
- 关键视图渲染(Key-view Render)
1.目标:根据上一步采样出的主视图和选择的关键视角进行多视图一致性编辑。
2.方法:在I2MV模型的multi-view attention结构上加入LoRA变体,使用原多视图进行微调,最后使用编辑好的主视图进行引导,实现多视图的一致性编辑。
3.效果:通过这一个阶段,模型能够输出一致且准确的编辑后多视图。
- 全局视图细化(Full-view Refiner)
1.目标:根据上一步编辑出的多视图对已有的3D物体进行迭代式编辑。
2.方法:先使用编辑后的多视图对3D物体进行初步迭代编辑,然后使用渲染出的视图和编辑多视图作为输入对ControlNet模型进行微调,用于细化任意渲染出的视图,最终完成对整个3D物体的细化编辑。
MoVE-LoRA
将LoRA加在I2MV模型的multi-view attention层上容易导致学习到的原多视图特征之间发生纠缠,无法将主视图上的编辑信息准确投影到其余关键视图上。
基于此,论文提出了Mixture-of-View-Experts Low-Rank Adaption(MoVE-LoRA),所有视图共享同一个Low Rank矩阵A来捕捉主视图的特征,矩阵A只使用主视图的梯度进行更新,Low Rank矩阵B用于学习从主视图到各个关键视图的特征投影,通过这种方式来做到主视图编辑特征的准确投影。
实验结果
实验设置
- 训练设置:基于MV-Adapter I2MV模型,使用MoVE-LoRA的秩为32进行训练,batch size为1,训练800 steps;基于ControlNet模型,使用LoRA的秩为64进行训练,学习率为1e-3,训练1800steps。
- 评估指标:使用FID、PSNR、LPIPS和FVD指标评估编辑质量,使用CLIP-T和DINO-I指标评估编辑准确性。
结果
- 定性指标:Pro3D-Editor在编辑3D物体的编辑准确性和一致性方面显著优于其它方法,能够做到精确且一致的3D物体局部编辑。
- 定量指标:在3D物体局部编辑任务上,相比与baselines的方法,Pro3D-Editor 在编辑质量(LPIPS)上提升 47.4%、在编辑准确性(DINO-I)上提升 9.7%。此外,Pro3D-Editor的编辑结果更大概率地被GPTEval3D认为是更优的。
- 消融实验:论文充分验证了渐进式视图编辑范式和其中三个模块的有效性,移除这些模块,性能显著下降。
结论
论文提出了一种新的渐进式视图编辑范式,以实现一致且精准的文本引导的3D物体编辑。具体而言,论文设计了对应的方法 Pro3D-Editor,该方法会动态编辑编辑显著性最高的视图,并将其编辑语义精准且一致地传递到其他关键视图。大量实验表明,Pro3D-Editor在特征一致性和编辑准确性上均优于现有方法,展现出在3D资产编辑应用中的巨大潜力。
参考文献
[1] Pro3D-Editor: A Progressive-Views Perspective for Consistent and Precise 3D Editing