1.PointLLM: Empowering Large Language Models to Understand Point Clouds
标题:PointLLM:使大型语言模型能够理解点云
作者:Runsen Xu, Xiaolong Wang, Tai Wang, Yilun Chen, Jiangmiao Pang, Dahua Lin
文章链接:https://arxiv.org/abs/2308.16911
项目代码:https://github.com/OpenRobotLab/PointLLM
摘要:
大型语言模型 (LLM) 的前所未有的进步对自然语言处理产生了深远的影响,但尚未完全涵盖 3D 理解领域。本文介绍了 PointLLM,这是填补这一空白的初步努力,从而使法学硕士能够理解点云并提供超越 2D 视觉数据的新途径。PointLLM 根据人类指令处理彩色对象点云,并生成上下文适当的响应,说明其对点云和常识的掌握。具体来说,它利用具有强大 LLM 的点云编码器来有效融合几何、外观和语言信息。我们收集了一个包含 660K 简单和 70K 复杂点文本指令对的新颖数据集,以实现两阶段训练策略:首先对齐潜在空间,然后对统一模型进行指令调整。为了严格评估我们模型的感知能力及其泛化能力,我们建立了两个基准:生成 3D 对象分类和 3D 对象描述,通过三种不同的方法进行评估,包括人类评估、GPT-4/ChatGPT 评估和传统指标。实验结果表明,PointLLM 表现出优于现有 2D 基线的性能。值得注意的是,在人工评估的对象字幕任务中,PointLLM 在超过 50% 的样本中优于人工注释者。
2.MVDream: Multi-view Diffusion for 3D Generation
标题:MVDream:用于 3D 生成的多视图扩散
作者:Yichun Shi, Peng Wang, Jianglong Ye, Mai Long, Kejie Li, Xiao Yang
文章链接:https://arxiv.org/abs/2308.16512
项目代码:https://mv-dream.github.io/
摘要:
我们提出了 MVDream,一种多视图扩散模型,能够根据给定的文本提示生成几何一致的多视图图像。通过利用在大规模 Web 数据集和从 3D 资产渲染的多视图数据集上预先训练的图像扩散模型,生成的多视图扩散模型可以实现 2D 扩散的通用性和 3D 数据的一致性。因此,这样的模型可以通过分数蒸馏采样作为 3D 生成的多视图先验,通过解决 3D 一致性问题极大地提高了现有 2D 提升方法的稳定性。最后,我们表明多视图扩散模型也可以在个性化 3D 生成的少量镜头设置下进行微调,即 DreamBooth3D 应用程序,在学习主体身份后可以保持一致性。
3.SAM-Med2D
作者:Junlong Cheng, Jin Ye, Zhongying Deng, Jianpin Chen, Tianbin Li, Haoyu Wang, Yanzhou Su, Ziyan Huang, Jilong Chen, Lei Jiang, Hui Sun, Junjun He, Shaoting Zhang, Min Zhu, Yu Qiao,
文章链接:https://arxiv.org/abs/2308.16184
项目代码:https://github.com/uni-medical/SAM-Med2D
摘要:
Segment Anything Model (SAM) 代表了自然图像分割领域最先进的研究进展,通过点和边界框等输入提示取得了令人印象深刻的结果。然而,我们的评估和最近的研究表明,直接将预训练的 SAM 应用于医学图像分割并不能产生令人满意的性能。这种限制主要源于自然图像和医学图像之间的显着域差距。为了弥补这一差距,我们引入了 SAM-Med2D,这是将 SAM 应用于医学 2D 图像的最全面的研究。具体来说,我们首先从公共和私人数据集中收集和整理大约 460 万张图像和 1970 万张掩模,构建包含各种模式和对象的大规模医学图像分割数据集。然后,我们在此数据集上全面微调 SAM,并将其转化为 SAM-Med2D。与之前仅采用边界框或点提示作为交互式分割方法的方法不同,我们通过涉及边界框、点和掩模的更全面的提示将 SAM 应用于医学图像分割。我们还对原始 SAM 的编码器和解码器进行了微调,以获得性能良好的 SAM-Med2D,从而形成迄今为止最全面的微调策略。最后,我们进行了全面的评估和分析,以研究 SAM-Med2D 在各种模态、解剖结构和器官的医学图像分割中的性能。同时,我们在 MICCAI 2023 挑战赛的 9 个数据集上验证了 SAM-Med2D 的泛化能力。总体而言,与 SAM 相比,我们的方法表现出显着优越的性能和泛化能力。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有