前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >每日学术速递9.4

每日学术速递9.4

作者头像
AiCharm
发布于 2023-09-06 08:42:05
发布于 2023-09-06 08:42:05
3140
举报
文章被收录于专栏:AiCharmAiCharm

1.PointLLM: Empowering Large Language Models to Understand Point Clouds

标题:PointLLM:使大型语言模型能够理解点云

作者:Runsen Xu, Xiaolong Wang, Tai Wang, Yilun Chen, Jiangmiao Pang, Dahua Lin

文章链接:https://arxiv.org/abs/2308.16911

项目代码:https://github.com/OpenRobotLab/PointLLM

摘要:

大型语言模型 (LLM) 的前所未有的进步对自然语言处理产生了深远的影响,但尚未完全涵盖 3D 理解领域。本文介绍了 PointLLM,这是填补这一空白的初步努力,从而使法学硕士能够理解点云并提供超越 2D 视觉数据的新途径。PointLLM 根据人类指令处理彩色对象点云,并生成上下文适当的响应,说明其对点云和常识的掌握。具体来说,它利用具有强大 LLM 的点云编码器来有效融合几何、外观和语言信息。我们收集了一个包含 660K 简单和 70K 复杂点文本指令对的新颖数据集,以实现两阶段训练策略:首先对齐潜在空间,然后对统一模型进行指令调整。为了严格评估我们模型的感知能力及其泛化能力,我们建立了两个基准:生成 3D 对象分类和 3D 对象描述,通过三种不同的方法进行评估,包括人类评估、GPT-4/ChatGPT 评估和传统指标。实验结果表明,PointLLM 表现出优于现有 2D 基线的性能。值得注意的是,在人工评估的对象字幕任务中,PointLLM 在超过 50% 的样本中优于人工注释者。

2.MVDream: Multi-view Diffusion for 3D Generation

标题:MVDream:用于 3D 生成的多视图扩散

作者:Yichun Shi, Peng Wang, Jianglong Ye, Mai Long, Kejie Li, Xiao Yang

文章链接:https://arxiv.org/abs/2308.16512

项目代码:https://mv-dream.github.io/

摘要:

我们提出了 MVDream,一种多视图扩散模型,能够根据给定的文本提示生成几何一致的多视图图像。通过利用在大规模 Web 数据集和从 3D 资产渲染的多视图数据集上预先训练的图像扩散模型,生成的多视图扩散模型可以实现 2D 扩散的通用性和 3D 数据的一致性。因此,这样的模型可以通过分数蒸馏采样作为 3D 生成的多视图先验,通过解决 3D 一致性问题极大地提高了现有 2D 提升方法的稳定性。最后,我们表明多视图扩散模型也可以在个性化 3D 生成的少量镜头设置下进行微调,即 DreamBooth3D 应用程序,在学习主体身份后可以保持一致性。

3.SAM-Med2D

作者:Junlong Cheng, Jin Ye, Zhongying Deng, Jianpin Chen, Tianbin Li, Haoyu Wang, Yanzhou Su, Ziyan Huang, Jilong Chen, Lei Jiang, Hui Sun, Junjun He, Shaoting Zhang, Min Zhu, Yu Qiao,

文章链接:https://arxiv.org/abs/2308.16184

项目代码:https://github.com/uni-medical/SAM-Med2D

摘要:

Segment Anything Model (SAM) 代表了自然图像分割领域最先进的研究进展,通过点和边界框等输入提示取得了令人印象深刻的结果。然而,我们的评估和最近的研究表明,直接将预训练的 SAM 应用于医学图像分割并不能产生令人满意的性能。这种限制主要源于自然图像和医学图像之间的显着域差距。为了弥补这一差距,我们引入了 SAM-Med2D,这是将 SAM 应用于医学 2D 图像的最全面的研究。具体来说,我们首先从公共和私人数据集中收集和整理大约 460 万张图像和 1970 万张掩模,构建包含各种模式和对象的大规模医学图像分割数据集。然后,我们在此数据集上全面微调 SAM,并将其转化为 SAM-Med2D。与之前仅采用边界框或点提示作为交互式分割方法的方法不同,我们通过涉及边界框、点和掩模的更全面的提示将 SAM 应用于医学图像分割。我们还对原始 SAM 的编码器和解码器进行了微调,以获得性能良好的 SAM-Med2D,从而形成迄今为止最全面的微调策略。最后,我们进行了全面的评估和分析,以研究 SAM-Med2D 在各种模态、解剖结构和器官的医学图像分割中的性能。同时,我们在 MICCAI 2023 挑战赛的 9 个数据集上验证了 SAM-Med2D 的泛化能力。总体而言,与 SAM 相比,我们的方法表现出显着优越的性能和泛化能力。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-09-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AiCharm 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档