Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >CVPR 2024 | LiDM:首个可以根据多模态条件生成逼真的激光雷达场景方法,加速107倍

CVPR 2024 | LiDM:首个可以根据多模态条件生成逼真的激光雷达场景方法,加速107倍

作者头像
CV君
发布于 2024-04-25 09:32:37
发布于 2024-04-25 09:32:37
4370
举报

本篇文章分享 CVPR 2024 论文LiDAR Diffusion:Towards Realistic Scene Generation with LiDAR Diffusion Models,利用激光雷达扩散模型生成逼真场景。

详细信息如下:

  • 论文链接:https://arxiv.org/abs/2404.00815
  • 代码链接:https://github.com/hancyran/LiDAR-Diffusion
  • 项目主页:https://lidar-diffusion.github.io/

背景

近年来,我们观察到可控生成模型的激增,这些模型能够生成具有视觉吸引力且高度逼真的图像。其中,扩散模型(Diffusion Models)因其无可挑剔的性能而成为最流行的方法之一。为了能够在任意条件下生成,潜在扩散模型(Latent Diffusion Models)。其后续应用(例如,Stable DiffusionMidjourney、ControlNet)进一步增强了其条件图像合成的潜力。

从图像扩散模型到LiDAR扩散模型

这一成功让我们思考:我们是否可以将可控扩散模型(Controllable Diffusion Models)应用于自动驾驶和机器人技术的LiDAR场景生成?

例如,给定一组Bounding Boxes,这些模型能否合成相应的激光雷达场景,从而转化为高质量且昂贵的标记数据?

或者,是否可以仅从汽车上摄像头捕捉的图像去生成相应的 3D 场景?

或者,我们能否设计一种语言驱动的 LiDAR 生成器来进行可控仿真?

为了回答这些问题,我们的目标是设计包含多种条件的扩散模型,以生成逼真的LiDAR的场景。

相关工作

我们从近期自动驾驶相关的扩散模型中观察到了一些现象。基于点的扩散模型,即LiDARGen引入了无条件的LiDAR场景生成。然而,该模型往往会产生嘈杂的背景(例如道路、墙壁)和模糊的物体(例如汽车),导致无法生成 LiDAR 真实场景。

此外,在没有任何压缩的情况下对点应用扩散可以在计算上减慢推理过程。此外,直接应用潜式扩散模型(Latent Diffusion Models)来生成LiDAR场景在定性和定量上都产生了无法令人满意的性能。

LiDAR扩散模型

为了实现条件 LiDAR 真实场景生成,我们提出了一种基于曲线的生成器,称为LiDAR 扩散模型(LiDAR Diffusion Models),以回答上述问题并解决先前工作的一些不足。LiDAR 扩散模型能够将多种条件作为输入,例如边界框、相机图像和语义图。

LiDAR 扩散模型利用range images作为 LiDAR 场景的表示,这在各种下游任务中都很常见,例如检测、语义分割和生成。这种选择基于距离图像和点云之间的可逆和无损转换,以及高度优化的 2D 卷积运算的实质性好处。为了在扩散过程中掌握 LiDAR 场景的语意信息,我们的方法在扩散过程之前对LiDAR 场景编码至一个潜式空间中。

为了进一步提高对现实世界中LiDAR 数据真实性的模拟,我们关注三个关键组成部分:图案真实性、几何真实性和物体真实性

首先,我们在自动编码过程中利用曲线压缩来提取LiDAR中点的曲线形态。

其次,为了达到几何的真实感,我们引入了基于点的坐标监督,以使我们的自动编码器能够理解场景级几何。

最后,我们通过结合Patch-based下采样策略来扩大感受野,以捕获在视觉上较大物体的完整上下文。

通过以上提出的模块,扩散模型能够有效地合成高质量的 LiDAR 场景,同时还表现出卓越的性能,与LiDARGen相比,加速了107倍,并支持任意类型的基于image和基于token的条件为输入

实验

LiDAR Diffusion在无条件LiDAR生成(Unconditional Generation)中实现state-of-the-art:

LiDAR Diffusion同样可以在多种条件下生成相应的LiDAR场景:

Semantic-Map-to-LiDAR

Camera-to-LiDAR

Text-to-LiDAR

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-04-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 我爱计算机视觉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
CVPR 2024 | 绝了!!最新 diffusion 扩散模型梳理!100+篇论文、40+研究方向!
扩散概率模型(DPMs)在高分辨率图像生成方面显示出显著性能,但由于通常需要大量采样步骤,其采样效率仍有待提高。高阶ODE求解在DPMs中的应用的最新进展使得能够以更少的采样步骤生成高质量图像。然而,大多数采样方法仍使用均匀的时间步长,在使用少量步骤时并不是最优的。
公众号机器学习与AI生成创作
2024/04/18
8.7K0
CVPR 2024 | 绝了!!最新 diffusion 扩散模型梳理!100+篇论文、40+研究方向!
​端到端传感器建模生成激光雷达点云
注:这是一篇2019年7月发表在arXiv的论文【1】,如题目所言是对激光雷达传感器的仿真建模,以生成3D点云数据。
SIGAI学习与实践平台
2019/09/17
1.6K0
​端到端传感器建模生成激光雷达点云
如果特斯拉制造相机的梦想像激光雷达一样真正实现,它可能会帮助到更多同行
特斯拉 CEO 埃隆·马斯克(Elon Musk)对自动驾驶激光雷达(3D图像技术)的看法是众所周知的。他不打算在特斯拉里使用这个技术。TSLA(https://www.forbes.com/companies/tesla/#6aa1b19848d4)这是一个有争议的观点,只有历史才能证明他们在这场赌局中做的好不好。
AI科技大本营
2020/08/06
3950
​SLAM | 融合激光雷达与图像数据,通过3D高斯溅射实现室内精确定位!
光学传感器外方位估计以及同时重建三维(3D)环境的问题在计算机视觉领域中通常被称为SfM(Structure from Motion),在机器人学中被称为SLAM(Simultaneous Localisation and Mapping)[1]。
AIGC 先锋科技
2024/07/08
3.4K0
​SLAM  |   融合激光雷达与图像数据,通过3D高斯溅射实现室内精确定位!
CVPR 2024 | 图像超分、图像恢复汇总!用AIGC扩散模型diffusion来解决图像low-level任务的思路
超分辨率(SR)和图像生成是计算机视觉中重要的任务,在现实应用中得到广泛采用。然而,大多数现有方法仅在固定放大倍数下生成图像,并且容易出现过平滑和伪影。此外,在输出图像的多样性和不同尺度下的一致性方面也不足。大部分相关工作应用了隐式神经表示(INR)到去噪扩散模型中,以获得连续分辨率的多样化且高质量的SR结果。由于该模型在图像空间中操作,所以产生分辨率越大的图像,需要的内存和推理时间也越多,并且它也不能保持尺度特定的一致性。
公众号机器学习与AI生成创作
2024/04/12
5K0
CVPR 2024 | 图像超分、图像恢复汇总!用AIGC扩散模型diffusion来解决图像low-level任务的思路
深入浅出Diffusion模型:从原理到实践的全方位教程
近年来,生成式人工智能(Generative AI)领域取得了爆炸性的进展,模型能够根据简单的文本提示创作出逼真的图像、连贯的文本,乃至更多令人惊叹的内容。在这场技术革命中,Diffusion模型(扩散模型)已成为一股主导力量,催生了许多当前最先进的成果 1。它们凭借其独特的机制,在图像合成、音频生成等多个领域展现出卓越性能,正迅速成为生成式建模领域的新范式 1。
@小森
2025/06/10
1.9K0
CVPR 2023 | 视频AIGC,预测/插帧/生成/编辑
深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读
公众号机器学习与AI生成创作
2023/08/22
2K0
CVPR 2023 | 视频AIGC,预测/插帧/生成/编辑
单摄像头+深度学习实现伪激光雷达,代码已开源
上次介绍了双目摄像头如何估计深度的方案。老板表示两个摄像头还是有点贵呀,只用一个能不能做?嗯,没问题!
McGL
2020/09/27
1.3K0
什么是LIDAR(激光雷达),如何标注激光点云数据?
自动驾驶汽车严重依赖输入的训练数据来做出驾驶决策,从逻辑上来说,数据越详细,车辆做出决策就越好,最重要的是更安全。虽然现代相机可以捕捉到非常详细的真实世界特征,但输出结果仍然是2D的,效果并不够理想,因为它限制了我们可以提供给自动驾驶汽车神经网络的信息,这意味着汽车必须学会对3D世界做出猜测。与此同时,相机捕捉信息的能力有限,比如在下雨的时候,相机捕捉到的图像几乎无法辨别,而激光雷达仍然可以捕捉信息。因此,2D相机无法在所有环境下工作,由于自动驾驶汽车是神经网络一个高危应用场景,我们必须确保构建的网络尽可能完美,这一切要从数据说起。理想情况下,我们希望我们的网络将3D数据作为输入,因为它需要对3D世界进行预测,这就是激光雷达的用武之地。
用户8699681
2022/06/27
2K0
TCLC-GS:用于自动驾驶场景的紧耦合激光雷达-相机高斯溅射技术
文章:TCLC-GS: Tightly Coupled LiDAR-Camera Gaussian Splatting for Surrounding Autonomous Driving Scenes
点云PCL博主
2024/06/08
4950
TCLC-GS:用于自动驾驶场景的紧耦合激光雷达-相机高斯溅射技术
ICLR 2025 Spotlight | 让城市「动」起来!DynamicCity突破4D大场景生成技术边界
过去一年,3D 生成技术迎来爆发式增长。在大场景生成领域,涌现出一批 “静态大场景生成” 工作,如 SemCity [1]、PDD [2]、XCube [3] 等。这些研究推动了 AI 利用扩散模型的强大学习能力来解构和创造物理世界的趋势。
机器之心
2025/02/19
3290
ICLR 2025 Spotlight | 让城市「动」起来!DynamicCity突破4D大场景生成技术边界
CVPR 2023 | 多车协作让纯视觉3D目标探测媲美激光雷达
机器之心发布 机器之心编辑部 摄像头能否实现激光雷达的检测效果,以更低成本实现自动驾驶感知?在最新的 CVPR2023 论文《Collaboration helps camera overtake LiDAR in 3D detection》中,来自上海交通大学、加州大学洛杉矶分校、以及上海人工智能实验室的研究者提出了纯视觉协作探测方法(CoCa3D),通过让多个基于纯视觉的智能车高效协作,在 3D 目标探测效果上,接近甚至超越基于激光雷达的智能车。 论文标题:Collaboration Helps Ca
机器之心
2023/05/01
4210
CVPR 2023 | 多车协作让纯视觉3D目标探测媲美激光雷达
值得收藏!基于激光雷达数据的深度学习目标检测方法大合集(上)
【导读】上周,我们在《激光雷达,马斯克看不上,却又无可替代?》一文中对自动驾驶中广泛使用的激光雷达进行了简单的科普,今天,这篇文章将各大公司和机构基于激光雷达的目标检测工作进行了列举和整合。由于文章列举方法太多,故作者将其分成上下两部分,本文为第一部分。
AI科技大本营
2019/09/19
3K0
值得收藏!基于激光雷达数据的深度学习目标检测方法大合集(上)
CVPR 2024 | 图像检测类(目标、deepfake、异常)!AIGC扩散模型diffusion解决detection任务
多目标跟踪(Multiple Object Tracking,MOT)是计算机视觉领域中一个关键领域,有广泛应用。当前研究主要集中在跟踪算法的开发和后处理技术的改进上。然而,对跟踪数据本身的特性缺乏深入的研究。
公众号机器学习与AI生成创作
2024/04/12
2.4K0
CVPR 2024 | 图像检测类(目标、deepfake、异常)!AIGC扩散模型diffusion解决detection任务
FAST-Calib:激光雷达与相机快速外参标定
文章:FAST-Calib: LiDAR-Camera Extrinsic Calibration in One Second
点云PCL博主
2025/08/13
5610
FAST-Calib:激光雷达与相机快速外参标定
Gaussian-LIC2:激光雷达-惯性-相机高斯泼溅SLAM系统
文章:Gaussian-LIC2: LiDAR-Inertial-Camera Gaussian Splatting SLAM
点云PCL博主
2025/07/12
3890
Gaussian-LIC2:激光雷达-惯性-相机高斯泼溅SLAM系统
基于 Transformer 的多模态融合方法用于语义分割 !
环境语义分割是自动驾驶中的一个挑战性课题,并在诸如操纵、路径规划和场景理解等智能车辆相关研究中发挥着关键作用。由于深度神经网络的进步,特别是卷积神经网络(CNN),以及开放数据集的可用性,语义分割领域已取得了巨大进展。早期研究采用相机的RGB图像作为输入,并用具有相对单调场景的数据集进行测试。近年来,感知传感器行业的蓬勃发展以及严格的安全要求推动了涉及不同传感器和综合场景的语义分割研究。在各种研究中,激光雷达传感器(LiDAR)参与最多。流行的仅激光雷达方法包括VoxNet[6]、PointNet[7]和RotationNet[8]。然而,多模态传感器融合被视为解决自动驾驶问题的有前途的技术,并已成为语义分割的主流选择。
未来先知
2024/08/20
1.6K0
基于 Transformer 的多模态融合方法用于语义分割 !
最新!恶劣天气条件下激光雷达感知研究综述
自动驾驶汽车依靠各种传感器来收集周围环境的信息。车辆的行为是根据环境感知进行规划的,因此出于安全考虑,其可靠性至关重要。有源激光雷达传感器能够创建场景的精确3D表示,使其成为自动驾驶汽车环境感知的宝贵补充。由于光散射和遮挡,激光雷达的性能在雾、雪或雨等恶劣天气条件下会发生变化。这种限制最近促进了大量关于缓解感知性能下降的方法的研究。本文收集、分析并讨论了基于激光雷达的环境感知中应对不利天气条件的不同方面。并讨论了适当数据的可用性、原始点云处理和去噪、鲁棒感知算法和传感器融合等主题,以缓解不利天气造成的缺陷。此外论文进一步确定了当前文献中最紧迫的差距,并确定了有希望的研究方向。
公众号-arXiv每日学术速递
2023/08/26
2K0
最新!恶劣天气条件下激光雷达感知研究综述
卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完。
最近,扩散模型在图像生成方面取得了巨大的成功。然而,当涉及到布局生成时,由于图像通常包含多个物体的复杂场景,如何对全局布局图和每个详细对象进行强大的控制仍然是一个具有挑战性的任务。
公众号机器学习与AI生成创作
2023/08/22
4.7K1
卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完。
自动驾驶「无视」障碍物:百度研究人员攻陷激光雷达
用激光雷达进行目标检测是目前汽车用到的主流方法,这种传感器精度高、成本高昂、技术门槛高。如果昂贵的价格能买来安全,那么也能显示其价值。但最近,来自百度研究院、密歇根大学以及伊利诺伊大学香槟分校的研究者提出了一种可以「欺骗」激光雷达点云的对抗方法,对激光雷达的安全性提出了质疑。
小小詹同学
2019/07/16
9610
自动驾驶「无视」障碍物:百度研究人员攻陷激光雷达
推荐阅读
CVPR 2024 | 绝了!!最新 diffusion 扩散模型梳理!100+篇论文、40+研究方向!
8.7K0
​端到端传感器建模生成激光雷达点云
1.6K0
如果特斯拉制造相机的梦想像激光雷达一样真正实现,它可能会帮助到更多同行
3950
​SLAM | 融合激光雷达与图像数据,通过3D高斯溅射实现室内精确定位!
3.4K0
CVPR 2024 | 图像超分、图像恢复汇总!用AIGC扩散模型diffusion来解决图像low-level任务的思路
5K0
深入浅出Diffusion模型:从原理到实践的全方位教程
1.9K0
CVPR 2023 | 视频AIGC,预测/插帧/生成/编辑
2K0
单摄像头+深度学习实现伪激光雷达,代码已开源
1.3K0
什么是LIDAR(激光雷达),如何标注激光点云数据?
2K0
TCLC-GS:用于自动驾驶场景的紧耦合激光雷达-相机高斯溅射技术
4950
ICLR 2025 Spotlight | 让城市「动」起来!DynamicCity突破4D大场景生成技术边界
3290
CVPR 2023 | 多车协作让纯视觉3D目标探测媲美激光雷达
4210
值得收藏!基于激光雷达数据的深度学习目标检测方法大合集(上)
3K0
CVPR 2024 | 图像检测类(目标、deepfake、异常)!AIGC扩散模型diffusion解决detection任务
2.4K0
FAST-Calib:激光雷达与相机快速外参标定
5610
Gaussian-LIC2:激光雷达-惯性-相机高斯泼溅SLAM系统
3890
基于 Transformer 的多模态融合方法用于语义分割 !
1.6K0
最新!恶劣天气条件下激光雷达感知研究综述
2K0
卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完。
4.7K1
自动驾驶「无视」障碍物:百度研究人员攻陷激光雷达
9610
相关推荐
CVPR 2024 | 绝了!!最新 diffusion 扩散模型梳理!100+篇论文、40+研究方向!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档