1. 导读
在时间与空间组成的4D时空中,精确、在线地捕捉和分析长时且细粒度的物体运动,对机器人、自动驾驶、元宇宙、具身智能等领域更高水平的场景理解起到至关重要的作用。
本研究提出的SceneTracker,是第一个公开的(2024.03)有效解决在线3D点跟踪问题或长时场景流估计问题(LSFE)的工作。其能够快速且精确地捕捉4D时空(RGB-D视频)中任意目标点的3D轨迹,从而使计算机深入了解物体在特定环境中的移动规律和交互方式。
SceneTracker是一种新颖的基于学习的LSFE网络,它采用迭代方法来逼近最优轨迹。同时其动态索引和构建表观和深度相关性特征,并利用Transformer挖掘和利用轨迹内部和轨迹之间的远程联系。通过详细的实验,SceneTracker在处理3D空间遮挡和深度噪声干扰方面显示出卓越的能力,高度符合LSFE任务的需求。
最后,本研究构建了第一个真实世界的评估数据集LSFDriving,进一步证实了SceneTracker值得称赞的泛化能力。
1. 导读
2. 论文信息
标题:SceneTracker: Long-term Scene Flow Estimation Network
作者:Bo Wang,Jian Li,Yang Yu,Li Liu,Zhenping Sun,Dewen Hu
机构:国防科技大学
原文链接:https://arxiv.org/abs/2403.19924
代码链接:https://github.com/wwsource/SceneTracker
1. 导读
3. 所提方法介绍
图1
1. 导读
1 轨迹初始化
1. 导读
2 特征编码和下采样
1. 导读
3 模板特征和轨迹的更新
1. 导读
4 轨迹输出
1. 导读
4. 所提数据集介绍
1. 导读
1 背景上的标注
1. 导读
2 车辆上的标注
1. 导读
3 行人上的标注
图2
1. 导读
5. 实验结果
1 所提数据集LSFDriving示例
图3为所提LSFDriving数据集在三种类别(背景、车辆、行人)上的示例。
图3
1. 导读
2 所提方法SceneTracker估计效果
图4为所提方法SceneTracker在LSFOdyssey测试集上的估计效果示例。我们等间隔地展示了40帧视频中的12帧点云。方法估计出的轨迹用蓝色显示在对应点云上。从图4可以看出,面对相机和场景中动态物体的复杂运动,我们方法始终能够输出平滑、连续且精确的估计结果。
图4
1. 导读
3 与SF、TAP方法的定性比较
图5是我们方法与scene flow基线、tracking any point基线方法在LSFOdyssey测试集上的定性结果。我们可视化了最后一帧的预测和真值轨迹。轨迹使用jet着色。实线框标记了SF基线由于遮挡或超出边界导致的显著错误区域。从图5可以看出,相比其他方法,我们方法能够估计出厘米级别精度的3D轨迹。
图5
1. 导读
4 与SF、TAP方法的定量比较
表1为在LSFOdyssey测试集上3D指标的定量结果。所有数据均来自于Odyssey训练流程。从表1可以看出,我们方法在所有数据集指标上均显著超越其他方法。
表1
1. 导读
5 在真实场景数据集LSFDriving上的表现
表2为不同推理模式下我们方法在LSFDriving上的评估结果。从表2可以看出,在仅仅依赖合成数据进行训练的条件下,我们方法展现出值得称赞的真实场景估计性能。
表2