在 3D 物体检测任务兴起的初期,群雄争霸,研究者还在探索如何使用现有的数据集进行 3D 检测器的训练,在一些数据预处理的流程上并未达到统一。加之数据集本身的格式也往往不同,因此包围框的格式比较混乱。...而针对 3D 框的尺寸 (x_size, y_size, z_size),按惯例我们定义为物体 3D 框在朝向角 yaw 角度为 0 时沿着 x, y, z 轴三个方向的长度。...,这里我们默认三个坐标系原点是重合的:
1)激光雷达坐标系:该物体底部中心点坐标为 (l/2, w/2, 0) ,朝向和 x 轴的夹角为 0,即 yaw 角为 0,此时沿着 x-y-z 三个轴方向的长度即为...2)深度坐标系:该物体底部中心点坐标为 (-w/2, l/2, 0),此时朝向和 x 轴的夹角为 90 度,即 yaw 角为 pi/2,需要注意的是,为了获得 x_size, y_size, z_size...可以看到,一个物体 3D 框中的 (x_size, y_size, z_size) 在激光雷达坐标系和深度坐标系中为 (l, w, h),而在相机坐标系中为 (l, h, w)。