今年各大车企纷纷加入端到端决战中,端到端模型训练需要大批量的4D标注数据,如何高效的产生大量的4D标注数据是当今的技术难点和热点,依赖于传统的人工标注针对大量的数据标注任务已经不太现实。本文结合日常工作和业界通用的解决方案聊聊4D数据处理产线搭建的难点和关键技术实现。
当前面临的主要问题:
静态感知:路面要素、灯牌锥、广告牌(泊车停车场等)。
物理层:路面连续要素如车道线、路面离线要素如路面标识符,空中静态要素如灯牌,半动态层主要是像锥桶之类容易被移动的物体。
逻辑关系:车道线链接关系,车道和红绿灯的关系。
动态感知:运动车辆和行人,包含检测、跟踪、预测,此外还有速度、加速度的属性。
通用障碍物感知:针对场景的非白名单的物体,目前业界主流的感知任务Occ和Occ Flow,这类任务的基本原理是将空间划分为voxel,预测每个voxel被占据情况以及voxel速度。
在自动驾驶分段端到端大模型技术的驱动下,4D感知任务标注技术随之衍生,目前各大供应商基于模型持续迭代其工艺。自动驾驶分段式端到端模型需要大量的多模态的数据,标注工艺的复杂度和效率是当前4D-Label的主要难点,提供给感知的数据首先考虑的是质量、数量和多样性。
完整的数据产线对数据迭代效率至关重要,自动驾驶感知数据产线主要包含数据采集、数据合规、数据云端上传、数据预处理、数据预标注、数据人工标注、数据质检、数据验收。
涉及多传感器,Lidar/Camera/IMU/GPS/GNSS等;目前业界常用的是周视7V摄像头+环视4V摄像头+1Lidar。
采集数据后,实现点云或者Object级别的重建;
标定误差:Lidar-camer重投影误差<3px,在线标定角度误差<0.1deg。
时间同步:时间同步偏差 < 5ms;
为了减少人工标注的成本并提升效率,借助云端大模型的能力。同时预标注结果的统计对于数据采集也有指导意义。
这一部分是提升效率的突破点之一:
人工标注3D及自动质检脚本研发;人工标注重点关注标注工艺、标注误差;质检基于脚本和模型实现。人工标注耗时长,返工是最得不偿失的做法,因而小步迭代验证数据可用性后再逐步批量标注。
例如在2D图像上利用大模型的预刷,得到一些标注结果,同时和3D空间的标注结果进行对比,去除差异化比较大的数据。
今年自动驾驶端到端在国内席卷而来,支撑端到端大模型的高算力、大数据量的云端技术建设亟不可待。传统的云厂商,例如阿里、腾讯难有针对智能驾驶领域完备成熟的云基建和自动驾驶工具链。而地平线、商汤科技、MMT对业务板块虽有优势,但缺乏业务驱动,成熟落地和优化迭代是问题,就像英伟达几年前提出了端到端大模型,但是最终落地商用的还在车企。最佳供应商可能是华为,但是华为的“强势”也是众多车企难以接受的(自动驾驶这场赛事,国内传统车企沦为华为供应商或者特斯拉供应商都有可能,一场精彩的博弈已经拉开帷幕)。
言归正传,搭建完整的数据处理pipeline核心如下:
静态要素自动化标注主要分为两部分:
动态要素标注涉及面很广,主要解决两个问题:其一,针对bev 3D感知以及端到端模型的真值需求,提供3D det,Tracking,速度,加速度状态真值。其二,采用Lidar 和 camera后融合的方式进行大模型预刷,结合图像2D感知结果cross check实现全自动标注。
通用障碍物主要包含自动驾驶场景中一些通用的或者说是非白名单的障碍物,类似于异型车、宠物、石块等,该部分目前业界使用Occupancy技术解决,Occupancy将空间划分为均匀体素(voxel),有物体占据的地方标志为1,没有物体占据的地方标志为0。
前面已经说过,支撑模型快速迭代、数据闭环系统高效扭转,一个完善的、完备的智能驾驶数据处理平台相当重要,同时该平台最好兼容模型训练平台、仿真平台。端到端大模型的驱动下,大批量的数据传输成本很高,多平台共建势在必行。针对自动驾驶业务,对云端的主要述求有:
自动化模型训练平台:该部分难点在于高性能并行计算调度;
数据平台:数据平台主要用于采集数据和量产数据处理,难点在于数据传输、分布式存储、分布式数据处理、大规模数据存储,就数据挖掘而言甚至涉及到向量数据库、图数据库的引擎改造。
人工标注平台:自动驾驶技术更新迭代块,模型训练离不开大量的人工标注工作,因此针对现有的云端支持千级别人工并发标注的能力很重要。
仿真测试:自动驾驶场景挖掘数据需回归至仿真系统集成测试验证。
运用看板:最直观的观察数据扭转各个环节的状态的方式之一,通过看板我们可以纵向观测整个数据处理流程,横向可以观察数据分布、数据使用情况等。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。