首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

谷歌官方发布新数据集Objectron,可完美检测3D对象

仅通过在照片上训练模型,机器学习的技术水平就已在许多计算机视觉任务中达到了非常高的准确性。基于这些成功和不断发展的3D对象理解,在增强现实,机器人技术,自主性和图像检索等广泛应用方面具有巨大潜力。例如,今年早些时候,谷歌工程师发布了MediaPipe Objectron(一套针对移动设备设计的实时3D对象检测模型),它们在完全注释的真实3D数据集上进行了训练,可以预测对象的3D边界框。

然而,由于与2D任务(例如ImageNet,COCO和Open Images)相比,缺少大型现实世界的数据集,因此了解3D对象仍然是一项具有挑战性的任务。为了使研究社区能够不断提高对3D对象的理解,迫切需要发布以对象为中心的视频数据集,该数据集可以捕获对象的更多3D结构,同时匹配用于许多视觉任务的数据格式( (例如视频或摄像机流),以帮助训练和确定机器学习模型的基准。

就在今天,谷歌发布了Objectron数据集,这是一个短的,以对象为中心的视频剪辑的集合,可从不同的角度捕获更大的一组公共对象。每个视频剪辑都随附有AR会话元数据,其中包括相机姿势和稀疏点云。数据还包含每个对象的手动注释的3D边界框,它们描述了对象的位置,方向和尺寸。数据集包括15K带注释的视频剪辑,并补充了从地理多样的样本(覆盖五大洲的10个国家/地区)收集的超过400万个带注释的图像。

Objectron数据集中的示例视频。

3D对象检测解决方案

与数据集一起,我们还将共享针对四类对象的3D对象检测解决方案-鞋子,椅子,杯子和照相机。这些模型在MediaPipe中发布,MediaPipe是Google的用于实时和流媒体的跨平台可定制ML解决方案的开源框架,它还支持ML解决方案,例如设备上的实时手部,虹膜和身体姿势跟踪。

在移动设备上运行的3D对象检测解决方案的示例结果。

与先前发布的单阶段Objectron模型相反,这些最新版本使用两阶段体系结构。第一阶段采用TensorFlow对象检测模型来查找对象的2D裁剪。然后,第二阶段使用图像裁剪来估计3D边界框,同时为下一帧计算对象的2D裁剪,因此对象检测器不需要运行每个帧。第二阶段3D边界框预测器在Adreno 650移动GPU上以83 FPS运行。

参考3D对象检测解决方案图。

3D对象检测的评估指标

借助地面真相注释,使用3D联合交叉点(IoU)相似度统计数据(一种用于计算机视觉任务的常用指标)评估3D对象检测模型的性能,该指标衡量边界框与目标之间的接近程度很高。

谷歌研究人员提出了一种算法,可为面向3D的普通盒子计算准确的3D IoU值。首先,他们使用Sutherland-Hodgman多边形裁剪算法计算两个盒子的面之间的交点。这类似于用于计算机图形学的视锥剔除技术。相交的体积由所有修剪的多边形的凸包计算。最后,根据两个框的交点的体积和并集的体积计算IoU。

使用多边形裁剪算法,通过联合计算3D交集,左:通过将多边形裁剪到框上来计算每个面的交点。右:通过计算所有相交点(绿色)的凸包来计算相交的体积。

数据集格式

有关Objectron数据集的技术细节,包括用法和教程,请访问数据集网站。数据集包括自行车,书籍,瓶子,照相机,谷物盒,椅子,杯子,笔记本电脑和鞋子,具有以下资产:

视频片段

注释标签(对象的3D边界框)

AR元数据(例如照相机姿势,点云和平面)

已处理的数据集:带注释帧的改编版本,图像的格式为tf.example,视频的格式为SequenceExample。

支持脚本以基于上述指标运行评估

支持脚本以将数据加载到Tensorflow,PyTorch和 Jax并可视化数据集,包括“ Hello World”示例

对于数据集,还将开放数据源管道,以在流行的Tensorflow,PyTorch和Jax框架中解析数据集。还提供了示例colab笔记本。

通过发布此Objectron数据集,研究人员希望使研究界能够突破3D对象几何理解的极限。他们还希望促进新的研究和应用,例如视图合成,改进的3D表示和无监督学习。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20201113A04XOJ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券