从事过计算机视觉任务的小伙伴对于数据一定有着难以言说的情感。数据集的大小和质量直接影响着算法的精度和性能。而且冗长的、海量的图像标注工作也让很多中小团队对于视觉任务的训练打起了退堂鼓。此外对于物体的位子,表面法向量以及深度等信息,对于人工来说几乎是无法很容易地进行标注。
为了解决这一问题,来自Greppy研究人员提出了一个名为Metaverse的工具来帮助人们快速生成逼真的训练数据。它可以基于CAD模型和渲染、方便的创建出逼真丰富的数据,同时生成RGB、深度图、法向量图、位姿标注、对象及其每一部分的掩膜。
合成数据的想法由来已久,在github上有很多类似的项目来生成各种各样的数据,从基于统计的方法到GAN应有尽有,但这些方法都存在各种不用的问题。
有的算法需要使用者具有一定的编程能力,而有的算法生成的结果却又不是那么逼真。我们真正需要的是一个能够方便高效地生成大规模训练数据来训练网络完成对新物体的计算机视觉任务。同时还需要在没有光线追踪的情况下实现对于目标图像逼真的生成,这也是需要克服的一大挑战。
为了解决这些问题,研究人员开发了这一基于网页端的工具,只需要将目标物体的3D模型上传到对应的界面应用不同的材料来对它进行更加逼真的表现,随后进行表面材料选取和光照渲染即可。
我们以咖啡机作为例子来看看如何使用这一工具的。如果我们想要训练计算来识别咖啡机,我们就需要上传下图所示的两个咖啡壶的CAD模型,这是由于咖啡机可能是打开也可能是关闭的。
下一步我们只需要为咖啡机的每个表面设置预先设计的表面材料,点点鼠标就可以完成材料的配置。为了满足需求,研究人员还提供了很多不同逼真材料的库供用户使用。同时也可以根据需要设计自己的材料。
这一软件也为用户提供好了方便标注物体每一部分的工具,我们可以对感兴趣的部分进行点选。你不需要会用3D建模软件,也不需要编程即可完成。
最后一步也是最有意思的一步,就是选择你需要采集图像的“相机”了。这一工具需要根据相机的分辨率、参数、视野以及双目立体参数来渲染出更加精确的图像。目前网站刚刚到达beta版本只包含了两个相机模型:Zed mini和Intel D435,但是用户可以自己创建个性化的相机模型来生成图像。
然后剩下的就是交给电脑的工作了。工具可以自动地生成成千上万的场景,包括了不同的位姿、数量、相机角度和光照条件下的目标。所有生成的结果都进行了像素级的自动标注。后台通过GPU云服务进行一段时间的渲染,然后就可以得到自己的的数据集了。
利用这些数据,就可以进行深度学习任务啦,无论是检测、分割都可以有丰富的数据来上手。
这一工具对于想要训练针对性的物体、零件或者自己设计的工件等具有很大的作用,在拥有设计的CAD模型后就可以方便的生成海量数据来实现自己的demo。
对了,对于想建模的小伙伴,这里可以找到很多的三维模型来用呢:
https://3dwarehouse.sketchup.com/
ref:
3D syntheticlink:https://github.com/unrealcv/synthetic-computer-vision
https://github.com/timzhang642/3D-Machine-Learning
https://news.developer.nvidia.com/create-a-3d-caricature-in-minutes-with-deep-learning/
https://medium.com/transmission-newsletter/3d-faces-generated-from-2d-photos-machines-learning-to-hand-write-more-7729c839e7f6
https://lmb.informatik.uni-freiburg.de/lectures/seminar_brox/seminar_ss16/3DR2N2_3Dreconstruction.pdf
https://www.reddit.com/r/MachineLearning/comments/4cfu08/deep_3d_modelling/
更多内容
关注AICUG
转自:将门创投
✄-------------------------------------------
10月20日硅谷站沙龙,敬请期待~~~
【加入社区】
领取专属 10元无门槛券
私享最新 技术干货