首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何使用空间标注?

相关·内容

  • 学界 | 联合学习离散句法结构和连续词表征的无监督方法

    数据标注是监督学习方法应用于许多问题的主要瓶颈。因此,直接从无标签数据中学习的无监督方法显得越来越重要。对于与无监督句法分析相关的任务来说,离散生成模型近年来占据着主导地位,如词性标注(POS)归纳(Blunsom and Cohn, 2011; Stratos et al., 2016)和无监督依存分析(Klein and Manning, 2004; Cohen and Smith, 2009; Pate and Johnson, 2016)。尽管类似的模型在一系列无监督任务中取得了成功,但它们大多忽略了有监督自然语言处理应用中显而易见的连续词表示的作用(He et al., 2017; Peters et al., 2018)。本文着眼于利用并显式地表征句法结构的无监督模型中的连续词嵌入。

    02

    2019年主动学习有哪些进展?答案在这三篇论文里

    目前推广应用的机器学习方法或模型主要解决分类问题,即给定一组数据(文本、图像、视频等),判断数据类别或将同类数据归类等,训练过程依赖于已标注类别的训练数据集。在实验条件下,这些方法或模型可以通过大规模的训练集获得较好的处理效果。然而在应用场景下,能够得到的数据实际上都没有进行人工标注处理,对这些数据进行类别标注所耗费的人力成本和时间成本非常巨大。在一些专门的应用领域,例如医学图像处理,只有专门学科的专业医生能够完成对医学影像图像的数据标注。显然,在这种情况下必须依赖大规模训练集才能使用的方法或模型都不再适用。为了减少对已标注数据的依赖,研究人员提出了主动学习(Active Learning)方法。主动学习通过某种策略找到未进行类别标注的样本数据中最有价值的数据,交由专家进行人工标注后,将标注数据及其类别标签纳入到训练集中迭代优化分类模型,改进模型的处理效果。

    02

    清华大学&英伟达最新|Occ3D:通用全面的大规模3D Occupancy预测基准

    自动驾驶感知需要对3D几何和语义进行建模。现有的方法通常侧重于估计3D边界框,忽略了更精细的几何细节,难以处理一般的、词汇表外的目标。为了克服这些限制,本文引入了一种新的3D占用预测任务,旨在从多视图图像中估计目标的详细占用和语义。为了促进这项任务,作者开发了一个标签生成pipeline,为给定场景生成密集的、可感知的标签。该pipeline包括点云聚合、点标签和遮挡处理。作者基于Waymo开放数据集和nuScenes数据集构造了两个基准,从而产生了Occ3D Waymo和Occ3D nuScene基准。最后,作者提出了一个模型,称为“粗略到精细占用”(CTF-Occ)网络。这证明了在3D占用预测任务中的优越性能。这种方法以粗略到精细的方式解决了对更精细的几何理解的需求。

    04

    什么是LIDAR(激光雷达),如何标注激光点云数据?

    自动驾驶汽车严重依赖输入的训练数据来做出驾驶决策,从逻辑上来说,数据越详细,车辆做出决策就越好,最重要的是更安全。虽然现代相机可以捕捉到非常详细的真实世界特征,但输出结果仍然是2D的,效果并不够理想,因为它限制了我们可以提供给自动驾驶汽车神经网络的信息,这意味着汽车必须学会对3D世界做出猜测。与此同时,相机捕捉信息的能力有限,比如在下雨的时候,相机捕捉到的图像几乎无法辨别,而激光雷达仍然可以捕捉信息。因此,2D相机无法在所有环境下工作,由于自动驾驶汽车是神经网络一个高危应用场景,我们必须确保构建的网络尽可能完美,这一切要从数据说起。理想情况下,我们希望我们的网络将3D数据作为输入,因为它需要对3D世界进行预测,这就是激光雷达的用武之地。

    05

    SuperLine3D:从3D点到3D线

    这个工作来自于浙江大学和DAMO academy。在点云配准领域,尽管已经有很多方法被提出来,但是无论是传统方法,还是近年来蓬勃发展的基于深度学习的三维点云配置方法,其实在真正应用到真实的LiDAR扫描点云帧时都会出现一些问题。造成这种困窘的一个主要的原因在于LiDAR扫描到的点云分布极不均匀。具体而言,相较于RGBD相机,LiDAR的有效扫描深度要大很多。随着深度的增大,其激光发射出去的扇面将会变得稀疏。因此,即使是扫描同一目标或场景的点云帧之间,其尺度并不一致。导致想要研究的关键点周围的邻域点分布也存在较大不同,难以通过这些3D点的特征描述关联起点云帧。这个问题一直以来都十分棘手。这个工作独辟蹊径,提出对于这种点云数据,不再通过3D点来构建关联以实现点云配准,而是研究点云数据中的高层次的几何原语。这种做法直观来说是有道理的,因为这些高层次的几何原语通常会有较大的支撑点集,换句话说,其对于点云扫描和采样具有较大的鲁棒性,通常不会因为某个点没有被记录而影响相应几何原语的提取。同时,几何原语通常具有更具体的特征和几何结构,例如一条直线、一个平面等,其更容易构建不同帧间的关联,避免误匹配。但是,这种研究思路通常难度较大,原因在于缺乏足够的有标签的数据集。在这种情况下,这个工作显得极其重要,它不仅仅提供了一个数据集自动标注模型,同样也是少数真正开始探索几何原语用于点云配准任务的先河性的工作。

    02

    Learning to Adapt Structured Output Space for Semantic Segmentation

    对语义分割来讲基于卷积神经网络的方法,依赖像素级ground-truth标记,但是对未知领域可能泛化效果并不好。因为标记过程是沉闷和耗时的,开发将源ground truth标记到目标域引起了很大的关注。本文我们提出一种对抗训练方法在语义分割的内容中进行域适配。考虑语义分割作为结构输出包含源域和目标域的空间相似性,在输出空间中,我们采用对抗训练。为了进一步增强适配模型,我们构建一个多层对抗网络,在不同特征级别上有效的执行输出空间域适配。一系列的实验和消融研究在不同域适配下进行,包括合成到真实和跨城市场景。我们表明提出的方法在精度是视觉质量方面,超过了现有的最先进的方法。

    02

    中科院提出 DTLLM-VLT | 利用连贯提示框架和大语言模型为视觉语言跟踪提供多粒度语义增强 !

    单目标跟踪(SOT)是计算机视觉任务中的关键,专注于在视频序列中跟踪移动目标。研究行人一致观察到,在内容更复杂的长时间视频中,大多数跟踪器的性能有限。此外,仅依赖视觉模态大大限制了这种系统的多功能性。因此,一些研究开始为SOT任务提供语义标注,导致了视觉语言跟踪(VLT)任务的产生。VLT任务的提出帮助SOT研究更接近人类方式,并拓宽了其应用前景。与边界框(BBox)相比,自然语言提供了更用户友好和直观的目标描述方式,允许从空间位置到高级语义细节的精确描述,以提高跟踪性能。在定义VLT任务时,研究行人从两个主要观点整合文本标注:

    01
    领券