论文标题:Swoosh! Rattle! Thump! - Actions that Sound[1]
数据集类型:sound-action-vision dataset
作者:Dhiraj Gandhi 、Abhinav Gupta、Lerrel Pinto
机构:卡内基梅隆大学(CMU)
想象一下你正在开香槟:这个场面不但有庆祝的视觉画面,而且会有开香槟时候的独特气流声。
真实的世界中总是有各种类型的信息丰富并满足我们五种感官的需求——视觉,触觉,气味,声音和味道。其中,视觉、触觉和声音更是在人类用身体去感受世界的活动中起着至关重要的作用。
一个真正的、具有智能的机器也需要捕捉所有三种感官的相互作用,以建立对世界的感官理解。
近年来,研究人员开发了越来越多的计算技术,以使机器人具备人类一样的能力。
卡内基梅隆大学(CMU)的研究小组最近进行了一项研究,探讨了用声音+动作+视觉(sound-action-vision)来开发具有更先进传感功能的机器人的可能性。
关于这项研究的论文由机器人学顶级会议 Robotics: Science and Systems 接收,其中还介绍了迄今为止创建的最大的声音+动作+视觉数据集——Tilt-Bot 数据集,由名为 Tilt-Bot 的机器人平台与各种对象进行交互收集而来。
实验流程演示 图片出处:arXIV
Tilt-Bot的诞生
研究员 Lerrel Pinto 表示:“在机器人学习中,我们通常只用视觉输入来进行感知,但是人类具有的感知方式不仅限于视觉。”
“声音是学习和理解我们的物理环境的关键组成部分。因此,我们提出了这样一个问题:在机器人技术的探索中,声音究竟可以起到什么作用呢? 为了回答这个问题,我们创造了机器平台 Tilt-Bot,它不仅可以与对象互动,而且可以收集大规模的交互式视听数据集。”
Tilt-Bot数据的收集过程 图片出处:arXIV
Tilt-Bot 数据的收集过程是:一种自动托盘可以倾斜物体直到它们碰到石膏托盘的薄壁,Pinto 和他的同事在自动托盘四周的薄壁上放置了接触式麦克风,以记录物体撞击薄壁时产生的声音,并使用高架摄像头直观地捕捉每个物体的运动。
研究人员收集了来自 60 个物体和托盘之间超过 15000 次碰撞的视觉和声音数据。这样一来,便可以采集到新的图像和音频数据集,从而有助于训练机器人在动作、图像和声音之间建立关联。
Pinto 和他的同事在论文中使用此数据集来探索机器人应用中声音和动作之间的关系,收集了许多有趣的发现。
首先,他们发现分析物体移动和撞击表面的声音记录可以让机器区分不同的物体,例如区分金属螺丝刀和金属扳手。
(a)训练音频嵌入,我们执行多任务学习,例如上方的实例识别和下方的动作回归,(b)一旦嵌入网络经过训练,我们可以将提取的音频嵌入用作下游任务(如正向模型)的对象特征学习。图片出处:arXIV
Pinto 解释到:“令人兴奋的是,我们的研究初步结果——仅凭声音就识别出物体类型的准确率接近 80%。”“我们还证明,机器可以学习基于声音的对象表示形式,有助于解决后续的机器人任务。例如,当识别空酒杯的声音时,机器人会明白操作空酒杯和操作满酒杯需要不同的动作。”
其次,Pinto 和他的同事还发现,在解决机器人的任务时,录音有时可以比视觉表现提供更多有价值的信息,因为它们也可以用来有效预测物体的未来运动。
在机器人的训练过程中,一系列的没有碰撞到物体的实验中可以得出以下结论,当机器人与这些物体互动时收集到的嵌入音频预测正向模型(例如,如何在未来最好的去操纵一个物体)的准确率要比被动的视觉嵌入好 24%。
一个方兴未艾的研究方向
事实上,CMU 此次的研究与近年新出现的一个小众但又充满前景的领域息息相关,那就是视觉和声音的联合学习(Audio-Visual Learning)。
视觉数据可以用于推断几何形状、目标跟踪、分类甚至直接控制。而触觉也越来越受到重视,被用于识别和反馈控制。
但是声音呢?从吱吱作响的门到沙子流动的沙沙声,声音往往能捕获视觉难以察觉的丰富对象信息。而且麦克风(声音传感器)既便宜又耐用,但是我们还没有看到声音数据被用于机器人学习上。迄今为止开发的大多数技术都只专注于人为地再现视觉和触觉,而忽略了诸如听觉感知之类的其他感官的作用。
为什么声音成为感知数据中的“二等公民”?
关键原因在于声音产生的核心。声音通过互动产生的,例如机器撞击物体,取决于击打的影响,对象,甚至麦克风的位置。这些错综复杂相互作用会产生非常丰富的数据,但也因此很难提取对机器有用的信息。
此前也有过类似的研究,例如“earning audio feedback for estimating amount and flow of granular material”,是一项通过声音来判断容器中的粒状物数量的探索。但这次的CMU团队认为,交互动作中的声音应该包含更多信息。
那么,具体可以从声音中提取什么样的信息?
通过构建 Tilt-Bot,这个团队提出了三个方向:
声音表明粒状物信息。这意味着仅仅从物体发出的声音,经过学习的模型可以从不同的物体中识别出该对象。
声音表明行动信息。这意味着从物体发出的声音,经过学习的模型可以知晓哪些操作被作用到该对象。
声音表明视觉上“隐身”了的信息。这意味着从物体发出的声音,经过学习的模型可以推断物理上隐形的信息。
团队将公开发布 Tilt-Bot 的数据集,以此为机器人的开发工作助力,帮助机器人可以根据在周围环境中收集的音频录音和图像来选择自己的动作和对象操作策略。Pinto 和他的同事正计划进一步地研究,探索声音分析在创造具有更前沿功能的机器人方面的潜力。
Pinto 强调到:“这项工作只是将声效整体集成到机器人技术中的第一步。在未来的工作中,我们将研究基于声音和动作的更实际应用。”
References
[1]https://arxiv.org/pdf/2007.01851.pdf
领取专属 10元无门槛券
私享最新 技术干货