感知动态行为可能是软件如何理解这个世界的一个巨大进步。
这是一个视频片段,它可以帮助AI更好地理解视频内容。
对于计算机来说,在静态图像中识别猫或鸭子是比较容易的。但对人工智能的一个更严格的测试是,当猫骑着Roomba(iRobot公司智能扫地机器人),在厨房里追逐鸭子。
麻省理工学院和IBM本周发布了一组庞大的视频片段集,这些视频片段都经过精心的注释,详细说明了视频内容。数据集里包含了从捕鱼到霹雳舞等涵盖各种内容的三秒钟视频片段。
麻省理工学院的首席研究科学家以及该项目中的一员Aude Oliva说:“世界上的很多东西都从一秒到下一秒的变化。”“如果你想知道为什么会发生这样的事情,运动会给你很多信息,而这些信息你无法在单独的一帧(视频播放是按一帧一帧播放的,每一帧是一个图像,快速播放则形成了我们看到的视频)中捕捉到。”
目前,人工智能的蓬勃发展在一定程度上是由于成功地教会计算机识别静态图像的内容,即通过在大型标记数据集上训练深度神经网络模型来识别静态图像的内容。
现今的人工智能系统,包括在一些自动驾驶汽车中的识别系统,往往依赖于在静态帧中去识别对象,而不是解释动作。
周一,谷歌云平台推出了一款可以识别视频中的对象的工具。该平台目前已经包含了用于处理图像、音频和文本的人工智能工具。
下一个挑战可能是教学机器不仅要理解视频中包含的内容,还要理解视频中所发生的事情。这会带来一些实际的好处,比如在搜索、注释和视频片段挖掘等方面的强大新方法。此外,这也会让机器人或自动驾驶汽车更好理解周围的世界是如何发展的。
MIT-IBM项目实际上只是几个视频数据集中的一个,目的是为了促进训练机器的进步,以了解物理世界中的动作。例如,去年谷歌发布了一套名为YouTube-800的包含800万的YouTube视频集。Facebook则正在开发一种名为“场景、动作和对象集”的带注释的视频数据集。
Olga Russakovsky是普林斯顿大学的一名助理教授,他专门研究计算机视觉。他说,事实证明,开发有用的视频数据集是困难的,因为与静态图像相比它们需要更多的存储和计算能力。
有人则采取了更有创意的方式。总部位于多伦多和柏林的创业公司Twenty Billion Neurons,通过向众包员工支付报酬来完成简单的任务,创造了一套定制数据。该公司的一位创始人Roland Memisevic说,它使用了专门设计的神经网络来处理时间视觉信息。
他说:“在其他数据集上训练的网络可以告诉你这段视频是足球比赛还是派对,而我们的网络可以告诉你是否有人刚刚进入房间。”
Danny Gutfreund是IBM的一名研究员,他参与了这个项目,他认为这项技术会有实际的应用。“你可以将它用于照顾老人,识别是否有人跌倒了,或者他们是否已经吃药了。又或者用于帮助盲人的设备。
如果人工智能可以理解现实世界正在或将要发生的事情,你会希望它用于什么方面呢,欢迎留言讨论。
领取专属 10元无门槛券
私享最新 技术干货