潮新闻客户端 记者 潘璐
人类认知世界的信息中80%多的信息来自于视觉,而在人工智能时代,计算机视觉则是机器认知世界的基础。如何为计算机装上细腻灵敏的眼睛,从而更好地服务人类生活?潮新闻记者在乌镇峰会期间,专访了北京交通大学教授魏云超。
作为2023年世界互联网大会乌镇峰会的重要活动之一,2023年世界互联网大会领先科技奖颁奖典礼于11月8日举行,15项领先科技成果正式亮相。其中,由北京交通大学、南开大学带来的“视觉媒体的层次化内容感知”入选基础研究组奖项。
魏云超和赵耀教授出席颁奖典礼。 图源:受访者供图
北京交通大学教授魏云超作为团队成员之一,向记者介绍说:“简单地讲,就是让计算机从图像级、物体级到像素级来由粗到细地去识别。”
“对于图像或视频里的物体,从粗粒度来讲,我们可以知道里面有什么物体,但并不知道这些物体在什么地方;细粒度的话,我们能够知道物体在哪个准确的位置,甚至是物体每个部件的位置,比如对于人体来讲,可以解析出面部和头发等信息。”
这就回答了“图像有何物体,物体有何像素,像素是何类别,类别如何细分”的系列问题。
从2014年开始,魏云超和同事们将基于深度学习的神经网络算法作为架构,进行不断的研究和改进,设计能够满足不同层次化视觉内容理解任务的网络框架,使得计算机能够“感知世界”,从而输出正确的类别预测。
“我们是做基础研究的,在计算机视觉领域,国际上有很多知名的公开数据集,我们的研究成果主要是在这些公开的数据集进行测试,并同国际知名的团队进行PK。”魏云超告诉潮新闻记者,“虽然我们的视觉媒体的层次化内容感知属于基础研究组获奖项目,但我们的成果也跟实际应用紧密结合,我们的合作方南开大学程明明教授团队开发的物体感知技术很早就被应用到了华为旗舰手机上,我们自己也跟国际知名的图像处理软件Picsart公司有深入合作。”
然而,原本跟深度学习相关的像素级理解算法都依赖大量的标注样本。
如何让算法能够减少对人工标识的依赖,尽可能降低人力成本?魏云超和同事们尝试了多种策略,包括弱监督学习、领域自适应学习、交互式学习等等,“在弱监督学习方面,我们在仅仅利用图像标签作为监督信息的情况下,提出了‘识别-擦出相对抗’的策略,使得我们可以利用分类网络不断挖掘图像中可以支持类别标签的证据,从而建立出语义和物体像素的对应关系,并训练分割网络。”
此外,他们还通过将人的点击位置和对应图片显示的内容一起输入到网络中区,训练网络学习当点击不同的位置应该输出怎样的物体区域。“以前标注一张图片可能需要一个多小时,现在我们训练的交互标注,可以让模型自动去感知标注员想标注的物体区域。通过智能标注,能够大大减少人力、提高效率。”魏云超表示,目前的成果已经成为历史,未来还有更多的机遇和挑战。今后,团队还将在基础研究外和工业界展开广泛的合作,希望可以助推视频编辑、电子商务、智能交通等领域的发展。
“转载请注明出处”
领取专属 10元无门槛券
私享最新 技术干货