首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >实时实例分割与无监督学习的前沿进展

实时实例分割与无监督学习的前沿进展

原创
作者头像
用户11764306
发布2025-10-31 19:33:05
发布2025-10-31 19:33:05
1000
举报

计算机视觉:Yong Jae Lee推动实时实例分割与无监督学习的前沿研究

理解我们万花筒般的视觉世界是计算机科学家数十年来的重大挑战。因为视觉远不止是"看见"。为了最大限度地利用机器,并最终让它们在我们中间有用且安全地移动,它们必须以超人的置信度理解周围发生的事情。

人类为每个场景带来的知识赋予了场景意义,并使我们能够做出适当反应。在计算机视觉(CV)的早期,人工智能系统只能通过由人类精心标注的大量示例图像进行学习——这一过程称为监督学习。

无监督学习的兴起

当电气工程本科生Yong Jae Lee大约15年前首次迷上CV挑战时,监督学习占据主导地位。那时,要教CV系统识别猫,你必须向它展示数千张猫的图片,每只猫周围都精心绘制了框并标注为"猫"。

但Lee当时就坚信CV的未来在于无监督或弱监督学习。这种机器学习形式的思想是,CV模型接收大量未标注图像,并自行找出如何区分其中的许多不同类别的对象。

"那时无监督学习并不流行,但我毫不怀疑这是值得研究的方向,"Lee说。"现在,我认为几乎整个社区都相信这个方向。正在取得巨大进展。"

深度学习革命

Lee表示,向无监督学习的转变是由深度学习革命带来的。在这种范式下,开发的ML算法可以从大量原始未标注数据中提取相关信息。

深度学习的惊人成功意味着Lee的研究生教学内容每个学期都在演变。"这个月的最新技术下个月就不再是了,"他说。"经常有惊喜,每几年就有范式转变。需要应对的很多,但对学生来说是一个激动人心的时刻。"

实时实例分割的突破

在不教学时,Lee正在推动CV的监督和自监督方法的边界。2019年,他获得了某机构的机器学习研究奖项,部分是为了支持一系列关于实时对象实例分割的开创性论文。

对象实例分割比视觉对象检测更进一步:它是CV模型不仅能够检测图像中某处有对象,还能准确定位和分类每个感兴趣对象的能力。通过实例分割,不仅图像中的每个像素都被归为某个对象类别,模型还通过清晰分割该对象类别的每个"实例"来区分两个相同类别的对象。

2019年的挑战是:虽然这个实例分割任务在应用于单个图像时可以达到高标准,但还没有系统在应用于实时流视频时能达到高精度基准。

Lee和他的学生不仅开发了第一个在此速度下达到如此精度的模型,而且通过仅在一个GPU上训练他们的模型就实现了这一目标。他们的监督系统称为YOLACT,既精简又高效。它之所以快速,是因为研究人员开发了一种新颖的方法来并行运行实例分割任务的各个方面,而不是依赖较慢的顺序处理。

实际应用与持续改进

此后,Lee的团队继续显著提高了系统的效率和性能,最新版本的YOLACT可以装在不超过手掌大小的设备中。通过将YOLACT代码在GitHub上提供,Lee让许多人能够使用这个系统。

"它产生了很大影响。我知道有很多人在使用YOLACT,至少有一家初创公司,"Lee说。"这不是某种智力练习。我们正在创造具有实际价值的系统。对我来说,这是一种非常令人兴奋的感觉。"

图像生成的创新

在Lee工作的另一个分支中,他也开创了基于ML的图像生成的新方法。一个研究首创的例子是MixNMatch,这是一个最小监督模型,当提供许多真实图像时,它会自学区分各种重要的图像属性。通过学习区分对象的形状、姿态、纹理/颜色和背景,系统可以采用精细控制来生成具有任何所需属性组合的新图像。

Lee继续在此类工作上构建。今年,他和他的现任及前任学生公布了GIRAFFE HD,这是一个具有3D意识的高分辨率生成模型。这意味着它可以在独立生成适当背景的同时,连贯地旋转、移动和缩放场景中的前景对象。

"作为用户,你可以调整不同的'旋钮'以高度可控的方式改变生成的图像,例如对象的姿态甚至虚拟相机高度,"Lee说。

计算资源的重要性

开发此类技术没有显著的计算资源是不可行的,这就是为什么Lee的某机构奖项包括了某机构网络服务的积分。"对我们实验室特别有益的是某机构的EC2。在关键时刻,当我们需要运行许多不同实验时,我们可以并行进行。EC2上机器的可扩展性和可用性对我们的研究非常有帮助。"

未来挑战与机遇

虽然Lee显然对视觉研究的许多方面充满活力,但他看到了一个迫在眉睫的缺点:在线发布的AI生成艺术大量涌入。"现在的技术是直接从互联网数据中学习,"他说。"如果这些数据充满了许多ML输出,你实际上不是从所谓的真实知识中学习,而是从'虚假'信息中学习。目前尚不清楚这将如何影响未来模型的训练。"

但他对进步的速度仍然乐观。他说,图像生成系统已经展示的语义理解令人惊讶。"以Dalle-2的骑马宇航员为例。这种语义概念在现实世界中并不真正存在,对吧,但这些系统可以构建恰好如此的合理图像。"

Lee表示,从这里得到的教训是,数据的力量难以否认。即使数据是"嘈杂的",拥有大量数据也能让ML模型对视觉世界产生非常深入的理解,从而产生语义概念的创造性组合。

给学生的建议

Lee对希望进入这个动态领域的学生有什么建议?"机器学习空间有如此多的活动,真正重要的是找到你真正热衷的主题,并获得一些实践经验,"Lee说。"不要只是读一篇论文,然后就假定你知道需要知道什么。最好的学习方法是下载一些尖端开源代码,真正尝试使用它。玩得开心!"

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 计算机视觉:Yong Jae Lee推动实时实例分割与无监督学习的前沿研究
    • 无监督学习的兴起
    • 深度学习革命
    • 实时实例分割的突破
    • 实际应用与持续改进
    • 图像生成的创新
    • 计算资源的重要性
    • 未来挑战与机遇
    • 给学生的建议
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档