首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

打打字就能指挥算法视频抠图,Transformer掌握跨模态新技能,精度优于现有模型丨CVPR 2022

点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 量子位 授权 都说Transformer适合处理多模态任务。 这不,在视频目标分割领域,就有人用它同时处理文本和视帧,提出了一个结构更简单、处理速度更快(每秒76帧)的视频实例分割框架。 这个框架只需一串文本描述,就可以轻松将视频中的动态目标“抠”出来: 可以实现端到端训练的它,在基准测试中的多个指标上表现全部优于现有模型。 目前,相关论文已被CVPR 2022接收,研究人员来自以色列理工学院。 主要思路 根据文本描述进行视频目标分割这一多模态任务(R

02
领券