Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【他山之石】小米影像团队在CVPR 2024斩获三冠两亚!

【他山之石】小米影像团队在CVPR 2024斩获三冠两亚!

作者头像
马上科普尚尚
发布于 2024-07-17 07:32:19
发布于 2024-07-17 07:32:19
5220
举报

“他山之石,可以攻玉”,站在巨人的肩膀才能看得更高,走得更远。在科研的道路上,更需借助东风才能更快前行。为此,我们特别搜集整理了一些实用的代码链接,数据集,软件,编程技巧等,开辟“他山之石”专栏,助你乘风破浪,一路奋勇向前,敬请关注!

近日,小米影像团队在计算机视觉领域的最具影响力的顶级学术会议CVPR 2024的NTIRE和AIS赛事中,取得了令人瞩目的成绩。在多项挑战赛中击败国内外强劲对手,一举夺得3项冠军、2项亚军,并中稿1篇高效超分辨率方向的论文,充分展现了小米在移动影像领域的硬核实力

CVPR 全称是计算机视觉与模式识别大会 (Conference on Computer Vision and Pattern Recognition),由 IEEE 计算机学会主办,每年一次,汇集了全球顶尖的学者、工程师和企业家,共同探讨计算机视觉与模式识别领域的前沿问题。本次参加CVPR 2024 NTIRE和AIS比赛的小米团队来自小米影像团队,团队主要负责手机拍照相关技术的研发工作,涉及高层的AI语义感知类技术和底层的AI画质增强类技术,宗旨是为用户带来智能、极致的摄影体验。

01

NTIRE:“影像算法奥林匹克”

NTIRE(New Trends in Image Restoration and Enhancement)是由CVPR 组委会承办的关于计算机视觉和模式识别领域的研讨会,旨在提供图像恢复和增强领域的新趋势和进展的概述,并为学术和工业参与者提供互动和探索合作的机会。作为全世界规模最大、水平最高的图像恢复与增强的研讨会,NTIRE素有“影像算法奥林匹克”之称,今年已是第九届。小米影像团队参与了四倍超分辨率,高效超分辨率和RAW图超分辨等多个赛道,并包揽其中3项冠军。

02

NTIRE2024:Image Super Resolution (x4) Challenge

图像超分辨率(Super-Resolution, SR)是计算机视觉领域的一个重要研究方向,其目标是通过算法将低分辨率(Low Resolution, LR)图像提升至高分辨率(High Resolution, HR),以改善图像质量和细节。随着技术的发展,图像超分辨率技术已经广泛应用于医学影像、卫星遥感、视频监控、工业检测等多个领域。本次任务设置了一个四倍超分赛道,追求极致画质效果。小米影像团队以显著优势摘得冠军。在这个赛道,小米影像团队团队提出了一种基于视觉Mamba的超分辨率模型。Mamba的特性在于其能够模拟长序列的长距离依赖性,这得益于其参数化方法,使其能够存储长序列的信息然而,Mamba是一个自回归模型,通常具有单向性,例如良好的时间属性和因果序列建模。与Transformer相比,它不能模拟序列元素之间的关系。Transformer在各种任务中显示出了强大的优势,但它不擅长处理长序列信息。Mamba和Transformer的特性高度互补,因此团队设计了一个名为SSFormer的模块。超分辨率任务是一个像素密集型任务,因为它旨在从低分辨率图像中恢复高分辨率细节。

在这个过程中,模型需要在每个像素点执行密集计算,以预测和生成更高分辨率图像中的新像素点,因此在超分辨率任务中建模像素点的上下文关系更加重要。基于此,他们将SSFormer模块引入超分辨率任务,并构建了一个名为MambaSR的模型。为了进一步提升画质效果,他们进一步提出了一种基于kmeans聚类的超分辨率图像融合算法,该方法旨在生成一个综合了多个模型优势的高质量超分辨率图像。

超强的单模型+更好的融合算法助力小米影像团队取得了冠军

03

NTIRE2024:Efficient Super Resolution Challenge

本次任务设置了两个高效率超分赛道,要求在运行时间约束下使得算法性能达到一个固定标准。小米影像团队以显著优势取得两个赛道的冠军。在这个赛道,小米影像团队提出了一种基于无需参数的注意力机制的单图超分辨率模型,即Swift Parameter-free Attention Network(SPAN),旨在克服传统注意力机制在网络结构复杂性、推理速度缓慢和模型尺寸较大的问题。SPAN通过引入一种新颖的无参数注意力机制,利用对称激活函数和残差连接来增强图像中高贡献的信息并抑制冗余信息,从而在简化网络结构的同时提高推理速度,且不牺牲图像质量。该模型在多个标准基准测试中表现出色,不仅在图像质量和结构相似性(PSNR/SSIM)上超越了现有的高效超分辨率模型,还在保持较低模型复杂性和参数数量的同时,实现了快速的推理速度。此外,SPAN在资源受限的实际应用场景中,如移动设备上,展现出了巨大的应用潜力和价值。

SPAN模型在多个标准图像超分辨率基准测试中表现出色,其性能在图像质量和推理速度上均超越了现有的高效超分辨率模型。这一成果在2024年的CVPR NTIRE上得到了展示,并通过实验验证了SPAN在实际应用中的有效性和优越性。

基于上述方法,小米影像团队针对比赛任务进一步简化模型,最后在近40支队伍的激烈竞争中脱颖而出,以大幅度优势击败了一众友商和高校的团队,最终取得了该赛道的双料冠军

04

NTIRE2024:RAW Image Super-Resolution Challenge

本赛道的目标是对一个四通道 RAW 图像进行x2超分辨重建(可能包含模糊和/或噪声)。大多数的超分辨率方法是从 sRGB 图像开始,然后进一步放大它,以改善其质量。然而,在 sRGB 领域建模退化是复杂的,因为存在非线性 ISP 转换。尽管已知这个问题,但只有少数方法直接处理RAW图像并解决实际传感器退化问题。在这个赛道里,小米影像团队提出了基于HAT的双分支网络结构,采用重参数化Conv来提高训练过程中的参数量,充分发掘本方案的潜力,有效提升超分辨重建质量。同时提出了Task-by-task和Step-by-step的训练方案,Task-by-task:将任务拆解为三个子任务(去噪、去模糊、x2超分辨率重建),Step-by-step:训练分为三阶段逐步增大训练数据的尺寸(64×64、128×128、256×256),采用这种方案充分利用了比赛提供的1000+组RAW训练数据提升重建质量。

基于此,小米影像团队在本赛道验证数据集和测试数据集上重建了高质量x2超分辨RAW图像,同时也取得了较高的PSNR和SSIM分数,获得第二名的成绩。

05

AIS:Vision, Graphics and AI for Streaming

AIS作为 CVPR 举办的第一届流媒体人工智能研讨会,其会议重点从现代深度学习的角度统一新的流技术、计算机图形学和计算机视觉方向展开探讨。流媒体是一个巨大的行业,数以亿计的用户每天都需要不同平台上的高质量内容。计算机视觉和深度学习已成为渲染内容、图像和视频压缩、增强和质量评估的革命力量。从用于高效压缩的神经编解码器到基于深度学习的视频增强和质量评估,这些先进技术正在为流媒体质量和效率设定新标准。此外,新颖的神经表示还在渲染可流内容以及允许重新定义计算机图形管道和视觉内容方面带来了新的挑战和机遇。

06

AIS:Real-Time Image Super-Resolution Challenge

实时图像超分辨率重建挑战的目标是使用深度学习模型和商用GPU在30/60FPS(每幅图像30-16毫秒)的实时情况下提升高分辨率图像。本年度,本赛道的难度较往年进一步提升,从x3超分辨率重建提升至x4超分辨率重建,这就要求算法在保证实时性的同时还要进一步兼顾算法重建精度。为此,团队提出了一种精简结构作为主干网络,该结构基于两个卷积和两个SPAB结构的堆叠。卷积部分采用重参数化技术构建,确保模型在训练阶段有足够多的参数,同时做到推理速度依然保持实时。此外,SPAB结构保证了特征的高效提取,使图像重建时获取更多精细且真实的细节。

最终,小米影像团队在比赛测试数据集上取得了先进效果,在保证了实时性的同时,在精度赛道荣获第二名

本次CVPR 2024中,小米影像团队在各个赛道的突出表现,是对其过硬技术的有力验证。未来,小米将继续努力,为行业创造更多应用价值,让用户享受更好的拍照体验!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人工智能前沿讲习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
CVPR 2020 | 几篇GAN在low-level vision中的应用论文
【图像分离、去雨/反射/阴影等】Deep Adversarial Decomposition: A Unified Framework for Separating Superimposed Images
公众号机器学习与AI生成创作
2020/06/19
1.4K0
CVPR 2020 | 几篇GAN在low-level vision中的应用论文
NTIRE2022 冠军方案:中科院深圳先进技术研究院多媒体中心提出轻量级单图超分方案-BSRN
本文介绍我们近期的工作Blueprint Separable Residual Network(BSRN),该方法已被CVPRW 2022接受,并在NTIRE 2022 Efficient Super-Resolution Challenge:Sub-Track 1 - Model Complexity Track中取得第一名。 图1 BSRN与SOTA 方法的对比图。横轴表示参数量,纵轴为性能,圆半径代表计算量。注:其中BSRN-S为参赛模型。 BSRN与SOTA方法对比如图1所示,横轴表示参数量,纵
AI科技评论
2022/05/27
1.2K0
NTIRE2022 冠军方案:中科院深圳先进技术研究院多媒体中心提出轻量级单图超分方案-BSRN
CVPR 2020 算法竞赛大盘点
CVPR 2020 已经公布了大多数workshop的细节,与这些workshop对应的还有很多计算机视觉算法比赛,这些比赛代表着或新兴、或实用、或有趣、或被忽略的研究方向。
小白学视觉
2020/02/27
1.6K0
CVPR 2020学术竞赛大盘点,中国团队揽获众多冠军
CVPR 2020已经落下帷幕,除了为期三天的主会议,还穿插着同为期三天的Workshop,这些研讨会有一些是讨论性质的,还有一些是竞赛相关的。
AI科技评论
2020/06/29
1K0
CVPR 2020学术竞赛大盘点,中国团队揽获众多冠军
漫谈图像超分辨率技术
作为将模糊的图像变清晰的神奇技术,图像超分辨率技术在游戏、电影、相机、医疗影像等多个领域都有广泛的应用。在这篇文章中,微软亚洲研究院的研究员们为你总结了图像超分辨率问题中的主流方法、现存问题与解决方案。微软亚洲研究院在图像超分辨率领域的相关技术也已在顶级会议发表,并转化入 PowerPoint 产品中,我们将在后续文章中为大家解读。
小白学视觉
2022/12/27
1.1K0
漫谈图像超分辨率技术
用Jetson NANO实现真实世界超高质量的超分辨率重建
注意,它用的是Vulkan进行计算,并没有用CUDA/OpenCL,这大概处于通用性的考虑。
GPUS Lady
2021/07/12
1.3K0
基于深度学习的图像超分辨率重建技术的研究
图像分辨率是一组用于评估图像中蕴含细节信息丰富程度的性能参数,包括时间分辨率、空间分辨率及色阶分辨率等,体现了成像系统实际所能反映物体细节信息的能力。相较于低分辨率图像,高分辨率图像通常包含更大的像素密度、更丰富的纹理细节及更高的可信赖度。
全栈程序员站长
2022/07/25
1.8K0
基于深度学习的图像超分辨率重建技术的研究
CVPR 2019 | 旷视研究院摘取NTIRE真实图像降噪比赛冠军
NTIRE(New Trends in Image Restoration and Enhancement)挑战赛致力于恢复与增强图像质量,到目前为止,已连续举办了3年。今年,NTIRE 挑战赛下设11项比赛,就旷视研究院参赛的“真实图像降噪(Real Image Denosing Challenge)”而言,全球共有216位选手、12支队伍参加。
AI算法与图像处理
2019/07/02
2.7K0
CVPR 2022:字节跳动多项竞赛夺冠,发力无障碍技术创新
---- 新智元报道   编辑:好困 【新智元导读】在今年的CVPR上,字节跳动斩获了多项竞赛冠军。 作为一年一度AI计算机视觉领域的顶级盛会,CVPR 2022已经落下帷幕。 字节跳动旗下的极光-多模态技术团队、智能创作团队、火山引擎多媒体实验室团队斩获了多项竞赛冠军,覆盖「视觉问答」、「图像实例分割」、「长视频内容理解」、「图片恢复」,以及「图片视频压缩技术」等场景。 其中,两项研究成果有助于视障人群克服日常生活中的视觉挑战、提升残障人士出行的安全性,助力打造无障碍环境。 ‍帮助视障人士精准「识图
新智元
2022/07/07
1.7K0
CVPR 2022:字节跳动多项竞赛夺冠,发力无障碍技术创新
零基础 Pytorch 入门超分辨率
超分辨率(Super-Resolution, SR)重建技术的基本思想是釆用信号处理的方法,在改善低分辨率(Low Resolution, LR)图像质量的同时,重建成像系统截止频率之外的信息,从而在不改变硬件设备的前提下,获取高分辨率(High Resolution, HR)的图像。
OpenMMLab 官方账号
2022/01/18
1.1K0
零基础 Pytorch 入门超分辨率
NeurIPS 2021|腾讯优图:图像盲超分新范式,从频域估计模糊核更精确
近年来,虚拟会议、在线直播、4K/8K电影电视播放等应用快速发展,对视频的画质提出了更高的要求,传统的图像增强算法已不能满足各种复杂场景中的实际需求。而单图像超分辨率 (SISR) 作为一项提高计算机视觉领域中图像分辨率的底层视觉任务,凭借从退化的低分辨率 (LR) 对应恢复高分辨率 (HR) 图像的优势,在上述场景中得以广泛应用,而这一任务被称为图像盲超分辨率问题。 随着深度学习技术的突破,该方法极大地促进了 SR领域研究,很多工作在基准数据集上取得了显著成果[1]。即:假设 LR 图像是由HR图像通过使用理想内核(例如,双三次)进行下采样得到的。借助于AI技术的不断革新,腾讯优图团队深入研究超分技术,提出了图像盲超分新算法,更好地处理真实世界图像超分,相关论文发表在神经信息处理系统大会NeurIPS 2021。
优图实验室
2022/03/09
2K1
让老电影“重生”的AI超分辨技术,即将形成一波热点
最近有件大事,11 月 15 日,全球瞩目的经典电影《海上钢琴师》4K 修复版即将登陆全国院线。岁月侵蚀的影片经典场景,在老胶片的保存下只剩模糊的影像。而此次经 4K 技术修复的版本,据说采用了先进的图像超分辨率技术,分辨率和效果大幅度提升,磨损的视频图像恢复到当时拍电影时的真实效果,细节展现得淋漓尽致,光影清晰、细腻、赏心悦目。
AI科技评论
2019/11/09
1.5K0
让老电影“重生”的AI超分辨技术,即将形成一波热点
一篇看懂 CVPR 2017 五大研究前沿
腾讯AI实验室
2017/08/03
5.1K2
一篇看懂 CVPR 2017 五大研究前沿
超分辨率 | 综述!使用深度学习来实现图像超分辨率
今天给大家介绍一篇图像超分辨率邻域的综述,这篇综述总结了图像超分辨率领域的几方面:problem settings、数据集、performance metrics、SR方法、特定领域应用以结构组件形式,同时,总结超分方法的优点与限制。讨论了存在的问题和挑战,以及未来的趋势和发展方向。
AI算法修炼营
2020/05/26
7.4K0
超分辨率 | 综述!使用深度学习来实现图像超分辨率
计算机视觉领域再突破,腾讯 Turing Lab 研究成果入选CVPR 2022
近期,国际计算机视觉与模式识别会议CVPR 2022在美国新奥尔良举行,并同步进行线上会议。由王君乐博士带领的腾讯Turing Lab实验室提交的论文《High-resolution Face Swapping via Latent Semantics Disentanglement》(基于隐语义解耦的高分辨率换脸)成功入选。 论文由腾讯Turing Lab与华南理工大学、卡迪夫大学及香港大学合作完成。接下来,我们将为大家解读论文的核心成果,一起来学习计算机视觉领域的最前沿研究吧! CVPR 基于隐语义解耦
WeTest质量开放平台团队
2022/07/19
8970
计算机视觉领域再突破,腾讯 Turing Lab 研究成果入选CVPR 2022
CVPR 2020丨图像超清化+老照片修复技术,拯救你所有的模糊、破损照片
也许你曾从橱柜里翻出家人们压箱底的老照片,而它们已经泛黄发脆,甚至有些褪色;也许你在拍照时不慎手抖,只好把糊成一片的照片都丢进“最近删除”。而微软亚洲研究院在计算机视觉顶会 CVPR 2020 发表的两项黑科技——基于纹理 Transformer 模型的图像超分辨率技术,和以三元域图像翻译为思路的老照片修复技术,将能让这些照片奇迹般地恢复如初。同时,图像超分别率技术将于近期上线 PowerPoint,未来也将有更多图像修复技术集成进微软 Office 产品中。
马上科普尚尚
2020/06/29
2.3K0
CVPR 2020丨图像超清化+老照片修复技术,拯救你所有的模糊、破损照片
CVPR 2023 | 图像超分,结合扩散模型/GAN/部署优化,low-level任务,视觉AIGC系列
基于Transformer的方法在低级别视觉任务中,如图像超分辨率,表现出了令人印象深刻的性能。Transformer的潜力在现有网络中仍未得到充分发挥。为了激活更多的输入像素以实现更好的重建,提出了一种新的混合注意力Transformer(HAT)。它同时结合了通道注意力和基于窗口的自注意力方案,从而充分利用了它们各自的优势,即能够利用全局统计和强大的局部拟合能力。
公众号机器学习与AI生成创作
2023/08/22
2.8K0
CVPR 2023 | 图像超分,结合扩散模型/GAN/部署优化,low-level任务,视觉AIGC系列
再夺全球顶级竞赛CVPR NTIRE冠军,打造更好用户体验,淘宝拥有哪些内容技术?
不知不觉间,内容电商似乎已经成为人们生活中不可或缺的存在:在闲暇时间,我们已经习惯于拿出手机,从电商平台的直播间随手下单自己心仪的商品。
机器之心
2023/08/07
3150
再夺全球顶级竞赛CVPR NTIRE冠军,打造更好用户体验,淘宝拥有哪些内容技术?
【计算摄影】图像与视频超分辨,深度学习核心技术与展望
图像超分,就是要将低分辨率的图像恢复为高分辨率的图像,它在日常的图像和视频存储与浏览中都有广泛的应用,本次我们介绍基于深度学习的图像超分辨核心技术。
用户1508658
2021/05/10
1.1K0
【计算摄影】图像与视频超分辨,深度学习核心技术与展望
刷新记录,算法开源!字节跳动获人体姿态估计竞赛双冠 | CVPR 2019
【导读】6 月 16--20 日,计算机视觉与模式识别领域顶会 CVPR 2019 在美国长滩举行。每年的 CVPR 盛会除了精彩的论文分享、Workshop 与 Tutorial,还会举办多场涵盖计算机视觉各子领域的专项比赛,竞争亦是非常激烈。在此次人体姿态估计和人体分割比赛中,字节跳动的两个团队榜上有名,收获两个冠军、一个亚军。
AI科技大本营
2019/07/12
1.7K0
刷新记录,算法开源!字节跳动获人体姿态估计竞赛双冠 | CVPR 2019
推荐阅读
相关推荐
CVPR 2020 | 几篇GAN在low-level vision中的应用论文
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档