Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >双冠!网易互娱AI Lab包揽NTIRE 2022高动态范围成像(HDR)两项冠军

双冠!网易互娱AI Lab包揽NTIRE 2022高动态范围成像(HDR)两项冠军

作者头像
Amusi
发布于 2022-06-13 11:14:43
发布于 2022-06-13 11:14:43
4250
举报
文章被收录于专栏:CVerCVer

作者:网易互娱 AI Lab

近日网易互娱 AI Lab 获得第七届 NTIRE HDR 比赛的全部两个赛道的冠军。网易互娱 AI Lab 一直致力于利用 AI 提升美术生产效率,助力游戏贴图资源自动升级,目前相关技术已应用于贴图、UI 等游戏资源的精度和细节的提升,为多个游戏提供技术支持。本文将详细解读他们的双冠比赛方案。

近日,图像修复领域最具影响力的国际顶级赛事——New Trends in Image Restoration and Enhancement(NTIRE)结果出炉,网易互娱 AI Lab 包揽了高动态范围成像(HDR)任务全部 2 项冠军。NTIRE 比赛每年举办一次,目前已是第七届,主要聚焦图像修复和增强技术,代表相关领域的趋势和发展,吸引了众多来自工业界、学术界的关注者和参赛者,有着非常大的影响力。今年 NTIRE 比赛在计算机视觉领域的顶级会议 CVPR 2022(Computer Vision and Pattern Recognition)上举办。

高动态范围成像(HDR)任务的赛道 1 和赛道 2 分别有 197 个队伍、168 个队伍报名参加,吸引了包括腾讯、头条、旷视、蚂蚁、快手在内的工业界队伍,以及清华大学、中科院、中国科学技术大学、爱丁堡大学、帝国理工等国内外高校。网易互娱 AI Lab 从众多的强队中脱颖而出,斩获该任务的全部 2 项冠军。这是网易互娱 AI Lab 夺得多项国际冠军后,再次登顶国际 AI 竞赛,展现了网易互娱 AI Lab 在人工智能领域的综合实力。

图 1:NTIRE 2022 比赛

任务描述

消费级的单传感器相机在拍摄照明情况复杂的场景时,难以用一种曝光参数拍摄出曝光正常的照片。由于成像传感器固有的局限性,譬如在高亮度区域因为过曝让画面呈现白色,从而导致这些区域细节的丢失。针对这个问题的解决方法是采用一个扩展的高动态范围(HDR)记录图片,具体做法是在拍摄时分辨拍摄多张不同曝光参数的低动态范围(LDR)图片,然后通过算法把多张图片融合成一张 HDR 图片。

此次比赛的目标是探索高效的 HDR 模型和技术方案,以达到实用化的使用需求。总计两个赛道:(1)保真度赛道:在限定模型计算量(小于 200G GMACs)的基础上,尽可能取得更高的保真度,评价指标是 PSNR-μ;(2)低复杂度赛道:在超过基线模型指标(PSNR-μ与 PSNR)的基础上,尽可能取得更低的计算量和更少的耗时,评价指标是 GMACs。

数据集介绍

本次比赛用的数据集包含 1500 个训练样本、60 个验证样本以及 201 个测试样本,每个样本包括三张 LDR 图片输入,分别对应短、中、长三种曝光水平,以及一个和中曝光对齐的 HDR 图片,数据集是由 Froehlich 等人收集的,他们捕捉了各种各样的具有挑战性场景的 HDR 视频。之前基于深度学习的 HDR 模型取得了不错的效果,譬如 AHDRNet、ADNet 等,但缺点是计算量非常大,以官方提供的基线方法 AHDRNet 为例,计算量在 3000GMACs 左右。因此本次比赛的目的是寻求高效的多帧 HDR 重建方法。

方法概述

由于任务的两个赛道均要求训练高效的 HDR 模型,网易互娱 AI Lab 凭借以往对 low-level 视觉任务和轻量化网络设计的经验积累,在基线模型的基础上,提出了一个 Efficient HDR 网络,包括高效的多帧对齐和特征提取模块两个模块,同时优化了模型的训练方法。

(1)在多帧对齐模块,采用 Pixel Unshuffle 操作在增大感受野的同时减少了特征图的大小,大幅减少了后续的计算量。同时,采用深度可分离卷积替代对齐模块中的普通卷积,大幅提高运算效率。

(2)在特征提取模块,采用深度可分离卷积替代普通卷积,SiLU 激活函数替代 ReLU,设计了一个高效残差特征蒸馏模块(Efficient RFDB)。另外,探索了网络深度与通道数目之间的关系,在限定计算量下层数更深且通道数少的特征提取网络,可以获得更高的评价指标。

(3)在训练方法上,在常规的 128x128 图片输入 L1 Loss 训练后,采用了 256x256 更大尺寸输入 + L2 Loss 进行训练调优。最后,使用基于 SwinIR 搭建的 Transformer 模型作为 Teacher 模型,对前述 CNN 模型进行蒸馏,结合 CNN 和 Transformer 各自的优势进一步提升模型效果。

网络结构

网络的整体结构基于官方提供的 baseline 模型 AHDRNet 进一步大幅改进和优化,主要可以分成三个部分:多帧对齐模块、特征提取模块和图像重建模块。基于本次比赛的计算量目标考虑,对网络部分做了以下设计:

1. Pixel Shuffle 层:在多帧对齐模块中使用 Pixel Unshuffle 操作(Pixel Shuffle 的逆操作),在不增加计算量的同时增大了感受野。在图像重建模块中使用 Pixel Shuffle 替代 AHDRNet 中的卷积操作,节省计算量。

2. 深度可分离卷积:在多帧对齐模块和特征提取模块,采用 Depthwise+1x1 卷积的组合替换了网络中的绝大多数卷积。

3. 特征提取基础模块替换:在特征提取模块采用 RFDB+ESA 替换 AHDRNet 中的 DRDB,并采用 SiLU 激活函数替换 ReLU。

4. 深度 vs 宽度:在限定计算量下,平衡特征提取模块深度和宽度取得更好的效果。以 Track1 的约束为标准,所有模型的计算量都在 190G~200G 之间(即更深的网络意味着更少的通道数)。

整体的网络结构图如图 2 所示,Efficient RFDB 的结构图如图 3 所示:

图 2:网络结构图

图 3:Efficient RFDB 结构图

最后提交的 Track1 和 Track2 模型均采用了上述的模型结构,区别是使用 Efficient RFDB 层数和通道数有所不同,对 Track1,Efficient RFDB 层数和通道数目较多,计算量是 198.47GMACs。对 Track2,Efficient RFDB 层数相近,通道数更少,计算量是 74.02GMACs。

训练过程

目前 HDR 的论文或比赛的主要评价指标是 PSNR-μ,指先对输出图片和标签图片分别做色调映射 tonemapping 操作再计算其 PSNR:

其中,

是指 tonemapping 操作。对图像做了以下处理:

其中,

主流的方法是对色调映射后的图片求 L1 Loss,譬如去年 NTIRE 比赛的多帧 HDR 比赛冠军 ADNet 是使用 tonemapped 后的图片损失函数,即:

该研究训练过程第一步同上使用 L1 Loss,并在此基础上加了后续三个 finetune 的过程,按顺序分别是:

1. L2 Loss finetune:为了获得更高的评价指标,在微调阶段该研究采用了和 PSNR 计算一致的 L2 Loss 代替 L1 Loss:

2. 大尺寸图片 + L2 Loss finetune:由于最后用了深层的网络设计,网络具有更大的感受野,采用 256x256 替代 128x128 的大尺寸图片进行微调可以让模型取得更好的效果。

3. 知识蒸馏 + 大尺寸 + L2 Loss finetune:使用基于 Transformer 的 SwinIR 中的 RSTB 代替 Efficient RFDB 搭建 Teacher 网络,此阶段损失函数如下:

其中,TS 表示 Teacher Surpervision,DS 表示 Data Supervision,最后在实验中

实验结果

赛道 1 中,网易互娱 AI Lab(ALONG)提出的方法在 PSNR-μ和 PSNR 上均是第一。如表 1 所示,主要评价指标 PSNR-μ比第二名高出了 0.172,而第二到第四的 PSNR-μ差距仅为 0.089,相比第五名之后的队伍更是拉开了 0.45 以上的差距。

赛道 2 中,网易互娱 AI Lab(ALONG)提出的方法取得了最低的计算量(GMACs)和最少的参数量(Param)。如表 2 所示,在超过基线方法 PSNR 和 PSNR-μ的基础上,减少了约 40 倍的计算量。相比第二名和第三名有较大领先,仅使用了约一半的计算量。

表 1:赛道 1(保真度赛道)结果排名

表 2:赛道 2(低复杂度赛道)结果排名

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-05-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CVer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
NTIRE2021 图像去模糊竞赛各大方案简介
NTIRE的各大竞赛已经落下帷幕,冠亚军排名也相继确定,笔者近期会逐步将相关领域的竞赛结果进行一下简单总结,同时也将对这其中的冠军军及优秀方案进行一番解读,感兴趣的朋友可以关注一波...
AIWalker
2021/05/24
1.7K0
NTIRE2021 图像去模糊竞赛各大方案简介
网易互娱AI Lab视频动捕技术iCap被CVPR 2022接收!
动作捕捉技术在影视和游戏行业已得到广泛的应用,其中最常用的技术方案是光学动作捕捉。光学动捕需要演员穿着紧身动捕服,并且在身上粘贴光学标记点,在配置好光学动捕设备的场地进行表演和动作录制。光学动捕设备通常价格不菲,同时还需要固定的室内场地,使用成本和门槛较高,很多小型动画工作室只能望而却步。如果可以从手机拍摄的视频中高精度地捕捉人物动作,那将是动画师的福音。
Amusi
2022/04/18
1.4K0
网易互娱AI Lab视频动捕技术iCap被CVPR 2022接收!
一文解读CVPR等9个顶会挑战赛冠军团队方案,助你参悟AI算法设计之道
想成为下一个刷爆挑战赛榜单的冠军?这份复习材料涵盖 CVPR、ICCV 等顶会挑战赛的优胜算法方案,无论你是挑战赛老司机,还是新晋小白,相信对你参悟竞赛道路都会有所帮助。 本篇是机器之心「虎卷er行动 · 春卷er」的第三卷,为老伙计们汇总解读 9 个刷爆 AI 顶会挑战赛榜单的优胜算法方案。 1、CVPR 2021 NTIRE 2021 挑战赛多帧 HDR 成像冠军方案:使用新型的双分支网络结构 ADNet(旷视科技团队) NTIRE 2021 挑战赛 作为图像视频修复和增强领域极具影响力的国际竞赛
机器之心
2022/03/21
1.3K0
NTIRE2022视频增强冠军方案是怎样炼成的?
NTIRE 挑战赛全称 New Trends in Image Restoration and Enhancement workshop and challenges on image and video processing,是 CVPR 一系列 Workshop 中较为著名的一个(CVPRW 2022 一共收录了约 71 个 Workshop)。NTIRE 是 Radu Timofte 主办的赛事,第一次在 ACCV 2016 举办,之后成为了 CVPRW 的常客。
AIWalker
2022/04/27
1K0
NTIRE2022视频增强冠军方案是怎样炼成的?
NTIRE2021 压缩视频增强竞赛各大方案简介
NTIRE的各大竞赛已经落下帷幕,冠亚军排名也相继确定,笔者近期会逐步将相关领域的竞赛结果进行一下简单总结,同时也将对这其中的冠军军及优秀方案进行一番解读,感兴趣的朋友可以关注一波...
AIWalker
2021/05/24
1.4K0
NTIRE2021 压缩视频增强竞赛各大方案简介
NTIRE2021图像去模糊竞赛冠军方案: EDPN
学术界的图像去模糊往往采用了最简单的单一假设,而真实场景的模糊往往与其他退化并存,比如压缩、下采样。
AIWalker
2021/05/24
7990
NTIRE2021图像去模糊竞赛冠军方案: EDPN
【竞赛小汇】NTIRE2021 视频超分竞赛
NTIRE2021的视频超分竞赛仍然延续NTIRE2020以及AIM2019/20采用了REDS数据集,它的训练集、测试集以及验证机分别包含24000,3000,3000高清(
AIWalker
2021/05/24
1.2K0
【竞赛小汇】NTIRE2021 视频超分竞赛
NTIRE2022-ESR 冠军方案RLFN解析
近年来,Efficient Super-Resolution(ESR)的研究主要聚焦于参数量与FLOPs的降低,这些方案往往通过复杂的层连接策略进行特征聚合(比如IMDN与RFDN中的特征蒸馏与聚合)。但是,这种复杂的结构不利于高推理速度需求,进而导致这些方案难以部署到资源有限的设备上。
AIWalker
2022/06/24
3.5K0
NTIRE2022-ESR 冠军方案RLFN解析
HDRUNet | 深圳先进院董超团队提出带降噪与反量化功能的单帧HDR重建算法
Paper: https://arxiv.org/pdf/2105.13084.pdf
AIWalker
2023/09/09
8530
HDRUNet | 深圳先进院董超团队提出带降噪与反量化功能的单帧HDR重建算法
新视频超分算法来了:CVPR 2021 & NTIRE 2021 冠军
今天给大家带来的干货是新鲜出炉的 CVPR 2021,该文斩获 NTIRE 比赛冠军。目前代码已经 Merge 到 MMEditing 中,欢迎大家尝鲜。
AI科技评论
2021/04/29
1.5K0
再夺全球顶级竞赛CVPR NTIRE冠军,打造更好用户体验,淘宝拥有哪些内容技术?
不知不觉间,内容电商似乎已经成为人们生活中不可或缺的存在:在闲暇时间,我们已经习惯于拿出手机,从电商平台的直播间随手下单自己心仪的商品。
机器之心
2023/08/07
2520
再夺全球顶级竞赛CVPR NTIRE冠军,打造更好用户体验,淘宝拥有哪些内容技术?
NTIRE2022 冠军方案:中科院深圳先进技术研究院多媒体中心提出轻量级单图超分方案-BSRN
本文介绍我们近期的工作Blueprint Separable Residual Network(BSRN),该方法已被CVPRW 2022接受,并在NTIRE 2022 Efficient Super-Resolution Challenge:Sub-Track 1 - Model Complexity Track中取得第一名。 图1 BSRN与SOTA 方法的对比图。横轴表示参数量,纵轴为性能,圆半径代表计算量。注:其中BSRN-S为参赛模型。 BSRN与SOTA方法对比如图1所示,横轴表示参数量,纵
AI科技评论
2022/05/27
1.1K0
NTIRE2022 冠军方案:中科院深圳先进技术研究院多媒体中心提出轻量级单图超分方案-BSRN
全球首个落地的舞蹈动画合成系统,网易互娱AI Lab新技术入选SIGGRAPH 2021
近日,网易互娱 AI Lab 在 SIGGRAPH 2021 官方精选预告片上展现了其首个符合实际生产环境应用要求的舞蹈动画合成系统 ChoreoMaster。该系统可依据音乐风格生成爵士、二次元、街舞等不同类型的舞蹈动画,目前已为网易旗下的多款游戏项目产出了数个小时的高质量舞蹈动作资源,先来看段精彩的 demo 吧。
机器之心
2021/06/08
1.4K0
AI 赋能游戏工业化,网易互娱AI Lab动捕去噪新方法入选 SIGGRAPH 2021
当游戏行业仍在聚焦探讨如何让 AI 真正落地、协助游戏的工业化制作时,网易互娱 AI Lab 已基于游戏研发制作中的痛点交出了一份令人惊艳的答卷。
AI科技评论
2021/08/25
8490
AI 赋能游戏工业化,网易互娱AI Lab动捕去噪新方法入选 SIGGRAPH 2021
​CVPR 2022 | 用魔法打败魔法,网易互娱AI Lab图像鉴伪新方法破解伪造人脸
近日,网易互娱AI Lab在国际计算机与模式识别会议CVPR 2022图像鉴伪挑战赛(IFDC)中一举斩获冠军,分别以高达99.386%和98.928% 的识别准确率包揽初赛和复赛两阶段的第一名,力压国际、国内共674支参赛队伍,在人脸伪造图像的鉴别方面真正秀了一把实力。 1 背景介绍 近年来,深度伪造技术用于合成内容制作已十分普遍,此类技术在带来便利性的同时也带来了隐私和安全的隐患,其中deepfake等人脸图像篡改技术的恶意应用存在极大危险性。为了应对这一挑战,IFDC挑战赛主要聚焦与人脸图像的伪造检测
AI科技评论
2022/06/24
6410
​CVPR 2022 | 用魔法打败魔法,网易互娱AI Lab图像鉴伪新方法破解伪造人脸
CVPR 2022:字节跳动多项竞赛夺冠,发力无障碍技术创新
---- 新智元报道   编辑:好困 【新智元导读】在今年的CVPR上,字节跳动斩获了多项竞赛冠军。 作为一年一度AI计算机视觉领域的顶级盛会,CVPR 2022已经落下帷幕。 字节跳动旗下的极光-多模态技术团队、智能创作团队、火山引擎多媒体实验室团队斩获了多项竞赛冠军,覆盖「视觉问答」、「图像实例分割」、「长视频内容理解」、「图片恢复」,以及「图片视频压缩技术」等场景。 其中,两项研究成果有助于视障人群克服日常生活中的视觉挑战、提升残障人士出行的安全性,助力打造无障碍环境。 ‍帮助视障人士精准「识图
新智元
2022/07/07
1.6K0
CVPR 2022:字节跳动多项竞赛夺冠,发力无障碍技术创新
NeurIPS 2022 | 最强斗地主AI!网易互娱AI Lab提出基于完美信息蒸馏的方法
机器之心专栏 作者:网易互娱 AI Lab 网易互娱 AI Lab 联合上海交通大学和 CMU 提出了基于完美信息蒸馏的斗地主 AI--PerfectDou,击败了一众 AI 模型,成为目前的最强斗地主 AI。 近几年随着强化学习技术的发展,游戏 AI 技术已经成功应用在了围棋、德州扑克、星际争霸等不同种类的游戏中。斗地主是非常流行的一种纸牌游戏,它的玩法存在非完美信息 (地主和农民双方均不能看到对方的手牌) 以及策略合作(2 名农民玩家需要通过配合来击败手牌多 3 张的地主),被认为是非常具有挑战性的研究
机器之心
2022/10/08
1.3K0
NeurIPS 2022 | 最强斗地主AI!网易互娱AI Lab提出基于完美信息蒸馏的方法
ECCV2022 | 网易互娱AI Lab提出首个基于单幅图片的实时高分辨率人脸重演算法
机器之心专栏 作者:网易互娱AI Lab 网易互娱 AI Lab 提出了一种基于单幅图片的实时高分辨率人脸重演算法,分别在台式机 GPU 和手机端 CPU 上支持以实时帧率生成 1440x1440 和 256×256 分辨率的人脸重演图像。 近年来,面部重演 (Face Reenactment) 技术因其在媒体、娱乐、虚拟现实等方面的应用前景而备受关注,其最直接的帮助就是能够帮助提升音视频的制作效率。 面部重演算法是一类以源人脸图像作为输入,可以将驱动人脸的面部表情和头部姿态迁移到源图像中,同时保证在迁移
机器之心
2022/07/26
8430
ECCV2022 | 网易互娱AI Lab提出首个基于单幅图片的实时高分辨率人脸重演算法
一举打败16个同类模型,视频超分比赛冠军算法入选CVPR 2022,来自商汤&南洋理工大学
点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 量子位 授权 如何让模糊的老片变高清? AI的答案是超分辨率算法: 现在,在视频超分领域,有一个强大的算法拿下了超分比赛NTIRE 2021三冠一亚的优异成绩,登上了CVPR 2022。 它的名字叫做BasicVSR++,是对视频超分SOTA模型BasicVSR的进一步改进。 BasicVSR也曾拿下NTIRE冠军,入选CVPR 2021。 现在,这个BasicVSR+++在基本相同的参数量下,不仅性能大幅超过前辈,PSNR(峰值信噪比,图像质量评估指
OpenCV学堂
2022/03/10
6340
一举打败16个同类模型,视频超分比赛冠军算法入选CVPR 2022,来自商汤&南洋理工大学
丰色 发自 凹非寺 量子位 | 公众号 QbitAI 如何让模糊的老片变高清? AI的答案是超分辨率算法: 现在,在视频超分领域,有一个强大的算法拿下了超分比赛NTIRE 2021三冠一亚的优异成绩,登上了CVPR 2022。 它的名字叫做BasicVSR++,是对视频超分SOTA模型BasicVSR的进一步改进。 BasicVSR也曾拿下NTIRE冠军,入选CVPR 2021。 现在,这个BasicVSR+++在基本相同的参数量下,不仅性能大幅超过前辈,PSNR(峰值信噪比,图像质量评估指标)提高了0.8
量子位
2022/03/08
5590
推荐阅读
NTIRE2021 图像去模糊竞赛各大方案简介
1.7K0
网易互娱AI Lab视频动捕技术iCap被CVPR 2022接收!
1.4K0
一文解读CVPR等9个顶会挑战赛冠军团队方案,助你参悟AI算法设计之道
1.3K0
NTIRE2022视频增强冠军方案是怎样炼成的?
1K0
NTIRE2021 压缩视频增强竞赛各大方案简介
1.4K0
NTIRE2021图像去模糊竞赛冠军方案: EDPN
7990
【竞赛小汇】NTIRE2021 视频超分竞赛
1.2K0
NTIRE2022-ESR 冠军方案RLFN解析
3.5K0
HDRUNet | 深圳先进院董超团队提出带降噪与反量化功能的单帧HDR重建算法
8530
新视频超分算法来了:CVPR 2021 & NTIRE 2021 冠军
1.5K0
再夺全球顶级竞赛CVPR NTIRE冠军,打造更好用户体验,淘宝拥有哪些内容技术?
2520
NTIRE2022 冠军方案:中科院深圳先进技术研究院多媒体中心提出轻量级单图超分方案-BSRN
1.1K0
全球首个落地的舞蹈动画合成系统,网易互娱AI Lab新技术入选SIGGRAPH 2021
1.4K0
AI 赋能游戏工业化,网易互娱AI Lab动捕去噪新方法入选 SIGGRAPH 2021
8490
​CVPR 2022 | 用魔法打败魔法,网易互娱AI Lab图像鉴伪新方法破解伪造人脸
6410
CVPR 2022:字节跳动多项竞赛夺冠,发力无障碍技术创新
1.6K0
NeurIPS 2022 | 最强斗地主AI!网易互娱AI Lab提出基于完美信息蒸馏的方法
1.3K0
ECCV2022 | 网易互娱AI Lab提出首个基于单幅图片的实时高分辨率人脸重演算法
8430
一举打败16个同类模型,视频超分比赛冠军算法入选CVPR 2022,来自商汤&南洋理工大学
6340
一举打败16个同类模型,视频超分比赛冠军算法入选CVPR 2022,来自商汤&南洋理工大学
5590
相关推荐
NTIRE2021 图像去模糊竞赛各大方案简介
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档