前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Google Super Res Zoom算法解读

Google Super Res Zoom算法解读

作者头像
云深无际
发布于 2020-08-11 13:31:48
发布于 2020-08-11 13:31:48
2.6K0
举报
文章被收录于专栏:云深之无迹云深之无迹

我也愿学习蝴蝶,一再的蜕变,一再的祝愿,既不思虑,也不彷徨;既不回顾,也不忧伤。 ——境明,千里皆明

这是google发表在SIGGRAPH2019上面的一篇超分辨的文章,也就是在自家手机Pixel3中使用的Super Res Zoom技术。在Google AI Blog中已经对该技术做了初步的介绍,而这篇文章则更加详细的介绍了技术实现细节。

文章提到所有应用到手机相机中的超分算法,都必须满足以下四个条件:

在单次快门按下后可以手持工作(不借助三脚架等稳定设备)

低延迟,能够实现实时交互。即要求算法处理速度极快

对局部运动和场景变化有鲁棒性。对于快速的物体运动和场景变化,即使算法不能提升分辨率,也不能带来artifacts

对输入数据的噪声有鲁棒性。特别是在低光场景中,算法不能够增强噪声,而要减弱噪声。

针对于手持拍照设备上局限性,该算法抛弃了传统ISP流程中的去马赛克步骤,而是使用多张CFA RAW图直接合成RGB图。其利用手持拍照设备(如手机)在拍照过程中的抖动,获取多帧有小位移的RAW图。然后对多帧RAW图进行配准和融合可以得到单张每个像素位置都有RGB三通道值的图像。该算法对噪声和场景运动等都有很好的鲁棒性。通过优化和并行加速,该算法可以在手机上实现对12M大小的图像仅用100ms的处理时间,还是非常不错的。

文章的主要工作有:

使用多帧图像超分辨算法代替去马赛克算法

引入自适应核插值和融合算法。其自适应于图像的局部结构,对稀疏采样的数据进行拟合。

提出了运动鲁棒模型,对局部运动、遮挡、配准失败区域有较好的的鲁棒性

分析了手部震颤规律,并说明了其做为亚像素偏移获取来源的有效性

Overview

整个算法流程如上图所示,其主要包括:多帧RAW图像的获取、图像配准、图像融合三个步骤。首先,获取多帧RAW图像(CFA Bayer),然后选择其中一阵作为基帧(base frame),剩下的图像都对该帧进行局部对齐。通过核回归估计每一帧对结果的局部贡献(contribution),然后分颜色通道将这些贡献叠加起来。为了是算法更有鲁棒性,借助于图像局部特征对核形状进行调整,并利用鲁棒性模型对采样的贡献值进行加权。最后,对每个颜色通道进行归一化得到最后的RGB图像。

为了减少图像获取过程中的延迟,使用手机中的Zero-Shutter Lag模式进行拍摄,连续获取多帧图像。图像配准使用了HDR+中的配准策略,并对其进行了优化。该配准方法使用coarse-to-fine的金字塔结构,利用局部窗口搜索和块匹配的方式进行局部配准。为了进一步提高配准精度,使用Lucas-Kanade光流法做三次迭代,对块匹配得到的配准结果做进一步优化,在达到必要的精度同时保持较低的计算开销。融合过程是本文的核心部分,将在后面做详细介绍。

Hand-held Super-resolution

文章提到多帧超分需要有两个条件被满足:

输入帧需要包含图像混叠(image aliased),即其包含采样后显示为虚假低频的高频信息(如莫尔条纹)

输入的多帧混叠图像是在不同的亚像素位置被采样的,这将表现为输入帧中虚假低频的不同相位。

获取了多帧有位移和混叠的低分辨率图像就可以同时去除低频中的混叠效应并重建高频信息。

第一个条件意味着图像传感器上的像素间距离要大于镜头的光斑大小。这个条件被默认满足。

第二个条件将使用手持设备拍照时手的颤振抖动来实现。在以前的研究中已知,手的震颤是高度周期性的,频率大约在8-12Hz,且运动幅度很小但是随机的。而为了证明该方案有效性,作者用10个用户采集了86个图像序列,并用陀螺仪记录旋转运动信息。相关信息统计如下图。通过分析可以得到,手的运动在各个角度方向是均匀随机的,且在获取图像序列的过程中会缓慢地旋转拍照设备。

即使在实际拍摄中,由于拍摄时间比较短,手的运动可能近似呈一条直线或平滑的曲线,文章也通过理论和实验证明了,偏移的亚像素值可以有足够的覆盖率来用于超分辨。从下图可以看出,即使在配准过程中的偏移量是偏向于整像素的,但是也对所有亚像素范围进行了覆盖。

Method

给定多帧有随机像素偏移的输入图像,文章使用核回归的方法进行拟合,重建连续信号。重建的连续性信号可以以任何等于或高于输入帧的分辨率进行重采样。文章使用了各向异性高斯径向基函数核(Radial Basis Function, RBF),其可以用于局部自适应细节增强或时空去噪。最后,使用提出的鲁棒性模型可以使得算法能在复杂运动场景中发挥作用,并在配准失败的区域退化为单帧图像上采样。

核的重建

对于每一个颜色通道,可以计算每帧像素的贡献,其可以通过下式计算:

局部各向异性核

使用各向异性核的一个重要原因是其可以增加算法对小的未配准区域以及边缘附近区域的鲁棒性。包含边缘的区域更容易发生误配准。亚像素的误配准以及缺乏足够的采样会造成拉链效应(zipper artifacts)。通过拉伸核的形状,使其沿着边缘方向延伸,可以给不属于边缘的像素赋予更小的权重。如下图所示,对于不同的区域,核的形状也不同。

核的协方差计算

运动鲁棒性

配准后的图像可能存在误配准、物体运动和遮挡等区域,这些区域可能会造成很强的artifacts。为此,文章引入鲁棒性掩膜(robustness mask)来指示像素值的置信度。其值为1表示该区域完全用于融合,其值为0表示完全排除该区域。

统计鲁棒性模型

文章计算局部标准差σ\sigmaσ以及被配准帧与基帧之间的颜色差异ddd。那些颜色差异小于局部标准差的区域视为没有混叠可以被融合以用于时域降噪。颜色差异与标准差的预定比例接近的区域视为混叠区域可以被融合以用于超分辨。颜色差异大于该比例的很可能是误配准区域或运动物体,应该被舍弃掉。

通过上述分析,我们可以定义一个平滑的比较函数

噪声修正的局部统计和颜色差异
附加的鲁棒性优化

文章发现对于相机运动和正确的配准,配准域(即光流图)通常是比较平滑的。而对于有局部运动区域光流图会出现较大变化。因此可以结合该运动先验来去除artifacts。文章计算偏移向量值的局部跨度的长度来表示局部运动变化,将值比较大的区域视为不正确的运动区域排除掉

Results

合成数据比较
真实数据比较

2. 与视频超分辨技术比较

3. 与HDR+的比较

其他结果分析
配准精度对结果的影响
融合帧数对结果的影响

从上图可以看到,随着融合帧数的增加,PSNR提高,结果有更好的信噪比。但是由于配准结果并不完美,且场景可能随着曝光时间的延长而变化,因此太多帧融合反而会影响图像的质量。

消耗计算资源的表现

Discussion and limitations

1. 器件的光学限制

受限于成像系统的光学限制,该算法可以在2倍放大率以下实现较好的效果,而当放大倍数太大时效果不明显。

2. 噪声水平的限制

上面结果分别是单帧去马赛克去噪、HDR+和本文算法的结果。由于本文局部自适应时空去噪算法的有效性,也使其成为Pixel 3手机上Night Sight功能的一部分。

3. 运动的缺失

当成像设备不是手持而是固定的(如使用三脚架),算法会引入额外的运动。即如果陀螺仪检测到设备是没有运动的,则传感器或者光学稳像系统(OIS)就会以一个受控的路线运动。

4. 极端的局部运动和遮挡

当剧烈的局部运动或者遮挡出现时,算法将只会依赖参考帧生成结果。这可能会造成局部质量的降低。在低光条件下,这些区域将会有更大的噪声,但是通过额外的空间去噪会提升质量。

5. 融合Artifacts

如果误配准区域只有亚像素差异,该算法会不正确地融合这些区域,出现artifacts。另外,多帧图像可能会存在小的高频场景的变化,如水波纹,或者小的树叶运动。这些区域帧与帧之间的相似性,使得算法有时不能区分这些亚像素变化而把它们融合在一起,产生高频artifacts。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-07-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 云深之无迹 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Pixel 3的超分辨变焦技术
原文:http://ai.googleblog.com/2018/10/see-better-and-further-with-super-res.html
LiveVideoStack
2021/09/01
9710
图像视频降噪的现在与未来——从经典方法到深度学习
大家好,我是来自腾讯多媒体实验室的李松南,本次分享将为大家介绍传统降噪和深度学习降噪方法,以及降噪技术未来的发展趋势。腾讯多媒体实验室专注于多媒体技术领域的前沿技术探索、研发、应用和落地,在长期积累中精心打造出三大核心能力,分别是:音视频编解码、网络传输和实时通信;多媒体内容处理、分析、理解和质量评估;沉浸式媒体系统设计和端到端解决方案。本次分享中的内容就属于多媒体内容处理的一部分。
LiveVideoStack
2020/01/02
3.6K1
图像视频降噪的现在与未来——从经典方法到深度学习
多视图点云配准算法综述
摘要:以多视图点云配准为研究对象,对近二十余年的多视图点云配准相关研究工作进行了全面的分类归纳及总结。首先,阐述点云数据及多视图点云配准的概念。根据配准的任务不同,将多视图点云配准分为多视图点云粗配准和多视图点云精配准两大类,并对其各自算法的核心思想及算法改进进行介绍,其中,多视图点云粗配准算法进一步分为基于生成树和基于形状生成两类;多视图点云精配准算法进一步分为基于点云的点空间、基于点云的帧空间变换平均、基于深度学习和基于优化四类。然后,介绍了四种多视图点云配准数据集及主流多视图配准评价指标。最后,对该研究领域研究现状进行总结,指出存在的挑战,并给出了未来研究展望。
一点人工一点智能
2023/02/16
4.5K0
多视图点云配准算法综述
第5章-着色基础-5.4-锯齿和抗锯齿
想象一个大的黑色三角形在白色背景上缓慢移动。当一个屏幕网格单元被三角形覆盖时,代表这个单元的像素值应该在强度上线性(“平滑”两个字打不出来)下降。在各种基本渲染器中通常发生的情况是,网格单元的中心被覆盖的那一刻,像素颜色立即从白色变为黑色。标准GPU渲染也不例外。请参见图5.14的最左侧列。
charlee44
2022/05/07
5.3K0
第5章-着色基础-5.4-锯齿和抗锯齿
【重磅】谷歌发布图像超分辨率 RAISR:时间提高 100 倍,可实时在移动端运行
【新智元导读】谷歌博客今天便忙不迭地更新,介绍他们最新的图像高清生成技术 RAISR。据悉,RAISR 生成图像的质量比当前超分辨率技术更好、时间最高快 100 倍,能够实时在移动设备上运行,还能消除低分辨率图像中的混叠伪影(aliasing artifacts)。 每天,网络被用于分享、存储无数照片,让人们能够探索世界,研究新的话题,甚至能与朋友、家人分享旅程。然而,这些照片中有许多分辨率很低,它们或受拍摄设备分辨率的限制,或被故意降低分辨率以适应手机、平板以及网速的限制。随着家庭以及移动高清播放设备的普
新智元
2018/03/26
1.9K0
【重磅】谷歌发布图像超分辨率 RAISR:时间提高 100 倍,可实时在移动端运行
快乐学AI系列——计算机视觉(2)特征提取和描述
在计算机视觉中,图像特征是指从图像中提取出的一些有意义的信息,如边缘、角点、颜色等。通过对图像特征的提取,可以将图像转换为可处理的数字形式,从而使计算机能够理解和处理图像。
MATRIX.矩阵之芯
2023/03/29
9530
快乐学AI系列——计算机视觉(2)特征提取和描述
NV-LIO:一种基于法向量的激光雷达-惯性系统(LIO)
论文:NV-LIO: LiDAR-Inertial Odometry using Normal Vectors Towards Robust SLAM in Multifloor Environments
一点人工一点智能
2024/05/28
3500
NV-LIO:一种基于法向量的激光雷达-惯性系统(LIO)
Canny-VO: 基于几何3D-2D边缘对准的RGB-D视觉里程计
本文回顾了自由曲线配准的经典问题, 并将其应用于一个有效的称为Canny-VO的RGBD视觉里程计系统, 因为它能有效地跟踪从图像中提取的所有Canny边缘特征. 提出了边缘配准中常用的距离变换的两种替代方法:近似最近邻域和定向最近邻域. 3D/2D边缘对齐在效率和精度方面受益于这些替代公式. 它消除了对数据到模型配准、双线性插值和亚梯度计算等计算要求更高的范例的需求. 为了确保系统在存在异常值和传感器噪声时的鲁棒性, 配准被公式化为最大后验概率问题, 并且所得到的加权最小二乘目标通过迭代重新加权最小二乘方法来解决. 研究了各种稳健的权函数, 并根据残差的统计量进行了最优选择. 最近邻场的自适应采样定义进一步提高了效率. 对公共SLAM基准序列的广泛评估证明了最先进的性能和优于经典欧几里德距离场的优势.
3D视觉工坊
2021/01/04
6280
Canny-VO: 基于几何3D-2D边缘对准的RGB-D视觉里程计
[计算机视觉论文速递] 2018-03-18
通知:这篇推文有10篇论文速递信息,涉及人脸表情识别、人脸替换、3D人脸重建、Re-ID、目标检测和目标跟踪等方向 Note:最近一直有童鞋私聊问我,有没有相关的讨论群,于是今天我新建了CVer微信讨论群。愿意加入群聊的童鞋请下拉至文末,扫码进群,谢谢 往期回顾 [计算机视觉] 入门学习资料 [计算机视觉论文速递] 2018-03-16 [计算机视觉论文速递] 2018-03-14 人脸 [1]《Deep Structure Inference Network for Facial Action Un
Amusi
2018/04/12
1.3K0
[计算机视觉论文速递] 2018-03-18
胜过iPhone XS?Google Pixel的“夜视功能”是怎样炼成的
【导读】随着智能手机的不断发展成熟,为了寻找差异化的厂商不断增加摄像头的数量。然而,摄像头的数量越多,就代表拍照的质量越好吗?
AI科技大本营
2018/12/14
8590
基于深度学习的RGBD深度图补全算法文章鉴赏
【GiantPandaCV导语】本文针对3维视觉中的深度图补全问题,介绍了一下近年基于深度学习的RGB-D深度图补全算法进展。深度图的质量对3维视觉至关重要,深度图的优劣极大地影响了后续的3d识别等工作,但目前较多研究聚焦于自动驾驶领域的Lidar深度图的补全,而对RGB-D相机涉猎较少,故本文介绍几篇基于consumer RGB-D cameras深度图补全的深度学习方法,以此来看看近期该领域的发展现状。
BBuf
2021/07/01
2.3K0
基于深度学习的RGBD深度图补全算法文章鉴赏
关于图像配准(Image Registration)的基础知识汇总1.0
(1)图像配准(Image registration)是将同一场景拍摄的不同图像进行对齐的技术,即找到图像之间的点对点映射关系,或者对某种感兴趣的特征建立关联。
江夏四卯
2023/09/26
17.1K0
Real-ESRGAN超分辨网络
研究背景:虽然盲超分辨率技术已经在恢复具有未知和复杂退化的低分辨率图像方面进行了许多尝试,但它们仍然远远不能解决一般真实世界的退化图像。
JOYCE_Leo16
2024/03/19
5070
Real-ESRGAN超分辨网络
流体运动估计光流算法研究
大家好!我是苏州程序大白,今天讲讲流体运动估计光流算法研究。请大家多多关注支持我。谢谢!!! 简介: 对流体图像序列进行运动分析一直是流体力学、医学和计算机视觉等领域的重要研究课题。 从图像对中提取的密集精确的速度矢量场能够为许多领域提供有价值的信息,基于光流法的流体运动估计技术因其独特的优势成为一个有前途的方向。 光流法可以获得具有较高分辨率的密集速度矢量场,在小尺度精细结构的测量上有所改进,弥补了基于相关分析法的粒子图像测速技术的不足。 此外,光流方法还可以方便的引入各种物理约束,获得较为符合流体运动特性的运动估计结果。 为了全面反映基于光流法的流体运动估计算法的研究进展,本文在广泛调研相关文献的基础上,对国内外具有代表性的论文进行了系统阐述。 首先介绍了光流法的基本原理,然后将现有算法按照要解决的突出问题进行分类:结合流体力学知识的能量最小化函数,提高对光照变化的鲁棒性,大位移估计和消除异常值。 对每类方法,从问题解决过程的角度予以介绍,分析了各类突出问题中现有算法的特点和局限性。 最后,总结分析了流体运动估计技术当前面临的问题和挑战,并对未来基于光流法的运动估计算法的研究方向和研究重点进行了展望。 定义: 流体运动估计技术在日常生活的众多领域发挥着重要作用,对从流体图像序列中提取的速度场进行分析,有助于更深入地了解复杂的流体运动并提取有用的信息。粒子图像测速( particle image velocimetry,PIV)(Adrian,1991)是一种广泛使用的流体运动估计技术。 其基于两个连续粒子图像之间局部空间性,通过搜索图像对的两个查询窗口之间互相关的最大值,获得查询窗口之间的位移矢量。 这种依赖于互相关函数的PIV 技术虽然能够简单有效地从图像序列间获取速度矢量场,但仍存在许多不足。 首先,其假设查询窗口内的位移矢量保持一致,这使得获取的速度场空间分辨率低,无法测量流场中的小尺度精细结构。 其次,PIV 技术主要用于粒子图像,无法可靠获取标量图像的速度矢量场。 最后,PIV技术缺乏物理解释,对图像序列进行运动估计时,平等地对待各种性质的运动物体。研究发现光流法非常适合流体运动估计( Li等,2015)。 与基于互相关的 PIV 技术相比,光流法可以获取更加密集的速度场,而且可以对标量图像进行运动估计而不仅限于粒子图像。 此外,与 PI技术相比,光流法更能适应各种物理约束。 基于光流法的流体运动技术是对 PIV 技术的良好补充。虽然现有的基于光流法的流体运动估计技术已经广泛用于各种流体测速场景,但仍存在计算耗时鲁棒性不足等问题。 本文从光流法的基本原理入手,根据光流法需要解决的几个关键问题对现有的算法进行分类,并对每一类方法从问题解决的角度予以介绍。
苏州程序大白
2021/08/13
1.5K0
流体运动估计光流算法研究
深度学习在医学影像上的应用(二)——图像重建及后处理,标注,回归,配准,图像超分辨率
上一篇给大家介绍了深度学习在医学影像上分类的应用案例,这一篇我将分享深度学习在医学影像上关于图像重建及后处理,图像标注,图像配准,图像超分辨率和回归的应用。
医学处理分析专家
2020/06/29
6.1K0
深度学习在医学影像上的应用(二)——图像重建及后处理,标注,回归,配准,图像超分辨率
最新综述丨视频超分辨率研究方法
本文是第一个也是唯一一个视频超分方向的综述,回顾了基于深度学习的视频超分技术的研究进展,提出了一种基于深度学习的视频超分分类方法,并总结了SOTA方法在一些公共基准数据集上的性能。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
AIWalker
2021/01/18
3.3K0
最新综述丨视频超分辨率研究方法
基于MRI医学图像的脑肿瘤分级
本文对近年来脑磁共振(MR)图像分割和肿瘤分级分类技术进行概述。文章强调了早期发现脑肿瘤及其分级的必要性。在磁共振成像(MRI)中,肿瘤可能看起来很清楚,但医生需要对肿瘤区域进行量化,以便进一步治疗。数字图像处理方法和机器学习有助于医生进一步诊断、治疗、手术前后的决策,从而发挥放射科医生和计算机数据处理之间的协同作用。本文旨在回顾以胶质瘤(包括星形细胞瘤)为靶点的肿瘤患者的脑部MR图像分割和分类的最新进展。阐述了用于肿瘤特征提取和分级的方法,这些方法可以整合到标准临床成像协议中。最后,对该技术的现状、未来发展和趋势进行了评估。本文发表在Biomedical Signal Processing and Control杂志。
用户1279583
2022/02/28
3.1K0
基于MRI医学图像的脑肿瘤分级
图像超分辨率及相关知识 简介
图像分辨率指图像中存储的信息量,是每英寸图像内有多少个像素点,分辨率的单位为PPI(Pixels Per Inch),通常叫做像素每英寸。一般情况下,图像分辨率越高,图像中包含的细节就越多,信息量也越大。图像分辨率分为空间分辨率和时间分辨率。通常,分辨率被表示成每一个方向上的像素数量,例如64*64的二维图像。但分辨率的高低其实并不等同于像素数量的多少,例如一个通过插值放大了5倍的图像并不表示它包含的细节增加了多少。图像超分辨率重建关注的是恢复图像中丢失的细节,即高频信息。 在大量的电子图像应用领域,人们经常期望得到高分辨率(简称HR)图像。但由于设备、传感器等原因,我们得到的图像往往是低分辨率图像(LR)。 增加空间分辨率最直接的解决方法就是通过传感器制造技术减少像素尺寸(例如增加每单元面积的像素数量);另外一个增加空间分辨率的方法是增加芯片的尺寸,从而增加图像的容量。因为很难提高大容量的偶合转换率,所以这种方法一般不认为是有效的,因此,引出了图像超分辨率技术。
Natalia_ljq
2020/06/03
1.5K0
深度学习的图像超分技术综述-输入单张图像(SISR)和输入多张图像的基于参考的图像(RefSR)
SISR方法输入一张低分辨率图像,利用深度神经网络学习LR-HR图像对之间的映射关系,最终将 LR图像重建为一张高分辨率图像。
JOYCE_Leo16
2024/03/19
6820
深度学习的图像超分技术综述-输入单张图像(SISR)和输入多张图像的基于参考的图像(RefSR)
ECCV 2020 | 腾讯 AI Lab 16篇入选论文解读
来自Tencent AI实验室。本文主要介绍 ECCV 2020 中腾讯 AI Lab 16篇入选论文。
深度学习技术前沿公众号博主
2020/08/04
1.2K0
ECCV 2020 | 腾讯 AI Lab 16篇入选论文解读
推荐阅读
相关推荐
Pixel 3的超分辨变焦技术
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档