2017年9月17日至20日,IEEE国际图像处理会议(ICIP 2017)在北京国家会议中心举办,国内外许多学术界以及工业界的专家学者们都与会进行交流与讨论。9月20日早,旨在使用图像恢复方法来提升编码效率的Grand Challenge环节中,我们作为唯一的参赛者进行了技术分享。主办方希望可以征集一种类似于HEVC标准中后处理的方法来提升编码效率,与传统不同的是,可以使用伴随码流传输的辅助信息在解码器上帮助图像复原,其中辅助信息可以在编码端进行提取与压缩。为了将图像复原技术更好结合到视频压缩之中,这里也推荐采用独立于编解码器的环外滤波结构。
基于上述要求,我们提出一种基于卷积神经网络(CNN)的后处理滤波器,并且采用环外结构将其应用在HEVC编解码器中。我们提出的编码结构如图1:
图1 编码框架
这个结构中,主要包含三个模块:镜头检测,视频分类,以及后处理滤波。在这个编码框架中,主要思想是将视频根据复杂度以及压缩质量进行分类,然后对每一类别分别进行滤波,而该分类信息也将作为一个辅助信息在码流中进行传输。
镜头检测:
镜头检测的任务是将输入的视频序列划分为多个连续的镜头,而这里镜头是指在一段不间断的时间中,由单个相机采集的子序列。而在一个镜头中,每一帧内容较为相近,以镜头为基本单位进行复杂度分类的方法也较为合理。所以在该结构中,视频首先输入镜头检测模块,从而划分为很多子序列,也是一个自适应划分GOP 的过程。
视频分类:
接下来,每个子序列一方面进入到编码器进行压缩,另一路进入到与编码器并行的分类模块。我们在复杂度和压缩质量两个方面进行分类。这里复杂度分为空间复杂度(SI)以及时间复杂度(TI)。其计算方法如下:
先对测试序列进行分析,得到若干组(SI,TI),并且使用K-means的算法将其分成三类,分部代表高,中,低三种复杂度,每一复杂度取中值作为分类指标。当然,因为这里任务是图像复原,实际上主要使用空间复杂度。而在压缩质量这一块,采用量化参数(QP)执行更进一步的分类。根据观察,在一般情况下,QP主要分配在20到40之间。所以选择6个常用的QP:10,24,28,32,36,40 和3个辅助的QP:15,44,48。一个子序列输入该分类模块后,对于整体计算复杂度,并且找到其复杂度类别。然后根据每一帧分配的QP,选择最近的QP类作为其质量类别。因此对每一帧都有一个长度不超过1字节的分类信息,在码流中传输。
CNN滤波器:
在后处理模块中,我们采用了基于CNN的滤波器。近几年很多工作已经证明,神经网络在一些低层次的计算机视觉任务中取得了较为出色的效果。为了验证我们编码结构的有效性,采用了超分辨率任务中一个很强大的网络VDSR[1],如图2。
图2 VDSR网络结构图
但因为图像复原工作中分辨率是不改变的,所以不进行滤波之前的插值,直接输入神经网络。该模型是20层的全卷积神经网络,主要采用残差学习和修正线性单元(ReLU)两项基本技术。这个后处理模块位于解码器之后,所以解码器提取出边界信息后,传给该模块,依此选取相应类别的CNN模型进行处理。而对于每一个类别,均有一个线下训练好的CNN模型。
实验:
训练方法:
该编码框架支持神经网络的线下训练,针对每一个预先分好的类别,对训练数据进行训练,具体的训练细节在表1中呈现。
对训练集进行分类之后,使用x265以表1中的模式进行压缩,固定QP值。再将其分割成许多尺寸为35×35的子块,用来扩展训练数据。最后使用CAFFE进行训练,具体的参数配置可见论文[2]。
表1 离线训练细节
测试结果:
针对Grand Challenge提供的八个视频序列:三个分辨率为,四个分辨率为,以及一个分辨率为的视频。对其进行主观与客观方面的性能分析,在这里,需要强调一点,在参考论文中,测试结果以及测试细节与本文中所呈现的有所区别。在之前的训练过程中,我们仅仅使用视频序列作为训练集,之后加入了自然图片,极大增加了训练数据的有效性。同时在训练数据的预处理过程中,原先采用 –keyint 256的模式在x265上进行压缩,之后改为 –keyint 1 ,使得训练数据更加收敛于设定的QP点 。表2为八个视频亮度分量上的测试结果:
表2 亮度分量的BD-rate
总体来说,对于这八组视频,在亮度分量上平均实现了2.92%的增益,在Flower_cif这一序列上实现最大增益,BD-rate降低4.91%。同时在视觉性能上也具有明显的改善,如下图3是Flower_cif这一序列的第44帧,采用600kb/s比特率进行压缩:
图3 视觉性能(细节增强)
其中包含数字的部分被放大并且置于右下角,可以看出在图像的边界以及一些细节上,经过后处理显得更加清晰。
图4是red_kayak序列中的第9帧,在比特率1600kb/s的情况下压缩:
图4 视觉性能(效应缓解)
可以看出(a)图中含有块效应,而经过后处理模块,这里的块效应被有效缓解了。
结论:
本文中所介绍的环外后处理方法在一定程度上提升了编码性能,最高实现4.91% BD-rate增益。并且也显著提升了视觉质量,另一些细节更加清晰,失真得到了缓解。不过对于一些镜头缩放以及平移的场景,性能提升还不太明显。
人工智能的热度与日俱增,深度学习也应用在各个行业学科。而近几年,深度学习也逐渐与视频编码结合起来,并且得到了较为出色的效果。而我们后面也将推出系列文章来介绍基于学习的视频编码技术,包括变分辨率,变滤波器参数等其他这种框架下的处理办法,敬请持续关注。
参考自:
[1] Kim J, Lee J K, Lee K M. Accurate Image Super-Resolution Using Very Deep Convolutional Networks[J]. 2015:1646-1654.
[2] C. Li, Li Song, R. Xie, W. Zhang, “CNN Based Post-Processing to Improve HEVC,” IEEE International Conference on Image Processing(ICIP), Beijing, China, Sep.17-20, 2017. (论文下载地址:http://medialab.sjtu.edu.cn/publications/publications.html)
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有