00:06
大家好,我是来自腾讯语音视频技术导师陈明良亮,本次分享将为大家介绍我们研究团队在媒体画质增强工作上的一些方法的积累和能力优势。腾讯语音视频的研究团队专注于多媒体技术领域的前沿技术的探索、研发、应用和落地。目前我们在画质增强的工作上积极跟进前沿的深度学习算法,也针对性的提出了一些适合于落地的解决方案。通过数据驱动的自动建模和GEAI的媒体处理,有些方法的效果也超过了当前学术上的state of art。领先于竞品腾讯云音视频的腾讯名谋极速高清产品,致力于更低码率提供更高清的流媒体服务,给用户带来全新的高清视野。采用了智能动态编码技术,通过智能场景识别、动态编码匹配、画质修复增强相结合来不断提升我们的服务质量。今天我主要分享和AI相关的一些画质增强的工作。目前来说,我们的画质增强研究工作主要是应用到编码优化前的前置处理的这个阶段,提供一些画质修复和增强的能力,通过传统算法和深度学习模型来有效消除片源中的噪点和压缩效应,增强细节,去除模糊,提升色彩质量,并解决由于分辨率和帧率低而卡顿不清晰。
01:37
等问题。接下来主要讲到我们在深度学习方面的研究和应用。这里所展示的是腾讯云音视频当前的模型方法能提供的画质增强的能力。左边是受损图,右边是我们的模型提升后的效果,有拍摄过程引入和压缩导致的噪声点和尾影的去除,增强由于模糊和下采样所丢失的细节,还有去除压缩中的块状效应以及提升由于亮度、对比度和饱和度不足所导致的暗淡色彩等等。我们提供的服务都能够帮助进行修复和增强。通常来说,采用深度学习算法来进行画质增强需要成对的训练数据,记一张低字的视频帧和一张高清的质量视频帧。设计的神经网络模型通过对低子视频帧进行处理,能够生成一张新的高清的视频帧,但是这需要我们设计损失函数来提供监督信号约束。
02:37
度,整个网络的训练使得最后生成的视频帧和高清的质量的视频帧能够尽可能的接近,或者以某种方式判断为一致。这里涉及到两个很难的问题,第一,要如何获取对低值和高清的视频帧?这种数据成对的方式理论上呢,有无数种可能,而且需要考虑的是如何来获取这种高清的视频帧。第二呢,如何设计出一个模型,它能够有效来处理所有的退化的能力,需要增加多少的约束下来使得训练的模型它能够朝着我们预想的目标来前进。后面我们也会针对这两个问题来展开讨论。我们研究团队目前的一些解决的思路,用一个大模型来同时处理所有的情况是很难保证效果的。因此呢,我们将这个问题按照不同的应用场景划分成了三部分,画质估计和修复、清晰度增强和色彩增强。那每一部分的数。
03:37
那我们也会针对性的进行调整和获取画质估计和修复的工作主要是针对一些本身带有噪声和被压缩的视频帧进行修复和增强,若不经过这部分的处理,直接做比如清晰度啊,纹理增强这样的算法,包括色彩增强的操作,都会有机会放大噪声和尾音。反过来,若不管视频本身的质量,一律统一进行去除噪声和压缩的处理,也会导致细节丢失的问题。这里我们来具体看一下这张人脸图,以压缩恢复为例,它经过不同程度的压缩后呢,就会呈现出不同的画质。
04:16
若采用目前学术上最好的无估计的方法呢?进行一个统一的去压缩的处理,我们会发现这些方法恢复不了压缩很严重的质量很差的图,而对于轻微压缩质量较好的图,那他的脸部和眼睛的周边处理就太过平滑了。因此我们提出了STEM,它是一种有估计的压缩的恢复方法,来针对压缩受损情况来进行估计,提取质量,估计网络中的中间层的特征,加它融合到恢复网络中来进行指引,来提升不同压缩程度的恢复效果。目前我们的方法它超过了state of r的方法,而且释和实际落地的应用。我们来具体看一下这个问题,对于一张无损图X,我们可以通过某种压缩方法,通过压缩系数Q来进行压缩,得到这张压缩图外,那么在恢复过程中,若我们能够指定压缩系数Q,用模型F来。
05:17
来进行恢复的话,是可以得到较好的修复图的,但是实际应用上我们是不知道模型的压缩系数Q的,所以模型通常的恢复效果都不会很理想,导致恢复不好或者过度平滑的问题。针对这个问题呢,最近也有两个方法提出了一些解决思路,A JR name会先用估计网络FQ来进行压缩系数Q的估计,得到估计质量系数QE,然后再结合该系数用统一的一个大模型F来对压缩图进行复原。另一个方法exist or no会将整个复原的操作分成多个阶段来进行,每个阶段得到的复原图都会进行一次质量估计,若质量不满足,则会进入下一个阶段来继续复原。我们提出的方法内是结合了上述两个方法的优势,并很好的进行了融合,用模型F公司来进行画质质量的估计,并进行多个阶段的复原。使得整。
06:17
个网络可以端到端的直接进行训练。在应用上,画质估计系数可以用来决定网络在哪个阶段退出结束。我们的整个网络结构如图所示,C block c压缩质量估计网络。我们通过对视频帧进行不同程度的压缩,可以得到一个质量因子来进行监督。CR block是多阶段的图像复原网络,可以看到它会结合c block的中间层特征来进行动态网络权重的调整。这个网络有两个优势,不同的质量的视频帧可以选择不同的阶段退出,节约计算资源。然后估计网络的特征是融合到恢复网络中的,可以同时保证估计和恢复的效果。一开始,C block和CR block会先经过一个共享的浅层的特征的提取网络来减少双任务网络的整体计算量,然后估计网。
07:17
会进一步的通过卷积和pulling的操作就可以得到可调节的特征向量。一方面这个regulation的vect会在恢复网络中进行调节,另一方面它经过全连接操作之后会得到这个质量估迹的系数。如图所示,恢复阶段的网络是一个密集连接的unit结构,这里以第二阶段退出的网络结构是宜。可以看出灰色部分的计算在到达第二阶段之前已经完成了计算,那在每个阶段图像复原都是学习一个复原的残差。R在第几个阶段退出将会由质量估计的系数来直接决定。如图中的CIC shell的结构。之前得到的regulation vector通过类似channel attention的方式来对每个CI c shell来完成一个动态调节。恢复网络的特征层的权重。整个网络分为两部分的监督,估计网络的部分,希望估计出来的压缩。
08:17
技术质量和真实的压缩系数是相同的,而复原网络的部分期望复原图像和无损图是能够达到一致的。训练时会先单独的预训练估计网络,如图,我们模型估计的质量和真实的质量呈现了一个较好的线性的关系。然后对复原网络的部分进行一个多阶段的训练,每个阶段的权重和其真实退出阶段的压缩系数是相关的,越接近的权重呢就会越大。最后,整个网络有两部分进行联合的训练,但是估计损失的权重会调的比较小。质量差的图片,这经过一个多阶段的复原,质量就能够不断的提升,反之,质量较好的图片帧经过前面两个阶段已经可以得到较好的复原的效果。我们通过实验也证明了我们提出的STEM在单次压缩的效果上是超过了stay of r的方法,而且该方法的优势如果扩展到多次压缩的恢复效果上,提升将会更加的明显。这说明我们有效的对整个压缩的图片进行了质量的评估和恢复。如上面所展示的整个效果的示例,对于第一张质量较低的图片,它是需要完成五个阶段的恢复的,呃,对于第二张质量较高的图片呢,它在早期阶段呢就能恢复好,提前退出就可以减少计算量。我们再看另外一组的效果视例,我们在第一张经过多次压缩的图片上恢复效果。
09:49
是比QGCN稳定的,而在第二张只是轻微压缩的图片上,我们保持的细节会更好。这是我们进行画质估计和恢复后的一段视频的效果,可以看到呢,通过结合质量估计呢,能更好的对有损的视频进行修复的增强。
10:07
接下来我们会讨论如何去针对质量相对较好的一个原来进行清晰度的增强。在这个任务里,虽然会重点虑如何增强细节和纹理,达到去模糊和更加清晰的目的,但是我们一定要同时兼顾到,即使是较好的视频源,它也可能会有轻微的噪声,这些噪声我们若完全不理会它呢,还是会和之前一样被一起增强。所以需要我们找到一种更合适的数据的处理的方式,它能够同时兼顾到各种数据的分布。因此我们产生的退化数据应该通过随机引入噪声、压缩毛刺、视觉模糊和上下采样不清晰的操作来提高整个模型的泛化能力。另外,由于人脸对人脸还有字体的区域变化了敏感性,我们可以针对性的融合一些高级语域的信息来对这些融合进行优化。在超分的工作里,BSR杠有提出利用随机退化数据的生成方式来。
11:08
生成训练数据来提高超分在真实场景里的效果。所以在我们的工作里面也会借鉴这样一种思路来根据实际数据的一个分布情况来生成相似的退化数据,通过这种相对合理的随机的退化数据的方式来提高整个模型的综合增强能力。整个清晰度的增强模型我们选择了常用的深层式的网络结构,如图所示,通过多个增强的模块和残差连接来提高输入帧的整个清晰度。其中的一个增强的模块我们又引入了do attention的结构。在最新的去噪和超分模型里,这种双注意力的机制呢都被充分证明了其有效性。通过训练可以使得先将沉重中到那些需要重点关注的像素点上。另外,考虑到大分辨率的视频上运行速度要尽可能的快,整体的模型可以用结构来替换,来增加搜索空间和提高运行速度。在网络监督的设计上。
12:08
是考虑了像素及损失、梯度损失和感知损失以及相对干的损失。我们期望通过结合多种损失函数来平衡清晰度增强的效果。通常来说,像素级别的损失侧重于造成意志的,而增强的细节会相对的模糊。边缘和感知损则侧重于保持边缘和加强细节有趣模糊的能力,也有几率放大噪声和为翼I干的损失侧重于让最终生成的图片更真实,尤其使用pat gun更能捕捉到深层细节的真实性。另外,对于画面中人眼比较敏感的人脸和字体的区域,也可以针对性的进行一些优化。目前我们也在研究和探索通过高级的语音信息来保护和增强特定的细节。比如王心头等,在他们的超分任务中,提出了采用与域分割的鲜艳知识来提高深层纹理的真实性,如右边水的纹理变得更加的清。
13:08
其还有一些专门针对人脸恢复的任务,D fd net先通过聚类来获得各种人脸五官的页特征,在融入增强的网络里去提高人脸的细节。如中间的这组人脸先通过我们的网络进行增强后,还是比较模糊的,但是通过增加人脸五官的特征后,它变得更加的清晰了。还有一些文字检测和分割的算法,也是很强的鲜艳知识,这些高层语义理解的信息融入图像增强的任务后,通常都能获得比较好的提升。这里我们来展示一些通过我们的模型增强后的视频帧的效果,很明显,能够看出模糊的区域变得清晰了。我们的模型不仅能抑制住噪声的毛刺,还能增强细节和纹理,尤其人脸和字体的部分。然后我们接着讨论如何对一些色彩暗淡的视频来进行增强,我们提出的方法主要是通过亮度、对比度和饱和度三个维度来分别进行色彩增强。如果按照之前的增。
14:08
思路我们是可以选择端到端的成对的训练数据方式,比如经典的方法有HDR内,它通过学习色彩线性变化的系数来进行一个色彩增强。为了加快整个网络的推理的速度,它会先在小分辨率的图片上同时提取全局和局部的色彩特征,特征融合后会推理出变化系数。该变化系数它会通过原尺寸上的guidance map,采用by liter grade sliing的方式来得到原图每个像素的变化系数。这种方式在能够做到局部调色的同时呢,速度也会很快。但总体来说,变换系数它是黑盒操作,解释性比较差,会出现帧内核针尖跳变的不稳定的问题。色彩增强技术的另一种思路是通过白盒方法来生成作用于图像全局调整的参数,它的解释性会更强,而且是符合人为的操作的,它更稳定可控,适合处理视频帧以及进。
15:08
品应用的落地白合方法目前有两个比较好的思路,Distor and recover和exposure distor and recover的方法将会对图片调整色彩的过程分解为包括亮度、对比度、饱和度调整的动作序列,最终的目的是生成一组对色彩增强的操作序列,使得调整后的图像色彩和专家调试后的色彩是接近了。而Expo方法它不仅去预测操作的序列,还预测操作时候系数的大小。两种方法都会采用强化学习来进行训练,非常的难收敛,而且实际使用时模型stop的位置是不稳定的,视频的色彩会跳变。腾讯云音视频色彩增强的模型是要直接用参数回归来简化强化学习的思路,使得训练更容易收敛,而且这样的成对数据也会更加容易的获取,如图所示,只需要对高质量的色彩图分别进行亮度、对比度和饱和度的随。
16:08
及退化。在训练时,色彩退化图可以下彩到小尺寸来提升整个运算的速度。我们通过结合全局色彩特征和语义特征固定操作的顺序做全连接回归来依次预测图像操作时候的亮度、对比度、饱和度的增强参数,这样整体效果会更加的稳定和可控。为了测试回归模型预测的有效性,我们对新EP的高质色彩图进行了随机的退化操作,然后用我们的网络来进行一个预测,最后预测出来的参数和随机退化操作的帧值进行了一个比对。如展示的散点图所示,我们预测出来的参数在不同增值上的分布都是围绕在增值附近的,均值离整个增值很近,且方差在可接受的范围内。如展示的效果图左边这组输入低光照的图片,我们预测进行亮度增强,右边这组输入的高饱和度的图片。
17:08
我们预测出要进行饱和度的锐化,这两组预测参数的系数的方差大概在0.2左右,但是调整出来的整体的色彩的效果都是更合理的。由于我们整个网络的训练参考了大量的专家的色彩,所以稳定性也会比较的高。在视频的应用上,为了保证稳定运行,不发生色彩的跳变,需要先做场景的缺分,使得每个场景能够采用同一组的预色参数,缺分时采用全局色彩特征来保持一致性。另外我们也会对历史的视频段进行一个直方图的建模,遇到相似场景就会采用同样的增强的参数来进一步提高稳定性。而且根据不同的应用场景,预测参数的上下线阈值可以针对性的进行调整,比如大幅调整还是轻微调整更适合?总体来说,整个模型在视频上推理速度很快,CPU上也能达到实时的应用。下面的图片是我们色彩增强。
18:08
前后的效果对比可以看出,颜色的感官上更好了。随着大尺寸4K及以上屏幕的普及,常见的720P、1080P和25、30FPS帧率的视频已经不能满足人的主观体验。这就是我接下来要分享的超分和插帧的工作。由于超分的整体思路和前面画质增强的比较相似,这里主要对插帧展开来讲,插帧就是通过对原始视频帧尖补充新的视频帧,给用户提供更加流畅丝滑的视觉效果。目前这个问题有两个主要的行业痛点,稳定性差,会出现闪烁和卡顿,模型较慢,暂时很难落地到直播的场景。从技术来说,需要克服的技术难点包括由于运动产生的形变、运动估计的不准确、非匀速直线的复杂运动以及遮挡问题。针对这些问题。腾讯云音视频提。
19:08
出了两个插针的方案,第一个方案OL Fi的效果它是远高于业界竞品的,所以适合点播的场景使用,第二个方案r t Fi能较好的在速度和效果上达到平衡,适用于直播的场景。如展示了这张客观的指标图,直观的对比了我们和state of r的算法在速度和效果上综合的优势,如另外一边的效果演示,可以看出我们的插帧效果更加的精准和流畅了。Ofi网络,它是一个多尺度的loft加三个unit精准的插帧网络。如图所示的结构。我们首先采用多尺度多次迭代的RO光流估计网络,提取初始的光流,充分利用运动的鲜验信息,接着通过一个unit光流修正网络来更新初始的光流,通过扩大感受也来提升运动大场景的光流准确率。然后考虑到可能的遮挡问题,双向光流的rap得到中间帧,之后再通过一个unit合成权重网络来生成双向中间帧的权重图。
20:19
最后再次通过UN合成插帧网络,最终生成插帧图。这里我们一共考虑了三种类型的损失函数来进行网络的监督。中间帧optical flow loss通过预计算光流作为伪参考增值估计中间帧到两边的光流,从而提高网络训练的稳定性,而raping loss将前后两帧分别通过光流估计来rap到对方帧来确保前后推理的一致性,从而呢能够提升光流估计对真实场景的准确性以及双向估计减少遮挡问题的影响。最终通过中间帧生成的reconstruction loss来监督插帧图像的还原准确度。那t Fi网络是一个通过改进RI fe网络做快速插帧适合于直播场景的结构。首先,我们直接采用快速的多尺度光流估计网络IFNE来取代迭代式网络。自适应不同幅度的运动估。
21:19
然后双向分别通过光流rap出中间帧,接着通过简单快速的f net生成双向中间帧的融合权重和残插,最后再将所有信息融合,通过一个U来合成最终的插帧图。这是我们的两个插帧网络和竞品的对比尺寸的视频如UCF101多为三百二乘二百四的视频指标略低最好的方法,但是随着视频尺寸的增大,在HD data set上面1080P的视频上,我们的模型方案能更好适应不同运动,复杂度和视频尺寸明显超越了state of,普适性更好。这里展示一段我们的插帧效果和别人的方法的对比,可以看到我们的方法在球网的生成上更加的稳定,这是因为我们的模型够较好的估计相似纹理的运动以及处理遮挡问题,所以能大大提升插针的准确度。另外,我们也在探索结合。
22:19
空间域和时间域两个维度来同时做超分和插帧,通过互相融合两个网络的深度特征来进一步提高时空域的超分效果。这些图展示了超分和插帧的相关任务,图A是单独的超分视力,图B是单独的插帧视力,图C是先做了插帧再分别做超分,图D是先做了超分再进行插帧,图E是循环迭代来做视频和插帧的star,最后的图F是我们和清华合作提出的MBNE同时做视频超分和插帧,并共享信息。整个网络可以分成五个部分,一开始,Net SR对输入帧进行超分,得到高分辨率的图,接着net flow会估计低分辨率下的运动光流,然后ne ref会融合输入帧的高分辨率特征,优化低分辨率上的光流,生成高分辨率上的光流图。第四步,Net Fi会同时融合低分辨率和高分辨率图特征,通过高分辨率光流生成高分辨率的插针图。
23:25
最后呢,再通过一次net SRM融合生成的插帧图来优化最终的输出的高分辨率图,完成整个时空域的超分的计算,这是时空域同时做四倍超分和两倍插帧的一个效果对比。我们的MBNE在不同的数据集上都超过了style of r的方法,单独来看超分和插件的数据,在整个数据量不大的情况下,PS ni也领先于其他的方法,这是我们方法的一些效果的对比图。腾讯云音视频时空域的超分模型在细节和边缘的清晰度上表现的更好,尤其是在一些字体的边缘上。总体来看,经过我们的模型提升后,视频播放的更加的清晰和流畅。最后我想与大家分享一下对于媒体画质增强的优化方向以及对未来展望。首先,现在的方法基本都是使用深度模型来进行增强,那视频上的处理速度会非常的慢,资源消耗也会相对的高,一方面我们需要优化模型及其推理速度,另一方面现在模型的压缩技术和各平台的计算能力也在不断的增强,这也会促使我们更多的模型可以落地应用。其次,由于不同的任务,成对的训练,数据对的处理是有无限组合的,那如何更好的探索和模拟真实数据的分布,一直也是数据驱动下深度学习模型效果提升的关键,对于非城,对数据模型的训练也是一个值得挖掘的方向。然后建。
24:57
你当前需要针对不同的任务来设计不同的模型来进行修复和增强的情况,在未来的工作上也会进行一个多模型的融合以及单模型多任务的探索来不断提高模型的泛化能力。最后一项更前沿的研究工作将会考虑到人眼视觉的一个主观感受,如引入JND,以及通过语义信息的理解来提升视频处理的效果。这就是我今天要和大家分享的全部内容,感谢聆听。
我来说两句