来源:PCS 2021 Bristol 主讲人:Thierry Dumas 内容整理:赵研 本文来自 PCS 2021 SS1 的第五场演讲,主要介绍了如何在 VVC 中使用 NN-based 的方法进行帧内预测和变换核选择。
目录
在具有多种变换核的混合视频编码框架中,变换核在码流中的表示方法有两种:显式表示(explicit signaling)和隐式表示(implicit signaling)。显式表示是将残差块采用的变换核索引显式在码流中传输,而隐式表示则是根据一些规范法则推导得到对应的变换核索引,而不需要将其写在码流中。随着编码标准的演进,隐式表示得到了越来越多的应用。
HEVC 中采用隐式表示的场景较少(e.g.对帧内预测的 4×4 亮度残差块隐式地采用 DST7-DST7 变换),而在 VVC 中,隐式表示被更多场合所使用,例如低频不可分离变换 LFNST 变换集索引(其解码端流程如下图所示)、ISP 亮度块的 MTS 索引等。
图1:隐式表示举例 —— LFNST 变换集索引在解码端是如何获得的
如果编码器中加入了新的帧内预测模式,那么变换核的隐式表示就需要添加新的映射关系(mapping)。以 VVC 中的 MIP (Matrix-based Intra Prediction) 模式为例,在原有的 VVC codec 中引入 MIP 模式后,需要设置两对映射关系表: 1)普通帧内角度预测模式索引映射;2)MIP 模式索引映射。
然而,对于 NN-based 的帧内预测模式而言,构建一个固定的映射关系是几乎不可能的。这主要是两方面原因造成的:
针对上述问题,Dumas 的建议是用网络学习一种映射关系:根据帧内预测网络的中间特征来推测当前块要选用的变换核。
图2:使用神经网络进行帧内预测和变换核选择
如上图所示,当前块
的尺寸为
,其参考的相邻重建块(左侧
范围,上边
范围)统称为
,对
进行预处理后输入到神经网络
中,经过多层非线性变换后块
的预测信息,经后处理后即为输出块
的预测值(
);另一方面,该网络引入了另一个分支对当前块
的变换核进行预测:将其视作一个多分类任务,以网络
的中间特征为输入值,输出向量(
)为采用各个变换核的概率,选取概率最大的那个(
)作为预测值。
使用 NN-based 的方法进行 LFNST 变换核选择需要两步:
。具体的映射关系如下表所示。
表1:unified indexing for LFNST index selection
”):在 LFNST 中定义了 4 个参数集(如上表所示),每个参数集有两个不可分离变换矩阵,因此每个 CU 还要使用
来标识使用了哪个变换矩阵。而对于不同的变换矩阵,可以采用不同的隐式表示。具体来说,如果将步骤 1 中的映射网络记为
,那么需要为
和
分别采用两个
网络,得到的输出向量分别称为
和
,通过
函数分别得到
和
,然后根据
的值,来判断选用哪一个
作为最终的索引值。该步骤流程如下图所示。
图3:
的计算过程
如前文所述,为了给不同的
采用不同的隐式表示,需要得到对应的
数据,即 VVC codec 编码得到的真实
。
网络训练的损失函数如下图所示,其中
w,h
是图 2 中描述的网络,它以经过前处理的相邻重建块
为输入,可以得到当前块的帧内预测值(
)和变换核索引预测信息(
),
代表
时,VVC对
中
区域编码的
,而
代表
时,VVC对当前块
进行编码得到的
。
图4:网络损失函数
共有两种可行的码流表达方式:
,可以直接确定对应的隐式 LFNST 信息。
,根据它可以预测得到
,其映射关系如下图所示。
图5:
和
之间的映射关系:解码端解析流程
;
块的相邻重建内容(
)要先在水平方向进行降采样(
)变为
的块后再进行预处理并输入网络,然后对经过后处理的输出值在水平方向水平插值(
),变回原来的尺寸。
的块,其相邻重建块(
)需要在预处理前进行转置,并对后处理后的输出结果也进行转置。
;
, ADAM optim,
;
baseline 有两种模式:"default"和"fully explicit LFNST",分别对标"inference"模式和"prediction"模式:
,则选用对应 LFNST 变换集中的两个变换矩阵之一,不需要进行转置(
恒为0);
进行预测;
表2:在 VTM-8.0 中添加一个额外的 NN-based mode,带来的平均 BD-rate 增益(以百分比"%"计)
从上图中表格可以看出,相比于"fully explicit LFNST"模式,"prediction"模式可以带来 0.25% 的性能增益,这是由 NN-based LFNST 变换核选择方式带来的。"inference"相比于"default"也有将近 0.6% 的增益。
本文方法与[1]中方法的性能比较如下表所示,可以看到 BD-rate 方面本文的性能要好很多(增益要多 3.5% 左右),与此同时编解码时间也相比SOTA大幅增加。
表3:与 SOTA 对比
[1] Blanch M G, Blasi S, Smeaton A, et al. Chroma intra prediction with attention-based CNN architectures[C]//2020 IEEE International Conference on Image Processing (ICIP). IEEE, 2020: 783-787.
附上演讲视频: