来源:SPIE 2021 主讲人:Andreas Kah, Christopher Friedrich, Thomas Rusert, Christoph Burgmair, Wolfgang Ruppel, Matthias Narroschke 内容整理:尹文沛 在这篇文章中,遵循在最小化存储成本的约束下最大化主观质量的设计标准,提出了一种基于质量的比特率阶梯设计用于 OTT 视频流服务。
目录
遵循在最小化存储成本的约束下最大化主观质量的设计标准,本文提出了一种基于质量的比特率阶梯设计,用于 OTT 视频流服务。
比特率阶梯由三个参数定义:
这种比特率阶梯设计可以应用于在 per-title 编码策略中出现的完整视频信号或在 per-scene 或 per-shot 的编码策略中出现的视频信号。如果应用程序在这个范围内使用少于 21 个质量等级,则会遭遇主观质量的下滑。
随着 OTT 视频流媒体服务的使用不断飙升,自适应比特率(ABR)流媒体的重要性也在不断增长。在 ABR 流中,数字视频信号以各种比特率进行编码
,每种比特率也关联着不同的质量
,并使用内容分发网络 (CDN) 通过互联网提供给多个最终用户设备。一个特定比特率和相关质量的编码数字视频信号被记为一种表示(rendition)
,所有 𝐾 种表示
,......,
的集合作为比特率阶梯。
数字视频信号的典型操作质量比特率曲线如图 1 所示。数字视频信号的第一个主要特性是质量 𝑄 随比特率 𝑅 增加。第二个主要特性是,在相同质量下,高复杂内容的比特率 𝑅 高于低复杂内容的比特率 𝑄。
图1 低复杂内容和高复杂内容的编码视频信号的示例操作质量比特率曲线
在下文中,𝐾 种表示根据其相关的比特率进行排序,使得
。作为第一个主要性质的结果,相关的性质也是有序的,即
。基于比特率阶梯提供的表示,每个最终用户设备都可以通过互联网,以适合用户互联网连接的个人传输速率 𝑇 从 CDN 请求和流式传输内容。有多种播放选择策略,而一种简单的策略是选择播放的播放
,它的最大可能比特率小于 𝑇 ,即:
根据等式(1)的选择策略,客户端避免在内容播放期间重新缓冲,从而实现视频的连续播放。更复杂的策略可能会在两种表示
和
之间交替使用,以更有效地利用传输速率。对于这些策略,质量也在
和
之间交替。在下文中,本文的考虑首先集中于根据等式(1)的简单策略,随后扩展到这些更复杂的策略。
过去,ABR 流媒体提供商通常使用固定比特率阶梯,即在其所有视频内容中使用一组预定义的比特率,而不管比特率导致的视频质量如何。如今,这种方法越来越多地被基于质量的比特率阶梯设计所取代,该设计将单个内容考虑在内。这种与内容相关的比特率阶梯设计通常表示为 per-title、per-scene 或 per-shot 的编码。per-title 是指跨完整序列的比特率阶梯优化,而 per-scene 和 per-shot 的编码是指基于每个序列中的各个场景的更细粒度的比特率阶梯优化。对于这些情况,表示
以及其数量 𝐾 通常单独设置。
由于使用了一组离散比特率
,客户端播放的视频的质量
通常低于客户端传输的质量
。如果在比特率阶梯中可以使用具有
的表示,那么客户端的传输速率 𝑇 就可以做到这一点。在本文中,差异表示为质量损失:
可能会发生,以质量
接收的视频主观上比质量
的视频差,如果它在比特率阶梯中可用,且客户端可以接收。如果比特率
和
以及相关的质量
和
显著不同,就会发生这种情况。根据质量
和
,定义质量损失
的上限为:
在下面的图 2 中,说明了质量损失
和最大质量损失
。
图2 质量损失 𝛥𝑄(𝑇) 的说明,见等式 (2),最大质量损失 𝛥𝑄𝑚𝑎𝑥,见等式 (3)
每个视频服务提供商都应将最大质量损失
保持在尽可能小。由于客户端建立的连接,其传输速率 𝑇 范围可能很大,可能小到从通过蜂窝网络连接,大到通过光纤通道连接,所有这些客户端的小
只能通过提供很多种表示来实现。然而,大量的表示也会导致流媒体提供商更高的编码和存储成本。因此,考虑到最终用户感知的主观质量,需要选择
的上限作为质量损失和这些成本的折衷。
为了自动生成比特率阶梯,最终用户感知的主观质量由 VMAF 估计。因此,为视频信号的每一帧计算范围从 0 到 100 的分数,其中 0 对应于低主观质量,100 对应于高主观质量。在下文中,给定视频信号的所有帧的 VMAF 分数的平均值定义为该视频信号的 VMAF 分数,即 𝑄 = 𝑉𝑀𝐴𝐹。有了这个定义,等式(2)的质量损失变成:
一个比特率阶梯,质量损失范围
到
,传输速率范围 𝑇,其中
如图 3 所示。该限制是通过限制每种表示
和
之间的最大质量损失来实现的,其中
。
是所提出设计的第一个参数。理想情况下,它应该设置得足够小,以便相邻表示 𝑘 和 𝑘 + 1 的视频信号的主观质量相同。这样,可以避免由于未充分利用可用传输速率 𝑇 而导致的任何潜在质量损失。此外,相邻表示之间的切换在主观上仍然不明显,从而使视频播放的时间一致性最大化。
图3 比特率
和相关的 VMAF 分数
根据等式 (4) 将质量损失限制为
所设计的第二个参数是比特率阶梯提供的最高质量
。理想情况下,应将其设置为可能的最低 VMAF 分数,从而使视频信号与原始视频信号在主观上无法区分。这最大限度地降低了存储成本,同时仍确保最佳的主观质量。
第三个参数是比特率阶梯提供的最低质量
。理想情况下,应将其设置为用户可以接受视频的最低 VMAF 分数。这种策略通过避免由于不可接受的主观质量而未被用户观看的表示来最小化编码和存储成本。
如本节所述,主观测试的设计和实施是为了确定主观质量、用户接受度和 VMAF 指标之间的基本关系,根据这些关系可以正确设置比特率阶梯参数。
首先,使用一组八个视频信号用于进行主观测试。这个组合考虑到内容的复杂程度不同,包括了各种不同类型。六个视频信号源自 ISO 和 ITU 标准化中使用的一组视频信号,其中两个是专有视频信号。使用了
(HDTV) 和
(4K) 亮度样本的空间分辨率和 4:2:0 色度子采样。每个视频信号的持续时间为 10 秒。表 1 给出了该集合的概述以及相应的属性。
表1 用于主观测试的选定视频信号及其特性
为了确定第 2 节中介绍的比特率阶梯设计的参数
,对视频信号集进行编码,结果 VMAF 得分为 92、93、94、95、96 和 97。根据 JVET-H10026 和 ITU-R BT.5007 的双重刺激损伤量表测试方法对 20 名观察者进行的主观测试,确定了视频信号的 MOS 分以及相应的 95% 置信区间。在图 4 中,显示了该测试的基本测试单元。使用从 0(非常令人不安的损伤)到 10(难以察觉的损伤)的 11 级数字标度来评估视频信号。没有一个观察者因为应用 ITUR BT.5007 中描述的筛选方法而被作为异常值,并且对于这些观察者中的任何一个,在应用 Ishihara 颜色测试时都没有检测到色盲。
图4 基于 JVET-H1002 中定义的双刺激损伤量表测试方法的基本测试单元的结构。
对于编码,使用了版本 16.22 中的 HEVC 参考编码器。应用了 ISO 和 ITU5 国际标准化组织定义的 RA 配置,因为它代表了 OTT 视频流服务的典型配置。为了精确地获得视频信号所需的 VMAF 分数,量化参数 QP 及其每次编码的一次增加如 JVET-H10026 中所述设置。对于 HDTV 信号,适用于 4K 信号的 HDTV-VMAF-model,应用 4K-VMAF-model。
观看环境根据 ITU-R BT.500 和 JVET-H1002 设置。使用 55 英寸的松下 4K OLED 电视 TX55HZW2004 作为显示器。在使用双三次插值显示之前,所有解码的 HDTV 信号都被缩放到 4K 分辨率。房间经过精心保护,免受外部视觉和声音干扰,墙壁采用深灰色,色度为 D65。测试过程中,关闭了普通灯,在显示器后面放置了一盏匀光灯。显示器的背景亮度和峰值亮度的比率被调整为大约 0.15。根据防疫相关规定,一次只有一名测试者参加。根据 JVET-H10026,观察者到显示器的距离调整为显示器活动部分高度的两倍。
图 5 显示了 MOS 分数以及为每个 VMAF 分数和原始视频信号确定的相应 95% 置信区间。由于观察者的数量相对较少,计算出的平均意见分数与真实平均意见分数可能不同。不确定性由定义范围的置信区间表示,真实平均意见得分位于其中的概率为 95%。可以看出,对于所有低于 95 的 VMAF 分数,置信区间与原始视频信号的置信区间不重叠。因此,平均而言,相应视频信号的主观质量的差异是显着的。对于所有大于或等于 95 的 VMAF 分数,置信区间与原始视频信号的置信区间重叠。这表明真实和派生的平均意见分数以及主观质量是否不同或相等是不确定的。然而,MOS 的这种不确定性最大为 0.8,这可以从原始信号的置信区间的上限(9.2)与 VMAF = 95 的置信区间的下限(8.4)之间的差异推导出来。
图5 测量的平均意见得分 MOS 以及 VMAF 得分 92、93、94、95、96 和 97 以及原始视频信号的 95% 置信区间
为了确定第 2 节中介绍的比特率阶梯设计的参数
,对视频信号集进行编码,导致 VMAF 得分几乎涵盖整个范围,即 20、25、30、...、95。对于每个视频 信号和每个 VMAF 分数以及原始视频信号,另外 20 名通过 Ishihara 颜色测试的观察者被要求从以下三个选项中选择一个:
持久观看意味着以相同的视频质量连续播放,临时损坏与视频质量暂时损坏的播放一样,这可能是由于传输速率在短时间内降低而发生的。每个观察者都被要求进行两次选择,第一次是在免费流媒体服务的假设下,第二次是在收取典型订阅费用的付费流媒体服务的假设下。对于每个观察者,所有视频信号都以个性化的随机顺序显示。在图 6 中,说明了用于获取一个选择的基本测试单元。
图6 用于确定参数
的基本测试单元的结构
相同的观看环境和相同的 HEVC 参考编码器用于确定参数
。然而,为了能够生成导致低 VMAF 分数的视频信号,使用 FFmpeg 对一些视频信号应用了编码器端的额外空间子采样和解码器端的双三次插值。
从观察者的选择中,得出每个考虑的 VMAF 分数的接受率 AR。在这里,区分了由持久观看和临时障碍以及免费和付费视频流服务的任意组合产生的四种情况。为此,将值 1 分配给“可接受的主观质量”选项,将值 0 分配给“不可接受的主观质量”选项。随后,接受率被确定为所有测试的平均值。
图 7 显示了所有四种情况的接受率。从图 7 中,可以得出以下结果用于持久观看:
对于暂时性损伤,VMAF 分数大约低 10 – 15,实现了与持久观看相同的接受率。
为了在持久性观看和暂时性损伤两种情况下实现超过 50% 的接受率,免费视频服务的参数
需要设置为:
付费视频服务为 70。这些值等于图 7 右图中的最低 VMAF 分数,置信区间的下限表示接受率大于 50%。
图7 免费和付费视频流服务的 AR 接受率;左:持久观看;右:大约 30 秒的暂时性损伤
为了确定第 2 节中介绍的比特率阶梯设计的参数
,考虑了三个操作点,第一个是低质量的
,第二个是中等质量的
, 高质量的
。这三个操作点是根据等式(6)的
和
给出的范围设置的。
对
的每一个操作点,该组被编码,生成
七个 VMAF 分数
,
,
,
,
,
,
。按照与确定
相同的测试程序,见上文,确定了每个 VMAF 分数的视频信号的平均意见分数以及相应的 95% 置信区间。该测试的基本测试单元也相同,见图 4。另外 20 名观察员被要求进行测试。由于要投票的视频信号量很大,测试的总时长超过了 ITU-R BT.500 中定义的半小时测试的最长持续时间。根据 ITUR BT.500 对此类情况的建议,插入了适当的中断休息。
使用与上述相同的观看环境和 HEVC 参考编码器。对于某些视频信号,应用空间二次采样以达到所需的 VMAF 分数。
图 8 总结了测量结果。从该图中可以得出结论,平均意见得分与 VMAF 的相关性近似线性。这证明在从
到
的整个质量范围内应用相同的
是合理的。
图8 测量的平均意见得分 MOS 以及 95% 置信区间与 VMAF 得分
为了推导出参数
,评估了所有两个不同 VMAF 分数的对。将每对较低的分数表示为
,将较高的分数表示为
,这两个分数的差异可以解释为估计的参数
。从图 8 中可以得出,对
的大多数 VMAF 分数对而言,
和
的置信区间并不重叠。比如说
和
的情况。因此,对于这些对,主观质量的差异平均来说肯定是明显的。对于
的所有对,置信区间重叠。这表明相应的主观质量在不确定性之前平均是相同的。在 MOS 尺度上,该不确定性最大为 1.4,在与
相关的置信区间下限和与
相关的置信区间上限之间测量。
假设主观质量相同,参数
需要设置为:
理想情况下,设置
,即尽可能小。以及
,即尽可能大。这么设置以实现最低的存储成本和最少的所需的表示数:
因此,该比特率阶梯以与 VMAF 分数 95、93、……、57、55 相关联的 21 种质量提供每个视频信号。为了准确达到该比特率阶梯的 VMAF 分数,通常需要大量的编码工作。为了减少编码工作,在生成比特率阶梯时可以接受参数
或
。但是,这会增加表示数,从而增加存储成本。
在当今的应用程序中,通常使用少于 21 个表示以降低编码和存储成本。通常,仅应用 9 - 12 个表示。对于涵盖 55 到 95 范围的 9 种表示,这种比特率阶梯设计需要:
然而,上面的讨论表明,使用
可能会导致质量损失,这是主观可见的。根据图 8 中总结的测量结果,比较 VMAF 分数 75 和 80 的置信区间限值之间的差异,MOS 的差异最大为 1.6。
在本文中,提出了一种基于质量的比特率阶梯设计,用于 OTT 视频流服务。遵循在最小化存储成本的约束下最大化主观质量的设计标准,比特率阶梯由三个参数定义。
所提出的比特率阶梯设计可以应用于以每个标题编码策略出现的完整视频信号或以每个场景或基于镜头的编码策略出现的视频信号的各个场景。如果使用少于 21 个表示从 VMAF = 55 到 VMAF = 95 的范围(如在某些应用中可能所做的那样),则平均而言主观质量的损伤可能变得明显。