前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >OTT 服务的质量与 VMAF

OTT 服务的质量与 VMAF

作者头像
用户1324186
发布2021-12-04 09:30:20
发布2021-12-04 09:30:20
1K0
举报
文章被收录于专栏:媒矿工厂媒矿工厂

来源:SPIE 2021 主讲人:Andreas Kah, Christopher Friedrich, Thomas Rusert, Christoph Burgmair, Wolfgang Ruppel, Matthias Narroschke 内容整理:尹文沛 在这篇文章中,遵循在最小化存储成本的约束下最大化主观质量的设计标准,提出了一种基于质量的比特率阶梯设计用于 OTT 视频流服务。

目录

  • 摘要
  • 简介
  • 将基于质量的比特率阶梯设计用于 OTT 视频流服务
  • 基于主观质量、用户接受度和 VMAF 指标之间的基本关系确定比特率阶梯参数
  • 总结

摘要

遵循在最小化存储成本的约束下最大化主观质量的设计标准,本文提出了一种基于质量的比特率阶梯设计,用于 OTT 视频流服务。

比特率阶梯由三个参数定义:

  1. 第一个参数是最低的 VMAF 分数,这个分数是视频信号在主观上与原始视频信号在主观上无法区分的最低 VMAF 分数。遵循国际建议 ITU-R BT.500,使用 4K OLED 电视环境进行了广泛的主观测试,以评估主观质量与 VMAF 分数之间的基本关系。根据测试结果,这个 VMAF 分数被设置为 95
  2. 第二个参数是在观看免费流媒体服务的视频信号时,超过 50% 的用户能够接受的最低 VMAF 分数的平均值,附加测试将此 VMAF 分数设置为 55
  3. 第三个参数是主观质量平均大致相同的情况下,视频的相邻质量表示间 VMAF 分数的最大差异。在第三个测试中,该差异被确定为 2。这导致理想的比特率阶梯提供与 VMAF 分数 95、93、……、57、55 相关联的 21 种质量的每个视频信号。

这种比特率阶梯设计可以应用于在 per-title 编码策略中出现的完整视频信号或在 per-scene 或 per-shot 的编码策略中出现的视频信号。如果应用程序在这个范围内使用少于 21 个质量等级,则会遭遇主观质量的下滑。

简介

随着 OTT 视频流媒体服务的使用不断飙升,自适应比特率(ABR)流媒体的重要性也在不断增长。在 ABR 流中,数字视频信号以各种比特率进行编码

R_1,...,R_k

,每种比特率也关联着不同的质量

Q_1,...,Q_k

,并使用内容分发网络 (CDN) 通过互联网提供给多个最终用户设备。一个特定比特率和相关质量的编码数字视频信号被记为一种表示(rendition)

(𝑅_𝑘,𝑄_𝑘)

,所有 𝐾 种表示

(𝑅_1,𝑄_1)

,......,

(𝑅_𝐾,𝑄_𝐾)

的集合作为比特率阶梯。

数字视频信号的典型操作质量比特率曲线如图 1 所示。数字视频信号的第一个主要特性是质量 𝑄 随比特率 𝑅 增加。第二个主要特性是,在相同质量下,高复杂内容的比特率 𝑅 高于低复杂内容的比特率 𝑄。

图1 低复杂内容和高复杂内容的编码视频信号的示例操作质量比特率曲线

在下文中,𝐾 种表示根据其相关的比特率进行排序,使得

𝑅_1 < ... < 𝑅_𝑘 < ... < 𝑅_𝐾

。作为第一个主要性质的结果,相关的性质也是有序的,即

𝑄_1 < ... < 𝑄_𝑘 < ... < 𝑄_𝐾

。基于比特率阶梯提供的表示,每个最终用户设备都可以通过互联网,以适合用户互联网连接的个人传输速率 𝑇 从 CDN 请求和流式传输内容。有多种播放选择策略,而一种简单的策略是选择播放的播放

(𝑅_𝑝,𝑄_𝑝)

,它的最大可能比特率小于 𝑇 ,即:

R_p(T) = \mathop{max}\limits_{k= 1,...,K | R_k \leq T} R_k \qquad (1)

根据等式(1)的选择策略,客户端避免在内容播放期间重新缓冲,从而实现视频的连续播放。更复杂的策略可能会在两种表示

(𝑅_𝑝, 𝑄_𝑝)

(𝑅_{𝑝+1}, 𝑄_{𝑝+1})

之间交替使用,以更有效地利用传输速率。对于这些策略,质量也在

𝑄_𝑝

𝑄_{𝑝+1}

之间交替。在下文中,本文的考虑首先集中于根据等式(1)的简单策略,随后扩展到这些更复杂的策略。

过去,ABR 流媒体提供商通常使用固定比特率阶梯,即在其所有视频内容中使用一组预定义的比特率,而不管比特率导致的视频质量如何。如今,这种方法越来越多地被基于质量的比特率阶梯设计所取代,该设计将单个内容考虑在内。这种与内容相关的比特率阶梯设计通常表示为 per-title、per-scene 或 per-shot 的编码。per-title 是指跨完整序列的比特率阶梯优化,而 per-scene 和 per-shot 的编码是指基于每个序列中的各个场景的更细粒度的比特率阶梯优化。对于这些情况,表示

(𝑅_1,𝑄_1)、...、(𝑅_𝐾, 𝑄_𝐾)

以及其数量 𝐾 通常单独设置。

由于使用了一组离散比特率

𝑅_1, ..., 𝑅_𝑘, ... , 𝑅_𝐾

,客户端播放的视频的质量

𝑄_𝑝

通常低于客户端传输的质量

𝑄(𝑇)

。如果在比特率阶梯中可以使用具有

𝑅_𝑘 = 𝑇

的表示,那么客户端的传输速率 𝑇 就可以做到这一点。在本文中,差异表示为质量损失:

\Delta Q(T) = Q(T) - Q(R_p(T)) \qquad (2)

可能会发生,以质量

𝑄 (𝑅_𝑝(𝑇))

接收的视频主观上比质量

𝑄(𝑇)

的视频差,如果它在比特率阶梯中可用,且客户端可以接收。如果比特率

𝑅_𝑝

𝑅_{𝑝+1}

以及相关的质量

𝑄_𝑝

𝑄_{𝑝+1}

显著不同,就会发生这种情况。根据质量

𝑄_𝑝

𝑄_{𝑝+1}

,定义质量损失

\Delta 𝑄𝑚𝑎𝑥

的上限为:

\Delta Q_{max}(Q_p,Q_{p+1}) = Q_{p+1} - Q_p \qquad (3)

在下面的图 2 中,说明了质量损失

\Delta 𝑄

和最大质量损失

\Delta 𝑄𝑚𝑎𝑥

图2 质量损失 𝛥𝑄(𝑇) 的说明,见等式 (2),最大质量损失 𝛥𝑄𝑚𝑎𝑥,见等式 (3)

每个视频服务提供商都应将最大质量损失

\Delta 𝑄𝑚𝑎𝑥

保持在尽可能小。由于客户端建立的连接,其传输速率 𝑇 范围可能很大,可能小到从通过蜂窝网络连接,大到通过光纤通道连接,所有这些客户端的小

\Delta 𝑄𝑚𝑎𝑥

只能通过提供很多种表示来实现。然而,大量的表示也会导致流媒体提供商更高的编码和存储成本。因此,考虑到最终用户感知的主观质量,需要选择

\Delta 𝑄𝑚𝑎𝑥

的上限作为质量损失和这些成本的折衷。

将基于质量的比特率阶梯设计用于 OTT 视频流服务

为了自动生成比特率阶梯,最终用户感知的主观质量由 VMAF 估计。因此,为视频信号的每一帧计算范围从 0 到 100 的分数,其中 0 对应于低主观质量,100 对应于高主观质量。在下文中,给定视频信号的所有帧的 VMAF 分数的平均值定义为该视频信号的 VMAF 分数,即 𝑄 = 𝑉𝑀𝐴𝐹。有了这个定义,等式(2)的质量损失变成:

\Delta VMAF(T) = VMAF(T) - VMAF(R_p(T)) \qquad (4)

一个比特率阶梯,质量损失范围

\Delta 𝑉𝑀𝐴𝐹(𝑇)

\Delta 𝑉𝑀𝐴𝐹_{𝑚𝑎𝑥}

,传输速率范围 𝑇,其中

R_1 ≤ 𝑇 ≤ R_K

如图 3 所示。该限制是通过限制每种表示

(𝑅_k,𝑉𝑀𝐴𝐹_k)

(𝑅_{𝑘+1}, 𝑉𝑀𝐴𝐹_{𝑘+1})

之间的最大质量损失来实现的,其中

k = 1,...,K-1

\Delta 𝑉𝑀𝐴𝐹max

是所提出设计的第一个参数。理想情况下,它应该设置得足够小,以便相邻表示 𝑘 和 𝑘 + 1 的视频信号的主观质量相同。这样,可以避免由于未充分利用可用传输速率 𝑇 而导致的任何潜在质量损失。此外,相邻表示之间的切换在主观上仍然不明显,从而使视频播放的时间一致性最大化。

图3 比特率

𝑅_1, ..., 𝑅_𝐾

和相关的 VMAF 分数

𝑉𝑀𝐴𝐹_1, ..., 𝑉𝑀𝐴𝐹_𝐾

根据等式 (4) 将质量损失限制为

𝛥VMAF_{max}

所设计的第二个参数是比特率阶梯提供的最高质量

𝑉𝑀𝐴𝐹_𝐾

。理想情况下,应将其设置为可能的最低 VMAF 分数,从而使视频信号与原始视频信号在主观上无法区分。这最大限度地降低了存储成本,同时仍确保最佳的主观质量。

第三个参数是比特率阶梯提供的最低质量

𝑉𝑀𝐴𝐹_1

。理想情况下,应将其设置为用户可以接受视频的最低 VMAF 分数。这种策略通过避免由于不可接受的主观质量而未被用户观看的表示来最小化编码和存储成本。

基于主观质量、用户接受度和 VMAF 指标之间的基本关系确定比特率阶梯参数

如本节所述,主观测试的设计和实施是为了确定主观质量、用户接受度和 VMAF 指标之间的基本关系,根据这些关系可以正确设置比特率阶梯参数。

首先,使用一组八个视频信号用于进行主观测试。这个组合考虑到内容的复杂程度不同,包括了各种不同类型。六个视频信号源自 ISO 和 ITU 标准化中使用的一组视频信号,其中两个是专有视频信号。使用了

1920 \times 1080

(HDTV) 和

3840 \times 2160

(4K) 亮度样本的空间分辨率和 4:2:0 色度子采样。每个视频信号的持续时间为 10 秒。表 1 给出了该集合的概述以及相应的属性。

表1 用于主观测试的选定视频信号及其特性

为了确定第 2 节中介绍的比特率阶梯设计的参数

𝑉𝑀𝐴𝐹_𝐾

,对视频信号集进行编码,结果 VMAF 得分为 92、93、94、95、96 和 97。根据 JVET-H10026 和 ITU-R BT.5007 的双重刺激损伤量表测试方法对 20 名观察者进行的主观测试,确定了视频信号的 MOS 分以及相应的 95% 置信区间。在图 4 中,显示了该测试的基本测试单元。使用从 0(非常令人不安的损伤)到 10(难以察觉的损伤)的 11 级数字标度来评估视频信号。没有一个观察者因为应用 ITUR BT.5007 中描述的筛选方法而被作为异常值,并且对于这些观察者中的任何一个,在应用 Ishihara 颜色测试时都没有检测到色盲。

图4 基于 JVET-H1002 中定义的双刺激损伤量表测试方法的基本测试单元的结构。

对于编码,使用了版本 16.22 中的 HEVC 参考编码器。应用了 ISO 和 ITU5 国际标准化组织定义的 RA 配置,因为它代表了 OTT 视频流服务的典型配置。为了精确地获得视频信号所需的 VMAF 分数,量化参数 QP 及其每次编码的一次增加如 JVET-H10026 中所述设置。对于 HDTV 信号,适用于 4K 信号的 HDTV-VMAF-model,应用 4K-VMAF-model。

观看环境根据 ITU-R BT.500 和 JVET-H1002 设置。使用 55 英寸的松下 4K OLED 电视 TX55HZW2004 作为显示器。在使用双三次插值显示之前,所有解码的 HDTV 信号都被缩放到 4K 分辨率。房间经过精心保护,免受外部视觉和声音干扰,墙壁采用深灰色,色度为 D65。测试过程中,关闭了普通灯,在显示器后面放置了一盏匀光灯。显示器的背景亮度和峰值亮度的比率被调整为大约 0.15。根据防疫相关规定,一次只有一名测试者参加。根据 JVET-H10026,观察者到显示器的距离调整为显示器活动部分高度的两倍。

图 5 显示了 MOS 分数以及为每个 VMAF 分数和原始视频信号确定的相应 95% 置信区间。由于观察者的数量相对较少,计算出的平均意见分数与真实平均意见分数可能不同。不确定性由定义范围的置信区间表示,真实平均意见得分位于其中的概率为 95%。可以看出,对于所有低于 95 的 VMAF 分数,置信区间与原始视频信号的置信区间不重叠。因此,平均而言,相应视频信号的主观质量的差异是显着的。对于所有大于或等于 95 的 VMAF 分数,置信区间与原始视频信号的置信区间重叠。这表明真实和派生的平均意见分数以及主观质量是否不同或相等是不确定的。然而,MOS 的这种不确定性最大为 0.8,这可以从原始信号的置信区间的上限(9.2)与 VMAF = 95 的置信区间的下限(8.4)之间的差异推导出来。

图5 测量的平均意见得分 MOS 以及 VMAF 得分 92、93、94、95、96 和 97 以及原始视频信号的 95% 置信区间

为了确定第 2 节中介绍的比特率阶梯设计的参数

𝑉𝑀𝐴𝐹_1

,对视频信号集进行编码,导致 VMAF 得分几乎涵盖整个范围,即 20、25、30、...、95。对于每个视频 信号和每个 VMAF 分数以及原始视频信号,另外 20 名通过 Ishihara 颜色测试的观察者被要求从以下三个选项中选择一个:

  1. 对于持久观看,主观质量是可以接受的。
  2. 主观质量仅适用于约 30 秒。
  3. 主观质量根本不可接受。

持久观看意味着以相同的视频质量连续播放,临时损坏与视频质量暂时损坏的播放一样,这可能是由于传输速率在短时间内降低而发生的。每个观察者都被要求进行两次选择,第一次是在免费流媒体服务的假设下,第二次是在收取典型订阅费用的付费流媒体服务的假设下。对于每个观察者,所有视频信号都以个性化的随机顺序显示。在图 6 中,说明了用于获取一个选择的基本测试单元。

图6 用于确定参数

𝑉𝑀𝐴𝐹_1

的基本测试单元的结构

相同的观看环境和相同的 HEVC 参考编码器用于确定参数

𝑉𝑀𝐴𝐹_𝐾

。然而,为了能够生成导致低 VMAF 分数的视频信号,使用 FFmpeg 对一些视频信号应用了编码器端的额外空间子采样和解码器端的双三次插值。

从观察者的选择中,得出每个考虑的 VMAF 分数的接受率 AR。在这里,区分了由持久观看和临时障碍以及免费和付费视频流服务的任意组合产生的四种情况。为此,将值 1 分配给“可接受的主观质量”选项,将值 0 分配给“不可接受的主观质量”选项。随后,接受率被确定为所有测试的平均值。

图 7 显示了所有四种情况的接受率。从图 7 中,可以得出以下结果用于持久观看:

  1. 付费流媒体服务的 VMAF 分数必须比免费流媒体服务高 10 – 15 分,才能达到相同的接受率。
  2. 为了达到至少 50% 的持久观看接受率,需要播放 VMAF 评分大于等于 70 的免费服务和大于等于 85 的付费服务的视频信号。对于这些 VMAF 分数,置信区间的下限都表明接受率大于 50%。
  3. 对于付费视频服务,VMAF 分数低于 55 的视频信号的接受率大约为零。对于免费服务,这个门槛在 30 左右。
  4. 80 分的免费服务和 95 分的付费服务的 VMAF 评分可以达到 80% 的接受率。

对于暂时性损伤,VMAF 分数大约低 10 – 15,实现了与持久观看相同的接受率。

为了在持久性观看和暂时性损伤两种情况下实现超过 50% 的接受率,免费视频服务的参数

𝑉𝑀𝐴𝐹_1

需要设置为:

VMAF_{1,AR50,Free} = 55 \qquad (6)

付费视频服务为 70。这些值等于图 7 右图中的最低 VMAF 分数,置信区间的下限表示接受率大于 50%。

图7 免费和付费视频流服务的 AR 接受率;左:持久观看;右:大约 30 秒的暂时性损伤

为了确定第 2 节中介绍的比特率阶梯设计的参数

\Delta 𝑉𝑀𝐴𝐹_{max}

,考虑了三个操作点,第一个是低质量的

𝑉𝑀𝐴𝐹_{OP1} = 60

,第二个是中等质量的

VMAF_{OP2} = 75

, 高质量的

𝑉𝑀𝐴𝐹_{OP3} = 90

。这三个操作点是根据等式(6)的

𝑉𝑀𝐴𝐹_{1,𝐴𝑅50、𝐹𝑟𝑒𝑒} = 55

𝑉𝑀𝐴𝐹_𝐾=95

给出的范围设置的。

i = 1,2,3

的每一个操作点,该组被编码,生成

𝑉𝑀𝐴𝐹+{OPi}

七个 VMAF 分数

VMAF_{OPi}- 5

𝑉𝑀𝐴𝐹_{OPi} - 2

𝑉𝑀𝐴𝐹_{OPi} - 1

𝑉𝑀𝐴𝐹_{OPi}

𝑉𝑀𝐴𝐹_{OPi}+ 1

𝑉𝑀𝐴𝐹_{OPi}+ 2

𝑉𝑀𝐴𝐹_{OPi}+ 5

。按照与确定

𝑉𝑀𝐴𝐹_𝐾

相同的测试程序,见上文,确定了每个 VMAF 分数的视频信号的平均意见分数以及相应的 95% 置信区间。该测试的基本测试单元也相同,见图 4。另外 20 名观察员被要求进行测试。由于要投票的视频信号量很大,测试的总时长超过了 ITU-R BT.500 中定义的半小时测试的最长持续时间。根据 ITUR BT.500 对此类情况的建议,插入了适当的中断休息。

使用与上述相同的观看环境和 HEVC 参考编码器。对于某些视频信号,应用空间二次采样以达到所需的 VMAF 分数。

图 8 总结了测量结果。从该图中可以得出结论,平均意见得分与 VMAF 的相关性近似线性。这证明在从

𝑉𝑀𝐴𝐹_{1,𝐴𝑅50,𝐹𝑟𝑒𝑒} = 55

𝑉𝑀𝐴F_𝐾 = 95

的整个质量范围内应用相同的

\Delta 𝑉𝑀𝐴𝐹_{max}

是合理的。

图8 测量的平均意见得分 MOS 以及 95% 置信区间与 VMAF 得分

为了推导出参数

\Delta 𝑉𝑀𝐴𝐹_{max}

,评估了所有两个不同 VMAF 分数的对。将每对较低的分数表示为

𝑉𝑀𝐴𝐹_{𝑙𝑜𝑤}

,将较高的分数表示为

𝑉𝑀𝐴𝐹_{ℎ𝑖𝑔ℎ}

,这两个分数的差异可以解释为估计的参数

\Delta 𝑉MAF_{max}

。从图 8 中可以得出,对

VMAF_{high} - VMAF_{low} > 2

的大多数 VMAF 分数对而言,

𝑉𝑀𝐴𝐹_{𝑙𝑜𝑤}

𝑉𝑀𝐴𝐹_{ℎ𝑖𝑔ℎ}

的置信区间并不重叠。比如说

𝑉𝑀𝐴𝐹_{𝑙𝑜𝑤} = 85

𝑉𝑀𝐴𝐹_{ℎ𝑖𝑔ℎ} = 88

的情况。因此,对于这些对,主观质量的差异平均来说肯定是明显的。对于

𝑉𝑀𝐴𝐹_{high} − 𝑉𝑀𝐴𝐹_{low} ≤ 2

的所有对,置信区间重叠。这表明相应的主观质量在不确定性之前平均是相同的。在 MOS 尺度上,该不确定性最大为 1.4,在与

VMAF = 58

相关的置信区间下限和与

VMAF = 60

相关的置信区间上限之间测量。

假设主观质量相同,参数

\Delta 𝑉𝑀𝐴𝐹_{𝑚𝑎𝑥}

需要设置为:

\Delta VMAF_{max} \leq 2 \qquad (7)

理想情况下,设置

𝑉𝑀𝐴𝐹_{𝐾,𝑖𝑑𝑒𝑎𝑙} = 95

,即尽可能小。以及

\Delta 𝑉𝑀𝐴𝐹_{𝑚𝑎𝑥,ideal} = 2

,即尽可能大。这么设置以实现最低的存储成本和最少的所需的表示数:

K_{ideal} = \frac{VMAF_{K,ideal} - VMAF_{1,AR50,Free}}{\Delta VMAF_{max,ideal}} + 1 = \frac{95-55}{2} + 1 = 21 \qquad (8)

因此,该比特率阶梯以与 VMAF 分数 95、93、……、57、55 相关联的 21 种质量提供每个视频信号。为了准确达到该比特率阶梯的 VMAF 分数,通常需要大量的编码工作。为了减少编码工作,在生成比特率阶梯时可以接受参数

𝑉𝑀𝐴𝐹_𝐾 > 95

𝛥𝑉𝑀𝐴𝐹_{𝑚𝑎𝑥} < 2

。但是,这会增加表示数,从而增加存储成本。

在当今的应用程序中,通常使用少于 21 个表示以降低编码和存储成本。通常,仅应用 9 - 12 个表示。对于涵盖 55 到 95 范围的 9 种表示,这种比特率阶梯设计需要:

VMAF_{max,9,renditions} = \frac{95-55}{9-1} = 5 \qquad (9)

然而,上面的讨论表明,使用

𝛥𝑉𝑀𝐴𝐹_{𝑚𝑎𝑥,9,𝑟𝑒𝑛𝑑𝑖𝑡𝑖𝑜𝑛𝑠} = 5

可能会导致质量损失,这是主观可见的。根据图 8 中总结的测量结果,比较 VMAF 分数 75 和 80 的置信区间限值之间的差异,MOS 的差异最大为 1.6。

总结

在本文中,提出了一种基于质量的比特率阶梯设计,用于 OTT 视频流服务。遵循在最小化存储成本的约束下最大化主观质量的设计标准,比特率阶梯由三个参数定义。

  • 第一个参数是可能的最低 VMAF 分数,在该分数下,视频信号在主观上与原始视频信号在主观上无法区分。遵循国际建议 ITU-R BT.500 并使用 4K OLED 电视环境,进行了广泛的主观测试,以评估主观质量与 VMAF 分数之间的基本关系。根据测试结果,此 VMAF 分数设置为 95。
  • 第二个参数是平均超过 50% 的用户观看视频信号时接受的最低 VMAF 分数。额外的测试表明,免费流媒体服务的 VMAF 得分为 55,付费流媒体服务为 70。
  • 第三个参数是两个 VMAF 分数的最大差异,其相关的主观质量平均大致相同。在第三个测试中,该差异被确定为 2。对于免费视频流服务,这导致理想的比特率阶梯提供与 VMAF 分数 95、93、……、57、55 相关联的 21 种质量的每个视频信号。

所提出的比特率阶梯设计可以应用于以每个标题编码策略出现的完整视频信号或以每个场景或基于镜头的编码策略出现的视频信号的各个场景。如果使用少于 21 个表示从 VMAF = 55 到 VMAF = 95 的范围(如在某些应用中可能所做的那样),则平均而言主观质量的损伤可能变得明显。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-12-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 媒矿工厂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 摘要
  • 简介
  • 将基于质量的比特率阶梯设计用于 OTT 视频流服务
  • 基于主观质量、用户接受度和 VMAF 指标之间的基本关系确定比特率阶梯参数
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档