Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >针对 YUV420 颜色空间的深度图像压缩研究

针对 YUV420 颜色空间的深度图像压缩研究

作者头像
用户1324186
发布于 2022-02-18 03:07:12
发布于 2022-02-18 03:07:12
1.3K0
举报
文章被收录于专栏:媒矿工厂媒矿工厂

来源:SPIE Optical Engineering + Applications, 2021 主讲人:Changyue Ma 内容整理:冯冬辉 在这篇论文中,作者提出了两种方法来调整为 RGB 图像设计的深度图像压缩框架来压缩 YUV420 图像;基于轻量级框架,进一步研究了调整 YUV 通道的训练失真权重时对编码性能的影响。

目录

  • 简介
  • 提出的方法
  • 训练和测试细节
  • 实验结果
  • 结论

简介

目前,大多数深度图像压缩方法被设计用来压缩 RGB 颜色空间的图像。然而传统的视频编码标准,则主要设计来压缩 YUV420 色彩空间的图像。在这个研究中,作者首先研究如何调整 RGB 图像的深度压缩框架,以压缩 YUV420 图像。然后研究了调整 YUV 通道的训练失真权重时对编码性能的影响,并将实验结果与 HEVC 和 VVC AI 配置进行比较。提出的方法适用于图像压缩和视频压缩的帧内编码。

图像压缩在图像存储和传输系统中起着关键作用。在过去的几十年里,世界上大量的公司和机构一直致力于图像压缩,并发布了几个著名的图像编码标准,如广泛使用的 JPEG1 和 JPEG20002 标准,视频编码标准的 Main Still Picture profiles,如 H.265/HEVC3 和最近定稿的 H.266/VVC4,以支持高效的图像压缩。在所有这些标准中,一个包括内部预测、变换、量化和熵编码的混合编码框架被用来利用图像中的各种冗余来实现高效压缩。然而,由于混合编码框架中的模块通常是单独设计的,要在基本框架的基础上进一步提高编码性能变得越来越困难。

最近,深度图像压缩呈现出快速发展的趋势,并取得了可喜的成果。与传统的图像压缩方法相比,深度图像压缩能够以端到端的方式优化其压缩框架中的所有模块。目前,在所有的深度图像压缩方法中,变换编码与上下文自适应熵模型是最具代表性的方法,可以实现最佳的编码性能。然而,大多数深度压缩框架只设计用于压缩 RGB 颜色空间的图像,而没有关注 YUV 颜色空间的图像压缩。

考虑到 YUV 色彩空间的图像内容很多,而且 H.265/HEVC 和 H.266/VVC 等视频编码标准在其 Main Still Picture 配置文件中支持压缩 YUV 色彩空间的图像,已经有一些工作试图应用深度压缩框架来压缩 YUV 色彩空间的图像。提案 JVET-T0122 研究了在应用相同的深度压缩框架来压缩 RGB 色彩空间和 YUV444 色彩空间的图像时,与 VVC AI 配置相比,编码性能的变化。此外,提案 JVET-T0123 研究了如何将为 RGB 图像设计的深度压缩框架用于压缩 YUV420 色彩空间的图像,并提出了三种不同的深度图像压缩框架,以比较与 HEVC 和 VVC AI 配置的编码性能。

在这篇论文中,作者研究如何调整为 RGB 图像设计的深度压缩框架来压缩 YUV420 颜色空间的图像。基于深度图像压缩平台 CompressAI 中的 cheng2020-attn 模型,作者提出了两个深度图像压缩框架来编码 YUV420 色彩空间的图像。此外,作者研究了与 VVC 和 HEVC AI 配置相比,当调整 Y、U 和 V 通道的训练失真权重时,编码性能的影响。

提出的方法

基于深度图像压缩平台 CompressAI 中的 mbt2018 模型,提案 JVET-T0123 提出了三种不同的框架来压缩 YUV420 颜色空间的视频。在他们的第一种方法中,亮度和色度通道经过单独的卷积层和 GDN 层,并在第二个卷积层之前进行合并。在他们的第二种方法中,使用基于 mbt2018 的独立的神经网络编解码器对亮度和色度通道分别进行编码。在他们的第三种方法中,亮度通道在每个维度被下采样 2 倍,从而得到 4 个亮度通道。亮度通道与 2 个色度通道(6 个通道输入)叠加,并由 mbt2018 编解码器处理。

实验结果表明,在三种方法中,第一种方法可以达到最好的编码性能。原因可能是对于他们的第二种方法,Y 和 UV 通道之间的相关性不能被利用,因为 Y 和 UV 是单独优化的;而对于他们的第三种方法,由于下采样操作,亮度通道中相邻像素之间的相关性被降低。

在这篇论文中,作者在一个深度图像压缩框架中联合优化 Y 和 UV 通道,并保持 Y 和 UV 通道的分辨率不变。图 1 展示了提出的两个深度压缩框架,用于在深度图像压缩平台 CompressAI 中基于 cheng2020-attn 模型压缩 YUV420 颜色空间的图像。在提出的第一个框架中,亮度和色度通道经过单独的卷积和激活层,并在下采样之前进行组合。在提出的第二个框架中,色度通道首先通过一个简单的卷积层进行升采样,然后与亮度通道合并。

图 1:提出的两个 YUV420 深度图像压缩框架。

对于训练深度图像压缩框架,训练目标是使失真和比特率的加权和最小化。对于失真,作者尝试对 YUV 通道使用不同的失真权重,如 1:1:1、2:1:1、4:1:1、6:1:1 和 8:1:1。如下所示:

YUV 通道加权失真。

训练和测试细节

DIV2K 数据集和 UCID 数据集作为训练集,在训练时随机裁剪为 256×256 的图像块。网络使用 Adam 进行训练,批量大小设置为 16。最初的学习率被设置为 1e-4 并迭代大约 7e5 次,然后学习率被降低到 5e-5,最后迭代大约 3e5 次。网络的训练采用失真度量 MSE。训练了 4 个模型,λ值设置为 0.005、0.01、0.025、0.1,相应的潜变量通道数为 128、128、192、192。

Kodak 数据集包含 24 张未压缩的 768×512 图像,被转换为 YUV420 格式并作为测试集。为了评估率失真性能,用每像素比特数(bpp)来衡量码率,用 PSNR 来衡量失真。码率-失真(RD)曲线被用来比较不同方法的编码性能。此外还用 BD-rate 降低来评估具体的编码性能值。

实验结果

首先,作者比较了提出的两个深度压缩框架在 YUV420 图像上的编码性能。两个深度图像压缩框架都是以 YUV 失真权重 8:1:1 进行训练的。如下图所示,这两个框架在所有通道中的编码性能都很相似。与第二个框架相比,第一个框架在 Y、U 和 V 通道中实现了 0.7%、1.24% 和-0.36% 的 BD-rate 增益。然而,第一个框架的微小编码性能改进是以增加 17% 的网络参数和 28% 的测试时间为代价的。因此,这里选择第二个框架作为研究 YUV 通道不同失真权重的基准。

图 2:提出的两个框架在 Kodak 数据集上的 RD 曲线。

图 3 是提出的第二种深度图像压缩框架在 YUV 通道不同失真权重下的 RD 曲线,与 VVC 测试软件 VTM-11.0 和 HEVC 测试软件 HM-16.22 在 YUV 通道的对比。从图 3 可以看出,当逐渐增加 Y 通道的失真权重时,所提出的深度图像压缩框架在 Y 通道的编码性能得到改善,而在 U 和 V 通道的编码性能则有所下降,这与直觉一致。此外,表 1 和表 2 给出了所提出的深度图像压缩框架在 YUV 通道中相比 VTM11.0 和 HM16.22 的 BD-rate 增益,其中负数代表编码增益。从表 1 和表 2 可以看出,在 YUV420 色彩空间中,深度图像压缩框架与 VTM-11.0 在编码性能上仍有差距,但在所有 YUV 通道中,深度图像压缩框架的编码性能已经超过了 HM-16.22。

图 3:Kodak 数据集上 YUV 通道的不同失真权重的 RD 曲线。

表 1:在不同的 YUV 失真指标下,Framework2 相比 VTM-11.0 的整体性能。

表 2:在不同的 YUV 失真指标下,Framework2 相比 HM-16.22 的整体性能。

此外,可以用不同的 YUV 失真权重处理不同的码率点。从图 3 可以看出,Framework2-611 与 VTM-11.0 在 U 和 V 通道的两个最低码率点上存在较大的编码性能差距。可以用 Framework2-211 的最低码率点、Framework2-411 的第二低码率点与 Framework2-611 的两个最高码率点相结合,与 VTM11.0 和 HM16.22 进行比较,相应的 RD 曲线和 BD-rate 增益见图 4 和表 3。

图 4:Kodak 数据集上的包络曲线。

表 3:包络曲线相比 VTM-11.0 和 HM-16.22 的总体性能。

结论

在这篇论文中,作者提出了两种方法来调整为 RGB 图像设计的深度图像压缩框架来压缩 YUV420 图像,所提出的方法适用于图像压缩和视频压缩中的帧内编码。基于轻量级框架,进一步研究了调整 YUV 通道的训练失真权重时对编码性能的影响。实验结果表明,最新的深度图像压缩框架与 H.265/HEVC 测试模型相比,在 YUV420 色彩空间中可以实现更优越的编码性能,但与 H.266/VVC 测试模型相比,仍然存在编码性能的差距,深度图像压缩需要更先进的技术来进一步超越 YUV420 色彩空间的最新视频编码标准 VVC。

最后附上演讲视频:

http://mpvideo.qpic.cn/0bc3qeab6aaaieahftqdw5rfbaodd6aqahya.f10002.mp4?dis_k=9831d5787faa089145ae4db57f15fb7e&dis_t=1645153536&vid=wxv_2261562038395289603&format_id=10002&support_redirect=0&mmversion=false

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-02-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 媒矿工厂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
数字视频基础知识---颜色空间
在显示器发明之后,从黑白显示器发展到彩色显示器,人们开始使用发出不同颜色的光的荧光粉(CRT,等离子体显示器),或者不同颜色的滤色片(LCD),或者不同颜色的半导体发光器件(OLED和LED大型全彩显示牌)来形成色彩,无一例外的选择了Red,Green,Blue这3种颜色的发光体作为基本的发光单元。通过控制他们发光强度,组合出了人眼睛能够感受到的大多数的自然色彩。 不过这里面的YUV TO RGB的算法,效率实在是低,因为里面有了浮点运算,解一帧176*144的图像大概需要400ms左右,这是无法忍受的,如果消除浮点运算,只需要10ms左右,效率的提升真是无法想象.所以大家还是避免在手机上面进行浮点运算.
lcyw
2022/06/10
7330
数字视频基础知识---颜色空间
清华大学提出:ColorNet 研究颜色空间对图像分类的重要性
【导读】今天分享一篇清华大学刚出的论文,研究思路很新颖。现在很多论文都是改模型,但本文介绍的论文更多的是从数据角度(颜色空间)来分析,也有点像数据增广的意思。在常用的图像分类数据集上,改进效果十分明显。
Amusi
2019/12/31
2K0
清华大学提出:ColorNet 研究颜色空间对图像分类的重要性
图像传感器-RAW格式辨析
图像传感器数据手册里面经常会出现RAW格式,我以前一直在找RAW格式的标准是啥,但是找不到,今天应该算是解惑了。
云深无际
2024/08/21
4770
图像传感器-RAW格式辨析
支持码控的学习型图像压缩
图像压缩是一种广泛使用的技术。在过去的几十年里,传统的图像压缩方法发挥了重要作用。JPEG 是一种基本的图像压缩方法,自20世纪90年代以来一直被使用,并且仍然是主流的压缩格式。JPEG 中应用了 DCT 变换和霍夫曼熵编码。后来,WEBP 、BPG 和 VVC 涉及更复杂的工具来增强速率失真性能。尽管这些强大的工具极大地提高了图像压缩性能,但手动设计的搜索空间和变换仍然可能限制性能。与传统的图像压缩方法相比,LIC是一种数据驱动的方法,不需要手动设计特定的规则。
用户1324186
2023/09/09
6170
支持码控的学习型图像压缩
AAAI 2024 | 利用通道模态冗余实现端到端 RGB-D 图像压缩
RGB-D 图像是一种重要的 3D 数据格式。它已被广泛用于 3D 场景重建、突出目标检测、机器人与自主导航、医学影像与健康监测、环境监测等领域。与 RGB 图像不同,深度图像包含有关从视点到场景对象表面的距离的信息,该视点提供了 3D 场景之间的深度信息。因此,RGB-D联合分析方法在计算机视觉任务中很受欢迎。然而,这些方法使用额外的模态,这将带来多余的存储和传输成本。因此,设计一个高效的RGB-D图像压缩方法是一项重要且具有挑战性的工作。
用户1324186
2024/03/26
6630
AAAI 2024 | 利用通道模态冗余实现端到端 RGB-D 图像压缩
音视频技术开发周刊 | 232
每周一期,纵览音视频技术领域的干货。 新闻投稿:contribute@livevideostack.com。 短视频内容理解与生成技术在美团的创新实践 美团围绕丰富的本地生活服务电商场景,积累了海量视频数据。如何通过计算机视觉技术用相关数据,为用户和商家提供更好的服务,是一项重要的研发课题。本次LiveVideoStackCon 2021音视频技术大会 北京站,我们邀请到了美团高级算法专家马彬老师来分享短视频内容理解与生成技术,在美团业务场景的落地实践。 FFmpeg 工具:音视频开发都用它,快@你兄弟
LiveVideoStack
2022/03/04
1.4K0
音视频知识体系(基础篇3)----图像颜色空间
我们从视频的信号表示方法开始讲起,逐步深入到视频压缩编码的原理。我们主要从下面几个要点来讲解或者加深记忆。
jerrypxiao
2021/02/04
2K0
TIP 2023 | 通过高斯-拉普拉斯-逻辑混合模型和串联残差模块学习的图像压缩
图像压缩是许多应用中的重要步骤。经典方法,例如JPEG、JPEG 2000和BPG(H.265/HEVC的帧内编码),主要使用线性变换、量化和熵编码等技术来去除减少输入的冗余并实现更好的率失真(R-D)性能,如图1所示。最近,人们研究了基于深度学习的方法,其中根据神经网络的特性重新设计了三个主要组件。该方法在 PSNR 和 MS-SSIM 指标方面逐渐优于传统方法,并显示出巨大的潜力。
用户1324186
2024/01/17
4220
TIP 2023 | 通过高斯-拉普拉斯-逻辑混合模型和串联残差模块学习的图像压缩
CV学习笔记(三):色彩空间
在这一篇文章中,我们将会学习使用一下OpenCV中色彩空间的转换函数,我们这里说的色彩空间是说的使用多种颜色(通常指三种以上),来表示颜色的方法,像是我们平时所说的RGB,HSV,YUV,YCRCB,都是色彩空间模型。OpenCV也很方便的封装了很多的色彩空间函数。下面我们一起来实践一下(以下所有试验都根据下图完成,我截取的Windows自带的壁纸^_^)
云时之间
2020/02/19
5250
深度解析视频颜色空间YUV420P和YUV420SP的异同
本文重点介绍Planar平面模式的存储形式,YUV420P和YUV420SP的差异从名字上就可以看出一二,主要看S的含义。S是Semi(半的)的缩写,SP就是Semi-Planar,意思是半平面存储形式。前者是Y、U、V分量分别存储在三个平面中,总共占用三个平面;后者是Y分量单独存储在一个平面中,UV分量共同存储在另一个平面中,总共占用两个平面。
liuzhen007
2025/03/27
1670
深度解析视频颜色空间YUV420P和YUV420SP的异同
深入探索视频帧中的颜色空间—— RGB 和 YUV
接触前端音视频之后,需要掌握大量音视频和多媒体相关的基础知识。在使用 FFmpeg + WASM 进行视频帧提取时,涉及到视频帧和颜色编码等相关概念。本文将对视频帧中的颜色空间进行介绍。 一、视频帧 对于视频,我们都知道是由一系列的画面在一个较短的时间内(通常是 1/24 或 1/30 秒)不停地下一个画面替换上一个画面形成连贯的画面变化。这些画面称之为视频帧。 对于视频帧,在现代视频技术里面,通常都是用 RGB 颜色空间或者 YUV 颜色空间的像素矩阵来表示。在 ffmpeg 里面,我们可以看到源码 li
用户1097444
2022/06/29
1.9K0
深入探索视频帧中的颜色空间—— RGB 和 YUV
视频编解码领域入门指南:小白必读!
近年来,随着抖音、快手等短视频平台的迅速发展,我们的娱乐生活也发生了巨大变化。回想起我在大学期间,校园里流行的是微信朋友圈和QQ空间。每天早上醒来,第一件事就是打开微信,看看朋友圈里有没有新的动态,点赞评论,与朋友们分享生活点滴。然后打开QQ空间,更新自己的日志和相册,与好友互动。
天天Lotay
2023/10/15
4620
视频编解码领域入门指南:小白必读!
感知优化深度图像压缩
本文是来自alliance for open media research symposium2019的演讲,作者是来自于UT Austin的PhD,Li-Heng Chen。本次演讲主要讲述如何在感知上优化深度图像压缩。
用户1324186
2019/12/23
6240
基于OpenCV的彩色空间互转
图像彩色空间互转在图像处理中应用非常广泛,而且很多算法只对灰度图有效;另外,相比RGB,其他颜色空间(比如HSV、HSI)更具可分离性和可操作性,所以很多图像算法需要将图像从RGB转为其他颜色空间,所以图像彩色互转是十分重要和关键的。
Datawhale
2020/06/23
2.7K0
视频技术快览 0x0 - 图像基础和前处理
视频行业常见的分辨率有 QCIF(176x144)、CIF(352x288)、D1(704x576 或 720x576),还有 360P(640x360)、720P(1280x720)、1080P(1920x1080)、4K(3840x2160)、8K(7680x4320)等。
Cellinlab
2023/05/17
7740
视频技术快览 0x0 - 图像基础和前处理
YUV图像合成原理[通俗易懂]
引言:在视频监控中最常用的就是图像拼接和字符叠加,25FPS的视频流,如果每隔40MS就从各个通道中取一幅图像来合成,则可以看到一个实时的合成视频。合成的过程也就是原始图像的拼接、缩放的过程,本文主要阐述UV分开存储的YUV420图像拼接的过程,实现下图的效果。
全栈程序员站长
2022/09/13
1.2K0
YUV图像合成原理[通俗易懂]
DSCT:一种数据驱动的图像编码框架
近三十年来发布了很多图像和视频编码标准,如 JPEG, JPEG2000, BPG, MPEG, H.264/AVC, HEVC 等。YCbCr 色彩系统因其各通道间较低的相关性而被大多数编码标准采用。然而从图像整体层面这并不是最优策略,因此产生了许多基于亮度对色度进行预测的方法。此外,一些基于 PCA 的颜色变换方式可以进一步去除通道间相关性,进而降低编码码率,然而这需要为每幅图像保存一个 PCA kernel 并进行计算,复杂度高,因而没有得到广泛应用。
用户1324186
2022/02/18
1.3K0
DSCT:一种数据驱动的图像编码框架
OpenCV图像处理专栏一 | 盘点常见颜色空间互转
今天是OpenCV传统图像处理算法的第一篇,我们来盘点一下常见的6种颜色空间互转算法,并给出了一些简单的加速方案,希望可以帮助到学习OpenCV图像处理的同学。这6种算法分别是:
BBuf
2019/12/09
1.3K0
CV学习笔记(三):色彩空间
在这一篇文章中,我们将会学习使用一下OpenCV中色彩空间的转换函数,我们这里说的色彩空间是说的使用多种颜色(通常指三种以上),来表示颜色的方法,像是我们平时所说的RGB,HSV,YUV,YCRCB,都是色彩空间模型。OpenCV也很方便的封装了很多的色彩空间函数。下面我们一起来实践一下(以下所有试验都根据下图完成,我截取的Windows自带的壁纸^_^)
云时之间
2020/01/18
6850
CV学习笔记(三):色彩空间
PCS2018:下一代视频编码标准——Versatile Video Coding (VVC)【附PPT全文】
做为图像/视频编码领域的顶级会议之一,第33届图像编码研讨会(PCS,Picture Coding Symposium)于2018年6月24号至6月27号在加州旧金山召开。本次会议旨在为视觉压缩领域提供一些突破性的先进技术以及提供高水平的学术报告。在会上,JVET的两位联合主席Jens-Rainer Ohm和Gary J. Sullivan做了关于下一代视频编码标准VVC的主题报告,介绍了上一轮提案征集结束后的测试结果、当前VVC测试软件的情况以及后续的工作计划。
用户1324186
2018/07/26
4K1
PCS2018:下一代视频编码标准——Versatile Video Coding (VVC)【附PPT全文】
推荐阅读
相关推荐
数字视频基础知识---颜色空间
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档