Loading [MathJax]/jax/element/mml/optable/BasicLatin.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Efficient Contextformer:利用空间通道窗口注意力机制实现可学习图像压缩中的快速上下文建模

Efficient Contextformer:利用空间通道窗口注意力机制实现可学习图像压缩中的快速上下文建模

作者头像
用户1324186
发布于 2024-06-14 05:51:03
发布于 2024-06-14 05:51:03
5980
举报
文章被收录于专栏:媒矿工厂媒矿工厂

来源:IEEE Transactions on Circuits and Systems for Video Technology 题目:Efficient Contextformer: Spatio-Channel Window Attention for Fast Context Modeling in Learned Image Compression 作者:A. Burakhan Koyuncu, Panqi Jia, Atanas Boev, Elena Alshina, Eckehard Steinbach 原文链接:https://ieeexplore.ieee.org/abstract/document/10453616 内容整理:刘潮磊 熵估计对学习型图像压缩的性能至关重要。研究表明,基于Transformer的熵模型在实现高压缩比方面具有重要意义,但代价是显著的计算开销。在这项工作中,我们引入了高效的上下文Transformer(eContextformer)——一种计算效率高的基于Transformer的自回归上下文模型,用于可学习图像压缩。eContextformer有效融合了按块、棋盘和按通道分组的技术进行并行上下文建模,并引入了移位窗口空间-通道注意机制。我们探索了更好的训练策略和架构设计,并引入了额外的复杂度优化。在解码过程中,所提出的优化技术动态缩放注意范围,并缓存先前的注意力计算,大幅减少模型和运行时的复杂度。与非并行方法相比,我们的方案模型复杂度降低约145倍,解码速度提高约210倍,并在Kodak、CLIC2020和Tecnick数据集上实现了更高的平均比特节省。此外,我们的上下文模型的低复杂度使得我们支持在线率失真算法,从而进一步提高压缩性能。相比于Versatile Video Coding (VVC) 测试模型 (VTM) 16.2的帧内编码,我们实现了高达17%的码率节省,并超越了各种基于学习的压缩模型。

引言

研究问题:对于可学习的图像压缩,如何构建一个计算高效的上下文模型。

SOTA 工作与所属团队:

  • “Parallelized context modeling for faster image coding”, A. B. Koyuncu, K. Cui, A. Boev, and E. Steinbach
  • “Checkerboard context model for efficient learned image compression”, D. He, Y. Zheng, B. Sun, Y. Wang, and H. Qin
  • “Contextformer: A transformer with spatio-channel attention for context modeling in learned image compression”, AB Koyuncu, H Gao,ECCV 2022

动机:本文作者的前一篇文章构建了一个基于transformer的上下文模型,这篇文章采用对latent tensor分组、优化训练策略等方式降低模型复杂度。

贡献:

  • 采用棋盘格加划分channel的方式,利用了通道之间的相关性
  • 探究并行化策略
  • 其他的复杂度优化策略

方法

Contextformer

架构:

作者前一篇文章构建的一个基于transformer的上下文模型架构如下,主体是Multi-Head Attention,和ViT类似:

图 1

对latent的划分:

  1. 将通道划分成

段,一幅图像共有

个序列

  1. 对于这些序列有两种处理方式:空间优先(sfo)、通道优先(cfo),如下图所示:

图 2

  1. 为降低复杂度,使用3D sliding-window,窗口只在空间上滑动,在通道上延申,示意图如下:

图 3

Contextformer总体思想:

  • 对latent划分
  • sliding window attention,不同处理方式采用不同的mask

并行化策略探究(在Contextformer 基础上)

并行策略:棋盘格+patch-wise+channel-wise

图 4

参数设置:

  1. 训练图像大小:256x256(latent tensor:16x16)
  2. Spatial kernel size 𝐾:16、8( 3D sliding-window 在空间上的大小)

:16、8、4、1(训练/测试时window的步长)

  1. sfo/cfo(序列处理方式)

参数对:

  1. 训练时全局attention:
  1. Windows是否有重叠:

(无重叠);

(有重叠)

探究结果:

图 5

表 1

表 2

结论:

  • 训练时全局attention:sfo优于cfo
  • 训练时窗口有overlap(

):sfo优于cfo

本文的eContextformer(efficient Contextformer)

总体架构:

将Contextformer主体从ViT形式的sliding window替换成了swin-transformer形式

图 6

latent tensor分组处理流程:

图 7

eContextformer的改进:

相较于Contextformer,eContextformer的改进可以总结如下:

表 3

其他的复杂度优化策略

EGR(Efficient coding Group Rearrangement):亦即上述对lantent tensor的分组策略。

SFG(Skipping First coding Group):在对lantent tensor分组后,第一组只用hyperprior编码,不设置start token。

key-value caching:第n次迭代时需要对输入的

所有序列计算Attention:

由于前n-1次已经计算过:

于是将之前的结果保留,只需计算:

eContextformer架构细节

eContextformer各部分结构参数总结如下表所示:

表 4

实验设计与验证

实验设置

数据集:Train:Vimeo-90K Evaluate :Kodak、CLIC2020 test dataset、Tecnick

训练细节:Image crops:256x256, Batch size:16, MSE作为失真指标

实验结果

在Kodak数据集上测试结果:

图 8

探究在高分辨率图像上的效果:

本文用COCO 2017的256×256/384×384 image crops微调,测试了在高分辨率图像上的效果,如下图所示,左图为Kodak数据集上测试结果,右图为Tecnick数据集上测试结果,可以看出,在高分辨率数据集Tecnick上有明显的提升。

图 9

在多个数据集上测试结果:

下图从左至右分别为Kodak、CLIC2020、Tecnick数据集上的测试结果:

图 10

模型复杂度和运行时间:各种复杂度优化策略的效果如下(Single pass是在编码端一次性计算整个

):

表 5

模型参数量和计算复杂度如下:

表 6

编码和解码的时间如下:

表 7

消融实验:

表 8

视觉效果展示:

图 11

结论

这项工作引入了eContextformer——一个高效且快速的优化后的Contextformer。我们进行了大量的实验,以实现一个快速且低复杂度的上下文模型,这个模型还具有和SOTA相当的性能。值得注意的是,我们提供的算法优化进一步将复杂度降低了84%。为了缩小差距,我们还实验了编码端迭代算法。这进一步提高了率失真性能,并且其复杂度仍然低于最先进的视频压缩标准。本研究专注于提供一个高效的上下文模型架构,对于这种改进的变换留待未来工作进行探讨。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 媒矿工厂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
CVPR 2023 | 使用混合 Transformer-CNN 架构学习图像压缩
CNN-based图像压缩方法能较好地提取局部信息,Transformer-based图像压缩方法能较好地提取全局信息,于是想将这两者的优势相结合。
用户1324186
2024/04/12
1.5K0
CVPR 2023 | 使用混合 Transformer-CNN 架构学习图像压缩
支持码控的学习型图像压缩
图像压缩是一种广泛使用的技术。在过去的几十年里,传统的图像压缩方法发挥了重要作用。JPEG 是一种基本的图像压缩方法,自20世纪90年代以来一直被使用,并且仍然是主流的压缩格式。JPEG 中应用了 DCT 变换和霍夫曼熵编码。后来,WEBP 、BPG 和 VVC 涉及更复杂的工具来增强速率失真性能。尽管这些强大的工具极大地提高了图像压缩性能,但手动设计的搜索空间和变换仍然可能限制性能。与传统的图像压缩方法相比,LIC是一种数据驱动的方法,不需要手动设计特定的规则。
用户1324186
2023/09/09
6460
支持码控的学习型图像压缩
【论文复现】图像压缩算法
首先,这篇文章的出发点就是图像压缩最本源的目的,就是探索如何在相同的码率下获得更高质量的重建图像,或者说在得到的重建图像质量一样的情况下,如何进一步节省码率。
Eternity._
2024/12/28
3250
【论文复现】图像压缩算法
STF-顶会图像压缩方法
随着视觉应用的日益增多,图像压缩已经成为图像处理领域的一个重要研究课题。传统的图像压缩方法,如JPEG、JPEG2000等,主要依赖于手工设计的规则,虽然这些方法在一定程度上解决了图像存储和传输的问题,但在处理复杂纹理和细节方面存在局限性。近年来,基于卷积神经网络(CNN)的学习型图像压缩方法展示了优越的率失真性能。然而,CNN在捕捉局部冗余和非重复纹理方面仍存在不足,这限制了图像重建质量的进一步提升。
Srlua
2024/12/20
1860
STF-顶会图像压缩方法
针对 YUV420 颜色空间的深度图像压缩研究
目前,大多数深度图像压缩方法被设计用来压缩 RGB 颜色空间的图像。然而传统的视频编码标准,则主要设计来压缩 YUV420 色彩空间的图像。在这个研究中,作者首先研究如何调整 RGB 图像的深度压缩框架,以压缩 YUV420 图像。然后研究了调整 YUV 通道的训练失真权重时对编码性能的影响,并将实验结果与 HEVC 和 VVC AI 配置进行比较。提出的方法适用于图像压缩和视频压缩的帧内编码。
用户1324186
2022/02/18
1.4K0
针对 YUV420 颜色空间的深度图像压缩研究
CVPR 2019 | 图鸭科技 CLIC 图像压缩挑战赛冠军方案全解读
AI 科技评论按:在 CVPR 2019 CLIC 图像压缩挑战赛中,图鸭科技所提出的算法 TucodecSSIM 夺得了 MS-SSIM 和 MOS 两项指标的冠军,算法 TucodecPSNR 夺得了 PSNR 指标的冠军,算法 TucodecPSNR40dB 则夺得高码点图像压缩 Transparent Track 的冠军。以下为图鸭科技提供的技术解读。
AI科技评论
2019/07/05
8870
CVPR 2019 | 图鸭科技 CLIC 图像压缩挑战赛冠军方案全解读
C3: 图像与视频通用的高性能低复杂度神经压缩器
继承了 C2 的改进,使用线性层和卷积层的混合。升采样模块则使用 C1 中的双线性插值,升采样模块不含可学习参数。
用户1324186
2024/01/04
6790
C3: 图像与视频通用的高性能低复杂度神经压缩器
NeurIPS 2023 | 在没有自回归模型的情况下实现高效图像压缩
目前的SOTA LIC方法采用变换编码策略进行有损图像压缩,具体地说,首先将图像像素映射到一个量化的潜在空间中,然后使用熵编码方法进行无损压缩。这种方法的一个关键部分是基于超先验的熵模型,用于估计潜在变量的联合概率分布,其中存在一个基本假设:潜在变量元素在空间位置上的概率是相互独立的。然而,这一假设与潜在空间高度相关的实际特性相矛盾,导致实际分布与假设分布之间存在差异。
用户1324186
2023/12/28
7840
NeurIPS 2023 | 在没有自回归模型的情况下实现高效图像压缩
ICCV2023 | 将基于 Transformer 的图像压缩从人类感知转移到机器感知
一般来说,大多数学习的图像压缩系统主要是为了人类感知设计的。最近,由于针对高级识别任务跨设备传输视觉数据的需求不断增长,用于机器感知的图像编码成为一个活跃的研究领域。如果为用于不同机器感知任务的图像编码设计一个通用的编码器,则很难实现最近的速率-失真权衡。但如果为每一个任务都定制编码器的代价远远超过了可承受范围。
用户1324186
2023/11/27
1K0
ICCV2023 | 将基于 Transformer 的图像压缩从人类感知转移到机器感知
CNN再助力!CoaT:Co-Scale卷积-注意力图像Transformer
Co-Scale Conv-Attentional Image Transformers
Amusi
2021/04/23
1.3K0
CNN再助力!CoaT:Co-Scale卷积-注意力图像Transformer
TIP 2023 | 通过高斯-拉普拉斯-逻辑混合模型和串联残差模块学习的图像压缩
图像压缩是许多应用中的重要步骤。经典方法,例如JPEG、JPEG 2000和BPG(H.265/HEVC的帧内编码),主要使用线性变换、量化和熵编码等技术来去除减少输入的冗余并实现更好的率失真(R-D)性能,如图1所示。最近,人们研究了基于深度学习的方法,其中根据神经网络的特性重新设计了三个主要组件。该方法在 PSNR 和 MS-SSIM 指标方面逐渐优于传统方法,并显示出巨大的潜力。
用户1324186
2024/01/17
4530
TIP 2023 | 通过高斯-拉普拉斯-逻辑混合模型和串联残差模块学习的图像压缩
超分辨率新突破!HAAT混合注意力聚合Transformer,跨通道建模性能飙升登顶SOTA !
单图像超分辨率(SISR)旨在从低分辨率图像中重构高质量图像。随着其广泛应用,高效超分辨率算法的研发成为计算机视觉领域的一个关键研究领域。最近的研究将自注意力机制集成到计算机视觉挑战中 [1, 2]。
未来先知
2025/02/20
3500
超分辨率新突破!HAAT混合注意力聚合Transformer,跨通道建模性能飙升登顶SOTA !
ICCV 2023 | COMPASS:任意尺度空间可伸缩性的深度图像压缩
在多媒体系统中,不同的终端设备需要不同分辨率大小和不同质量的图像,但大多数现有的基于神经网络的图像压缩方法必须将同一图像的不同版本单独压缩为多个比特流,从而导致低编码效率。为了解决这个问题,有一些关于可缩放图像压缩的研究,其中图像的各种版本以分层方式的编码到单个比特流中。每个层负责对图像的一个对应版本进行编解码,并且通过不同的预测方法来减少相邻层之间的冗余。
用户1324186
2023/11/07
9770
ICCV 2023 | COMPASS:任意尺度空间可伸缩性的深度图像压缩
YoloV8改进策略:注意力改进|Neck层改进|SCSA,探索空间与通道注意力之间的协同效应|即插即用
https://arxiv.org/pdf/2407.05128 通道注意力和空间注意力分别为各种下游视觉任务在提取特征依赖性和空间结构关系方面带来了显著改进。通道注意力和空间注意力的结合使用被广泛认为有利于进一步提升性能;然而,通道注意力和空间注意力之间的协同作用,尤其是在空间引导和缓解语义差异方面,尚未得到深入研究。这促使我们提出了一种新的空间与通道协同注意模块(SCSA),该模块涉及我们在多个语义层面上对空间注意力和通道注意力之间协同关系的研究。我们的SCSA由两部分组成:可共享多语义空间注意力(SMSA)和渐进通道自注意力(PCSA)。SMSA整合了多语义信息,并利用渐进压缩策略将判别性空间先验注入到PCSA的通道自注意力中,有效引导通道再校准。此外,PCSA中基于通道单头自注意力机制的稳健特征交互进一步缓解了SMSA中不同子特征之间多语义信息的差异。我们在七个基准数据集上进行了大量实验,包括在ImageNet-1K上的分类、在MSCOCO上的目标检测、在ADE20K上的分割以及四个其他复杂场景检测数据集。实验结果表明,我们提出的SCSA不仅超越了当前的即插即用型最先进注意力方法,而且在各种任务场景中展现出增强的泛化能力。代码和模型可在以下网址获取:https://github.com/HZAIZJNU/SCSA。
AI浩
2025/01/02
7960
YoloV8改进策略:注意力改进|Neck层改进|SCSA,探索空间与通道注意力之间的协同效应|即插即用
AAAI 2024 | 利用通道模态冗余实现端到端 RGB-D 图像压缩
RGB-D 图像是一种重要的 3D 数据格式。它已被广泛用于 3D 场景重建、突出目标检测、机器人与自主导航、医学影像与健康监测、环境监测等领域。与 RGB 图像不同,深度图像包含有关从视点到场景对象表面的距离的信息,该视点提供了 3D 场景之间的深度信息。因此,RGB-D联合分析方法在计算机视觉任务中很受欢迎。然而,这些方法使用额外的模态,这将带来多余的存储和传输成本。因此,设计一个高效的RGB-D图像压缩方法是一项重要且具有挑战性的工作。
用户1324186
2024/03/26
7120
AAAI 2024 | 利用通道模态冗余实现端到端 RGB-D 图像压缩
用于机器视觉任务的图像压缩前处理
最近,越来越多的图像被压缩并发送到后端设备进行机器视觉分析任务(例如目标检测),而不仅仅是供人类观看。然而,大多数传统的或可学习的图像编解码器都是最小化人类视觉系统的失真,而没有考虑到机器视觉系统的需求。在这项工作中,我们提出了一种用于机器视觉任务的图像压缩前处理方法。我们的框架不依赖于可学习的图像编解码器,而是可用于传统的非可微分编解码器,这意味着它与编码标准兼容,并且可以轻松部署在实际应用中。具体而言,我们在编码器之前增加一个神经网络前处理模块,用于保留对下游任务有用的语义信息并抑制无关信息以节省比特率。此外,我们的神经网络前处理模块是量化自适应的,可以在不同的压缩比下使用。更重要的是,为了联合优化前处理模块和下游机器视觉任务,我们在反向传播阶段引入了传统非可微分编解码器的代理网络。我们在几个具有不同骨干网络的代表性下游任务上进行了广泛的实验。实验结果表明,我们的方法通过节省约20%的比特率,在编码比特率和下游机器视觉任务性能之间取得了更好的权衡。
用户1324186
2023/09/09
6380
用于机器视觉任务的图像压缩前处理
ICML 2023 Workshop | 使用量化整流器的神经图像压缩
量化通过将连续值映射到用于熵编码的有限离散值集来离散图像特征以压缩图像。虽然目前基于神经网络的图像压缩采用的量化方法解决了训练测试不匹配的问题,但量化对潜在特征的随机影响仍未解决。量化将连续值统一映射到单个离散值,根据特征可变性引入不同程度的噪声。例如,从
用户1324186
2023/09/27
3530
ICML 2023 Workshop | 使用量化整流器的神经图像压缩
CVPR2023 | 使用条件生成器进行多重真实感图像压缩
,可以获得高感知质量的解码图像。这可以使得在低码率条件下解码的图片能使人的感知更愉悦,同时生成器也不会影响图像的真实性。通过本文的方法,"失真-感知" 得到权衡,在高感知质量条件下有更低的图像损失,在低图像损失下有更好的感知质量。
用户1324186
2023/11/02
8240
CVPR2023 | 使用条件生成器进行多重真实感图像压缩
ICCV 2023 | AdaNIC:通过动态变换路由实现实用的神经图像压缩
自动编码器的特定变体,即压缩自动编码器(CAE),已成为神经图像压缩中流行的架构选择。采用CAE学习图像信号的紧凑非线性表示取得了巨大成功,与现有的编解码器相比,产生了相当甚至更优的率失真性能。之前的研究工作已经证明,CAE的规模与图像质量或比特率高度相关。在这种情况下,经过充分研究的信道修剪方法可能适合复杂性缓解的需要。当使用信道修剪方法去除部分信道时,过度的信道修剪可能导致率失真性能严重下降。因此,静态的信道修剪方式可能不适合进一步的率失真复杂度优化。具体结果可见图1,对于三张不同的输入图像,直接将潜在变量的通道数由192裁剪为176。深色圆点代表了原始的率失真表现,浅色圆点代表裁剪后的率失真表现。可以看到,三张图像表现出了不同的下降趋势,但复杂度的降低是一致的。更进一步的,箭头代表不同图像块的率失真表现,可以发现,同一图像的不同图像块也会有不同的率失真下降趋势。因此,这种通道裁剪方法需要更细粒度的划分,而不仅仅是作用在整张图像上。此外,作者希望研究一种动态路由解决方案,以探索率失真和复杂度的联合优化。因为,在运行时使用内容自适应优化能实现最大的系统吞吐量。由于动态路由的作用空间被设计为样本或区域自适应,因此它可以无缝集成到其他可行的解决方案中,以加速神经非线性变换,从而产生静态轻量级模型,并通过联合优化提高其性能。这种动态路由方法在运行时做出编码决策,这类似于现代图像/视频编码标准通常采用的传统RDO过程或快速算法。这种运行时权衡可以带来更大的灵活性,从而通过定制行为实现更好的速率失真或复杂性权衡。
用户1324186
2024/01/11
4000
ICCV 2023 | AdaNIC:通过动态变换路由实现实用的神经图像压缩
IEEE Transactions 2022 | 针对人眼感知和机器任务的可扩展图像编码
研究问题:设计分层编解码器,将隐空间的不同部分对应不同任务(图像重建/目标检测/分割)。
用户1324186
2024/01/11
3730
IEEE Transactions 2022 | 针对人眼感知和机器任务的可扩展图像编码
推荐阅读
相关推荐
CVPR 2023 | 使用混合 Transformer-CNN 架构学习图像压缩
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档