暂无搜索历史
视觉 Transformer (ViTs)[5]是许多最新计算机视觉进展的核心,自注意力在生成关键视觉特征方面发挥着关键作用。然而,自注意力的操作与输入大小成二...
最近对文本到图像(T2I)扩散模型的进展促进了创造性和逼真的图像合成。通过变化随机种子,可以为固定的文本提示生成各种图像。在技术上,种子控制着初始噪声,并且在多...
仅基于解码器的 Transformer 的大语言模型(LLMs)与 CLIP 和 T5 系列模型相比,已经展示出卓越的文本理解能力。然而,在文本到图像扩散模型中...
从低分辨率(LR)输入重建高分辨率(HR)图像对图像超分辨率(SR)提出了重大挑战。虽然最近的方法已经证明了各种目标定制的复杂操作的有效性,但这些不同操作的直接...
https://arxiv.org/pdf/2401.06197.pdf https://github.com/OpenGVLab/DCNv4
受益于由于强大的生成先验,预训练的文本到图像(T2I)扩散模型在解决现实世界图像超分辨率问题中变得越来越流行。然而,由于输入低分辨率(LR)图像质量严重下降,局...
大型语言模型构建在基于Transformer的架构之上来处理文本输入, LLaMA 系列模型在众多开源实现中脱颖而出。类似LLaMa的Transformer可以...
深度学习为图像超分辨率(SISR)带来了性能上的巨大飞跃。大多数现有工作都假设一个简单且固定的退化模型(例如双三次下采样),但 Blind SR 的研究旨在提高...
生成对抗网络(GAN)已被广泛用于恢复图像超分辨率(SR)任务中的生动纹理。判别器使 SR 网络能够以对抗性训练的方式学习现实世界高质量图像的分布。然而,这种分...
扩散模型在合成高质量图像方面取得了巨大成功。然而,由于巨大的计算成本,利用扩散模型生成高分辨率图像仍然具有挑战性,导致交互式应用程序的延迟过高。在本文中,我们提...
卷积神经网络可以通过深度网络架构和给定的输入样本自动学习特征。然而,所获得的模型的鲁棒性在不同的场景中可能具有挑战性。网络架构的差异越大,有利于提取更多的互补结...
最近,选择性结构化状态空间模型(例如 Mamba)在具有线性复杂性的远程依赖关系建模方面表现出了巨大的潜力,但它在低级计算机视觉中仍处于探索之中。
DETR的训练范式在很大程度上取决于在ImageNet数据集上预训练其骨干。然而,由图像分类任务和一对一匹配策略提供的有限监督信号导致DETR的预训练不充分的颈...
近日,BRIA.AI团队于HuggingFace开源了一个基于ISNet背景移除模型RMBG-1.4,它可以有效对前景与背景进行分离。RMBG-1.4在精心构建...
https://github.com/PKU-YuanGroup/MoE-LLaVA
https://github.com/ChengpengChen/RepGhost
Coarse-to-fine(CTF)策略已被广泛应用到图像去模糊领域,常规方法通常通过堆叠多尺度输入的子网络渐进提升提升输出图像的锐利度。比如DeepBlur...
本文提出一种用于单目深度估计(Monocular Depth Estimation, MDE)的高度实用方案Depth Anything「致敬Segment A...
arXiv https://arxiv.org/pdf/2108.05302.pdf,
尽管单任务图像复原已取得了极大成功,但单模型处理多复原任务仍极具挑战。本文对 “多合一”图像复原任务进行了深入探索并指出其所面临的两个关键挑战并提出了对应的应对...
暂未填写公司和职称
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市