首页
学习
活动
专区
工具
TVP
发布

AIWalker

专栏成员
220
文章
260474
阅读量
29
订阅数
跳过不重要,关注关键点 ! ToSA ,优化 Transformer 层的标记处理,为密集预测任务削减计算成本 !
视觉 Transformer (ViTs)[5]是许多最新计算机视觉进展的核心,自注意力在生成关键视觉特征方面发挥着关键作用。然而,自注意力的操作与输入大小成二次方计算和内存成本。这使得在高分辨率图像上运行视觉 Transformer 以及在资源受限的设备上运行变得昂贵且具有挑战性。
AIWalker
2024-06-27
760
揭秘神秘的种子:Adobe联合宾夕法尼亚大学发布文本到图像扩散模型大规模种子分析
最近对文本到图像(T2I)扩散模型的进展促进了创造性和逼真的图像合成。通过变化随机种子,可以为固定的文本提示生成各种图像。在技术上,种子控制着初始噪声,并且在多步扩散推理中,在反向扩散过程的中间时间步骤中用于重参数化的噪声。然而,随机种子对生成的图像的具体影响仍然相对未知。
AIWalker
2024-06-26
750
拳打开源SOTA脚踢商业闭源的LI-DiT是怎样炼成的?(商汤/MMLab/上海AI Lab)
仅基于解码器的 Transformer 的大语言模型(LLMs)与 CLIP 和 T5 系列模型相比,已经展示出卓越的文本理解能力。然而,在文本到图像扩散模型中利用当前先进的大语言模型的范例仍有待探索。本文观察到一个不寻常的现象:直接使用大语言模型作为提示编码器会显著降低图像生成中遵循提示的能力。本文发现了这个问题背后的两个主要障碍:一个是大语言模型中下一token预测训练与扩散模型中对有区别性的提示特征的要求之间的不一致;另一个是仅解码器架构引入的内在位置偏差。为了解决这个问题,本文提出了一个新颖的框架来充分利用大语言模型的能力。通过精心设计的使用指南,有效地增强了用于提示编码的文本表示能力,并消除了其内在的位置偏差。这使得能够灵活地将最先进的大语言模型集成到文本到图像生成模型中。
AIWalker
2024-06-26
1170
SeemoRe | 专家挖掘促进更高效超分方案,Radu Timofte团队提出SeemoRe
从低分辨率(LR)输入重建高分辨率(HR)图像对图像超分辨率(SR)提出了重大挑战。虽然最近的方法已经证明了各种目标定制的复杂操作的有效性,但这些不同操作的直接堆叠可能会导致大量的计算负担,从而妨碍它们的实际用途。
AIWalker
2024-03-26
2210
CVPR2024 | DCNv4来袭,更快收敛、更高速度、更高性能!
https://arxiv.org/pdf/2401.06197.pdf https://github.com/OpenGVLab/DCNv4
AIWalker
2024-03-18
6810
CVPR2024 | 面向语义感知真实图像超分,港理工张磊团队提出了SeeSR,已开源
受益于由于强大的生成先验,预训练的文本到图像(T2I)扩散模型在解决现实世界图像超分辨率问题中变得越来越流行。然而,由于输入低分辨率(LR)图像质量严重下降,局部结构的破坏可能导致图像语义模糊,进而导致再现的高分辨率图像的内容可能具有语义错误,从而使超分辨率性能恶化。
AIWalker
2024-03-07
7170
"羊驼"入侵CV,美团&浙大沈春华团队将LLaMA向CV扩展,构建全新基础模型VisionLLaMA
大型语言模型构建在基于Transformer的架构之上来处理文本输入, LLaMA 系列模型在众多开源实现中脱颖而出。类似LLaMa的Transformer可以用来处理2D图像吗?在本文中,我们通过提出一种类似 LLaMA 的朴素和金字塔形式的Transformer来回答这个问题,称为 VisionLLaMA。VisionLLaMA 是一个统一的通用建模框架,用于解决大多数视觉任务。
AIWalker
2024-03-07
1770
CVPR2024 | Dropout之后又一改善图像超分泛化性能的正则方案SimpleAlign,已开源!
深度学习为图像超分辨率(SISR)带来了性能上的巨大飞跃。大多数现有工作都假设一个简单且固定的退化模型(例如双三次下采样),但 Blind SR 的研究旨在提高未知退化情况下的模型泛化能力。最近,Kong等人率先研究了一种更适合使用 Dropout 的 Blind SR 训练策略RDSR。尽管这种方法确实通过减轻过度拟合带来了实质性的泛化改进,但我们认为 Dropout 同时引入了不良的副作用,损害了模型忠实重建精细细节的能力。
AIWalker
2024-03-07
2780
CVPR2024 | 进一步提升超分重建质量,中科大提出用于图像超分的语义感知判别器SeD,即将开源
生成对抗网络(GAN)已被广泛用于恢复图像超分辨率(SR)任务中的生动纹理。判别器使 SR 网络能够以对抗性训练的方式学习现实世界高质量图像的分布。然而,这种分布学习过于粗粒度,容易受到虚拟纹理的影响,导致生成结果违反直觉。
AIWalker
2024-03-07
8960
CVPR2024 | 加速Diffusion,韩松团队提出分布式并行推理方案DistriFusion,加速6.1倍,质量不下降
扩散模型在合成高质量图像方面取得了巨大成功。然而,由于巨大的计算成本,利用扩散模型生成高分辨率图像仍然具有挑战性,导致交互式应用程序的延迟过高。在本文中,我们提出DistriFusion通过利用多个 GPU 的并行性来解决这个问题。我们的方法将模型输入拆分为多个块,并将每个块分配给GPU。
AIWalker
2024-03-07
3490
HDSRNet | 入局图像超分,异构动态卷积玩出新花样~
卷积神经网络可以通过深度网络架构和给定的输入样本自动学习特征。然而,所获得的模型的鲁棒性在不同的场景中可能具有挑战性。网络架构的差异越大,有利于提取更多的互补结构信息,从而增强获得的超分辨率模型的鲁棒性。
AIWalker
2024-03-01
1720
超越SwinIR,Mamba入局图像复原,达成新SOTA
最近,选择性结构化状态空间模型(例如 Mamba)在具有线性复杂性的远程依赖关系建模方面表现出了巨大的潜力,但它在低级计算机视觉中仍处于探索之中。
AIWalker
2024-02-29
6630
起飞咯,DEYO | YOLOv8赋能DETR构建检测达成检测新标杆
DETR的训练范式在很大程度上取决于在ImageNet数据集上预训练其骨干。然而,由图像分类任务和一对一匹配策略提供的有限监督信号导致DETR的预训练不充分的颈部。此外,在训练的早期阶段匹配的不稳定性会导致DETR的优化目标不一致。
AIWalker
2024-02-29
7640
BRIA.AI开源最强AI一键抠图模型RMBG,超简上手体验
近日,BRIA.AI团队于HuggingFace开源了一个基于ISNet背景移除模型RMBG-1.4,它可以有效对前景与背景进行分离。RMBG-1.4在精心构建的数据集上训练而来,该数据包含常规图像、电商、游戏以及广告内容,该方案达到了商业级性能,但仅限于非商业用途。关于所用到的训练数据:12000+高质量&高分辨率像素级精度手工标注。更详细的数据分布介绍请移步[RMBG-1.4].
AIWalker
2024-02-17
1.7K0
北大等提出MoE-LLaVA:将多模态大模型稀疏化
https://github.com/PKU-YuanGroup/MoE-LLaVA
AIWalker
2024-02-17
3660
端侧高效骨干RepGhost | 重参数赋能GhostNet,达成端侧超高效骨干
https://github.com/ChengpengChen/RepGhost
AIWalker
2024-02-17
1940
ICCV2021 | MIMO-UNet:重新思考CTF方案达成去模糊新高度
Coarse-to-fine(CTF)策略已被广泛应用到图像去模糊领域,常规方法通常通过堆叠多尺度输入的子网络渐进提升提升输出图像的锐利度。比如DeepBlur、SRN所采用的处理策略。
AIWalker
2024-01-30
3260
Depth Anything | 致敬SAM,港大&字节提出用于任意图像的深度估计大模型,已开源!
本文提出一种用于单目深度估计(Monocular Depth Estimation, MDE)的高度实用方案Depth Anything「致敬Segment Anything」,它旨在构建一种可以处理任务环境下任意图像的简单且强力的基础深度模型。为此,作者从三个维度进行了探索:
AIWalker
2024-01-23
2K0
盲图像超分 MANet:ETH团队提出空间可变模糊核估计新思路
arXiv https://arxiv.org/pdf/2108.05302.pdf,
AIWalker
2024-01-17
3330
MiOIR | 直面 “多合一”图像复原,港理工张磊团队提出MiOIR,融顺序学习与提示学习于一体!
尽管单任务图像复原已取得了极大成功,但单模型处理多复原任务仍极具挑战。本文对 “多合一”图像复原任务进行了深入探索并指出其所面临的两个关键挑战并提出了对应的应对方案:
AIWalker
2024-01-17
3970
点击加载更多
社区活动
AI代码助手快速上手训练营
鹅厂大牛带你玩转AI智能结对编程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档