AIWalker

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

视觉 Transformer （ViTs）[5]是许多最新计算机视觉进展的核心，自注意力在生成关键视觉特征方面发挥着关键作用。然而，自注意力的操作与输入大小成二次方计算和内存成本。这使得在高分辨率图像上运行视觉 Transformer 以及在资源受限的设备上运行变得昂贵且具有挑战性。

跳过不重要，关注关键点 ！ ToSA ，优化 Transformer 层的标记处理，为密集预测任务削减计算成本 ！

最近对文本到图像（T2I）扩散模型的进展促进了创造性和逼真的图像合成。通过变化随机种子，可以为固定的文本提示生成各种图像。在技术上，种子控制着初始噪声，并且在多步扩散推理中，在反向扩散过程的中间时间步骤中用于重参数化的噪声。然而，随机种子对生成的图像的具体影响仍然相对未知。

揭秘神秘的种子：Adobe联合宾夕法尼亚大学发布文本到图像扩散模型大规模种子分析

仅基于解码器的 Transformer 的大语言模型（LLMs）与 CLIP 和 T5 系列模型相比，已经展示出卓越的文本理解能力。然而，在文本到图像扩散模型中利用当前先进的大语言模型的范例仍有待探索。本文观察到一个不寻常的现象：直接使用大语言模型作为提示编码器会显著降低图像生成中遵循提示的能力。本文发现了这个问题背后的两个主要障碍：一个是大语言模型中下一token预测训练与扩散模型中对有区别性的提示特征的要求之间的不一致；另一个是仅解码器架构引入的内在位置偏差。为了解决这个问题，本文提出了一个新颖的框架来充分利用大语言模型的能力。通过精心设计的使用指南，有效地增强了用于提示编码的文本表示能力，并消除了其内在的位置偏差。这使得能够灵活地将最先进的大语言模型集成到文本到图像生成模型中。

拳打开源SOTA脚踢商业闭源的LI-DiT是怎样炼成的？（商汤/MMLab/上海AI Lab）

从低分辨率（LR）输入重建高分辨率（HR）图像对图像超分辨率（SR）提出了重大挑战。虽然最近的方法已经证明了各种目标定制的复杂操作的有效性，但这些不同操作的直接堆叠可能会导致大量的计算负担，从而妨碍它们的实际用途。

SeemoRe | 专家挖掘促进更高效超分方案，Radu Timofte团队提出SeemoRe

https://arxiv.org/pdf/2401.06197.pdf https://github.com/OpenGVLab/DCNv4

CVPR2024 | DCNv4来袭，更快收敛、更高速度、更高性能！

受益于由于强大的生成先验，预训练的文本到图像（T2I）扩散模型在解决现实世界图像超分辨率问题中变得越来越流行。然而，由于输入低分辨率（LR）图像质量严重下降，局部结构的破坏可能导致图像语义模糊，进而导致再现的高分辨率图像的内容可能具有语义错误，从而使超分辨率性能恶化。

CVPR2024 | 面向语义感知真实图像超分，港理工张磊团队提出了SeeSR，已开源

大型语言模型构建在基于Transformer的架构之上来处理文本输入, LLaMA 系列模型在众多开源实现中脱颖而出。类似LLaMa的Transformer可以用来处理2D图像吗？在本文中，我们通过提出一种类似 LLaMA 的朴素和金字塔形式的Transformer来回答这个问题，称为 VisionLLaMA。VisionLLaMA 是一个统一的通用建模框架，用于解决大多数视觉任务。

"羊驼"入侵CV，美团&浙大沈春华团队将LLaMA向CV扩展，构建全新基础模型VisionLLaMA

深度学习为图像超分辨率（SISR）带来了性能上的巨大飞跃。大多数现有工作都假设一个简单且固定的退化模型（例如双三次下采样），但 Blind SR 的研究旨在提高未知退化情况下的模型泛化能力。最近，Kong等人率先研究了一种更适合使用 Dropout 的 Blind SR 训练策略RDSR。尽管这种方法确实通过减轻过度拟合带来了实质性的泛化改进，但我们认为 Dropout 同时引入了不良的副作用，损害了模型忠实重建精细细节的能力。

CVPR2024 | Dropout之后又一改善图像超分泛化性能的正则方案SimpleAlign，已开源！

生成对抗网络（GAN）已被广泛用于恢复图像超分辨率（SR）任务中的生动纹理。判别器使 SR 网络能够以对抗性训练的方式学习现实世界高质量图像的分布。然而，这种分布学习过于粗粒度，容易受到虚拟纹理的影响，导致生成结果违反直觉。

CVPR2024 | 进一步提升超分重建质量，中科大提出用于图像超分的语义感知判别器SeD，即将开源

扩散模型在合成高质量图像方面取得了巨大成功。然而，由于巨大的计算成本，利用扩散模型生成高分辨率图像仍然具有挑战性，导致交互式应用程序的延迟过高。在本文中，我们提出DistriFusion通过利用多个 GPU 的并行性来解决这个问题。我们的方法将模型输入拆分为多个块，并将每个块分配给GPU。

CVPR2024 | 加速Diffusion，韩松团队提出分布式并行推理方案DistriFusion，加速6.1倍，质量不下降

卷积神经网络可以通过深度网络架构和给定的输入样本自动学习特征。然而，所获得的模型的鲁棒性在不同的场景中可能具有挑战性。网络架构的差异越大，有利于提取更多的互补结构信息，从而增强获得的超分辨率模型的鲁棒性。

HDSRNet | 入局图像超分，异构动态卷积玩出新花样~

最近，选择性结构化状态空间模型（例如 Mamba）在具有线性复杂性的远程依赖关系建模方面表现出了巨大的潜力，但它在低级计算机视觉中仍处于探索之中。

超越SwinIR，Mamba入局图像复原，达成新SOTA

DETR的训练范式在很大程度上取决于在ImageNet数据集上预训练其骨干。然而，由图像分类任务和一对一匹配策略提供的有限监督信号导致DETR的预训练不充分的颈部。此外，在训练的早期阶段匹配的不稳定性会导致DETR的优化目标不一致。

起飞咯，DEYO | YOLOv8赋能DETR构建检测达成检测新标杆

近日，BRIA.AI团队于HuggingFace开源了一个基于ISNet背景移除模型RMBG-1.4，它可以有效对前景与背景进行分离。RMBG-1.4在精心构建的数据集上训练而来，该数据包含常规图像、电商、游戏以及广告内容，该方案达到了商业级性能，但仅限于非商业用途。关于所用到的训练数据：12000+高质量&高分辨率像素级精度手工标注。更详细的数据分布介绍请移步[RMBG-1.4].

BRIA.AI开源最强AI一键抠图模型RMBG，超简上手体验

https://github.com/PKU-YuanGroup/MoE-LLaVA

北大等提出MoE-LLaVA：将多模态大模型稀疏化

https://github.com/ChengpengChen/RepGhost

端侧高效骨干RepGhost | 重参数赋能GhostNet，达成端侧超高效骨干

Coarse-to-fine(CTF)策略已被广泛应用到图像去模糊领域，常规方法通常通过堆叠多尺度输入的子网络渐进提升提升输出图像的锐利度。比如DeepBlur、SRN所采用的处理策略。

ICCV2021 | MIMO-UNet:重新思考CTF方案达成去模糊新高度

本文提出一种用于单目深度估计(Monocular Depth Estimation, MDE)的高度实用方案Depth Anything「致敬Segment Anything」，它旨在构建一种可以处理任务环境下任意图像的简单且强力的基础深度模型。为此，作者从三个维度进行了探索：

Depth Anything | 致敬SAM，港大&字节提出用于任意图像的深度估计大模型，已开源！

arXiv https://arxiv.org/pdf/2108.05302.pdf,

盲图像超分 MANet：ETH团队提出空间可变模糊核估计新思路

尽管单任务图像复原已取得了极大成功，但单模型处理多复原任务仍极具挑战。本文对 “多合一”图像复原任务进行了深入探索并指出其所面临的两个关键挑战并提出了对应的应对方案：

MiOIR | 直面 “多合一”图像复原，港理工张磊团队提出MiOIR，融顺序学习与提示学习于一体！

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了AIWalker专栏，为你提供了AIWalker的相关文章，致力于帮助开发者快速成长与发展。

AIWalker

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐