腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
腾讯云架构师技术同盟
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
腾讯云架构师技术同盟
返回腾讯云官网
AIWalker
专栏成员
举报
220
文章
307396
阅读量
29
订阅数
订阅专栏
申请加入专栏
全部文章(220)
深度学习(68)
神经网络(66)
人工智能(65)
机器学习(56)
模型(41)
性能(30)
编程算法(29)
数据(19)
图像识别(18)
https(16)
网络(14)
网络安全(13)
数据分析(13)
开源(12)
架构(12)
设计(11)
图像处理(8)
db(7)
文件存储(6)
智能推荐平台(6)
编码(6)
tcp/ip(5)
迁移(5)
image(5)
工作(5)
算法(5)
效率(5)
python(4)
node.js(4)
css(4)
linux(4)
kernel(4)
es(4)
block(4)
network(4)
测试(4)
连接(4)
论文(4)
视频(4)
优化(4)
jquery(3)
github(3)
批量计算(3)
腾讯云测试服务(3)
存储(3)
卷积神经网络(3)
监督学习(3)
架构设计(3)
学习方法(3)
code(3)
key(3)
local(3)
self(3)
token(3)
部署(3)
对象(3)
华为(3)
硬件(3)
访问管理(2)
网站(2)
缓存(2)
大数据(2)
windows(2)
epoch(2)
gan(2)
module(2)
size(2)
框架(2)
内存(2)
统计(2)
移动端(2)
人脸识别(1)
(1)
自动驾驶(1)
javascript(1)
.net(1)
html(1)
arm(1)
ide(1)
git(1)
matlab(1)
命令行工具(1)
SSL 证书(1)
数据加密服务(1)
腾讯专有云 PaaS 平台(1)
vr 视频解决方案(1)
http(1)
分布式(1)
无人驾驶(1)
面向对象编程(1)
opencv(1)
pytorch(1)
flash(1)
迁移学习(1)
机器人(1)
物联网(1)
腾讯云开发者社区(1)
信息流(1)
ghost(1)
abstract(1)
acm(1)
adobe(1)
amp(1)
anchor(1)
apple(1)
back(1)
bi(1)
branch(1)
channel(1)
ctf(1)
detection(1)
disk(1)
dynamic(1)
element(1)
filtering(1)
free(1)
frequency(1)
global(1)
gpu(1)
identity(1)
im(1)
it(1)
jpeg(1)
live(1)
map(1)
mask(1)
matching(1)
model(1)
modeling(1)
models(1)
nas(1)
object(1)
partition(1)
pixel(1)
pool(1)
procedure(1)
projection(1)
pyramid(1)
range(1)
reshape(1)
resolution(1)
search(1)
sed(1)
shift(1)
super(1)
text(1)
video(1)
vr(1)
window(1)
变量(1)
布局(1)
产品(1)
二进制(1)
翻译(1)
高性能(1)
公众号(1)
规范化(1)
后台(1)
基础(1)
计算机视觉(1)
可视化(1)
量化(1)
内核(1)
排序(1)
配置(1)
软件(1)
手机(1)
搜索(1)
索引(1)
腾讯(1)
同步(1)
通信(1)
隐私(1)
用户体验(1)
重构(1)
自然语言处理(1)
搜索文章
搜索
搜索
关闭
跳过不重要,关注关键点 ! ToSA ,优化 Transformer 层的标记处理,为密集预测任务削减计算成本 !
模型
内存
数据
网络
优化
视觉 Transformer (ViTs)[5]是许多最新计算机视觉进展的核心,自注意力在生成关键视觉特征方面发挥着关键作用。然而,自注意力的操作与输入大小成二次方计算和内存成本。这使得在高分辨率图像上运行视觉 Transformer 以及在资源受限的设备上运行变得昂贵且具有挑战性。
AIWalker
2024-06-27
179
0
揭秘神秘的种子:Adobe联合宾夕法尼亚大学发布文本到图像扩散模型大规模种子分析
adobe
测试
对象
模型
数据
最近对文本到图像(T2I)扩散模型的进展促进了创造性和逼真的图像合成。通过变化随机种子,可以为固定的文本提示生成各种图像。在技术上,种子控制着初始噪声,并且在多步扩散推理中,在反向扩散过程的中间时间步骤中用于重参数化的噪声。然而,随机种子对生成的图像的具体影响仍然相对未知。
AIWalker
2024-06-26
119
0
拳打开源SOTA脚踢商业闭源的LI-DiT是怎样炼成的?(商汤/MMLab/上海AI Lab)
开源
编码
模型
设计
性能
仅基于解码器的 Transformer 的大语言模型(LLMs)与 CLIP 和 T5 系列模型相比,已经展示出卓越的文本理解能力。然而,在文本到图像扩散模型中利用当前先进的大语言模型的范例仍有待探索。本文观察到一个不寻常的现象:直接使用大语言模型作为提示编码器会显著降低图像生成中遵循提示的能力。本文发现了这个问题背后的两个主要障碍:一个是大语言模型中下一token预测训练与扩散模型中对有区别性的提示特征的要求之间的不一致;另一个是仅解码器架构引入的内在位置偏差。为了解决这个问题,本文提出了一个新颖的框架来充分利用大语言模型的能力。通过精心设计的使用指南,有效地增强了用于提示编码的文本表示能力,并消除了其内在的位置偏差。这使得能够灵活地将最先进的大语言模型集成到文本到图像生成模型中。
AIWalker
2024-06-26
217
0
SeemoRe | 专家挖掘促进更高效超分方案,Radu Timofte团队提出SeemoRe
架构
连接
模型
效率
部署
从低分辨率(LR)输入重建高分辨率(HR)图像对图像超分辨率(SR)提出了重大挑战。虽然最近的方法已经证明了各种目标定制的复杂操作的有效性,但这些不同操作的直接堆叠可能会导致大量的计算负担,从而妨碍它们的实际用途。
AIWalker
2024-03-26
364
0
CVPR2024 | DCNv4来袭,更快收敛、更高速度、更高性能!
内存
效率
性能
高性能
模型
https://arxiv.org/pdf/2401.06197.pdf https://github.com/OpenGVLab/DCNv4
AIWalker
2024-03-18
1.5K
0
CVPR2024 | 面向语义感知真实图像超分,港理工张磊团队提出了SeeSR,已开源
对象
模型
软件
设计
开源
受益于由于强大的生成先验,预训练的文本到图像(T2I)扩散模型在解决现实世界图像超分辨率问题中变得越来越流行。然而,由于输入低分辨率(LR)图像质量严重下降,局部结构的破坏可能导致图像语义模糊,进而导致再现的高分辨率图像的内容可能具有语义错误,从而使超分辨率性能恶化。
AIWalker
2024-03-07
1.8K
0
"羊驼"入侵CV,美团&浙大沈春华团队将LLaMA向CV扩展,构建全新基础模型VisionLLaMA
性能
编码
基础
架构
模型
大型语言模型构建在基于Transformer的架构之上来处理文本输入, LLaMA 系列模型在众多开源实现中脱颖而出。类似LLaMa的Transformer可以用来处理2D图像吗?在本文中,我们通过提出一种类似 LLaMA 的朴素和金字塔形式的Transformer来回答这个问题,称为 VisionLLaMA。VisionLLaMA 是一个统一的通用建模框架,用于解决大多数视觉任务。
AIWalker
2024-03-07
238
0
CVPR2024 | Dropout之后又一改善图像超分泛化性能的正则方案SimpleAlign,已开源!
开源
迁移
论文
模型
性能
深度学习为图像超分辨率(SISR)带来了性能上的巨大飞跃。大多数现有工作都假设一个简单且固定的退化模型(例如双三次下采样),但 Blind SR 的研究旨在提高未知退化情况下的模型泛化能力。最近,Kong等人率先研究了一种更适合使用 Dropout 的 Blind SR 训练策略RDSR。尽管这种方法确实通过减轻过度拟合带来了实质性的泛化改进,但我们认为 Dropout 同时引入了不良的副作用,损害了模型忠实重建精细细节的能力。
AIWalker
2024-03-07
445
0
CVPR2024 | 进一步提升超分重建质量,中科大提出用于图像超分的语义感知判别器SeD,即将开源
开源
sed
架构
模型
网络
生成对抗网络(GAN)已被广泛用于恢复图像超分辨率(SR)任务中的生动纹理。判别器使 SR 网络能够以对抗性训练的方式学习现实世界高质量图像的分布。然而,这种分布学习过于粗粒度,容易受到虚拟纹理的影响,导致生成结果违反直觉。
AIWalker
2024-03-07
2K
0
CVPR2024 | 加速Diffusion,韩松团队提出分布式并行推理方案DistriFusion,加速6.1倍,质量不下降
算法
同步
通信
分布式
模型
扩散模型在合成高质量图像方面取得了巨大成功。然而,由于巨大的计算成本,利用扩散模型生成高分辨率图像仍然具有挑战性,导致交互式应用程序的延迟过高。在本文中,我们提出DistriFusion通过利用多个 GPU 的并行性来解决这个问题。我们的方法将模型输入拆分为多个块,并将每个块分配给GPU。
AIWalker
2024-03-07
598
0
HDSRNet | 入局图像超分,异构动态卷积玩出新花样~
卷积神经网络
架构
模型
内核
网络
卷积神经网络可以通过深度网络架构和给定的输入样本自动学习特征。然而,所获得的模型的鲁棒性在不同的场景中可能具有挑战性。网络架构的差异越大,有利于提取更多的互补结构信息,从而增强获得的超分辨率模型的鲁棒性。
AIWalker
2024-03-01
252
0
超越SwinIR,Mamba入局图像复原,达成新SOTA
工作
连接
模型
效率
性能
最近,选择性结构化状态空间模型(例如 Mamba)在具有线性复杂性的远程依赖关系建模方面表现出了巨大的潜力,但它在低级计算机视觉中仍处于探索之中。
AIWalker
2024-02-29
1K
0
起飞咯,DEYO | YOLOv8赋能DETR构建检测达成检测新标杆
性能
对象
架构
模型
数据
DETR的训练范式在很大程度上取决于在ImageNet数据集上预训练其骨干。然而,由图像分类任务和一对一匹配策略提供的有限监督信号导致DETR的预训练不充分的颈部。此外,在训练的早期阶段匹配的不稳定性会导致DETR的优化目标不一致。
AIWalker
2024-02-29
1.3K
0
BRIA.AI开源最强AI一键抠图模型RMBG,超简上手体验
开源
im
image
模型
数据
近日,BRIA.AI团队于HuggingFace开源了一个基于ISNet背景移除模型RMBG-1.4,它可以有效对前景与背景进行分离。RMBG-1.4在精心构建的数据集上训练而来,该数据包含常规图像、电商、游戏以及广告内容,该方案达到了商业级性能,但仅限于非商业用途。关于所用到的训练数据:12000+高质量&高分辨率像素级精度手工标注。更详细的数据分布介绍请移步[RMBG-1.4].
AIWalker
2024-02-17
3.1K
0
北大等提出MoE-LLaVA:将多模态大模型稀疏化
工作
可视化
模型
数据
性能
https://github.com/PKU-YuanGroup/MoE-LLaVA
AIWalker
2024-02-17
630
0
端侧高效骨干RepGhost | 重参数赋能GhostNet,达成端侧超高效骨干
数据
性能
硬件
迁移
架构
https://github.com/ChengpengChen/RepGhost
AIWalker
2024-02-17
283
0
ICCV2021 | MIMO-UNet:重新思考CTF方案达成去模糊新高度
模型
数据
性能
ctf
架构
Coarse-to-fine(CTF)策略已被广泛应用到图像去模糊领域,常规方法通常通过堆叠多尺度输入的子网络渐进提升提升输出图像的锐利度。比如DeepBlur、SRN所采用的处理策略。
AIWalker
2024-01-30
597
0
Depth Anything | 致敬SAM,港大&字节提出用于任意图像的深度估计大模型,已开源!
性能
开源
模型
设计
数据
本文提出一种用于单目深度估计(Monocular Depth Estimation, MDE)的高度实用方案Depth Anything「致敬Segment Anything」,它旨在构建一种可以处理任务环境下任意图像的简单且强力的基础深度模型。为此,作者从三个维度进行了探索:
AIWalker
2024-01-23
3.1K
0
盲图像超分 MANet:ETH团队提出空间可变模糊核估计新思路
数据
网络
性能
测试
模型
arXiv https://arxiv.org/pdf/2108.05302.pdf,
AIWalker
2024-01-17
536
0
MiOIR | 直面 “多合一”图像复原,港理工张磊团队提出MiOIR,融顺序学习与提示学习于一体!
性能
优化
测试
模型
网络
尽管单任务图像复原已取得了极大成功,但单模型处理多复原任务仍极具挑战。本文对 “多合一”图像复原任务进行了深入探索并指出其所面临的两个关键挑战并提出了对应的应对方案:
AIWalker
2024-01-17
726
0
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档