研究员

媒矿工厂

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

基于扩散模型的图像和视频生成技术取得了长足进步。为了实现个性化生成目的，许多作品在生成过程中添加了控制信号，如文本引导的图像和视频生成，以及图像引导的视频生成。

ReVideo: 使用运动和内容控制重新制作视频

单张图像的超分辨率（SR）是一项至关重要的任务，并吸引了持续的研究兴趣，这对于提高各种下游任务的低分辨率（LR）图像的质量起着至关重要的作用。从频域的角度来看，导致LR图像的自然或人为退化过程可以看作是对相应高分辨率（HR）图像的广泛低通滤波，导致高频细节的显著损失。因此，重建高质量HR图像的主要难点在于对缺失的高频信息的恢复。近年来，随着深度学习技术的不断创新，出现了各种超分辨率方法。这些方法可以分为两类，即基于回归的方法和生成方法。

使用多尺度扩散实现超分辨率的频域细化

目前，数字内容不仅被人类消费，也被计算机程序消费。通常为每个任务子集创建表示并不能随着任务数量的增加而很好地扩展，此外如果某些任务的信息已经被传输，并且现在相同的输入需要原始任务的超集，则传输新的相应表示将导致冗余信息的开销。因此，作者希望以可扩展的方式组合任务所需的信息，其中基本表示在多个任务之间共享，并且更具体的任务只需要增量信息。

ICMEW 2023 | 人类和机器可扩展编码的条件方法和残差方法

1. 按照输入generator的次序可以将18个style vectors分为三组：

通过 StyleGAN Prior 进行可扩展人脸图像编码：面向人机协作视觉的压缩

主流编码标准采用划分树结构实现块级预测和变换。以 HEVC 为例，它将图像分割成固定尺寸且互不重叠的 CTU，每个 CTU 能够进一步细分为更小的编码单元 CU 和预测单元 PU。这种结构下的候选划分模式和位置是预先设定好的，这意味着 CTU 或 CU 的边界并不总是与文本字符的边界重合，进而导致字符在像素层面的完整性受到破坏。特别是在字符跨越 CTU 边界的情况下，会出现大量小尺寸的 CU，造成预测效率下降以及不必要的比特率消耗，如下图所示。

TCSVT 2024 | 位置感知的屏幕文本内容编码

大语言模型（LLM）的巨大成功和推广性带来了多模态大型语言模型（MLLM）的新研究趋势。我们想知道 LLM 可以给计算机视觉带来多大的好处，以实现更好的性能并实现真正的智能。最近对 MLLM 的尝试在图像字幕和视觉问答 (VQA) 等高级视觉任务上展示了很好的结果。然后我们对它在低级视觉任务上的能力感到好奇，比如图像去噪和去雨。另一方面，由于现有的工作已经证明LLM已经可以理解语义图像特征，那么它们距离直接生成图像作为生成模型还有多远？所有这些都集中到同一个问题：是否可以利用 MLLM 来接受、处理和输出低级特征？这对于进一步突破 MLLM 和低级视觉的极限非常重要。我们将在这项工作中进行初步的探索。

LM4LV：用于低级视觉任务的冻结大型语言模型

视觉信号压缩旨在最小化图像数据，在网络资源和存储容量有限的情况下，提高图像/视频的服务质量。自1991年以来，视觉信号的压缩率每十年增长一倍。然而，在即将到来的下一个十年，传统编解码器面对1,000倍压缩的超低比特率需求，已经经触及了香农极限。幸运的是，多模态大模型 （Large Multimodal Model, LMM） 的快速发展，为超低比特率的压缩提供了可能。

CMC-Bench：视觉信号压缩的新范式

动机：本文作者的前一篇文章构建了一个基于transformer的上下文模型，这篇文章采用对latent tensor分组、优化训练策略等方式降低模型复杂度。

Efficient Contextformer：利用空间通道窗口注意力机制实现可学习图像压缩中的快速上下文建模

本文介绍了一种在视频时长和任务范围内通用的视频修复方法。本文认为对用户而言最直接的视频编辑方法是在首帧给定mask并进行文字编辑。给定一个视频，一个初始帧的mask区域和一个编辑提示，该任务需要一个模型在每一帧按照编辑指导进行填充，同时保持mask外区域的完整性。难点有三：1）时域一致性 2）在不同的结构保真度水平下支持不同的修复类型 3）处理任意长度的视频

CVPR 2024 | AVID: 基于扩散模型的任意长视频修复

现有的3D姿态估计和生成系统被限制在狭窄的任务中。这与LLMs所展示的通用推理能力形成了对比。现有的多模态LLMs能够感知和解释图像中的信息，并基于丰富的世界知识进行推理，特别擅长描述场景，包括人物的外貌、活动和高级行为。如果LLM能将这种通用知识与3D人体姿态和运动联系起来，它将拥有超越现有解决方案的强大推理能力。

CVPR 2024 | ChatPose: 谈谈3D人体姿态

说话脸生成技术可以根据输入的音频合成与目标人物相符的逼真视频肖像。它在虚拟化身、在线会议和动画电影等应用中展现了巨大的潜力，因为它不仅传达了感兴趣人物的音频内容，还提供了视觉内容。

TPAMI 2024 | 记忆机制提升 TalkingFace 生成

仅解码器的生成模型在文本、蛋白质、音频、图像和状态序列等多种模态中已经展示了它们能够通过下一个Token预测生成有用的表示，并成功生成新序列。然而，由于世界本质上是多模态的，最近的研究尝试创建能够同时在多个模态中生成输出的多模态模型。这通常通过在预训练或后续微调阶段进行某种形式的词汇扩展（将多模态表示转换为离散标记并将其添加到模型的基本词汇表中）来实现。虽然多模态预训练具有强大的性能优势，但也存在一些问题，如添加新模态后需要从头训练新的模型，并进行超参数搜索，以确定各模态之间的最佳训练数据比例，这使得这种解决方案不适合较小的模态。另一种方法是在预训练后进行词汇扩展，将未见过该模态的模型微调到该模态，但这会破坏原有模型的强大能力，仅能执行微调后的跨模态任务。

Zipper: 一种融合多种模态的多塔解码器架构

图 1：我们的 3D 高斯混合形状类似于经典参数化人脸模型中的网格混合形状，以表情系数线性混合，实时合成逼真的人脸动画。

SIGGRAPH 2024 | 头像化身动画的 3D 高斯 Blendshapes

真实渲染和人体动态是一个重要的研究领域，具有在AR/VR、视觉特效、虚拟试衣、电影制作等众多应用。早期的工作创建人类化身依赖于多相机捕捉设置中的高质量数据捕捉、大量计算和大量手工努力。最近的工作通过使用3D参数化身体模型如SMPL，直接从视频生成3D化身来解决这些问题，这些模型具有高效光栅化和适应未见变形的能力。然而，参数化模型的固定拓扑结构限制了对衣物、复杂发型和其他几何细节的建模。最近的进展探索了使用神经场来建模3D人类化身，通常使用参数化身体模型作为建模变形的模版。神经场在捕捉衣物、配饰和头发等细节方面表现出色，超越了通过纹理和其他属性光栅化参数化模型所能实现的质量。然而，它们也有不足，特别是在训练和渲染效率方面较低。

CVPR2024 | HUGS：人体高斯溅射

从稀疏输入合成新视图对于辐射场来说是一个挑战。神经辐射场(NeRF)的最新进展在仅使用少量输入视图就能重建出高度逼真的外观和准确的几何信息方面取得了卓越成果。然而,大部分基于稀疏视图的NeRF实现速度较慢,内存消耗也较大,导致时间和计算成本很高,限制了它们的实际应用。

CVPR 2024 | DNGaussian: 全局局部深度归一化优化的稀疏三维高斯辐射场

CJ Desai：本次主题演讲中我将向你们介绍我们的平台核心、服务管理、员工体验、顾客服务以及生成式AI，并且请到了一位特殊嘉宾，他将为我们分享 AI 的未来走向。

通过 ServiceNow 平台释放生成式 AI 的力量

Transformer在自然语言处理方面取得了极大成功，而ViT将Transformer改进到了一系列计算机视觉任务上，包括图像分类、对象检测、语义分割等，同样取得了令人印象深刻的结果。而训练一个高效的ViT通常需要大规模的有监督数据集，预训练的ViT通过使用数亿张标记图像来获得良好的性能。对于视频任务中的Transformer，它们通常基于图像任务中的Transformer，并且在很大程度上依赖于来自大规模图像数据的预训练模型（例如在ImageNet上进行预训练）。

NeurIPS 2022 | VideoMAE：掩蔽自编码器是自监督视频预训练的高效数据学习器

传统的视频质量评价指标包括 PSNR 和 SSIM 等。而 VMAF 由 Netflix于 2017 年提出，是一种全参考的视频质量评价指标，分数范围由 0 到 100，越高代表质量越好。VMAF 试图准确地捕捉人类的感知，将人类视觉建模与不断发展的机器学习技术相结合，使其能够适应新的内容，在与人类视觉感知保持一致方面表现出色。VMAF 现在已经被 Netflix，Snap，V-Nova等公司采用。

GTC 2024 | 使用NVIDIA GPU和VMAF-CUDA计算视频质量

近年来，实时通信（RTC）已成为一项重要的通信技术，并得到了广泛的应用，包括低延迟直播，视频会议和云游戏。RTC 系统的首要目标是提供高质量的视频和音频并确保稳定的通信过程（例如，避免卡顿、视频模糊）。为了实现这一目标，现有的 RTC 系统（如 WebRTC）基于动态的网络条件预测链路带宽并自适应地调整传输视频质量。主流的带宽预测方法可以分为两类: 启发式算法和机器学习算法。常用的启发式带宽预测算法有 WebRTC 框架中的Google拥塞控制（GCC）。GCC主要通过监测链路的往返时间（RTT）变化来预测带宽。虽然 GCC 展示了其主动避免拥塞的高灵敏度，但现实世界RTC流的复杂性和可变性可能会干扰 GCC 的准确性。而机器学习方案包括在线强化学习与模仿学习，不仅具有很高的训练成本，同时一般基于模拟的网络环境进行训练，往往在真实世界中鲁棒性较差。因此本文提出了一类低成本，高泛化性能的离线训练模型以优化各种网络环境中的用户体验质量（QoE）。

MMsys'24 | 基于离线强化学习的实时流媒体带宽精确预测

近年来，随着 RTC 使用量的显着增长，在网络状况不佳的情况下时常发生数据丢包。数据包丢失在计算机网络中是常见现象，也是网络弹性面临的主要挑战之一。在 RTC 环境中，数据恢复不仅应该实时进行，还要利用尽可能减少带宽的占用。在视频中，作者深入探讨了如何增强视频网络在丢包场景下的弹性。

RTC @scale 2024 | 通过LTR和RS码增强实时通信 (RTC) 网络弹性

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了媒矿工厂专栏，为你提供了媒矿工厂的相关文章，致力于帮助开发者快速成长与发展。

媒矿工厂

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐