CVPR 2023(The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2023,国际计算机视觉与模式识别会议)于6月18日-22日在加拿大温哥华召开。
本文以腾讯产学科研合作项目产出论文为主,收集了CVPR2023腾讯部分入选论文的报告视频,涉及三维计算机视觉、图像及三维内容生成、多模态预训练、人脸识别、目标检测等研究领域,希望有助于读者了解相关领域研究进展。
三维计算机视觉
1. High-Fidelity Clothed Avatar Reconstruction from a Single Image
产学科研合作项目团队:中国科学院自动化研究所雷震团队、腾讯AI Lab
报告嘉宾:朱翔昱,中国科学院自动化研究所模式识别国家重点实验室副研究员。长期从事三维人脸/人体重建、人脸识别、可解释神经网络等方面的相关理论研究与应用。
论文摘要:本文提出了一个高效的三维可动人型(avatar)重建框架。通过结合优化方法的高精度和学习方法的高效率,提出了一种从粗到细的方法来实现从单一图像到高保真的可动人形的重建方法。具体来说,在第一阶段,通过一个隐式模型以基于学习的方式学习人在标准姿态空间中的人体形状。在第二阶段,以优化的方式通过估计非刚性形变来细化表面细节。其中,一个超网络被用来为重建网络生成一个良好的初始化,大大加快了优化过程的收敛。在各种数据集上进行的大量实验表明,所提出的方法成功重建了高保真可动人型。
(点击上方图片查看论文报告视频)
2.HRDFuse: Monocular 360°Depth Estimation by Collaboratively Learning Holistic-with-Regional Depth Distributions
产学科研合作项目团队:香港科技大学 (广州)王林教授团队、腾讯PCG ARC Lab
报告嘉宾:王林,香港科技大学(广州)人工智能学域助理教授及香港科技大学计算机系联署助理教授,并同时担任人工智能学域本科事务主任。王老师博士毕业于韩国科学技术院(KAIST, QS Top 40) 人工智能专业并留校开展博士后研究。王老师主要学术研究方向为基于生物感知驱动的机器视觉、三维视觉、智能系统(XR,机器人)、视觉与人机交互等。近三年在视觉、机器人、人机交互等期刊会议发表高质量论文30余篇,部分研究成果用于工业领域。担任视觉、机器人、人机交互等会议及期刊 CVPR, IEEE TPAMI, IEEE RA-L等程序委员会委员,并任深圳锐思科技专家顾问、广州市元宇宙专家库成员、云从科技项目评审专家库成员等。曾获KAIST博士最高博士研究成果奖、CCF-腾讯犀牛鸟基金学者等荣誉。
论文摘要:由于360° 图像对场景的整体感知,单目 360° 图像的深度估计是一个很受关注的问题。最近,一些方法,例如 OmniFusion,已经应用切线投影 (TP) 来表示 360° 图像并通过 回归预测每一张切线投影切片的深度值,合并这些切片的深度值以获得等距柱状投影 (ERP) 格式的深度图。然而,这些方法存在以下问题:1)合并大量补丁的过程复杂并且困难;2)通过直接回归每个像素的深度值并不能很好的捕捉全面和区域协同的上下文信息。在本文中,我们提出了一个新颖的框架 HRDFuse,它巧妙地结合了卷积神经网络 (CNN) 和转换器的潜力,并通过协同学习分析来自 ERP 的整体上下文信息和来自 TP 的区域结构信息。首先,我们提出了一个空间特征对齐 (SFA) 模块,该模块学习 TP 和 ERP 之间的特征相似性,以将 TP 特征以像素方式聚合成完整的 ERP 特征图。其次,我们提出了一个协作深度分布分类 (CDDC) 模块,该模块学习 ERP 和 TP 深度分布的整体区域直方图,并直方图分布中心的线性组合因此来预测最终的深度值。最后,我们自适应地结合来自 ERP 和 TP 的深度预测以获得最终的深度图。大量实验表明,我们的方法可以预测更平滑和准确的深度结果,同时取得比 SOTA 方法更好的结果。
(点击上方图片查看论文报告视频)
3.NeAT: Learning Neural Implicit Surfaces With Arbitrary Topologies From Multi-View Images
报告嘉宾:孟晓旭,腾讯游戏研发效能部数字内容技术中心研究员。2015年本科毕业于上海交通大学,2020年于美国马里兰大学帕克分校获得博士学位。主要研究方向为可微分渲染,注视点渲染,光线追踪的渲染与降噪。
论文摘要:神经辐射场结合可微分渲染可以说是当前最流行的三维重建方法,然而当前的可微分渲染方法只支持重建闭合曲面(表面紧凑且没有边界的表面,如球体),不支持重建开放曲面(具有开放边界的表面,如服装、纸张、植物叶片)。因此,各类游戏场景中常见的植物叶片、花朵,以及游戏人物身上的服装等等含有开放曲面的三维模型无法直接通过可微分渲染进行重建,只能依赖手工建模。手工建模增加了游戏内容制作的时间成本和人力成本,为游戏开发带来大量额外开销。来自腾讯数字内容技术中心的研究者们提出了一种创新的可微分渲染管线,支持从多视角图片重建的任意隐式曲面,并支持快速导出高质量三维模型。
(点击上方图片查看论文报告视频)
报告嘉宾:Haozheng Yu, 腾讯多媒体实验室实习生,明尼苏达大学,研究领域为三维重建,深度学习,计算机视觉。
论文摘要:室内 360 度全景图像具有两个基本属性:(1) 全景图在水平方向上是连续且无缝的;(2)重力对于室内环境的设计至关重要。基于这些属性,我们提出了PanelNet,一个通过新颖的360 度全景图像的面板表示方法进行室内环境理解的框架。我们将全景图表示为连续的纵向面板以及相应的三维几何坐标。为了减小全景图畸变带来的负面影响,我们引入了一个面板几何嵌入网络。该网络能够编码面板的局部和全局几何特征。为了捕捉室内设计中的几何上下文关系,我们设计了Local2Global Transformer, 它能够聚合面板内的局部信息以及面板之间的全局上下文信息,并以较小的训练开销极大地提升了模型的性能。我们的方法在室内深度估计任务中展现出了优于现有方法的性能,并且在室内布局估计以及语义分割任务中也展现出了与最优方法相比富有竞争力的结果。
(点击上方图片查看论文报告视频)
图像及三维内容生成
论文摘要:近期,扩散模型在图像生成领域取得了巨大成功。但在生成图像对应由多个物体构成的复杂场景布局图时,如何对每个物体既施加较强布局图全局引导又对物体局部细节进行精准控制,仍是一项富有挑战性的任务。在本工作中,我们提出了一种LayoutDiffusion 扩散生成模型,它相比之前所有模型具有更好的图像生成质量和更强的可控性。在具体模块设计上,为了解决图像和布局图多模态融合的困难,我们将图像分为若干表征局部信息的结构图像块,并将结构图像块认为是一种特殊的布局,以统一的布局形式与布局图中的正常布局进行融合。此外,我们提出了对物体位置信息敏感的布局融合模块(LFM)和对象感知交叉注意力机制(OaCA),来建模多个物体之间的关系,以便精确控制物体之间的空间位置关系。在多个数据集上的实验表明,LayoutDiffusion 在 FID、CAS等指标上优于之前的最优模型,具体而言,在 COCO-stuff 上的FID、CAS分别为 46.35%、26.70%,在 VG 上分别为 44.29%、41.82%。
(点击上方图片查看论文报告视频)
人脸识别
产学科研合作项目团队:加州大学河滨分校刘聪老师团队、腾讯优图实验室
报告嘉宾:尹邦杰,腾讯优图实验室计算机视觉研究员,主要研究方向为人脸安全,对抗攻防,视频编辑检测以及活体检测,目前在人脸识别对抗攻防领域发表多篇顶会文章,同时在视频人脸编辑检测和活体检测领域也发表了相关论文并支持了多个相关业务,发挥了重要的作用。
论文摘要:在人脸识别攻击领域,我们研发了高迁移性的黑盒攻击方法。传统方法都是通过多个人脸识别模型来联合生成高迁移性的对抗样本,经我们的探究发现,人脸属性识别模型和人脸识别模型联合生成的对抗样本具有更强的黑盒攻击迁移性。实验结果表明,本方法的攻击迁移成功率超过基本上所有的前沿黑盒迁移性攻击方法,特别是在目前的主流商用人脸识别平台上,攻击迁移性更佳。
(点击上方图片查看论文报告视频)
报告嘉宾:张克越,腾讯优图实验室研究员,研究方向主要涵盖计算机视觉,深度学习,长期从事人脸活体检测方面的研究,推动活体检测技术在微信、手Q、微众银行等多个产品中应用落地,支持刷脸支付、人脸核身等场景,为用户刷脸提供安全保障。
论文摘要:基于域泛化(DG)的人脸活体检测(FAS)技术在近年来被广泛研究,用以提高人脸活体检测模型在未知场景的泛化性。现有的方法通常依赖域标签来对齐每个域的分布以学习域不变的特征表示。然而,这种人工定义的域标签是粗粒度且比较主观的,不能准确地反映真实的域分布。此外,这种域感知的域泛化方法主要关注不同域的对齐,而该种对齐方式不够细致,无法确保学习到的表征对域风格不敏感。为了解决这些问题,本文针对DG FAS任务提出了一个新的视角:通过在样本级别进行特征对齐,摆脱了对于域标签的依赖,从而实现域泛化活体检测。针对性地,本文提出了样本感知的域泛化人脸活体检测框架,通过弱化对样本风格敏感的特征来学习可泛化特征。具体而言,本文提出了非对称实例自适应白化算法消除对风格敏感的特征以增强泛化性。此外,本文提出了动态卷积核生成器和类别风格重组模块,首先提取样本特定的特征,然后生成具有较大风格偏移的多样化风格特征,以进一步促进对风格不敏感的特征的学习。大量的实验和分析证明了所提方法的有效性,并且在多个数据集取得领先结果。
(点击上方图片查看论文报告视频)
报告嘉宾:王晗阳,腾讯优图实验室实习生,华东师范大学计算机科学与技术系,研究方向为情感计算。
论文摘要:动态面部表情识别(DFER)是一个快速发展的领域,专注于识别视频中的面部表情。之前的研究认为非目标帧是噪声帧,但我们提出应将其视为弱监督问题。我们还发现DFER中,短期和长期时间关系的不平衡。因此,我们引入了M3DFEL框架,利用多实例学习(MIL)处理不精确的标签。M3DFEL生成3D实例来建模强的短期时间关系,并利用3DCNN进行特征提取。然后利用动态长期实例聚合模块(DLIAM)学习长期时间关系并动态聚合实例。我们在DFEW和FERV39K数据集上的实验表明,M3DFEL在使用简单的R3D18骨干网络时优于现有的最先进方法。
(点击上方图片查看论文报告视频)
目标检测
报告嘉宾:彭瑾龙,腾讯优图高级研究员,有着多年计算机视觉领域的研究经验,主要研究方向为多目标跟踪、通用目标跟踪、视频跟踪分割、异常检测等,曾在CVPR/ECCV/NeurIPS/IJCAI等国际人工智能顶级会议上发表过多篇论文,多次刷新MOT Challenge记录,获得ACMMM2020 举办的HiEve多目标跟踪挑战赛冠军。
(点击上方图片查看论文报告视频)
报告嘉宾:刘亮,腾讯优图实验室算法研究员,2021年博士毕业于浙江大学,研究方向为工业视觉检测、图像语义分割等领域,在计算机视觉、人工智能顶级会议期刊发表论文20余篇,Google Scholar 引用数 600+。
(点击上方图片查看论文报告视频)
数据压缩
产学科研合作项目团队:北京大学李革教授团队、腾讯多媒体实验室
报告嘉宾:宋睿,北京大学,研究领域为点云压缩,深度学习。
(点击上方图片查看论文报告视频)