首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >腾讯优图实验室7篇论文入选神经信息处理系统大会,含多模态查询、互联网图像监督学习等研究方向

腾讯优图实验室7篇论文入选神经信息处理系统大会,含多模态查询、互联网图像监督学习等研究方向

作者头像
小腾资讯君
发布2023-10-10 17:55:24
发布2023-10-10 17:55:24
1K0
举报
文章被收录于专栏:资讯分享资讯分享

NeurIPS 2023(Neural Information Processing Systems)神经信息处理系统大会于近日公布论文录用结果,根据官网邮件显示,本届会议共有12343篇有效论文投稿,接收率为 26.1%,高于 2022 年的 25.6%。

NeurIPS 作为当前全球最负盛名的AI学术会议之一,通常在每年12月由NeurIPS基金会主办。大会讨论的内容包含深度学习、计算机视觉、大规模机器学习、学习理论、优化、稀疏理论等众多细分领域。

今年,腾讯优图实验室共有7篇论文入选,内容涵盖多模态查询、互联网图像监督学习等多个研究方向,展示了腾讯优图在人工智能领域的技术能力和学术成果。

以下为腾讯优图实验室部分入选论文概览:

01

支持多模态示例查询的开放世界目标检测器

Multi-modal Queried Object Detection in the Wild

Yifan Xu(MAIS, Institute of Automation, Chinese Academy of Sciences), 

Mengdan Zhang, Chaoyou Fu, Peixian Chen,

Xiaoshan Yang(MAIS, Institute of Automation, Chinese Academy of Sciences),

 Ke Li, Changsheng Xu

我们提出了基于多模态查询的目标检测(MQ-Det),首个同时支持文本描述和视觉示例查询的开放世界目标检测器。MQ-Det是一种高效的架构和预训练策略设计,可以同时利用高泛化性的文本描述和高细粒度的视觉示例来对图像中的目标进行查询检测,即多模态查询。MQ-Det将视觉示例查询整合到现有的基于语言查询的检测器中,并提出了一种即插即用的门控感知器模块来将视觉信息插入到文本描述中。为了解决冻结检测器带来的学习惰性问题,我们提出了一种以视觉为条件的掩码语言预测策略。MQ-Det的简单而有效的架构和训练策略设计与目前大多数基于语言查询的目标检测器兼容,因此具备广泛的适用性。实验结果表明,多模态查询能够大幅度推动开放世界目标检测。例如,MQ-Det通过多模态查询在基准数据集LVIS上将目前最先进的开集检测器GLIP提升了约7.8% AP,而无需进行任何下游微调;同时,其将13个小样本下游任务平均提高了6.3% AP。完成以上这些提升仅需要在GLIP基础上进行额外的3%的调制训练时间。

代码请见:https://github.com/YifanXu74/MQ-Det。

论文链接:

https://arxiv.org/abs/2305.18980

02

CAPro:跨模态对齐原型的互联网图像监督学习

CAPro: Webly Supervised Learning with Cross-modality Aligned Prototypes

Yulei Qin, Xingyu Chen (ByteDance), 

Yunhang Shen, Chaoyou Fu,

Yun Gu (Shanghai Jiao Tong University), 

Ke Li, Xing Sun, Rongrong Ji (Xiamen University) 

互联网图像监督学习因其在无需人工标注的情况下能大规模有效地探索公开数据而引起了越来越多的关注。然而,大多数现有的互联网数据学习方法都面临着标签噪声的挑战,并且它们对各种噪声条件下干净样本的假设是有局限的。例如,通过查询“虎猫”(一种猫科动物)和“鼓槌”(一种乐器)检索到的网络数据几乎以老虎和鸡肉的图像为主,这恶化了细粒度视觉概念的学习效果。在这种情况下,利用网络图像及其配对的文本是对抗现实世界噪音的必要解决方案。我们在本文中提出了跨模态对齐的原型(CAPro)以及基于该原型的对比学习框架,用于学习具有正确语义的视觉表示。一方面,我们利用了来自类别独特概念定义的文本原型,通过文本匹配来选择干净的图像数据,从而消除了在形成视觉原型过程中的歧义。另一方面,为了处理缺失的、不匹配的有噪文本,我们利用视觉特征空间来反哺文本特征,增强单个文本的编码以改善文本原型匹配的效果。这种语义对齐的视觉原型通过高质量图像样本不断完善,并参与视觉空间里各类别分布的正则化,同时实现噪声数据的剔除。此外,我们提出集体自举法,鼓励以查阅字典的方式从外观相似的实例中获得更平滑的图像标签参考。经过WebVision1k 和 NUS-WIDE (Web) 上的大量实验表明,CAPro 在单标签和多标签场景下都能很好地应对现实噪声。CAPro 取得了最先进性能,并表现出对开集识别的鲁棒性。

代码和模型请见:https://github.com/yuleiqin/capro

03

Real3D-AD: 点云异常检测数据集

Real3D-AD: A Dataset of Point Cloud Anomaly Detection

Jiaqi Liu(Southern University of Science and Technology), 

Guoyang Xie(Southern University of Science and Technology, University of Surrey),

Ruitao Chen(Southern University of Science and Technology), 

Xinpeng Li(Southern University of Science and Technology), 

Jinbao Wang(Southern University of Science and Technology), 

Yong Liu, Chengjie Wang,

 Feng Zheng(Southern University of Science and Technology)

高精度点云异常检测是识别先进机械加工和精密制造中存在的缺陷时的黄金标准。尽管工业异常检测领域有一些方法上的进步,但数据集的稀缺性和基准的匮乏仍在阻碍领域的发展。为此我们推出了Real3D-AD,一个极具挑战性的高精度点云异常检测数据集,以解决领域内数据匮乏的问题。数据集拥有1,254个高分辨率的3D对象(每个对象包含四万到数百万个点不等),Real3D-AD是迄今为止最大的高精度3D工业异常检测数据集。Real3D-AD在点云分辨率(0.0010mm-0.0015mm)、360度全覆盖和完美的原型方面均超过了现有的3D异常检测数据集。此外,我们还为Real3D-AD提供了一个全面的测评基准,揭示了当前高精度点云异常检测的基线方法的缺失问题。为此,我们提出了Reg3D-AD,一个基于配准的3D异常检测方法,它包含一个新颖的特征存储库用于保留局部和全局表征信息。在Real3D-AD数据集上的大量实验突显了Reg3D-AD的有效性。为了保证结果可复现,我们在如下网站上提供了Real3D-AD数据集、基准代码和Reg3D-AD: https://github.com/M-3LAB/Real3D-AD。

论文链接:

https://arxiv.org/abs/2309.13226

04

生成式预训练的视觉先验学习

Learning Visual Prior via Generative Pre-Training

Jinheng Xie, Kai Ye (Shenzhen University), 

Yudong Li (Shenzhen University),

Yuexiang Li, Kevin Qinghong Lin (National University of Singapore),

Yefeng Zheng, Linlin Shen (Shenzhen University), 

Mike Zheng Shou (National University of Singapore)

在视觉数据中,各种物体和事物具有特定的特征,这些特征可以通过深度神经网络进行学习,并以视觉先验的形式隐式地表示在模型中,例如物体位置和形状。这样的先验可能会对许多视觉任务产生影响。例如,在条件图像合成中,与先验不符的空间条件可能导致视觉上不准确的合成结果。本研究旨在显式地学习视觉先验并实现采样的个性化。受到语言建模的进展的启发,我们提出了通过生成式预训练学习视觉先验的方法,称为VisorGPT。通过将物体(例如边界框、人体姿势和实例掩码)的视觉位置离散化为序列,VisorGPT可以通过最大化似然来建模视觉先验。此外,我们还研究了提示工程,以统一各种视觉位置,并实现从学习的先验中进行序列输出的个性化采样。实验结果表明,VisorGPT能够有效地建模视觉先验,并可以用于许多视觉任务,例如为ControlNet等条件图像合成模型定制准确的人体姿势。

论文链接:

https://arxiv.org/abs/2305.13777

05

基于动态屏蔽鉴别器的生成对抗网络

Dynamically Masked Discriminator for GANs

Wentian Zhang, Haozhe Liu, 

Bing Li (AI Initiative, King Abdullah University of Science and Technology),

Jinheng Xie, Yawen Huang, Yuexiang Li, Yefeng Zheng, 

Bernard Ghanem (AI Initiative, King Abdullah University of Science and Technology)

训练生成对抗网络仍然是一个具有挑战性的问题。鉴别器通过学习真实或生成数据的分布来训练生成器。然而,生成的数据的分布在整个训练过程中都会发生变化,这对鉴别器来说很难学习。在本文中,我们从在线持续学习的角度提出了一种新的生成对抗网络方法。我们观察到,经过训练的鉴别器模型在历史生成的数据上,通常会减慢其对新到达的生成数据的变化的适应,从而降低生成结果的质量。通过将训练中生成的数据视为数据流,我们提出检测鉴别器是否减缓了生成数据中新知识的学习。因此,我们可以明确地使用鉴别器来快速学习新知识。具体地,我们提出了一种新的鉴别器,它可以自动检测其延迟和然后动态地屏蔽其特征,使得鉴别器可以自适应地学习生成数据的随时间变化的分布。实验结果表明,我们的方法优于最先进的方法。

论文链接:

https://arxiv.org/abs/2306.07716

06

基于内容的无限制对抗攻击

Content-based Unrestricted Adversarial Attack

Zhaoyu Chen(Fudan University), Bo Li, Shuang Wu,

Kaixun Jiang(Fudan University), 

Shouhong DIng, Wenqiang Zhang(Fudan University)

无限制对抗攻击通常操纵图像的语义内容(颜色或纹理)来创建既有效又真实的对抗样本,证明它们能够隐蔽且成功地欺骗人类感知和深度神经网络。然而,目前的研究通常会牺牲无限制的程度,主观地选择一些图像内容来保证无限制对抗样本的真实感,这限制了其攻击性能。为了确保对抗样本的真实感并提高攻击性能,我们提出了一种新颖的无限制攻击框架,称为基于内容的无限制对抗攻击。通过利用代表自然图像的低维流形,我们将图像映射到流形上并沿着其对抗方向对其进行优化。因此,在这个框架内,我们实现了基于Stable Difusion的对抗内容攻击(ACA),并且可以生成具有各种对抗内容的高迁移性的无限制对抗样本。广泛的实验和可视化证明了 ACA 的有效性,特别是在正常训练的模型和防御方法中,平均超过最先进的攻击 13.3-50.4%和16.8-48.0%。

论文链接:

https://arxiv.org/abs/2305.10665

07

CrossGNN:通过交叉交互优化的带噪多元时间序列预测

CrossGNN: Confronting Noisy Multivariate Time Series Via Cross Interaction Refinement

Qihe Huang(USTC / Youtu Lab, Tencent), Lei Shen, Ruixin Zhang, 

Shouhong Ding, Binwu Wang(USTC),

Zhengyang Zhou(USTC), Yang Wang(USTC)

近年来,多元时间序列(MTS)预测技术得到了快速发展并在各个领域得到广泛应用。基于 Transformer 和基于 GNN 的方法由于其对时间和变量交互建模的强大能力而显示出巨大的潜力。然而,通过对现实世界数据进行全面分析,我们发现现有方法不能很好地处理由意外噪声引起的变量之间的时间波动和异质性。为了解决上述问题,我们提出了 CrossGNN,一种线性复杂性 GNN 模型,用于细化 MTS 的跨尺度和跨变量交互。为了处理时间维度上的意外噪声,利用自适应多尺度标识符(AMSI)来构建降噪的多尺度时间序列。提出了 Cross-Scale GNN 来提取趋势更清晰、噪声更弱的尺度。跨变量 GNN 的提出是为了利用不同变量之间的同质性和异质性。通过同时关注显着性分数较高的边缘并限制分数较低的边缘,CrossGNN 的时间和空间复杂度(即 O(L))可以与输入序列长度 L 呈线性关系。在 8 个真实世界中进行的广泛实验结果 MTS 数据集证明了 CrossGNN 与最先进方法相比的有效性。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档