1.360VOT: A New Benchmark Dataset for Omnidirectional Visual Object Tracking(ICCV 2023)

标题:360VOT:全方位视觉对象跟踪的新基准数据集
作者:Huajian Huang, Yinzhe Xu, Yingshu Chen, Sai-Kit Yeung
文章链接:https://arxiv.org/abs/2307.14630
项目代码:https://360vot.hkustvgd.com/








摘要:
360°图像可以提供全方位的视野,这对于稳定和长期的场景感知非常重要。在本文中,我们探索了用于视觉对象跟踪的 360° 图像,并感知了 360° 图像的大失真、拼接伪影和其他独特属性带来的新挑战。为了缓解这些问题,我们利用目标定位的新颖表示,即边界视野,然后引入一个通用的 360 度跟踪框架,该框架可以采用典型的跟踪器进行全向跟踪。更重要的是,我们提出了一个新的大规模全向跟踪基准数据集360VOT,以方便未来的研究。360VOT 包含 120 个序列,在等距柱状投影中具有高达 113K 高分辨率帧。跟踪目标涵盖32类、不同场景。此外,我们提供了 4 种无偏的地面实况,包括(旋转)边界框和(旋转)边界视野,以及为 360° 图像量身定制的新指标,可以准确评估全向跟踪性能。最后,我们广泛评估了 20 个最先进的视觉跟踪器,并为未来的比较提供了新的基准。主页:这个 https URL
2.TEDi: Temporally-Entangled Diffusion for Long-Term Motion Synthesis(CVPR 2023)

标题:TEDi:用于长期运动合成的时间纠缠扩散
作者:Zihan Zhang, Richard Liu, Kfir Aberman, Rana Hanocka
文章链接:https://arxiv.org/abs/2307.15042
项目代码:https://threedle.github.io/TEDi/





摘要:
以小增量合成样本的扩散过程的渐进性质构成了去噪扩散概率模型 (DDPM) 的关键要素,该模型在图像合成方面呈现出前所未有的质量,并且最近在运动领域得到了探索。在这项工作中,我们建议将逐渐扩散概念(沿扩散时间轴操作)适应运动序列的时间轴。我们的关键想法是扩展 DDPM 框架以支持随时间变化的去噪,从而使两个轴纠缠在一起。使用我们的特殊公式,我们迭代地对包含一组噪声越来越大的姿势的运动缓冲区进行降噪,这些姿势自动回归产生任意长的帧流。对于固定扩散时间轴,在每个扩散步骤中,我们仅增加运动的时间轴,以便框架产生一个新的、干净的帧,该帧从缓冲区的开头被删除,后面是一个新绘制的噪声向量被附加到它后面。这种新机制为长期运动合成的新框架及其在角色动画和其他领域的应用铺平了道路。
3.Nested Diffusion Processes for Anytime Image Generation

标题:用于随时生成图像的嵌套扩散过程
作者:Noam Elata, Bahjat Kawar, Tomer Michaeli, Michael Elad
文章链接:https://arxiv.org/abs/2305.19066








摘要:
扩散模型是当前图像生成领域最先进的技术,通过将生成过程分解为许多细粒度的去噪步骤来合成高质量图像。尽管性能良好,但扩散模型的计算成本很高,需要许多神经功能评估(NFE)。在这项工作中,我们提出了一种基于随时扩散的方法,该方法可以在完成之前的任意时间停止时生成可行的图像。使用现有的预训练扩散模型,我们表明生成方案可以重构为两个嵌套扩散过程,从而能够快速迭代细化生成的图像。在基于 ImageNet 和基于稳定扩散的文本到图像生成的实验中,我们在定性和定量上都表明,我们的方法的中间生成质量大大超过了原始扩散模型,而最终的生成结果仍然具有可比性。我们说明了嵌套扩散在多种设置中的适用性,包括解决逆问题,以及通过允许用户在整个采样过程中进行干预来快速创建基于文本的内容。
Attention机制竟有bug?Softmax是罪魁祸首,影响所有Transformer



