前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >KAIST 研究人员提出 DIGAN:一种基于隐式神经表示 (INR) 的生成对抗网络 (GAN),用于使用机器学习生成视频

KAIST 研究人员提出 DIGAN:一种基于隐式神经表示 (INR) 的生成对抗网络 (GAN),用于使用机器学习生成视频

作者头像
代码医生工作室
发布2022-04-14 15:28:16
1.6K0
发布2022-04-14 15:28:16
举报
文章被收录于专栏:相约机器人相约机器人

深度生成模型已经在包括图像和音频在内的各个领域产生了逼真的样本。视频生成最近已成为深度生成模型的下一个问题,引发了对学习视频分发的长期研究。

尽管做出了努力,但大规模真实世界的录音和模拟之间仍然存在很大差距。视频信号的复杂性,在时空方向上连续耦合,导致了视频创建的难度。具体来说,大多数先前的工作都将视频建模为 RGB 值的 3D 网格,即连续的 2D 图像,使用离散解码器(如卷积或自回归网络)。然而,由于立方复杂性,这种离散建模限制了创建电影的可扩展性,并错过了内在的连续时间动态。

同时,出现了一种编码连续信号的新范式:隐式大脑表征。INR(隐式神经表示)将信号转换为将输入坐标映射到信号值的神经网络,例如将 2D 图像坐标转换为 RGB 值。因此,INR 不是离散的网格信号值,而是将任意坐标的信号值摊销为紧凑的神经表示,需要与坐标维度和分辨率成比例的大内存。在这方面,INR 已被证明在建模复杂信号(例如 3D 场景)方面特别有效。INR 还提供了由于其紧凑性和一致性而产生的有趣品质,例如减少数据内存和上采样到任意分辨率。

INR 用于生成建模的多项研究,这意味着使用 INR 生成样本。将图像生成为 INR 的基于 INR 的图像生成对抗网络的生成性能非常出色。还赞扬 INR 固有的内推和外推、任何成本推断(控制质量-成本权衡)和并行计算,这需要在其他生成模型设计下进行非平凡的调整才能实现。

韩国科学技术高等研究院的研究人员最近发表了一项研究,旨在通过将视频作为连续信号读取来创建基于 INR(或隐含)的视频制作模型。INR 对没有 3D 网格的视频进行紧凑编码,并直观地模拟连续的时空动态,使这种替代视点出人意料地成功。虽然将 INR 简单地应用于视频已经非常有效,但该团队发现单独改变空间和时间的复杂设计极大地改善了视频制作。

介绍了一种用于视频创建的独特的基于 INR 的 GAN 架构,即动态感知隐式生成对抗网络 (DIGAN)。这个概念是双重的:

生成器:该团队提供了一个基于 INR 的视频生成器,它分解运动和内容(图像)数据,并将时间动态包含在运动特征中。更明确地说,生成器通过调节具有较低时间频率的运动特征变化并通过附加的非线性映射提高运动的表达能力来促进视频时间相干性。此外,通过将随机运动向量调节到内容向量,生成器可以制作具有各种运动的电影,这些运动都共享相同的初始帧。

鉴别器:该团队提出了一个运动鉴别器,而不是一长串图像,它可以有效地检测一对照片(及其时间差)中的异常运动。DIGAN 的运动鉴别器是一个 2D 卷积网络,与之前使用计算密集型 3D 卷积网络一次处理整部电影的研究相反。因为视频的 INR 可以在不可预测的时间段内非自回归地合成强相关的帧,所以这种有效的判别方法是可行的。

主要思想是使用隐式神经表示将电影直接建模为连续信号。研究人员表示,动态感知隐式生成对抗网络 (DIGAN) 是一种基于 INR 的视频制作生成对抗网络。受基于 INR 的 GAN 用于图像合成的成功启发,DIGAN 通过引入时间动态扩展了用于视频制作的隐式图像 GAN。

这些测试是在来自 UCF-101、Tai-ChiHD、Sky Time-lapse 和 Kinetics-600 的膳食类子集的数据集上进行的。除非另有说明,所有模型均使用分辨率为 128*128 像素的 16 帧电影进行训练。为了使运动更具动态性,研究人员对 UCF-101、Sky 和Kinetics-food 使用连续的 16 帧,但太极使用步幅 4(即在所选帧之后跳过三帧)。

DIGAN 可以模拟单模和多模视频分布,例如 Sky 和TaiChi,以及单模和多模视频,例如 UCF-101 和 Kinetics-food。尤其是 DIGAN,它能够制作复杂的多模态视频。此外,结果表明 DIGAN 在所有数据集上都优于之前的工作,例如,在 UCF-101 上将 MoCoGAN-HD 的 FVD 从 833 提高到 577(+30.7%)。他们指出,DIGAN 的 Frechet 初始距离(图像质量统计数据)与 MoCoGAN-HD 相当。因此DIGAN 的 FVD 优势在于改进的动态建模。

结论

研究人员表示,DIGAN 是一种基于隐式神经表示 (INR) 的生成对抗网络 (GAN),用于视频制作,它结合了视频的时间动态。广泛的测试证实了 DIGAN 的霸主地位,具有各种令人着迷的功能。研究人员相信他们的发现将为视频创作和 INR 研究的未来发展铺平道路。

论文:

https://openreview.net/pdf?id=Czsdv-S4-w9

Github:

https://github.com/sihyun-yu/dagan

项目:

https://sihyun-yu.github.io/dagan/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-03-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 相约机器人 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档