Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >学界 | 面向无监督任务:DeepMind提出神经离散表示学习生成模型VQ-VAE

学界 | 面向无监督任务:DeepMind提出神经离散表示学习生成模型VQ-VAE

作者头像
机器之心
发布于 2018-05-10 04:02:16
发布于 2018-05-10 04:02:16
1.4K0
举报
文章被收录于专栏:机器之心机器之心

选自arXiv

机器之心编译

参与:路雪、李泽南

DeepMind 最近提出的 VQ-VAE 是一种简单而强大的生成模型,结合向量量化和变分自编码器学习离散表示,实现在图像识别、语音和对话等任务上的无监督学习。

近期,图像、音频、视频领域生成模型的发展产生了惊人的案例与应用。同时,few-shot 学习、域适应或强化学习这样具有挑战性的任务也极为依赖从原始数据学习到的表征。但以无监督方式训练的通用表征的有效性仍无法成为该领域的主流方法。

最大似然和重构误差(reconstruction error)是在像素域中训练无监督模型常用的两种目标函数,但是它们的有效性取决于使用特征的特定应用。DeepMind 的目标是构建一个模型,在其潜在空间(latent space)中保存数据的重要特征,同时优化最大似然。正如 [7] 中的研究,最好的生成模型(以最大似然来衡量)是那些没有隐变量但是具备强大解码器的模型(如 PixelCNN)。在这篇论文中,DeepMind 提出学习离散、有用的隐变量也是一种很好的方法,并在多个领域中进行证实。

使用连续特征学习表示是之前很多研究的重点,但是 DeepMind 把目光放在离散表示上,离散表示有可能更适合 DeepMind 感兴趣的很多模态(modality)。语言是内在离散的,类似地,语音通常表示为符号序列。图像通常可以通过语言进行精确描述 [40]。此外,离散表示适合复杂的推理、规划和预测性学习(如,如果下雨了,我就打伞)。在深度学习中使用离散隐变量证明,已经开发出难度高、强大的自回归模型,可用于对离散变量的分布进行建模 [37]。

这篇论文中,DeepMind 介绍了一族新的生成模型,通过对(离散)隐变量的后验分布进行新型参数化,成功地将变分自编码器(VAE)框架和离散隐变量表示结合起来。该模型依赖于向量量化(vector quantization,VQ),易于训练,不会出现大的变量,避免「后验崩溃」(posterior collapse)问题,该问题通常由被忽略的隐变量引起,对很多具有强大解码器的 VAE 模型来说都是个难题。此外,该模型也是首个离散隐变量 VAE 模型,其性能和连续隐变量 VAE 模型类似,同时还具备离散分布的灵活性。DeepMind 将这种模型命名为 VQ-VAE。

因为 VQ-VAE 可以有效利用潜在空间,它可以有效地对通常跨越数据空间多个维度的重要特征进行建模(例如对象跨越图像中的多个像素、语音对话中的音素、文本片段中的信息等等),而非把注意力集中在噪声或其他细微之处——这些细节往往是局部的。

最后,当 VQ-VAE 发现了一种模态的优秀离散隐变量结构,我们就可以在这些离散随机变量上训练强大的先验,得到有意义的样本和有用的应用。例如,在语音任务中,我们可以在没有任何监督或单词音素先验知识的情况下发现语言的潜在结构。此外,我们可以给解码器赋予说话者的角色,让它展开对话,如让语音在两个说话者之间传递,但不改变说话内容。DeepMind 还在论文中展示了利用此方法在强化学习环境中学习长期结构的高性能。

这篇论文的贡献可概括为:

  • 介绍 VQ-VAE 模型,这是一个简单模型,使用离散隐变量,不会出现「后验崩溃」和变量问题。
  • 证明离散隐变量模型(VQ-VAE)和它在 log 似然中的连续隐变量模型的性能一样好。
  • 当和强大的先验一起出现时,DeepMind 的样本在大量应用(比如语音和视频生成)上都是连贯且高质量的。
  • 证明可以在无监督的情况下,通过原材料学习语言,并展示了无监督说话者对话的应用。

VQ-VAE

或许和 DeepMind 的方法联系最紧密的就是 VAE。VAE 包括以下几个部分:1)一个编码器网络,对后验分布 q(z|x) 进行参数化,z 是离散隐随机变量,x 为输入数据;2)先验分布 p(z);3)一个解码器,它的输入数据分布是 p(x|z)。

通常,VAE 中的后验分布和先验分布呈对角协方差分布,允许使用高斯重参数化 [32, 23]。其扩展包括自回归先验和后验模型 [14]、常规流(normalising flow)[31, 10],和逆自回归后验模型 [22]。

这篇论文介绍了 VQ-VAE,该模型使用离散隐变量,受向量量化的启发用一种新的方式进行训练。后验和先验分布是明确分类的,从这些分布中提取的样本可通过嵌入表进行索引。然后将这些嵌入作为解码器网络的输入。

图 1. 左:VQ-VAE 图示。右:嵌入空间可视化。编码器 z(x) 的输出映射到最近点 e_2。梯度∇zL(红色)使编码器改变输出,从而改变下一个前向传输的配置。

图 2. 左:ImageNet 128x128x3 图像,右:潜在空间为 32x32x1、K=512 的 VQ-VAE 输出的重构结果。

图 5. 上方:原始图像,下方:两阶段 VQ-VAE 的重构结果,使用 3 个隐变量对整个图像(27 bits)进行建模,这样的模型仍然不能对图像进行完美重构。重构结果是由第一阶 VQ-VAE 的 21×21 潜在域中的第二个 PixelCNN 先验采样而来,随后被标准 VQ-VAE 解码器解码为 84×84。很多原始场景,包括纹理、房间布局和附近的墙壁都保留原状,但模型没有试图去储存像素值,这意味着纹理是由 PixelCNN 生成的。

论文:Neural Discrete Representation Learning

论文链接:https://arxiv.org/abs/1711.00937

论文第一作者 Aaron van den Oord 也在 GitHub 上展示了新模型的一些结果:https://avdnoord.github.io/homepage/vqvae/

摘要:在无监督情况下学习有意义的表示是机器学习的一个核心挑战。在本论文中,我们提出了一个简单却强大的生成模型,该模型可以学习此类离散表示。我们提出了向量量化-变分自编码器(Vector Quantised-Variational AutoEncoder,VQ-VAE),它与 VAE 在两个关键的方面存在不同:1. 编码器网络输出离散而不是连续的代码;2. 先验是学习的,而非静止的。为了学习离散隐变量表示,我们吸收了向量量化(VQ)的思路。使用 VQ 方法可以让模型绕过「后期崩溃」的问题——隐变量在遇到强大的自回归解码器时被忽略,这种问题通常会在 VAE 框架中出现。通过让这些表示和自回归先验配对,模型可以生成高质量的图像、视频、语音,以及高质量对话,也可以在无监督的情况下学习音素,本研究进一步证明了已学得表示的实用性。

本文为机器之心编译,转载请联系本公众号获得授权。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-11-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
超越BigGAN,DeepMind提出「史上最强非GAN生成器」VQ-VAE-2
去年 9 月,BigGAN 横空出世,被誉为「史上最强 GAN 生成器」,其逼真程度众多研究者高呼「鹅妹子嘤」!相关论文也被 ICLR 2019 接收为 Oral 论文。
机器之心
2019/06/14
1.3K0
超越BigGAN,DeepMind提出「史上最强非GAN生成器」VQ-VAE-2
动态 | DeepMind 发布 VQVAE-2,图片生成效果超越 BigGAN
AI 科技评论按,近日,DeepMind 的研究人员宣布,VQVAE-2 问世了!
AI科技评论
2019/06/15
1.4K0
​变分自编码器概述
变分自编码器(VAE)[1] 如今已经成为在复杂场景中进行推断(inference)的基本工具,同时它作为生成模型在生成连续型数据上也得到了广泛的关注和应用。本文简要介绍了变分推断的问题背景,接着介绍VAE的基本思想和原理,指出VAE是变分推断思想和神经网络结合的产物,并对它作简单的分析和理解。最后概述VAE的发展,包括在聚类任务上的应用,在生成任务上的改进,在无监督的解耦表征(disentangled representations)上的进展等等。
SIGAI学习与实践平台
2019/08/05
1K0
​变分自编码器概述
VAE-变分自编码器
先将高维的原始数据映射到一个低维特征空间,然后从低维特征学习重建原始的数据。一个AE模型包含两部分网络:
iResearch666
2023/09/13
6460
VAE-变分自编码器
BigBiGAN问世,“GAN父”都说酷的无监督表示学习模型有多优秀?
众所周知,对抗训练生成模型(GAN)在图像生成领域获得了不凡的效果。尽管基于GAN的无监督学习方法取得了初步成果,但很快被自监督学习方法所取代。
AI科技大本营
2019/07/11
1.1K0
BigBiGAN问世,“GAN父”都说酷的无监督表示学习模型有多优秀?
走进深度生成模型:变分自动编码器(VAE)和生成对抗网络(GAN)
【导读】近日,深度学习爱好者Prakash Pandey发布一篇博文介绍深度生成模型。我们知道,有监督学习在很多方面都达到了很好的效果,但是,由于有监督学习由于数据集太少等缺点,研究者逐渐偏向于探索无
WZEARW
2018/04/13
5.1K0
走进深度生成模型:变分自动编码器(VAE)和生成对抗网络(GAN)
史上最佳GAN被超越!生成人脸动物高清大图真假难辨,DeepMind发布二代VQ-VAE
不得了,以生成逼真假照片出名、被称作“史上最佳GAN”的BigGAN,被“本家”踢馆了。
量子位
2019/06/12
6680
基于自编码器的表征学习:如何攻克半监督和无监督学习?
为了将人工智能应用于从世界收集的大量无标注数据,一大关键难题是要能仅用少量监督或无监督的学习方法来学习有用的表征。尽管在数据上学习到的表征的有用性显然很大程度上取决于其所针对的最终任务,但仍可想见有些表征的性质可同时用于很多真实世界任务。在一篇有关表征学习的开创性论文中,Bengio et al. [1] 提出了这样一组元先验(meta-prior)。这些元先验来自对世界的一般性假设,比如解释性元素的层次化组织形式或解离性(disentanglement)、半监督学习的可能性、数据在低维流形上的汇集、可聚类性、时间和空间一致性。
机器之心
2019/01/02
8600
无监督训练用堆叠自编码器是否落伍?ML博士对比了8个自编码器
深度学习中的自编码器。图源:https://debuggercafe.com/autoencoders-in-deep-learning/
机器之心
2021/03/15
8670
无监督训练用堆叠自编码器是否落伍?ML博士对比了8个自编码器
能生成逼真图像的不只有 GAN
去年 9 月,BigGAN 横空出世,被誉为「史上最强 GAN 生成器」,其逼真程度众多研究者高呼「鹅妹子嘤」!相关论文也被 ICLR 2019 接收为 Oral 论文。
昱良
2019/06/14
7380
能生成逼真图像的不只有 GAN
学界 | 谷歌大脑提出对抗正则化方法,显著改善自编码器的泛化和表征学习能力
无监督学习的目标之一是不依靠显式的标注得到数据集的内在结构。自编码器是一种用于达成该目标的常见结构,它学习如何将数据点映射到隐编码中——利用它以最小的信息损失来恢复数据。通常情况下,隐编码的维度小于数据的维度,这表明自编码器可以实施某种降维。对于某些特定的结构,隐编码可以揭示数据集产生差异的关键因素,这使得这些模型能够用于表征学习 [7,15]。过去,它们还被用于预训练其它网络:先在无标注的数据上训练它们,之后将它们叠加起来初始化深层网络 [1,41]。最近的研究表明,通过对隐藏空间施加先验能使自编码器用于概率建模或生成模型建模 [18,25,31]。
机器之心
2018/08/07
7900
学界 | 谷歌大脑提出对抗正则化方法,显著改善自编码器的泛化和表征学习能力
AI换脸技术再创新高度,DeepMind发布的VQ-VAE二代算法有多厉害?
近日DeepMind发布VQ-VAE-2算法,也就是之前VQ-VAE算法2代,这个算法从感观效果上来看比生成对抗神经网络(GAN)的来得更加真实,堪称AI换脸界的大杀器,如果我不说,相信读者也很难想象到上面几幅人脸图像都是AI自动生成出来的。
AI科技大本营
2019/06/21
1.8K0
Roblox发布3D智能基础模型Cube,一句话生成游戏资产
Roblox,这个备受青少年喜爱的在线游戏平台,正通过引入 AI 技术,进一步革新游戏的创作体验。据了解,曾获选「儿童票选奖最受欢迎游戏」的 Roblox 允许用户设计自己的游戏、物品及衣服,以及游玩自己和其他开发者创建的各种不同类型的游戏。而现在,用户可以借助 AI 来完成这些创作了。
机器之心
2025/03/24
1330
Roblox发布3D智能基础模型Cube,一句话生成游戏资产
论文解读 - 统一的多模态理解和生成模型综述(上)
近年来,多模态理解模型和图像生成模型都取得了显著的进步。尽管各自取得了成功,这两个领域却独立发展,形成了独特的架构范式:基于自回归的架构主导了多模态理解,而基于扩散的模型则成为图像生成的基石。最近,人们越来越关注开发能够整合这些任务的统一框架。GPT-4的新能力正是这一趋势的体现,突显了统一的可 能性。然而,两个领域的架构差异带来了重大挑战。为了清晰地概述当前的统一努力,论文提供了一份全面的综述,旨在指导未来的研 究。首先,论文介绍多模态理解和文本到图像生成模型的基础概念和最新进展。接下来,论文回顾现有的统一模型,将其分为三大架构 范式:基于扩散、基于自回归以及融合自回归和扩散机制的混合方法。对于每一类,论文分析了相关工作引入的结构设计和创新。此 外,论文还编制了针对统一模型的数据集和基准测试,为未来的探索提供资源。最后,论文讨论了这一新兴领域面临的关键挑战,包括 令牌策略、跨模态注意力和数据问题。由于该领域仍处于早期阶段,论文预计会迅速取得进展,并将定期更新此综述。论文的目标是激 发进一步的研究,并为社区提供有价值的参考。
合合技术团队
2025/05/29
1470
论文解读 - 统一的多模态理解和生成模型综述(上)
学界 | 同济大学综述论文:基于深度生成模型的药物研发
论文:Advances and challenges in deep generative models for de novo molecule generation
机器之心
2018/12/11
8180
学界 | 同济大学综述论文:基于深度生成模型的药物研发
GPT-4o图像生成的「核燃料」找到了!万字长文拆解潜在变量,网友:原来AI在另一个维度作画
上个月, GPT-4o 的图像生成功能爆火,掀起了以吉卜力风为代表的广泛讨论,生成式 AI 的热潮再次席卷网络。
机器之心
2025/05/08
1070
GPT-4o图像生成的「核燃料」找到了!万字长文拆解潜在变量,网友:原来AI在另一个维度作画
CS231n:11 生成模型
和监督学习的最大区别就是数据中无标签,这带来的好处是可以轻松的获得大量的数据用于训练,比较常见的应用有:聚类、降维、特征学习、密度估计。
Here_SDUT
2022/08/08
6410
CS231n:11 生成模型
OpenAI提出比GAN更具优势的可逆生成模型Glow
Glow,一种使用可逆1×1卷积的可逆生成模型。它扩展了以前的可逆生成模型,简化了架构。模型可以生成逼真的高分辨率图像,支持高效采样,并发现可用于操纵数据属性的功能。我们正在发布模型代码和在线可视化工具,以便人们可以探索并构建这些结果。另外,网站上也可以进行交互性操作。
AiTechYun
2018/07/27
1.5K0
OpenAI提出比GAN更具优势的可逆生成模型Glow
关于计算机视觉中的自回归模型,这篇综述一网打尽了
本文是一篇关于自回归模型在视觉领域发展的综述论文,由港大、清华、普林斯顿、杜克、罗切斯特大学、俄亥俄州立、UNC、苹果、字节跳动、香港理工大学等多所高校及研究机构的伙伴联合发布。
机器之心
2025/02/14
2410
关于计算机视觉中的自回归模型,这篇综述一网打尽了
生成模型架构大调查 生成模型的不可能三角
A Review of Change of Variable Formulas for Generative Modeling
CreateAMind
2024/05/14
1940
生成模型架构大调查  生成模型的不可能三角
推荐阅读
相关推荐
超越BigGAN,DeepMind提出「史上最强非GAN生成器」VQ-VAE-2
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档