Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >HIFI-Gan:generative adversarial Networks for Efficient and high Fidelity speech synthesis

HIFI-Gan:generative adversarial Networks for Efficient and high Fidelity speech synthesis

作者头像
AI拉呱
发布于 2021-01-26 06:44:51
发布于 2021-01-26 06:44:51
1.3K0
举报

文章目录

  • 摘要
  • 前言
  • hifi-gan

摘要

提出HIFI-gan方法来提高采样和高保真度的语音合成。语音信号由很多不同周期的正弦信号组成,对于音频周期模式进行建模对于提高音频质量至关重要。其次生成样本的速度是其他同类算法的13.4倍,并且质量还很高。

前言

  1. 主流的语音合成大部分分为两个阶段:1)预测低分辨率的中间表示,例如梅尔声谱图或语言特征,从中间表示合成原始波形音频。HIFI-gan主要是解决第二阶段的问题,从梅尔声谱图到高保真度的波形文件。
  2. wavenet是一种自回归卷积神经网络,合成高质量的音频的效率低。
  3. HIFI-gan提出鉴别器,每个鉴别器有子鉴别器来生成一段固定周期的音频。

hifi-gan

  1. hifi-GAN:包括一个生成器两个鉴别器:尺度检测器,多周期检测器。
    1. 生成器是一个卷积神经网络,输入是梅尔频谱图,提升采样,直到输出帧数与原音频相同。
    1. 多接受融合,MRF模块返回多个残差块的输出总和。
    1. 鉴别器:识别长期依赖关系是音频建模的关键。
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021/01/18 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
语音合成:HIFI-Gan 方法解读
提出HIFI-gan方法来提高采样和高保真度的语音合成。语音信号由很多不同周期的正弦信号组成,对于音频周期模式进行建模对于提高音频质量至关重要。其次生成样本的速度是其他同类算法的13.4倍,并且质量还很高。
AI拉呱
2021/01/18
5.5K0
微软歌声合成算法HIFISINGER论文解读
论文题目: HIFISINGER: TOWARDS HIGH-FIDELITY NEURAL SINGING VOICE SYNTHESIS 摘要 高保真的歌声需要高的采样频率。高采样必定导致更宽的频率带和更长的波形序列,给歌声合成模型带来困难。 hifisinger是采用48kHZ的采样频率。它包括基于自然语音的fastSpeech和并行的声码器WaveGAN,在声学模型和声码器中引入了多尺度对抗训练,以改善歌唱建模。 sub-frequency GAN 来生成梅尔声谱图,并将80维的mel频率分成多个
AI拉呱
2021/01/19
1.9K0
吃下文本吐出语音,DeepMind提出新型端到端TTS模型EATS
经典的文本转语音(以下称 TTS)系统包括多个独立训练或独立设计的阶段,如文本归一化、语言特征对齐、梅尔谱图合成和原始音频波形合成。尽管 TTS 已经能够实现逼真和高保真度的语音合成,并在现实中得到广泛应用,但这类模块化方法也存在许多缺点。比如每个阶段都需要监督,在某些情况下需要耗费高成本的「真值」标注来指导每个阶段的输出。此外,这类方法无法像机器学习领域很多预测或者合成任务那样,获得数据驱动「端到端」学习方法的全部潜在收益。
机器之心
2020/06/29
9980
吃下文本吐出语音,DeepMind提出新型端到端TTS模型EATS
DeepMind推出GAN-TTS:用生成对抗网络实现高保真语音
人类梦想让文字说话已经有好几个世纪的历史了。你可能没想到,其实在1968年,日本的电机技术实验室由Noriko Umeda和他的同伴开发了第一个完整的英语语音转换系统(Text-To-Speech,简称TTS)。
新智元
2019/10/10
2.1K0
DeepMind推出GAN-TTS:用生成对抗网络实现高保真语音
ICLR 2020 | 使用GAN进行高保真语音合成
本文是对 ICLR 2020 论文《High Fidelity Speech Synthesis with Adversarial Networks》的解读,论文作者来自谷歌。
AI科技评论
2020/04/21
2.7K0
ICLR 2020 | 使用GAN进行高保真语音合成
Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型(二)
机器之心专栏 本专栏由机器之心SOTA!模型资源站出品,每周日于机器之心公众号持续更新。 本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。 本文将分 2 期进行连载,共介绍 19 个在语音合成任务上曾取得 SOTA 的经典模型。 第 1 期:BLSTM-RNN、WaveNet、SampleRNN、Char2Wav
机器之心
2023/03/29
3.8K0
Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型(二)
StyleSwin: Transformer-based GAN for High-resolution Image Generation
 尽管Transformer在广泛的视觉任务中取得了诱人的成功,但在高分辨率图像生成建模方面,Transformer还没有表现出与ConvNets同等的能力。在本文中,我们试图探索使用Transformer来构建用于高分辨率图像合成的生成对抗性网络。为此,我们认为局部注意力对于在计算效率和建模能力之间取得平衡至关重要。因此,所提出的生成器在基于风格的架构中采用了Swin Transformer。为了实现更大的感受野,我们提出了双重关注,它同时利用了局部窗口和偏移窗口的上下文,从而提高了生成质量。此外,我们表明,提供基于窗口的Transformer中丢失的绝对位置的知识极大地有利于生成质量。所提出的StyleSwan可扩展到高分辨率,粗糙的几何结构和精细的结构都得益于Transformer的强大表现力。然而,在高分辨率合成期间会出现块伪影,因为以块方式执行局部关注可能会破坏空间相干性。为了解决这个问题,我们实证研究了各种解决方案,其中我们发现使用小波鉴别器来检查频谱差异可以有效地抑制伪影。大量实验表明,它优于现有的基于Transformer的GANs,尤其是在高分辨率(例如1024×1024)方面。StyleWin在没有复杂训练策略的情况下,在CelebA HQ 1024上优于StyleGAN,在FFHQ-1024上实现了同等性能,证明了使用Transformer生成高分辨率图像的前景。
狼啸风云
2023/10/07
9520
StyleSwin: Transformer-based GAN for High-resolution Image Generation
Tacotron2论文阅读
这篇论文描述了Tacotron 2, 一个直接从文本合成语音的神经网络架构。系统由两部分构成,一个循环seq2seq结构的特征预测网络,把字符向量映射为梅尔声谱图,后面再接一个WaveNet模型的修订版,把梅尔声谱图合成为时域波形。我们的模型得到了4.53的平均意见得分(MOS),专业录制语音的MOS得分是4.58。为了验证模型设计,我们对系统的关键组件作了剥离实验研究,并且评估了使用梅尔频谱替代语言学、音长和F0特征作为WaveNet输入带来的不同影响。我们进一步展示了使用紧凑的声学中间表征可以显著地简化WaveNet架构
mathor
2020/08/13
1.6K0
盘点生成式对抗网络从诞生到出圈的发展史
5年前,生成式对抗网络(GAN)开启了深度学习的革命。这场革命取得了一些重大的技术突破。生成式对抗网络是由Ian Goodfellow等人在论文《生成式对抗网络》中提出的。学术界热烈欢迎GAN,工业界也大张旗鼓地欢迎GAN。GAN的崛起是不可避免的:
HuangWeiAI
2020/04/14
1.4K0
【业界】DeepMind提出速度提高千倍的并行WaveNet语音合成方法
【导读】DeepMind提出速度提高千倍的并行WaveNet语音合成方法。我们来一览这篇文章。(DeepMind Blog) ▌正文内容 在十月份,我们公布了迄今为止最先进的语音合成模型WaveNet
WZEARW
2018/04/10
1.2K0
【业界】DeepMind提出速度提高千倍的并行WaveNet语音合成方法
Text to image论文精读 GAN-CLS和GAN-INT:Generative Adversarial Text to Image Synthesis
这是一篇用GAN做文本生成图像(Text to Image、T2I)的论文,文章在2016年由Reed等人发布,被ICML会议录取。可以说是用GAN做文本生成图像的开山之作。
中杯可乐多加冰
2024/04/28
3000
腾讯音乐天琴实验室 | 针对K歌场景的端到端修音系统
KaraTuner: Towards end to end natural pitch correction for singing voice in karaoke
一点人工一点智能
2022/12/27
1.1K0
腾讯音乐天琴实验室 | 针对K歌场景的端到端修音系统
VoxGRAF:基于稀疏体素的快速三维感知图像合成
对场景进行高分辨率的高保真渲染是计算机视觉和图形学领域的一个长期目标。实现这一目标的主要范式是精心设计一个场景的三维模型,再加上相应的光照模型,使用逼真的相机模型渲染输出高保真图像。生成对抗网络(GAN)已经成为一类强大的可以实现高保真高分辨率图像合成的生成模型。这种二维模型的好处之一是他们可以使用便于获得的大量图像进行训练。然而,将 GAN 扩展到三维则相对困难,因为用于监督的三维真实模型难以获得。近期,3D-aware GAN 解决了人工制作的三维模型以及缺乏三维约束的用于图像合成的 2D GAN 之间的不匹配问题。3D-aware GAN 由三维生成器、可微分渲染以及对抗训练组成,从而对新视角图像合成过程中的相机位姿以及潜在的场景的对象形状、外观等其他场景性质进行显式控制。GRAF 采用了 NeRF 中基于坐标的场景表示方法,提出了一种使用基于坐标的 MLP 和体渲染的 3D-aware GAN,将基于 3D 感知的图像合成推进到更高的图像分辨率,同时基于物理真实且无参数的渲染,保持了场景的三维一致性。然而在三维场景进行密集采样会产生巨大的消耗,同时三维的内容经常与观察视角纠缠在一起,而进行下游应用时,场景的三维表征往往需要集成到物理引擎中,因此难以直接获得场景三维内容的高分辨率表征。许多近期的方法通过将 MLP 移出场景表征从而加速了新视角合成的训练速度,通过优化稀疏体素证明了 NeRF能够获得高保真图像的原因不是由于其使用了 MLP ,而是由于体渲染和基于梯度的优化模式。
用户1324186
2022/11/07
1.3K0
VoxGRAF:基于稀疏体素的快速三维感知图像合成
Unsupervised Pixel–Level Domain Adaptation with Generative Adversarial Networks
 对于许多任务来说,收集注释良好的图像数据集来训练现代机器学习算法的成本高得令人望而却步。一个吸引人的替代方案是渲染合成数据,其中地面实况注释是自动生成的。不幸的是,纯基于渲染图像训练的模型往往无法推广到真实图像。为了解决这一缺点,先前的工作引入了无监督的领域自适应算法,该算法试图在两个领域之间映射表示或学习提取领域不变的特征。在这项工作中,我们提出了一种新的方法,以无监督的方式学习像素空间中从一个域到另一个域的转换。我们基于生成对抗性网络(GAN)的模型使源域图像看起来像是从目标域绘制的。我们的方法不仅产生了合理的样本,而且在许多无监督的领域自适应场景中以很大的优势优于最先进的方法。最后,我们证明了适应过程可以推广到训练过程中看不到的目标类。
狼啸风云
2023/10/07
4450
Unsupervised Pixel–Level Domain Adaptation with Generative Adversarial Networks
CV圈对决:谷歌提出ViTGAN,用视觉Transformer训练GAN
卷积神经网络(convoluitonal neural networks,CNN)凭借强大的卷积和池化(pooling)能力,在计算机视觉领域占领主导地位。
新智元
2021/07/29
3600
微软歌声合成算法HIFISINGER论文解读
文章目录 论文题目: 摘要 前沿 背景 方法 SF-gan来建模宽频率(频域) ML-gan来建模长波形(时域) 其他设计 实验和结果 datasets model config 训练和合成 音质对比 论文题目: HIFISINGER: TOWARDS HIGH-FIDELITY NEURAL SINGING VOICE SYNTHESIS 摘要 高保真的歌声需要高的采样频率。高采样必定导致更宽的频率带和更长的波形序列,给歌声合成模型带来困难。 hifisinger是采用48kHZ的采样频率。它包括
AI拉呱
2021/01/26
3330
2019深度学习语音合成指南
还记得我们前几天发出文章《百度超谷歌跃升全球第二,硬核语音技术成抢夺智能音箱“C位”的王牌》吗?本篇文章我们将讲述 2019年深度学习语音合成的一些进展,其中有多篇工作来自百度研究院或百度硅谷人工智能研究院。
AI科技评论
2019/09/04
1.3K0
2019深度学习语音合成指南
新手指南综述 | GAN模型太多,不知道选哪儿个?
今天看到这么一个论文题目“A Novel Framework for Selection of GANs for an Application ”,这名字有、6啊,好久没有出厉害的GAN的变体了吧?新颖的GAN框架?决定下载下来看!引入眼帘的是摘要:
公众号机器学习与AI生成创作
2020/04/27
9480
Robust Data Augmentation Generative Adversarial Networkfor Object Detection
基于生成对抗性网络(GAN)的数据扩充用于提高目标检测模型的性能。它包括两个阶段:训练GAN生成器以学习小目标数据集的分布,以及从训练的生成器中采样数据以提高模型性能。在本文中,我们提出了一种流程化的模型,称为鲁棒数据增强GAN(RDAGAN),旨在增强用于目标检测的小型数据集。首先,将干净的图像和包含来自不同域的图像的小数据集输入RDAGAN,然后RDAGAN生成与输入数据集中的图像相似的图像。然后,将图像生成任务划分为两个网络:目标生成网络和图像翻译网络。目标生成网络生成位于输入数据集的边界框内的目标的图像,并且图像转换网络将这些图像与干净的图像合并。 定量实验证实,生成的图像提高了YOLOv5模型的火灾检测性能。对比评价表明,RDAGAN能够保持输入图像的背景信息,定位目标生成位置。此外,消融研究表明,RDAGAN中包括的所有组件和物体都发挥着关键作用。
狼啸风云
2023/10/07
4480
Robust Data Augmentation Generative Adversarial Networkfor Object Detection
深度学习进阶篇[9]:对抗生成网络GANs综述、代表变体模型、训练策略、GAN在计算机视觉应用和常见数据集介绍,以及前沿问题解决
生成模型:p(x) 即观测x出现的概率。如果有标签则表示为: p(x|y) 指定标签y生成x的概率。
汀丶人工智能
2023/06/01
3K0
深度学习进阶篇[9]:对抗生成网络GANs综述、代表变体模型、训练策略、GAN在计算机视觉应用和常见数据集介绍,以及前沿问题解决
推荐阅读
相关推荐
语音合成:HIFI-Gan 方法解读
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档