Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >方兴未艾的语音合成技术与应用

方兴未艾的语音合成技术与应用

作者头像
AI科技大本营
发布于 2018-10-22 03:45:22
发布于 2018-10-22 03:45:22
1.6K0
举报

参加 2018 AI开发者大会,请点击 ↑↑↑

CSDN 出品的《2018-2019 中国人工智能产业路线图》V2.0 版即将重磅面世! V1.0 版发布以来,我们有幸得到了诸多读者朋友及行业专家的鼎力支持,在此表示由衷感谢。此次 V2.0 版路线图将进行新一轮大升级,内容包括 3 大 AI 前沿产业趋势分析,10 位 AI 特邀专家的深度技术分析,15 家一线互联网企业的 AI 实力大巡展,以及 20 个 AI 优秀应用案例,力求为读者呈现更全面的中国人工智能产业发展概况和趋势判断。 V2.0 版将于 11 月 8 日举办的 2018 AI 开发者大会上正式发布,在此之前,我们将不间断公布精要内容,以飨读者。此为 V2.0 版中深度技术分析系列稿件第 2 篇,作者为 CSDN 特邀 AI 专家标贝科技联合创始人&CTO 李秀林。

作者简介:李秀林,中国科学院博士,15 年语音相关技术研发和学术研究,申请专利三十余项,在国内外语音界有很高的知名度;曾带领团队获得百度百万美元大奖。2006 年—2013 年,松下研发中心高级研发经理;2013 年—2016 年,百度语音合成技术负责人;2016 年—2018 年,滴滴研究院语音团队负责人&首席算法工程师;2018 年3 月加盟标贝科技,作为联合创始人兼CTO。

▌一、语音合成技术简介 语音,在人类的发展过程中,起到了巨大的作用。语音是语言的外部形式,是最直接地记录人的思维活动的符号体系,也是人类赖以生存发展和从事各种社会活动最基本、最重要的交流方式之一。而让机器开口说话,则是人类千百年来的梦想。语音合成(Text To Speech),是人类不断探索、实现这一梦想的科学实践,也是受到这一梦想不断推动、不断提升的技术领域。 在漫长的探索过程中,真正产生实用意义的合成系统,产生于 20 世纪 70 年代。受益于计算机技术和信号处理技术的发展,第一代参数合成系统--共振峰合成系统诞生了。它利用不同发音的共振峰信息,可以实现可懂的语音合成效果,但整体音质方面,还难以满足商用的要求。 进入 90 年代,存储技术得到了长足发展,从而诞生了拼接合成系统。拼接合成系统,利用 PSOLA 算法,将存储的原始发音片段进行调整后拼接起来,从而实现了相较于共振峰参数合成效果更好的音质。 之后,语音合成技术不断向前发展,参数合成、拼接合成两条主要的技术路线都取得了长足进展,相互竞争、相互促进,使得合成语音的质量大幅提升,语音合成技术在众多场景中得以应用。整体上看,主要包括如下几个方面: 从规则驱动转向数据驱动:在早期的系统中,大多需要大量的专家知识,对发音或者声学参数进行调整,不但费时费力,而且难以满足对不同上下文的覆盖,也在一定程度上影响技术的实施。随着技术的发展,越来越多的数据得以应用到系统中,以语音合成音库为例,从最初的几百句话,发展到后来的几千、几万句规模,使得发音样本数量大大增加,基于统计模型的技术得以广泛应用。从最初的树模型、隐马尔可夫模型、高斯混合模型,到近几年的神经网络模型,大大提升了语音合成系统对语音的描述能力。 不断提升的可懂且舒适的合成效果:语音合成系统的合成效果评价,一般是通过主观评测实验,利用多个参试人员对多个语音样本进行打分。如果语音样本来自不同的系统,则称为对比评测。为了提升语音的音质,参数合成系统中先后采用过 LPC 合成器、STRAIGHT 合成器、以 wavenet 为代表的神经网络声码器等;拼接合成系统中则采用不断扩大音库规模、改善上下文覆盖的策略,都取得了明显的效果。在理想情况下,用户希望语音合成的语音,能够以假乱真,达到真人发音水平。随着技术的不断发展,这一目标已经越来越近。在一种极端情况下,一组样本来自合成系统,一组样本来自真人发音,那么所做的对比评测,即可视为语音合成系统的图灵测试。如果用户无法准确分辨哪些语音样本是机器生成的,哪些是人类产生的,那么就可以认为这一合成系统通过了图灵测试。 文本处理能力不断增强:人类在朗读文本时,实际上是有一个理解的过程。要想让机器也能较好地朗读,这个理解过程必不可少。在语音合成系统中,一般会包括一个文本处理的前端,对输入文本进行数字、符号的处理,分词断句,以及多音字处理等一系列环节。通过利用海量的文本数据和统计模型技术,合成系统中文本处理的水平已经可以满足大多数场景下的商业应用要求。更进一步地,自然语言理解技术,还可以用于预测句子的焦点、情绪、语气语调等,但由于这部分受上下文的影响很大,而这类数据又相对较少,所以目前这部分情感相关的技术还不够成熟。

图 1. 语音合成系统框图 以上,是语音合成技术的发展概况。接下来,我们来探讨一下最近几年深度学习技术对合成技术发展的影响。 ▌二、深度学习与语音合成 深度学习技术,对语音合成的影响,主要分为两个阶段: 第一阶段:锦上添花。从 2012 年开始,深度学习技术在语音领域逐渐开始受到关注并得以应用。这一阶段,深度学习技术的主要作用,是替换原有的统计模型,提升模型的刻画能力。比如用 DNN 替代时长模型,用 RNN 替代声学参数模型等。语音的生成部分,仍然是利用拼接合成或者声码器合成的方式,与此前的系统没有本质差异。对比两种系统发现,在仔细对比的情况下,替代后的系统的效果略好于原系统,但整体感觉差异不大,未能产生质的飞跃。 第二阶段:另辟蹊径。这一阶段的很多研究工作,都具有开创性,是对语音合成的重大创新。2016 年,一篇具有标志性的文章发表,提出了 WaveNet 方案。2017 年初,另一篇标志性的文章发表,提出了端到端的 Tacotron 方案。2018 年初,Tacotron2 将两者进行了融合,形成了目前语音合成领域的标杆性系统。在此过程中,也有 DeepVoice,SampleRNN, Char2Wav 等很多有价值的研究文献陆续发表,大大促进了语音合成技术的发展,吸引了越来越多的研究者参与其中。

图 2. WaveNet 中的带洞卷积结构 WaveNet 是受到 PixelRNN 的启发,将自回归模型应用于时域波形生成的成功尝试。利用 WaveNet 生成的语音,在音质上大大超越了之前的参数合成效果,甚至合成的某些句子,能够到达以假乱真的水平,引起了巨大的轰动。其中,所采用的带洞卷积(dilated convolution)大大提升了感受野,以满足对高采样率的音频时域信号建模的要求。WaveNet 的优点非常明显,但由于其利用前 N-1 个样本预测第 N 个样本,所以效率非常低,这也是 WaveNet 的一个明显缺点。后来提出的 Parallel WaveNet 和 ClariNet,都是为了解决这个问题,思路是利用神经网络提炼技术,用预先训练好的 WaveNet 模型(teacher)来训练可并行计算的 IAF 模型(student),从而实现实时合成,同时保持近乎自然语音的高音质。 Tacotron 是端到端语音合成系统的代表,与以往的合成系统不同,端到端合成系统,可以直接利用录音文本和对应的语音数据对,进行模型训练,而无需过多的专家知识和专业处理能力,大大降低了进入语音合成领域的门槛,为语音合成的快速发展提供了新的催化剂。

图 3. Tacotron 的端到端网络结构 Tacotron 把文本符号作为输入,把幅度谱作为输出,然后通过 Griffin-Lim 进行信号重建,输出高质量的语音。Tacotron 的核心结构是带有注意力机制的 encoder-decoder 模型,是一种典型的 seq2seq 结构。这种结构,不再需要对语音和文本的局部对应关系进行单独处理,极大地降低了对训练数据的处理难度。由于 Tacotron 模型比较复杂,可以充分利用模型的参数和注意力机制,对序列进行更精细地刻画,以提升合成语音的表现力。相较于 WaveNet 模型的逐采样点建模,Tacotron 模型是逐帧建模,合成效率得以大幅提升,有一定的产品化潜力,但合成音质比 WaveNet 有所降低。 Tacotron2 是基于 Tacotron 和 WaveNet 进行融合的自然结果,既充分利用了端到端的合成框架,又利用了高音质的语音生成算法。在这一框架中,采用与 Tacotron 类似的结构,用于生成 Mel 谱,作为 WaveNet 的输入,而 WaveNet 则退化成神经网络声码器,两者共同组成了一个端到端的高音质系统。

图 4. Tacotron 2 的网络结构 ▌三、语音合成的应用 语音合成技术,已经成功应用在很多领域,包括语音导航、信息播报等。对于语音合成的应用前景,标贝科技有着自己的看法。因为标贝科技既是语音数据服务商,同时也是语音合成整体解决方案提供商,所以对于语音合成的应用前景,也做过很多思考。目前语音合成的声音,从合成效果上,已经可以满足大多数用户的需求,但是从音色选择上,还不够丰富;从发音方式上,还是偏单调。针对这种情况,标贝科技推出了“声音超市」,为合作伙伴提供了一个可供选择的,所听即所得的声音平台。我们认为,语音合成会以更贴近场景需求的合成效果,在如下的三大场景中得以广泛应用:语音交互、阅读&教育、泛娱乐。 语音交互 近年来,随着人工智能概念的推广,语音交互成为了一个热点,智能助手、智能客服等应用层出不穷。语音交互中,主要有三个关键技术,语音识别、语音合成和语义理解,语音合成在其中的作用显而易见。受限于语义理解的技术发展水平,目前的应用主要是聚焦于不同的垂直领域,用于解决某些特定领域的问题,还存在一定的局限性。 阅读&教育 阅读是一个长期且广泛的需求,我们每天都需要通过阅读获取大量的信息,既有碎片化的信息获取,也有深度阅读;既包括新闻、朋友圈、博文,也包括小说、名著;有的是为了与社会同步,有的是消磨时光,有的是为了提升自我修养。在这种多维度的信息需求当中,语音合成技术提供了一种「简单」的方式,一种可以「并行」输入的方式,同时也是一种「廉价」的方式。相较于传统的阅读,自有其优势。在开车时、散步时、锻炼时,都可以轻松获取信息。 在教育方面,尤其是语言教育方面,模仿与交互是必不可少的锻炼方式。目前的教育方式中,想学到标准的发音,是需要大量的成本的,比如各种课外班,甚至一对一教育。随着语音合成技术的不断进步,以假乱真的合成效果,一方面可以大大增加有声教育素材,另一方面,甚至可以部分取代真人对话的教育内容。 泛娱乐 泛娱乐是之前与语音合成交叉较少的场景,但我们认为这恰恰是一个巨大的有待开发的市场。我们已经拥有丰富的声音 IP 资源,并且可以通过声音超市进行展示,供大家选购自己喜欢的声音。这些都是为了将语音合成技术广泛应用到泛娱乐领域所做的准备。以配音领域为例,利用语音合成技术,可以大大降低配音的成本和周期;以目前火爆的短视频为例,利用语音合成技术可以非常容易地为自己的视频配上有趣的声音来展现内容;以虚拟主持人为例,利用语音合成技术,可以提升信息的时效性,同时大大缓解主持人的工作压力,降低其工作强度。 总之,随着语音合成技术的快速发展,所生成的语音会越来越自然生动,也会越来越有情感表现力。我们坚信,技术的进步,会不断冲破原有的障碍,满足越来越多的用户需求,使得更好的应用不断涌现,实现用声音改变生活的美好愿景! 【完】

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-10-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技大本营 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
腾讯云语音合成TTS试用
随着人工智能技术的飞速发展,人机交互的方式也在不断革新。腾讯云语音合成(TTS)技术,作为AI领域的一项重要应用,正在以前所未有的速度改变我们的生活和工作方式。大家好,我是AI大眼萌,今天就让我们一起探索这项技术的魅力和潜力!
AI大眼萌
2024/06/30
1.1K0
腾讯云语音合成TTS试用
使用英伟达NeMo让你的文字会说话,零基础即可实现自然语音生成任务 | 附代码
语音合成技术可以将文字信息转换成标准流畅的语音且进行朗读,在公共服务、智慧交通、泛娱乐、智能硬件等领域具有广泛应用。 在第3期英伟达x量子位NLP公开课上,英伟达开发者社区经理分享了【使用NeMo让你的文字会说话】,介绍了语音合成技术的理论知识,并通过代码演示讲解了如何使用NeMo快速完成自然语音生成任务。 以下为分享内容整理,文末附直播回放、课程PPT&代码、往期课程内容整理。 ---- 大家好,我是来自NVIDIA企业级开发者社区的李奕澎。今天直播的主题是使用对话式AI工具库—Nemo让你的文字会说话。
量子位
2023/03/10
6110
使用英伟达NeMo让你的文字会说话,零基础即可实现自然语音生成任务 | 附代码
情感语音合成技术难点突破与未来展望
回放链接:https://www.livevideostack.cn/video/sillon/
LiveVideoStack
2020/07/10
1.9K0
Attention,Tacotron,WaveNet和LPCNet声码器等前沿方法详解
作为语音交互的出口,语音合成是语音助手、车载导航、智能音箱、智能玩具、机器人等应用的必备功能,其效果直接影响人机交互的体验。此外,语音合成在AI音频内容创作与生成上也具有巨大的应用潜力:AI听书、AI电台、虚拟主播等均需要自然流畅、多样化、表现力、个性化的语音合成技术。
音视频开发进阶
2021/06/09
8010
Attention,Tacotron,WaveNet和LPCNet声码器等前沿方法详解
业界 | 速度提升270倍!微软和浙大联合推出全新语音合成系统FastSpeech
AI科技评论按:目前,基于神经网络的端到端文本到语音合成技术发展迅速,但仍面临不少问题——合成速度慢、稳定性差、可控性缺乏等。为此,微软亚洲研究院机器学习组和微软(亚洲)互联网工程院语音团队联合浙江大学提出了一种基于Transformer的新型前馈网络FastSpeech,兼具快速、鲁棒、可控等特点。与自回归的Transformer TTS相比,FastSpeech将梅尔谱的生成速度提高了近270倍,将端到端语音合成速度提高了38倍,单GPU上的语音合成速度达到了实时语音速度的30倍。
AI科技评论
2019/06/05
9010
业界 | 速度提升270倍!微软和浙大联合推出全新语音合成系统FastSpeech
开源声码器WORLD在语音合成中的应用
语音合成(TTS)是语音AI平台的基础设施,而声码器则决定着其中的声学模型以及合成质量。喜马拉雅FM音视频高级工程师 马力在LiveVideoStack线上交流分享中详细介绍了新一代合成音质更高,
LiveVideoStack
2021/09/01
1.4K0
2019深度学习语音合成指南
还记得我们前几天发出文章《百度超谷歌跃升全球第二,硬核语音技术成抢夺智能音箱“C位”的王牌》吗?本篇文章我们将讲述 2019年深度学习语音合成的一些进展,其中有多篇工作来自百度研究院或百度硅谷人工智能研究院。
AI科技评论
2019/09/04
1.3K0
2019深度学习语音合成指南
SFFAI分享 | 连政:端到端语音合成【附PPT与视频资料】
连政,中国科学院自动化研究所模式识别国家重点实验室16级硕博生。目前研究兴趣为多模态情感识别、语音合成和语音转换。
马上科普尚尚
2020/05/14
1.2K0
SFFAI分享 | 连政:端到端语音合成【附PPT与视频资料】
自动语音识别(ASR)与文本转语音(TTS)技术的应用与发展
近年来,语音技术在人工智能领域的发展极为迅速,语音识别(ASR)和文本转语音(TTS)作为两项重要的核心技术,被广泛应用于智能助手、客户服务系统、翻译设备以及教育平台等多个领域。这两种技术各自解决了语音交互中的不同问题,共同助力于实现自然、流畅的人机对话。
kwan的解忧杂货铺
2024/11/16
3680
语音合成到了跳变点?深度神经网络变革TTS最新研究汇总
机器之心原创 作者:李亚洲 近年来,随着深度神经网络的应用,计算机理解自然语音能力有了彻底革新,例如深度神经网络在语音识别、机器翻译中的应用。但是,使用计算机生成语音(语音合成(speech synthesis)或文本转语音(TTS)),仍在很大程度上基于所谓的拼接 TTS(concatenative TTS)。而这种传统的方法所合成语音的自然度、舒适度都有很大的缺陷。深度神经网络,能否像促进语音识别的发展一样推进语音合成的进步?这也成为了人工智能领域研究的课题之一。 2016 年,DeepMind 提
机器之心
2018/05/07
1.3K0
语音合成到了跳变点?深度神经网络变革TTS最新研究汇总
干货 | 极限元算法专家:深度学习在语音生成问题上的典型应用 | 分享总结
AI 科技评论按:深度学习在2006年崭露头角后,近几年取得了快速发展,在学术界和工业界均呈现出指数级增长的趋势;伴随着这项技术的不断成熟,深度学习在智能语音领域率先发力,取得了一系列成功的应用。 这次分享会中,雷锋网邀请到了中科院自动化所的刘斌博士。刘斌,中科院自动化所博士,极限元资深智能语音算法专家,中科院-极限元智能交互联合实验室核心技术人员,曾多次在国际顶级会议上发表论文,获得多项关于语音及音频领域的专利,具有丰富的工程经验。刘斌博士会与大家分享近年来深度学习在语音生成问题中的新方法,围绕语音合成和
AI科技评论
2018/03/14
1.2K0
干货 | 极限元算法专家:深度学习在语音生成问题上的典型应用 | 分享总结
业界 | 谷歌发布TTS新系统Tacotron 2:直接从文本生成类人语音
选自Google Blog 作者:Jonathan Shen、Ruoming Pang 机器之心编译 参与:黄小天、刘晓坤 近日,谷歌在其官方博客上推出了新的语音合成系统 Tacotron 2,包括一个循环序列到序列特征预测网络和一个改良的 WaveNet 模型。Tacotron 2 是在过去研究成果 Tacotron 和 WaveNet 上的进一步提升,可直接从文本中生成类人语音,相较于专业录音水准的 MOS 值 4.58,Tacotron 2 取得了 4.53 的 MOS 值。虽然结果不错,但仍有一些问
机器之心
2018/05/11
1.4K0
谷歌AI黑科技曝光:合成语音与真人声音难以区分
【腾讯科技编者按】 据国外媒体报道称,如果按照最新的标准来看,人类似乎已经将自己的“声带”正式献给了人工智能。这可并不是笔者在这儿危言耸听,而是谷歌本月开创性地推出了一款名为“Tacotron 2”的全新文字转语音系统,它具有惊人的发音准确性,且实际文本阅读效果几乎同真人声音无法区分。 消息称,“Tacotron 2”其实已经是谷歌的第二代类似技术,它由两个深度神经网络组成。其中一个负责将文本转换为可视化的图谱(通常是PDF格式),然后再将这个生成的这个可视化图谱载入第二个深度神经网络WaveNet(这
企鹅号小编
2018/01/19
1.4K0
谷歌AI黑科技曝光:合成语音与真人声音难以区分
我掌握的新兴技术:语音合成:如何用AI生成自然和多样的语音
语音合成是一项重要的人工智能技术,它可以将文本转换为自然流畅的语音,为语音交互应用、辅助技术等领域提供了便利。本文将介绍如何利用AI技术实现自然和多样的语音合成,让你的应用更具人性化和个性化。
Echo_Wish
2024/02/07
5240
高保真音色媲美真人,StyleTTS为QQ浏览器「听书」语音注入情感
今年 4 月,QQ 浏览器宣布 「小说频道」正式变更为 「免费小说」频道,这意味着阅文平台旗下的万千小说将免费供用户阅读。网络文学已浮浮沉沉二十余载,其阅读方式也随之几经改变。
机器之心
2021/10/26
1.8K0
高保真音色媲美真人,StyleTTS为QQ浏览器「听书」语音注入情感
谷歌发布升级版语音合成系统,直接从字符合成语音
科技改变生活 近日,谷歌推出了新的语音合成系统Tacotron 2,这是一种直接从文本中合成语音的神经网络结构,即新型TTS系统,该系统结合了初代Tacotron和Deepmind WaveNet等研究的经验,在能力上有了进一步提升。 TTS技术即从文本到语音,它是语音合成应用的一种。在搭载神经网络算法的语音控制器作用下,文本输出的语音音律应使听众在听取信息时感觉自然,毫无机器语音输出的冷漠与生涩感,但是目前还没有一款系统可以做到。 2017年3月,谷歌推出了一种新的端到端语音合成系统Tacotron。
企鹅号小编
2018/01/16
2.1K0
谷歌发布升级版语音合成系统,直接从字符合成语音
2019深度学习语音合成指南(上)
人工生成的人类语音被称为语音合成。这种基于机器学习的技术适用于文本到语音转换、音乐生成、语音生成、启用语音的设备、导航系统以及视障人士的可访问性。
AiTechYun
2019/12/23
8990
2019深度学习语音合成指南(上)
AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出
在数字化时代,文本到语音(Text-to-Speech, TTS)技术已成为人机交互的关键桥梁,无论是为视障人士提供辅助阅读,还是为智能助手注入声音的灵魂,TTS 技术都扮演着至关重要的角色。从最初的拼接式方法到参数化技术,再到现今的深度学习解决方案,TTS 技术经历了一段长足的进步。这篇文章将带您穿越时间,探究 TTS 技术的演变历程,重点关注如何通过先进的算法和计算模型,实现从一段静态文本到仿若真人般自然流畅语音的转化。我们将深入了解深度学习的革命性影响,如何推动着 TTS 技术向着更高的自然度和理解力迈进,特别是谷歌的 Tacotron 和 DeepMind 的 WaveNet 如何在这个领域设定了新的标准。随着技术的不断成熟,未来的 TTS 系统将更加智能、灵活,并且能够在更广泛的应用场景中提供个性化和情感丰富的语音交互体验。
汀丶人工智能
2024/09/11
3610
AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出
Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型(二)
机器之心专栏 本专栏由机器之心SOTA!模型资源站出品,每周日于机器之心公众号持续更新。 本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。 本文将分 2 期进行连载,共介绍 19 个在语音合成任务上曾取得 SOTA 的经典模型。 第 1 期:BLSTM-RNN、WaveNet、SampleRNN、Char2Wav
机器之心
2023/03/29
3.6K0
Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型(二)
基于Tacotron汉语语音合成的开源实践
语音合成(Text to Speech Synthesis)是一种将文本转化为自然语音输出的技术,在各行各业有着广泛用途。传统TTS是基于拼接和参数合成技术,效果上同真人语音的自然度尚有一定差距,效果已经达到上限,在实现上也依赖于复杂流水线,比如以文本分析为前端的语言模型、语音持续时间模型、声学特征预测模型、将频谱恢复成时域波形的声码器(vocoder)。这些组件都是基于大量领域专业知识,设计上很艰难,需要投入大量工程努力,对于手头资源有限的中小型玩家来说,这种“高大上”的技术似乎有些玩不起。
LiveVideoStack
2021/09/01
1.3K0
推荐阅读
腾讯云语音合成TTS试用
1.1K0
使用英伟达NeMo让你的文字会说话,零基础即可实现自然语音生成任务 | 附代码
6110
情感语音合成技术难点突破与未来展望
1.9K0
Attention,Tacotron,WaveNet和LPCNet声码器等前沿方法详解
8010
业界 | 速度提升270倍!微软和浙大联合推出全新语音合成系统FastSpeech
9010
开源声码器WORLD在语音合成中的应用
1.4K0
2019深度学习语音合成指南
1.3K0
SFFAI分享 | 连政:端到端语音合成【附PPT与视频资料】
1.2K0
自动语音识别(ASR)与文本转语音(TTS)技术的应用与发展
3680
语音合成到了跳变点?深度神经网络变革TTS最新研究汇总
1.3K0
干货 | 极限元算法专家:深度学习在语音生成问题上的典型应用 | 分享总结
1.2K0
业界 | 谷歌发布TTS新系统Tacotron 2:直接从文本生成类人语音
1.4K0
谷歌AI黑科技曝光:合成语音与真人声音难以区分
1.4K0
我掌握的新兴技术:语音合成:如何用AI生成自然和多样的语音
5240
高保真音色媲美真人,StyleTTS为QQ浏览器「听书」语音注入情感
1.8K0
谷歌发布升级版语音合成系统,直接从字符合成语音
2.1K0
2019深度学习语音合成指南(上)
8990
AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出
3610
Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型(二)
3.6K0
基于Tacotron汉语语音合成的开源实践
1.3K0
相关推荐
腾讯云语音合成TTS试用
更多 >
加入讨论
的问答专区 >
1高级后端开发工程师擅长3个领域
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档