Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >番茄小说AI的演技登上全网热搜,让火山语音出了名

番茄小说AI的演技登上全网热搜,让火山语音出了名

作者头像
机器之心
发布于 2022-06-02 05:41:01
发布于 2022-06-02 05:41:01
1.5K0
举报
文章被收录于专栏:机器之心机器之心

机器之心报道

作者:泽南

研究员大战「硬演 AI」的故事。

AI 整的活,永远出乎人类的预料。最近,一个网络小说阅读 APP 因为有 bug 登上了热搜,b 站上也出现了不少搞笑视频,一些还有百万播放量。

引发人们广泛讨论的「番茄小说」是抖音旗下的阅读 APP,和其他很多同类应用一样带有听书功能,AI 算法生成的语音可以让你直接去听任何文字版小说,同时去做别的事。

番茄小说的不同之处在于——相对大多数 APP,它的语音合成 AI 「更聪明一点」:能够把文字读出不同音色和语气,如果文字是「哈哈哈……」,AI 不会平淡地念出来,而是真的会笑起来;当读到两个人对话的时候,它还能自动把声音分成两个不同的语气,从而区别出不同的角色。

然而在某些小说里,如果作者写的文字给的 S 太多,AI 会进入死循环发出怪声,或者文字中带有几段英文,甚至希腊字母,那么 AI 就会读出完全的中式英语。

这就让人有点绷不住了,毕竟在网文世界里,人们往往很在意这种特殊用法的描写。

语音合成有多难

AI 喜提热搜后,我们和这项技术的开发者聊了聊。

「番茄小说 bug 的热搜确实出乎我们预料,在内部大家也讨论了很久,」火山语音(字节跳动 AI Lab 智能语音团队)负责人马泽君说道。「最近一段时间,人们对语音合成技术的进步感到兴奋,但万万没想到是从这个角度火出圈的。」

马泽君表示,修复 bug 的技术早已研发完成。问题出现后,经过和业务方的沟通,快速上线了新的模型,bug 就被修复了。旧版本的存量音频正被逐渐替换,网文爱好者们向鬼畜区投稿的快乐并没有持续太久。

其实,在字节跳动内部,马泽君领导的团队与番茄小说的合作从 2019 年就开始了。去年,火山语音已经对语音合成模型进行了大版本迭代,从早期的自回归结构演变成引入外部时长对齐机制的非自回归结构。相比原先的模型,新模型在消除对齐错误以及累积误差等方面有了很大改进,从而解决了发声不清晰、超长句停不下来的问题。

而为解决「中式英语」的问题,研究团队通过跨语种迁移,已能让没有英文训练数据的音色模型也能发出标准的美式口音(具体可见:「当你的童年男神学会了多种语言无缝切换」)。

这些工作说来容易,但对于研究人员来说,要想构建一个完美的语音合成 AI 需要克服很多挑战。

人工智能领域里,语音技术是计算机视觉(CV)和自然语言理解(NLP)之外的另一个重要领域,最早的研究可以追溯到 1952 年。一个典型的语音合成系统(Text-to-Speech,TTS)通常分成三个标准技术模块:文本分析前端,中间的声学模型,和最后的声码器(vocoder)。

为了让机器发出的声音接近真人,首先需要保证输出内容不读错,这就需要文本分析模型来进行解析。为了能读出轻重缓急,声学模型需要在文本分析得出的语言学特征基础上对发音的语速、音高和停顿进行预测,再以 Mel 谱特征输出。最后,声码器负责将 Mel 谱转化成为波形输出,它需要保证高质量的音质,避免出现金属音等情况。

在番茄小说中,文本分析前端采用了 NLP 领域应用广泛的 Transformer 架构模型 BERT,通过神经网络加规则混合的正则化模型(TN)和多任务前端模型,结合长期的人工规则修正,不断提升前端的句级别精度,并通过蒸馏、量化等技术降低了算力需求。声学模型采用了以 LConv 为基础的 parallel Tacotron 结构,声码器使用了以 GAN 为基础的全神经网络架构。

真人朗读之所以听起来自然,是因为人类对上下文内容的理解。为了让合成语音更加好听,在常规 TTS 流程之上,火山语音团队还加入了更多功能模块,实现了角色归属、情感控制两个模块。在角色归属中同样采用了 bert 结构,进行对话判定和指代消歧两个任务的建模,另外也采用类似的结构进行情感预测。

「小说文字中可能会出现多人对话,一个说话人又可能会存在多种情感,我们把音色和情感进行了解耦,可以更好地控制合成语音的表现力,进而就可以实现不同的音色和不同情感的灵活组合,这也是一项较大的突破。」马泽君说道。

AI 多播是另一个有趣的尝试:算法模型先通过上下文理解,得出每句话是旁白还是对话、由哪个角色说的、以怎样的情感表达等相关信息, 再用对应人设和情感的模型进行合成,最终完成一部有声书的演绎。

语音合成的 AI 虽然有些地方读法不对,但大多数时候都给人带来了很好的体验。在演示 bug 的视频下也有网友认为,番茄小说的文本朗读是同类 APP 里听起来最舒服的。

火山语音除了为番茄小说提供了 AI 朗读技术外,还支持了语音搜索的能力,后者可以帮助用户更快捷地找到自己感兴趣的小说。

「比如你可以对手机说:找《风起陇西》对应的原著小说,我们能让用户听得更爽,找得更快,」马泽君表示。

层出不穷的黑科技

番茄小说是抖音在 2019 年初推出的免费阅读产品,如今已成为目前国内在线阅读 APP 领域里热度最高的一个。AI 朗读技术在其中起到了不小作用。

火山语音正计划把这些能力迁移到更多语言中,借助跨语言合成技术,不仅能用准确的音色读出英文,还覆盖了西班牙语、印尼语等,同时可以保留原本的小说风格。这大大丰富了旗下的国际单播音色矩阵,为不同国家的用户提供了更多的选择。

除了情感合成和多角色朗读这两个最大特点,火山语音目前正在探索的方向是在 AI 文本朗读的过程中加入背景音乐和音效。「我们还在探索多角度的声源定位,让你在戴上耳机的时候,空间音频效果可以演绎出脚步声的移动,获得身临其境的体验,」马泽君说道。

除了能让 AI 念小说,火山语音的研究还覆盖语音的多个方面,今年的国际语音技术顶会 ICASSP 2022 上,字节跳动有关音乐翻唱检索的研究 Bytecover2 被大会接收,其能在海量曲库中准确搜索出一首曲目的不同翻唱版本。

在上一代的 Bytecover 研究中,火山语音曾创造性地将 ResNet-IBN 模型和多任务学习的思路应用到了翻唱特征识别任务中,显著提高了翻唱特征的鲁棒性和可区分性。Bytecover 在国际音乐信息检索竞赛 MIREX 上取得了历史最好成绩,准确率比第二名高了 8%,大幅刷新了翻唱识别赛道历年最好记录,mAP 指标达到 84%,是同年参加该竞赛的其他方案性能的 14 倍。

DYZC1 为字节跳动提出的方法。

而在 Bytecover2 上,作者通过使用主成分分析(PCA)对全连接层(FC)进行初始化,构建PCA-FC模块对特征进行降维,减少了计算开销,把检索速度一下提升了八倍。更重要的是,这项技术目前已经在字节系大量产品中落地,在音乐分发、曲库整理、智能推荐等任务中发挥了重要作用。

AI 研究最近的趋势是「大模型」。在计算机视觉和自然语言处理上,大规模预训练模型已经成为重要的研究方向,火山语音也在语音领域进行了探索。其提出基于 Swin transformer 音乐自监督预训练方法 S3T 可以有效挖掘音乐的时域和频率信息,其在多个下游任务取得了业界领先的效果。例如 S3T 在行业通用的音乐分类数据集上相比之前的自监督方法准确率提升了 12.5%,还超过了特定任务上的最优监督学习方法。

「字节跳动面向全球市场,需要面对大量数据和广泛的需求,语音大规模预训练模型是我们研究的重要方向,」马泽君表示。「在最新的工作中,研究人员分别从算法和工程优化了数百万小时语音数据的预训练,实现了百亿参数规模的大模型。」

未来,火山语音还希望去做千万小时数据规模,完成千亿参数的大模型,实现支持 100 种语言的目标。

字节跳动的 AI,还会给我们带来更多惊喜。

把领先技术开放出去

为番茄小说打造 AI 语音技术的火山语音团队于 2017 年 10 月成立,目前已有百名成员,在北京、上海、深圳,及海外的新加坡和波兰都设有研发中心。

近期有关火山语音的另一个消息是有媒体报道负责人离职,马泽君表示,报道中提到的梅晓系原 AI Lab 语言学专家,主要负责语言学在语音合成技术上的应用。并非 AI Lab 的智能语音部门负责人。

梅晓本人也对此进行了辟谣。

火山语音长期以来面向字节跳动内部各业务线以及火山引擎 ToB 行业与创新场景,提供了全球领先的语音 AI 技术能力以及卓越的全栈语音产品解决方案。在音频理解、创作、检索和生成以及智能对话等领域持续进行场景创新以及行业赋能,高效解决了语音通信、人机语音交互、音视频内容理解与创作等领域诸多问题。

「我们不仅负责前沿算法的研究,也肩负着工程化的任务,面向公司的整体业务」马泽君说道。「我们认为人工智能不仅可以在实验室里实现技术突破,或者是展示酷炫的效果,更希望它们可以走向实际应用场景。只有通过与用户不断互动,迭代提升,我们才能实现这样的目标。」

不仅是番茄小说,火山语音技术的应用已经覆盖到了抖音、剪映等字节跳动核心内容产品和工具上。智能语音提供的多语言的视频字幕能力可以使用 13 个语言,面向 30 多个国家提供服务。除了向娱乐产品提供服务以外,其语音技术也向火山引擎及飞书提供能力。

儿童节之际,火山语音旗下的 AI 音乐人 ByteMuse 在抖音上新了《摇摇车》、《喵喵》、《sunny kitty》三首 AI 创作的童趣配乐,大小朋友都能更有仪式感地记录、分享生活,欢迎大家在抖音上体验。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-06-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
“柯南领结”变成现实,字节跳动智创语音团队SAMI发布新一代实时AI变声方案
机器之心报道 机器之心编辑部 这项技术未来在虚拟人、短视频玩法、客服服务、直播互动玩法上有着很大的落地空间。 字节跳动智能创作语音团队 SAMI(Speech, Audio and Music Intelligence)近日发布了新一代的低延迟、超拟人的实时 AI 变声技术。不同于传统的变声,AI 变声是基于深度学习的声音转换(Voice Conversion)技术来实现的,可以实现任意发音人的音色定制,极大程度保留原始音色的特点。 该方案的亮点如下: 在 CPU 单核上就能做到极低延迟的实时输入实时变声,
机器之心
2022/08/25
8380
“柯南领结”变成现实,字节跳动智创语音团队SAMI发布新一代实时AI变声方案
字节跳动Seed-TTS:AI语音合成技术的革命
hi,小伙伴们,今天的主题是研究研究TTS,最近工作内容涉及到AI视频混剪,需要进行音色合成,看一下市面上效果好又花钱少的相对成熟技术薅羊毛!
朱晓霞
2024/07/12
9910
字节跳动Seed-TTS:AI语音合成技术的革命
系统调研450篇文献,微软亚洲研究院推出超详尽语音合成综述
编者按:语音合成一直以来是语言、语音、深度学习及人工智能等领域的热门研究方向,受到了学术界和工业界广泛的关注。尽管语音合成技术的研究已有几十年的历史,基于神经网络的语音合成技术也有近十年历史,且已产出了大量的优质研究成果,但针对神经语音合成不同研究方向的整合型综述论文却十分匮乏。近日,微软亚洲研究院的研究员们通过调研了450余篇语音合成领域的文献,发表了迄今为止语音合成领域几乎最详尽的综述论文 “A Survey on Neural Speech Synthesis”。在文中,研究员们还整理收集了语音合成领域的相关资源如数据集、开源实现、演讲教程等,同时也对语音合成领域未来的研究方向进行了探讨和展望。希望本文能对相关工作的研究人员提供具有价值的参考。
AI科技评论
2021/08/24
6800
系统调研450篇文献,微软亚洲研究院推出超详尽语音合成综述
两分钟录音就可秒变语言通!火山语音音色复刻技术如何修炼而成?
先来欣赏一段音视频,或许你会有惊喜发现呢? 没错,这就是动漫海绵的配音模仿者的声音呈现。 不同的是,这位即将奔四的美国喜剧动画主角,如今在模仿者的演绎下一改往日的单一语言以及固定风格,居然一股脑儿说出了译制腔、TVB腔、粤语甚至上海话。 更重要的一点,所有风格以及语言,都是基于一段仅仅两分钟时长的纯中文音频训练而成。 话说两分钟时长的音频究竟可以包含多少内容? 经过语音方向的专业人士估算,基本等同于人们正常语速说出的20句话的内容量。 而这样既能保留本尊音色,又能实现多风格多语种无缝切换的“神奇语音”,还要
量子位
2022/08/26
1K0
两分钟录音就可秒变语言通!火山语音音色复刻技术如何修炼而成?
AI口语纠正的技术框架
AI口语纠正的技术框架涉及多个密切相关的技术领域,旨在帮助学习者提高口语流利度和准确性。以下我将详细阐述其技术框架,并结合实际应用进行说明。
数字孪生开发者
2025/01/18
2020
AI口语纠正的技术框架
高保真音色媲美真人,StyleTTS为QQ浏览器「听书」语音注入情感
今年 4 月,QQ 浏览器宣布 「小说频道」正式变更为 「免费小说」频道,这意味着阅文平台旗下的万千小说将免费供用户阅读。网络文学已浮浮沉沉二十余载,其阅读方式也随之几经改变。
机器之心
2021/10/26
1.8K0
高保真音色媲美真人,StyleTTS为QQ浏览器「听书」语音注入情感
真国风 AI 虚拟人!腾讯艾灵学会作诗书法新技能,以假乱真的那种
5月21日,腾讯AI虚拟人艾灵再秀出新技能,首次展示AI作诗、AI书法等国风才艺,并与青年歌手白举纲跨次元合作,共同演唱国风新歌《百川千仞》。
AI科技评论
2021/07/02
1.2K0
灵云推出情感语音SDK,男生瞬间拥有女神般魅惑声音!
虽然这个虚构出来的角色是由演员配音完成的,但却透露出一个真实的讯息——越接近真人说话水准和富有情感表现力的声音,越容易为大众所接受。
BestSDK
2018/07/30
6500
灵云推出情感语音SDK,男生瞬间拥有女神般魅惑声音!
【AIDL专栏】陶建华:深度神经网络与语音(附PPT)
“人工智能前沿讲习班”(AIDL)由中国人工智能学会主办,旨在短时间内集中学习某一领域的基础理论、最新进展和落地方向,并促进产、学、研相关从业人员的相互交流。对于硕士、博士、青年教师、企事业单位相关从业者、预期转行AI领域的爱好者均具有重要的意义。2018年AIDL活动正在筹备,敬请关注公众号获取最新消息。
马上科普尚尚
2020/05/14
1.4K0
【AIDL专栏】陶建华:深度神经网络与语音(附PPT)
「AI孙燕姿」全网沸腾!AI翻唱大爆发,整个华语乐坛都「复兴」了
---- 新智元报道   编辑:桃子 好困 【新智元导读】最近,一位「冷门歌手」竟靠着AI替身,翻唱华语乐坛歌曲爆红全网。 一夜之间,「AI孙燕姿」火遍全网。 B站上,AI孙燕姿翻唱的林俊杰「她说」、周董「爱在西元前」、赵雷「成都」等等,让一众网友深陷无法自拔。 「冷门歌手」孙燕姿新晋成为2023年度热门歌手,掀起许多人的追星狂欢。 网友表示,「听了一晚上AI孙燕姿,出不去了......」 这些翻唱歌曲,是由Eternity丨L、罗斯特_x等UP主通过开源项目自制后并上传。 (作者似乎特意在「半岛
新智元
2023/05/09
4950
「AI孙燕姿」全网沸腾!AI翻唱大爆发,整个华语乐坛都「复兴」了
你家的猫也能来段东北话了:快手快影一键「智能配音」,三种方言随意换,还能配出《舌尖》风
另外,通过「字幕」→「加字幕」,完成字幕输入后,同样会出现「智能配音」的入口。操作相当方便。
量子位
2020/07/21
1.6K0
你家的猫也能来段东北话了:快手快影一键「智能配音」,三种方言随意换,还能配出《舌尖》风
【AGI-Eval行业动态】OpenAI 语音模型三连发,AI 语音进入“声优”时代
美东时间 3 月 20 日,OpenAI 发布了三款全新语音模型,分别是自动语音识别模型(ASR) GPT - 4o Transcribe 和 GPT - 4o Mini Transcribe,以及语音合成模型(TTS) GPT - 4o Mini TTS。
AGI-Eval评测社区
2025/04/08
1770
【AGI-Eval行业动态】OpenAI 语音模型三连发,AI 语音进入“声优”时代
检索速度提高八倍,字节跳动发布最新音乐检索系统ByteCover2
机器之心发布 机器之心编辑部 翻唱识别(CSI)是音乐信息检索(MIR)领域的一项重要任务,在歌曲搜索,音乐分发,曲库整理,智能推荐等场景下有着重要作用,被誉为下一代音乐识别技术。 近期,字节跳动火山语音团队的最新音乐检索系统 ByteCover2 入选了 ICASSP 2022。这一系统主要面向翻唱识别(CSI)这一音乐信息检索(MIR)领域的一项重要任务,通过表征学习方法让其具备提取音乐核心特征的能力,并且该特征能够对种类繁多的音乐重演绎具有良好的鲁棒性,检索速度提高 8 倍。经 Da-Tacos 数据
机器之心
2022/05/25
5890
检索速度提高八倍,字节跳动发布最新音乐检索系统ByteCover2
《揭秘AI语音助手:从“听”到“说”的智能之旅》
在当今数字化时代,AI语音助手已成为我们生活和工作中的得力伙伴。无论是苹果的Siri、亚马逊的Alexa,还是国内的小爱同学、小度等,它们能轻松执行指令,如查询天气、播放音乐,甚至陪我们聊天解闷。但你是否想过,这些语音助手是如何听懂我们的话语,又如何给出恰当回应的呢?今天,就让我们深入探索AI语音助手背后的技术原理。
程序员阿伟
2025/02/21
2860
情感语音合成技术难点突破与未来展望
回放链接:https://www.livevideostack.cn/video/sillon/
LiveVideoStack
2020/07/10
1.9K0
方兴未艾的语音合成技术与应用
作者简介:李秀林,中国科学院博士,15 年语音相关技术研发和学术研究,申请专利三十余项,在国内外语音界有很高的知名度;曾带领团队获得百度百万美元大奖。2006 年—2013 年,松下研发中心高级研发经理;2013 年—2016 年,百度语音合成技术负责人;2016 年—2018 年,滴滴研究院语音团队负责人&首席算法工程师;2018 年3 月加盟标贝科技,作为联合创始人兼CTO。
AI科技大本营
2018/10/22
1.6K0
方兴未艾的语音合成技术与应用
揭秘语音到语音翻译黑科技,来挑战国际口语翻译大赛
机器之心发布 字节跳动AI Lab机器翻译团队 作者:董倩倩 语言是人类社会最自然、最有效的交流方式之一,是人类文化融合和信息传播的主要工具。随着全球化与信息化时代的到来,国际间的交流以及信息传播呈现爆发式增长,让计算机理解不同语言并实现语言之间的自动翻译成为人类社会的迫切需求。 语音作为一种自然、便捷且传递信息丰富的语言承载形式,是人类与机器交互的理想方式。 道格拉斯・亚当斯在小说《银河系漫游指南》中提到过一种叫做巴别鱼的神奇生物:体型很小,靠接受脑电波为生。人们可以携带它,它从脑电波中吸收精神频率,转化
机器之心
2023/03/29
2.3K0
揭秘语音到语音翻译黑科技,来挑战国际口语翻译大赛
AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出
在数字化时代,文本到语音(Text-to-Speech, TTS)技术已成为人机交互的关键桥梁,无论是为视障人士提供辅助阅读,还是为智能助手注入声音的灵魂,TTS 技术都扮演着至关重要的角色。从最初的拼接式方法到参数化技术,再到现今的深度学习解决方案,TTS 技术经历了一段长足的进步。这篇文章将带您穿越时间,探究 TTS 技术的演变历程,重点关注如何通过先进的算法和计算模型,实现从一段静态文本到仿若真人般自然流畅语音的转化。我们将深入了解深度学习的革命性影响,如何推动着 TTS 技术向着更高的自然度和理解力迈进,特别是谷歌的 Tacotron 和 DeepMind 的 WaveNet 如何在这个领域设定了新的标准。随着技术的不断成熟,未来的 TTS 系统将更加智能、灵活,并且能够在更广泛的应用场景中提供个性化和情感丰富的语音交互体验。
汀丶人工智能
2024/09/11
3710
AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出
喜马拉雅贺雯迪:基于端到端TTS实现更具生动、富有情感的语音合成表现
贺雯迪:我目前在喜马拉雅担任音频算法工程师,工作研发方向是TTS前端模块的搭建和优化(文本规整化、分词、多音字、韵律预测等),后端算法(基于深度生成模型的说话人风格转换,情感控制,音色克隆、神经声码器的优化等方向)。演讲的方向是基于现在语音合成领域中比较具有发展前瞻性和讨论性的:语音合成中风格迁移、情感合成、音色克隆等衍生方向上技术和应用方面的探讨。
LiveVideoStack
2020/05/08
1.4K0
喜马拉雅贺雯迪:基于端到端TTS实现更具生动、富有情感的语音合成表现
学界 | 谷歌全端到端语音合成系统Tacotron:直接从字符合成语音
选自arXiv 作者:王雨轩等 机器之心编译 参与:李泽南、吴攀 最近,谷歌科学家王雨轩等人提出了一种新的端到端语音合成系统 Tacotron,该模型可接收字符的输入,输出相应的原始频谱图,然后将其提供给 Griffin-Lim 重建算法直接生成语音。该论文作者认为这一新思路相比去年 DeepMind 的 WaveNet 以及百度刚刚提出的 DeepVoice 具有架构上的优势。点击阅读原文下载论文。 现代文本转语音(TTS)的流程十分复杂(Taylor, 2009)。比如,统计参数 TTS(statist
机器之心
2018/05/07
1.8K0
学界 | 谷歌全端到端语音合成系统Tacotron:直接从字符合成语音
推荐阅读
“柯南领结”变成现实,字节跳动智创语音团队SAMI发布新一代实时AI变声方案
8380
字节跳动Seed-TTS:AI语音合成技术的革命
9910
系统调研450篇文献,微软亚洲研究院推出超详尽语音合成综述
6800
两分钟录音就可秒变语言通!火山语音音色复刻技术如何修炼而成?
1K0
AI口语纠正的技术框架
2020
高保真音色媲美真人,StyleTTS为QQ浏览器「听书」语音注入情感
1.8K0
真国风 AI 虚拟人!腾讯艾灵学会作诗书法新技能,以假乱真的那种
1.2K0
灵云推出情感语音SDK,男生瞬间拥有女神般魅惑声音!
6500
【AIDL专栏】陶建华:深度神经网络与语音(附PPT)
1.4K0
「AI孙燕姿」全网沸腾!AI翻唱大爆发,整个华语乐坛都「复兴」了
4950
你家的猫也能来段东北话了:快手快影一键「智能配音」,三种方言随意换,还能配出《舌尖》风
1.6K0
【AGI-Eval行业动态】OpenAI 语音模型三连发,AI 语音进入“声优”时代
1770
检索速度提高八倍,字节跳动发布最新音乐检索系统ByteCover2
5890
《揭秘AI语音助手:从“听”到“说”的智能之旅》
2860
情感语音合成技术难点突破与未来展望
1.9K0
方兴未艾的语音合成技术与应用
1.6K0
揭秘语音到语音翻译黑科技,来挑战国际口语翻译大赛
2.3K0
AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出
3710
喜马拉雅贺雯迪:基于端到端TTS实现更具生动、富有情感的语音合成表现
1.4K0
学界 | 谷歌全端到端语音合成系统Tacotron:直接从字符合成语音
1.8K0
相关推荐
“柯南领结”变成现实,字节跳动智创语音团队SAMI发布新一代实时AI变声方案
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档