Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >ACL 2025 高分接收 | 高感情语音技术:逻辑智能小语种TTS破局之道

ACL 2025 高分接收 | 高感情语音技术:逻辑智能小语种TTS破局之道

作者头像
机器之心
发布于 2025-05-27 01:22:00
发布于 2025-05-27 01:22:00
1170
举报
文章被收录于专栏:机器之心机器之心

该工作由北京深度逻辑智能科技有限公司×宁波东方理工EIT-NLP实验室联合完成。

语音合成(TTS)技术近十年来突飞猛进,从早期的拼接式合成和统计参数模型,发展到如今的深度神经网络与扩散、GAN 等先进架构,实现了接近真人的自然度与情感表达,广泛赋能智能助手、无障碍阅读、沉浸式娱乐等场景。

然而,这一繁荣几乎局限于英语、普通话等资源充沛的大语种;全球一千多种小语种由于语料稀缺、文字无空格或多音调等复杂语言学特性,在数据收集、文本前端处理和声学建模上都面临巨大挑战,导致高质量 TTS 迟迟无法落地。破解「小语种困境」既是学术前沿课题,也是实现数字包容与多语文化传播的关键。

面对这一挑战,逻辑智能团队提出了一种针对低资源语言 TTS 的解决方案并应用于泰语 TTS 合成,该工作已经被 ACL 2025 Industry track 正式接收!

  • 论文标题:Scaling Under-Resourced TTS: A Data-Optimized Framework with Advanced Acoustic Modeling for Thai
  • 论文地址:https://arxiv.org/abs/2504.07858
  • 效果试听:https://luoji.cn/static/thai/demo.html

这项工作提出了一种数据优化驱动的声学建模框架的创新方案,通过从语音、文本、音素、语法等多个维度构建系统化的泰语数据集,并结合先进的声学建模技术,成功实现了在有限资源下的高质量 TTS 合成效果。

此外,该框架还具备 zero-shot 声音克隆的能力,展示了优异的跨场景适用性,为行业提供了一种在数据稀少环境下高效构建小语种 TTS 系统的有效范式,对推动全球小语种 TTS 技术的落地与普及具有重要的启示和借鉴意义。

数据优化驱动的声学建模框架方案

该工作遵循数据驱动模型能力的整体思路:

  • 首先从源头切入,系统化采集并标注跨领域语音、文本与语言学信息,构建覆盖广、颗粒度细的多维泰语语料库;
  • 随后通过 LLM 增强的停顿预测、词切分与混合式 G2P,将原始文本稳健转换为结构化的「音素-声调」序列;
  • 最后在此精炼输入之上,引入声调感知的 Phoneme-Tone BERT 与多源特征驱动的 GAN 解码器,实现高保真、低延迟的语音合成,并支持零样本声音克隆。

整套框架以数据质量为核心抓手、以模块化设计保障可扩展性,为解决小语种 TTS「数据稀缺 + 语言复杂」双重瓶颈提供了一条可复制、可落地的工程化路径。

泰语专项数据集构建

该工作构建了一套专为低资源泰语 TTS 设计的多维数据集,涵盖语音、文本和注释三大类:

  • 语音数据——500 小时来自新闻、社媒、播客等多领域语料,外加 40 小时金融、医疗、教育、法律等垂直领域语料,兼顾通用合成与专业术语发音;
  • 文本数据——100 万句句子语料用于训练 Phoneme-Tone BERT 提升上下文韵律建模,10 万词词表用于训练分词器,解决泰语无空格书写难题;
  • 注释数据——1.5 万句停顿标注确保精准断句,4 万词音素-声调标注强化 G2P 与五声调建模。该数据集既保证了规模,又注重多域覆盖和细粒度语言监督,为在资源稀缺环境下实现工业级泰语 TTS 与零样本声音克隆奠定了坚实基础。

先进的预处理流程

该工作设计了一套强大的预处理流程。预处理流水线最大的亮点在于「三步一体、逐层解耦」地化解泰语文本的无标点、无空格、声调复杂三重难题:

  • 首先通过 SFT 微调的 Typhoon2 LLM,对 1.5 万句人工标注语料学习停顿规律,在原始文本中智能插入停顿标签以更好地建模口语韵律;
  • 随后在扩充至 10 万词的分词词典支撑下,改进版 pythainlp Tokenizer 将连续书写的泰文字流精准切分,为领域专有词提供稳健支持;
  • 最后利用 4 万词的音素-声调注释库,结合规则+Transformer 混合式 G2P,把每个词映射成带五声调标记的 IPA 音素序列。

该流水线不仅输出结构化的「音素-声调」序列,大幅降低后续声学模型学习难度,也为其他低资源音调语言提供了可复用的文本前端范式。

卓越的 TTS 模型架构

该工作的 TTS 模型集成了「多源特征 × 声调感知 × 零样本克隆」的组合设计:

  • 首先利用多语种预训练模型提取时长、音高、能量等强鲁棒特征,并以风格编码器压缩说话人/情感信息,为后续零样本克隆奠定基础;
  • 其次,通过 Phoneme-Tone BERT 在音素序列中显式融入五声调,精准捕捉泰语语义-韵律关联;
  • 最后以 GAN 解码器直接从音素与预测特征合成波形,联合时域、频域与感知损失实现高保真、低延迟合成。

整体采取「先独立训练预测器,再与解码器联合微调」的策略,兼顾稳定性与音质,使模型达到 SOTA 表现并支持零样本声音克隆。

实验效果

  • 预处理链路有效性:消融实验表明,停顿预测、分词优化和 G2P 优化缺一不可;当分别移除这三项时,系统的 WER 从 6.3% 依次升至 6.5%、10.2% 与 22.5%,自然度评分 NMOS 从 4.4 下降到 3.8、3.9 与 3.0,尤其 G2P 的影响最大,证明精确声调与音素映射是泰语 TTS 的质量瓶颈。
  • 通用与行业场景综合表现:在公开基准 TSync2 和金融、医疗、教育、法律四大真实业务脚本上,模型始终保持最低 WER 与最高 NMOS,不仅超越开源系统,也优于 Google TTS、Microsoft TTS 等商业方案;特别是在专业术语发音与语速控制上,用户反馈显示本系统误读率更低、韵律更自然,验证了该框架对多场景的强鲁棒性与可落地性。
  • 零样本声音克隆能力:在仅提供几秒参考音的条件下,模型即可生成目标说话人高保真语音,取得 SIM 0.91 和 SMOS 4.5,显著超过 OpenVoice 的 0.85 与 4.0;嵌入可视化进一步展示了对说话人 timbre 的准确聚类,表明「声调感知 + 多源特征」设计能够在低资源环境下实现工业级的声音克隆体验。

转载请联系本公众号获得授权

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!人格化语音时代来了
国产大模型进步的速度早已大大超出了人们的预期。年初 DeepSeek-R1 爆火,以超低的成本实现了部分超越 OpenAI o1 的表现,一定程度上让人不再过度「迷信」国外大模型。
机器之心
2025/05/17
1880
超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!人格化语音时代来了
“柯南领结”变成现实,字节跳动智创语音团队SAMI发布新一代实时AI变声方案
机器之心报道 机器之心编辑部 这项技术未来在虚拟人、短视频玩法、客服服务、直播互动玩法上有着很大的落地空间。 字节跳动智能创作语音团队 SAMI(Speech, Audio and Music Intelligence)近日发布了新一代的低延迟、超拟人的实时 AI 变声技术。不同于传统的变声,AI 变声是基于深度学习的声音转换(Voice Conversion)技术来实现的,可以实现任意发音人的音色定制,极大程度保留原始音色的特点。 该方案的亮点如下: 在 CPU 单核上就能做到极低延迟的实时输入实时变声,
机器之心
2022/08/25
8520
“柯南领结”变成现实,字节跳动智创语音团队SAMI发布新一代实时AI变声方案
《语音信号处理》整理[通俗易懂]
说话的声音(声带震动)和其他声音相比,有独特的时域和频域模式。声带的震动产生基频(fundamental frequency),口腔共振(the pharyngeal and oral resonance cavities)等产生高频谐波
全栈程序员站长
2022/07/21
1.9K0
《语音信号处理》整理[通俗易懂]
MaskGCT:这款全新的开源语音大模型太强了,击败CosyVoice、XTTS-v2( 视频翻译、声音克隆、跨语种合成 )
分享一个效果非常不错的TTS,一个完全非自回归的TTS模型,实现了 SOTA 零样本 TTS 性能。
AI进修生
2024/12/02
6440
MaskGCT:这款全新的开源语音大模型太强了,击败CosyVoice、XTTS-v2( 视频翻译、声音克隆、跨语种合成 )
NLP入门之语音模型原理
这一篇文章其实是参考了很多篇文章之后写出的一篇对于语言模型的一篇科普文,目的是希望大家可以对于语言模型有着更好地理解,从而在接下来的NLP学习中可以更顺利的学习. 1:传统的语音识别方法: 这里我们
云时之间
2018/04/11
1.5K0
NLP入门之语音模型原理
字节跳动Seed-TTS:AI语音合成技术的革命
hi,小伙伴们,今天的主题是研究研究TTS,最近工作内容涉及到AI视频混剪,需要进行音色合成,看一下市面上效果好又花钱少的相对成熟技术薅羊毛!
朱晓霞
2024/07/12
1.1K0
字节跳动Seed-TTS:AI语音合成技术的革命
字节打造大模型TTS:不仅能高保真合成,而且支持调整编辑
你猜的没错,这段有声书并非来自某个专业制作团队,而是一个 AI 模型 Seed-TTS,而这个模型则是来自字节跳动的 Seed Team。
机器之心
2024/06/27
4700
字节打造大模型TTS:不仅能高保真合成,而且支持调整编辑
VALL-E vs. Spark-TTS:两代零样本 TTS 模型横评
零样本文本转语音(Zero-Shot TTS)技术近年出现突破。微软于 2023 年发布的 VALL-E 模型仅需 3 秒语音示例便可克隆说话人声音,刷新业界对数据门槛的认知。随后开源的 Spark-TTS 进一步在更小模型上实现了近似甚至更优的效果(Ai Voice Cloning-以3秒音频就可克隆著称的网站就是宣称在此模型基础上自研),并原生支持多语言与细粒度可控。作为一名语音 AI 开发者,我将从架构原理、音质保真、推理效率、训练成本与实现复杂度五个维度,客观比较这两代代表性模型,探讨它们在语音克隆发展中的阶段性定位。
用户11657403
2025/05/14
1880
自动语音识别(ASR)与文本转语音(TTS)技术的应用与发展
近年来,语音技术在人工智能领域的发展极为迅速,语音识别(ASR)和文本转语音(TTS)作为两项重要的核心技术,被广泛应用于智能助手、客户服务系统、翻译设备以及教育平台等多个领域。这两种技术各自解决了语音交互中的不同问题,共同助力于实现自然、流畅的人机对话。
kwan的解忧杂货铺
2024/11/16
4660
Facebook发布部署在CPU上的高效、实时文本转语音系统,速度提高160倍
作者 | Qing He、Thilo Koehler、Antony D’Avirro、Chetan Gupta
代码医生工作室
2020/05/25
1K0
Facebook发布部署在CPU上的高效、实时文本转语音系统,速度提高160倍
高保真音色媲美真人,StyleTTS为QQ浏览器「听书」语音注入情感
今年 4 月,QQ 浏览器宣布 「小说频道」正式变更为 「免费小说」频道,这意味着阅文平台旗下的万千小说将免费供用户阅读。网络文学已浮浮沉沉二十余载,其阅读方式也随之几经改变。
机器之心
2021/10/26
1.9K0
高保真音色媲美真人,StyleTTS为QQ浏览器「听书」语音注入情感
微软NaturalSpeech语音合成推出第三代,网友惊呼:超自然!实至名归
文本到语音合成(Text to Speech,TTS)作为生成式人工智能(Generative AI 或 AIGC)的重要课题,在近年来取得了飞速发展。在大模型(LLM)时代下,语音合成技术能够扩展大模型的语音交互能力,更是受到了广泛的关注。
机器之心
2024/03/26
1.1K0
微软NaturalSpeech语音合成推出第三代,网友惊呼:超自然!实至名归
业界 | 速度提升270倍!微软和浙大联合推出全新语音合成系统FastSpeech
AI科技评论按:目前,基于神经网络的端到端文本到语音合成技术发展迅速,但仍面临不少问题——合成速度慢、稳定性差、可控性缺乏等。为此,微软亚洲研究院机器学习组和微软(亚洲)互联网工程院语音团队联合浙江大学提出了一种基于Transformer的新型前馈网络FastSpeech,兼具快速、鲁棒、可控等特点。与自回归的Transformer TTS相比,FastSpeech将梅尔谱的生成速度提高了近270倍,将端到端语音合成速度提高了38倍,单GPU上的语音合成速度达到了实时语音速度的30倍。
AI科技评论
2019/06/05
9220
业界 | 速度提升270倍!微软和浙大联合推出全新语音合成系统FastSpeech
训练语言模型何需文本?Facebook发布GSLM:无需标签,从语音直接训!
基于文本的语言模型如BERT、RoBERTa和GPT-3,借助Transformer的春风,近年来取得了巨大的进步。
新智元
2021/10/12
1.4K0
TTS系统评测方法介绍--WSRD AI评测实验室
TTS的实现涉及到语言学、语音学的诸多复杂知识,因合成技术的区别,不同的TTS系统在准确性、自然度、清晰度、还原度等方面也有着不一样的表现,如何从多维度综合评价TTS系统质量成了TTS测试人员的一大挑战。
个性化推荐评测组
2018/07/02
17.3K3
TTS系统评测方法介绍--WSRD AI评测实验室
【AI专栏】语音合成系统评测介绍
本文介绍了语音合成系统的评测方法和指标,包括发音准确性、韵律准确性、字典覆盖度、字词清晰度、韵律平滑度、自然度、无意识错误、声音属性、声音相似度、音频质量、生成语音的清晰度、听众的接受度、发音和韵律等。同时,还介绍了一种基于主观评测、客观评测的评测方法,包括MOS、错误检测、语音识别、声学模型、发音和韵律等评测指标。
腾讯移动品质中心TMQ
2017/12/08
12.1K1
喜马拉雅贺雯迪:基于端到端TTS实现更具生动、富有情感的语音合成表现
贺雯迪:我目前在喜马拉雅担任音频算法工程师,工作研发方向是TTS前端模块的搭建和优化(文本规整化、分词、多音字、韵律预测等),后端算法(基于深度生成模型的说话人风格转换,情感控制,音色克隆、神经声码器的优化等方向)。演讲的方向是基于现在语音合成领域中比较具有发展前瞻性和讨论性的:语音合成中风格迁移、情感合成、音色克隆等衍生方向上技术和应用方面的探讨。
LiveVideoStack
2020/05/08
1.4K0
喜马拉雅贺雯迪:基于端到端TTS实现更具生动、富有情感的语音合成表现
Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型(二)
机器之心专栏 本专栏由机器之心SOTA!模型资源站出品,每周日于机器之心公众号持续更新。 本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。 本文将分 2 期进行连载,共介绍 19 个在语音合成任务上曾取得 SOTA 的经典模型。 第 1 期:BLSTM-RNN、WaveNet、SampleRNN、Char2Wav
机器之心
2023/03/29
3.8K0
Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型(二)
【AI落地应用实战】文本生成语音Parler-TTS + DAMODEL复现指南
这里我要推荐的【好事】文章是如何从零构建一个现代深度学习框架,2024年可以说是大模型发展迅速的一年,国内的国际的各大厂商都推出了多种场景的大模型,那么作为小白,虽然不是大模型从业者,但是也想了解一下大模型这样的深度学习框架到底是怎么来的,是如何构建的呢?可以看这篇文章:
中杯可乐多加冰
2024/11/12
4960
语音合成学习(一)综述
爱丁堡大学课程(全英文,有能力的推荐学习一遍):https://speech.zone/courses/speech-synthesis/
全栈程序员站长
2022/09/13
2.8K0
推荐阅读
超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!人格化语音时代来了
1880
“柯南领结”变成现实,字节跳动智创语音团队SAMI发布新一代实时AI变声方案
8520
《语音信号处理》整理[通俗易懂]
1.9K0
MaskGCT:这款全新的开源语音大模型太强了,击败CosyVoice、XTTS-v2( 视频翻译、声音克隆、跨语种合成 )
6440
NLP入门之语音模型原理
1.5K0
字节跳动Seed-TTS:AI语音合成技术的革命
1.1K0
字节打造大模型TTS:不仅能高保真合成,而且支持调整编辑
4700
VALL-E vs. Spark-TTS:两代零样本 TTS 模型横评
1880
自动语音识别(ASR)与文本转语音(TTS)技术的应用与发展
4660
Facebook发布部署在CPU上的高效、实时文本转语音系统,速度提高160倍
1K0
高保真音色媲美真人,StyleTTS为QQ浏览器「听书」语音注入情感
1.9K0
微软NaturalSpeech语音合成推出第三代,网友惊呼:超自然!实至名归
1.1K0
业界 | 速度提升270倍!微软和浙大联合推出全新语音合成系统FastSpeech
9220
训练语言模型何需文本?Facebook发布GSLM:无需标签,从语音直接训!
1.4K0
TTS系统评测方法介绍--WSRD AI评测实验室
17.3K3
【AI专栏】语音合成系统评测介绍
12.1K1
喜马拉雅贺雯迪:基于端到端TTS实现更具生动、富有情感的语音合成表现
1.4K0
Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型(二)
3.8K0
【AI落地应用实战】文本生成语音Parler-TTS + DAMODEL复现指南
4960
语音合成学习(一)综述
2.8K0
相关推荐
超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!人格化语音时代来了
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档