TTS 是 “Text-to-Speech” 的缩写,中文意思是“文本到语音”。简单来说,TTS 是一种技术,它能够将文字信息转换成人类的语音,计算机或智能设备就能够"说话"了。TTS 技术通过模仿人类的语音特征,使得合成的语音听起来尽可能自然流畅。随着技术的发展,已经能够模拟不同的语调、情感,甚至特定人的声音,让语音交互更加人性化和个性化。
近期,国内团队发布了 ChatTTS(项目地址:https://github.com/2noise/ChatTTS ),一个专门为对话场景设计的开源文本转语音模型。该模型具有以下优点:
1. 对话式 TTS
ChatTTS针对对话式任务进行了优化,实现了自然流畅的语音合成,同时支持多说话人。
2. 细粒度控制
该模型能够预测和控制细粒度的韵律特征,包括笑声、停顿和插入词等。
3. 更好的韵律
ChatTTS在韵律方面超越了大部分开源TTS模型。同时提供预训练模型,支持进一步的研究。
今天,给大家介绍如何使用
高性能应用服务HAI
快速部署 ChatTTS 应用
实现语音合成自由
使用该教程完成部署后的实现效果 👇
什么是高性能应用服务HAI
高性能应用服务HAI 是一款面向AI、科学计算的 GPU 算力服务产品,提供多种高性能 GPU 算力供您选择。
您可使用HAI中提供的预装环境,涵盖AI绘画、语言模型、声音合成等多个场景,如 StableDiffusion WebUI、ComfyUI、ChatGLM、Llama 3 等。助力您快速部署 AIGC 应用,推动业务探索与发展。
用 HAI 快速实现ChatTTS自由
1.基于社区应用,3分钟快速部署
社区的小伙伴实现了一个打包好的应用环境,提前预装好了 ChatTTS 所必备的环境依赖、模型,可以实现开箱即用。
1. 进入控制台,选择“社区应用”,在社区应用中,选中“ ChatTTS ”,其他配置按默认,点击立即购买即可。
图1 社区应用
2. 创建完成后,在“算力链接”中,选中进入 JupyterLab,打开 example.ipynb 文件,按顺序执行代码块,载入模型文件。
图2 载入模型
3. 载入完成模型后,可以根据使用需求,执行其余代码块。第一次执行时需载入模型,时间较久,约需等待1-2min,请耐心等待。后续执行速度很快。
图3 按需运行
4. 成功加载后即可运行任意文字转语音,效果如下所示: 视频地址
2.使用windows基础环境,部署整合包
高性能应用服务 HAI 也提供了 Windows 环境,若您对 JupyterLab 的交互形式感到陌生,也可以直接创建预装驱动的 Windows 环境,安装从网络上获取的各类整合包,享受与本地相同的交互体验
1. 进入控制台,选择“基础环境”,在基础环境中,选中“Windows Server”,其他配置按默认,点击立即购买即可。
图4 选择环境
2. 当前Windows 环境目前仅支持通过远程桌面进行连接,您可根据弹窗中的指引文档进行环境连接
图5 连接算力
3. 进入环境后,您可按需下载整合包。环境中已经预装了对应版本的驱动程序,不需您再次进行安装。本次使用 GitHub 开源项目的整合包进行安装,项目地址:https://github.com/6drf21e/ChatTTS\_colab 。安装完成后的效果如下所示:
图6 可视化交互
延伸操作
1. 接入业务系统:您可使用 API 模式启动 ChatTTS 服务,将语音功能接入自己的小程序或业务系统。
2. 与语言模型结合:您可以尝试使用视频识别工具+开源语言模型,结合 ChatTTS,动手实现类似 GPT4o 的效果。
📣 HAI隆重推出学生特惠活动!
25岁以下免学生认证,每月限量5折,
16G单卡GPU低至0.6元/时,速来抢购!