前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【AIGC部署实践系列教程 #3】HAI 一键部署爆火开源语音项目ChatTTS

【AIGC部署实践系列教程 #3】HAI 一键部署爆火开源语音项目ChatTTS

作者头像
腾讯云计算产品团队
发布2024-06-13 20:11:50
2630
发布2024-06-13 20:11:50
举报

TTS 是 “Text-to-Speech” 的缩写,中文意思是“文本到语音”。简单来说,TTS 是一种技术,它能够将文字信息转换成人类的语音,计算机或智能设备就能够"说话"了。TTS 技术通过模仿人类的语音特征,使得合成的语音听起来尽可能自然流畅。随着技术的发展,已经能够模拟不同的语调、情感,甚至特定人的声音,让语音交互更加人性化和个性化。

近期,国内团队发布了 ChatTTS(项目地址:https://github.com/2noise/ChatTTS ),一个专门为对话场景设计的开源文本转语音模型。该模型具有以下优点:

1. 对话式 TTS

ChatTTS针对对话式任务进行了优化,实现了自然流畅的语音合成,同时支持多说话人。

2. 细粒度控制

该模型能够预测和控制细粒度的韵律特征,包括笑声、停顿和插入词等。

3. 更好的韵律

ChatTTS在韵律方面超越了大部分开源TTS模型。同时提供预训练模型,支持进一步的研究。

今天,给大家介绍如何使用

高性能应用服务HAI

快速部署 ChatTTS 应用

实现语音合成自由

使用该教程完成部署后的实现效果 👇

视频地址

什么是高性能应用服务HAI

高性能应用服务HAI 是一款面向AI、科学计算的 GPU 算力服务产品,提供多种高性能 GPU 算力供您选择

您可使用HAI中提供的预装环境,涵盖AI绘画、语言模型、声音合成等多个场景,如 StableDiffusion WebUI、ComfyUI、ChatGLM、Llama 3 等。助力您快速部署 AIGC 应用,推动业务探索与发展。

用 HAI 快速实现ChatTTS自由

1.基于社区应用,3分钟快速部署

社区的小伙伴实现了一个打包好的应用环境,提前预装好了 ChatTTS 所必备的环境依赖、模型,可以实现开箱即用

1. 进入控制台,选择“社区应用”,在社区应用中,选中“ ChatTTS ”,其他配置按默认,点击立即购买即可。

图1 社区应用

2. 创建完成后,在“算力链接”中,选中进入 JupyterLab,打开 example.ipynb 文件,按顺序执行代码块,载入模型文件。

图2 载入模型

3. 载入完成模型后,可以根据使用需求,执行其余代码块。第一次执行时需载入模型,时间较久,约需等待1-2min,请耐心等待。后续执行速度很快。

图3 按需运行

4. 成功加载后即可运行任意文字转语音,效果如下所示: 视频地址

2.使用windows基础环境,部署整合包

高性能应用服务 HAI 也提供了 Windows 环境,若您对 JupyterLab 的交互形式感到陌生,也可以直接创建预装驱动的 Windows 环境,安装从网络上获取的各类整合包,享受与本地相同的交互体验

1. 进入控制台,选择“基础环境”,在基础环境中,选中“Windows Server”,其他配置按默认,点击立即购买即可。

图4 选择环境

2. 当前Windows 环境目前仅支持通过远程桌面进行连接,您可根据弹窗中的指引文档进行环境连接

图5 连接算力

3. 进入环境后,您可按需下载整合包。环境中已经预装了对应版本的驱动程序,不需您再次进行安装。本次使用 GitHub 开源项目的整合包进行安装,项目地址:https://github.com/6drf21e/ChatTTS\_colab 。安装完成后的效果如下所示:

图6 可视化交互

延伸操作

1. 接入业务系统:您可使用 API 模式启动 ChatTTS 服务,将语音功能接入自己的小程序或业务系统。

2. 与语言模型结合:您可以尝试使用视频识别工具+开源语言模型,结合 ChatTTS,动手实现类似 GPT4o 的效果。

📣 HAI隆重推出学生特惠活动!

25岁以下免学生认证,每月限量5折

16G单卡GPU低至0.6元/时,速来抢购!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯云服务器 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音合成
语音合成(Text To Speech,TTS)满足将文本转化成拟人化语音的需求,打通人机交互闭环。提供多场景、多语言的音色选择,支持 SSML 标记语言,支持自定义音量、语速等参数,让发音更专业、更符合场景需求。语音合成广泛适用于智能客服、有声阅读、新闻播报、人机交互等业务场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档