Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >安利免费开源的声音克隆、文本转语音整合包软件、一键本地安装!

安利免费开源的声音克隆、文本转语音整合包软件、一键本地安装!

原创
作者头像
星哥玩云
发布于 2025-04-02 12:02:28
发布于 2025-04-02 12:02:28
79101
代码可运行
举报
文章被收录于专栏:星哥的AI自留地星哥的AI自留地
运行总次数:1
代码可运行

安利免费开源的声音克隆、文本转语音整合包软件、一键本地安装!

大家好,我是星哥,今天给大家介绍两款声音克隆、文本转语音的软件,一个是ChatTTS和Spark-TTS,并且都有一键安装包,让你无需复杂的配置,就能在本地轻松体验声音的魅力。

image-20250402195740983
image-20250402195740983

ChatTTS是什么?

ChatTTS是专为对话场景设计的语音生成模型,特别适用于大型语言模型(LLM)助手的对话任务,以及诸如对话式音频和视频介绍等应用。它支持中文和英文,通过使用大约100,000小时的中文和英文数据进行训练,ChatTTS在语音合成中表现出高质量和自然度。

开源地址: https://github.com/2noise/ChatTTS

安装ChatTTS

安装ChatTTS有3种方式,第1种是Docker compose安装ChatTTS-ui(推荐)、第2种是安装一键安装包(推荐)、第3种本地安装方式、

本地部署ChatTTS

系统环境介绍

以下都安装这个系统来介绍

系统:Windows11专业版

CPU: 英特尔I7-13700KF

内存: 32G

硬盘:1T nvme SSD +4T 机械

显卡:RTX 4070 Ti

python版本:Python 3.13.2

系统要安装Docker和Docker compose

Docker compose安装ChatTTS-ui(推荐)

开源地址:https://github.com/jianchang512/ChatTTS-ui

1.拉取项目仓库

在任意路径下克隆项目,例如:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
git clone https://github.com/jianchang512/ChatTTS-ui.git chat-tts-ui

2.启动 Runner

进入到项目目录:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
cd chat-tts-ui

启动容器并查看初始化日志:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
gpu版本
docker compose -f docker-compose.gpu.yaml up -d 
​
cpu版本    
docker compose -f docker-compose.cpu.yaml up -d
​
docker compose logs -f --no-log-prefix
image-20250402173803394
image-20250402173803394

稍等一段时间,使用命令docker ps查看,如下则表示安装成功。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
docker ps
CONTAINER ID   IMAGE                                                       COMMAND                  CREATED         STATUS         PORTS                                                                              NAMES
7cce18cbbe8d   chat-tts-ui-chat-tts-ui                                     "/usr/local/bin/dock…"   7 minutes ago   Up 2 minutes   7070-7071/tcp, 8080-8082/tcp, 0.0.0.0:9966->9966/tcp, :::9966->9966/tcp            chat-tts-ui

3.访问 ChatTTS WebUI

启动:['0.0.0.0', '9966'],也即,访问部署设备的 IP:9966 即可,例如:

  • 本机:http://127.0.0.1:9966
  • 服务器: http://192.168.1.100:9966
image-20250402180205298
image-20250402180205298

4.生成语言

随便输入一段莎士比亚的《哈姆雷特》生存还是毁灭 莎士比亚 活着还是去死?这真是一个值得思虑的问题。

去忍受那狂暴的命运无情的摧残,还是挺身去反抗那无边的烦恼,把它扫一个干净。去死,去睡就结束了?如果睡眠能结束我们心灵的创伤和肉体所承受的千百样痛苦,那真是生存求之不得的天大的好事。

image-20250402193631331
image-20250402193631331

可以调试好可以下载语音。

Windows预打包版(推荐)

从 Releases中下载压缩包,解压后双击 app.exe 即可使用 某些安全软件可能报毒,请退出或使用源码部署 英伟达显卡大于4G显存,并安装了CUDA11.8+后,将启用GPU加速

ChatTTS-UI整合包下载

文件大小: 3.69G

pan点baidu点com/s/1Hnqzm8ZdDKYX0dbvGmW38g?pwd=khds (浏览器中) 提取码: khds

由于平台不让放链接,可以关注“星哥玩云”公众号,回复“TTS安装包”获得ChatTTS和Spark-TTS的一键安装包

本地安装(不推荐)

1.安装Python 和 git环境

需要安装python和git软件

python需要 3.9+ 版本,比如我选择python 3.10.2

安装下git环境,这个就不详细将。

2.克隆 ChatTTS-Ui

3.解压后在根目录下输入CMD进入终端,然后依次执行下面的安装命令:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
python -m venv venv
.\venv\scripts\activate
pip install -r requirements.txt

4.如果不需要CUDA加速,执行

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pip install torch==2.1.2 torchaudio==2.1.2

如果需要CUDA加速,执行

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pip install torch==2.1.2 torchaudio==2.1.2 --index-url https://download.pytorch.org/whl/cu118

5.启动

最后执行 python app.py 启动,将自动打开浏览器窗口,默认地址 http://127.0.0.1:9966

(注意:默认从 modelscope 魔塔下载模型,不可使用代理下载,请关闭代理)

6.下载modelscope下载模型

源码部署启动后,会先从 modelscope下载模型,但modelscope缺少spk_stat.pt,会报错,【点击下载 spk_stat.pt

下载后将该文件复制到 项目目录/models/pzc163/chatTTS/asset/ 文件夹内

注意 modelscope 仅允许中国大陆ip下载模型,如果遇到 proxy 类错误,请关闭代理。

如果你希望从 huggingface.co 下载模型,请打开 app.py 查看大约第50行-60行的注释。如果需要GPU加速,必须是英伟达显卡,并且安装 cuda版本的torch

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 默认从 modelscope 下载模型,如果想从huggingface下载模型,请将以下3行注释掉
​
CHATTTS_DIR = snapshot_download('pzc163/chatTTS',cache_dir=MODEL_DIR)
chat = ChatTTS.Chat()
chat.load_models(source="local",local_path=CHATTTS_DIR)
​
# 如果希望从 huggingface.co下载模型,将以下注释删掉。将上方3行内容注释掉
​
#os.environ['HF_HUB_CACHE']=MODEL_DIR
#os.environ['HF_ASSETS_CACHE']=MODEL_DIR
#chat = ChatTTS.Chat()
#chat.load_models()

Spark-TTS是什么

Spark-TTS 是最近备受瞩目的一个语音克隆开源项目,由香港科技大学、西北工业大学、上海交通大学等多所高校联合研发。经过本地测试,其效果与 F5-TTS 不相上下。

Spark-TTS 支持中英文语音克隆,安装部署过程并不复杂。本文将详细介绍如何安装部署,并进行修改,使其兼容 F5-TTS 的 API 接口,从而可以直接在 pyVideoTrans 软件的 F5-TTS 配音渠道中使用。

Spark-TTS的项目地址

Spark-TTS的主要功能

  • 零样本文本到语音转换:Spark-TTS 能在没有特定语音数据的情况下,复现说话人的声音,实现零样本语音克隆。
  • 多语言支持:Spark-TTS 支持中英双语,可实现跨语言语音合成。用户可以用一种语言输入文本,生成另一种语言的语音输出,满足多语言场景下的语音合成需求。
  • 可控语音生成:用户可以通过调整参数(如性别、音调、语速、音色等)来定制虚拟说话者的声音,生成符合特定需求的语音内容。
  • 高效简洁的语音合成:基于 Qwen2.5 架构,Spark-TTS 无需额外的生成模型(如流匹配模型),直接从 LLM 预测的编码中重建音频,提高了语音合成的效率。
  • 虚拟说话者创建:用户可以创建完全由自己定义的虚拟说话者,通过参数调整使其具有独特的语音风格,适用于虚拟主播、有声读物等场景。
  • 语音克隆与风格迁移:Spark-TTS 支持从少量语音样本中提取风格特征,将其迁移到合成语音中,实现个性化语音风格的复制和迁移。

Spark-TTS的应用场景

  • 语音助手开发:Spark-TTS 可以用于开发个性化的语音助手,通过调整音色、语速和语调等参数,生成自然流畅的语音输出,为用户提供更加人性化和个性化的交互体验。
  • 多语言内容创作:工具支持中英双语,能实现跨语言语音合成,适合需要在不同语言版本之间保持一致语音风格的内容创作者,例如制作多语言的有声读物、广告或教育材料。
  • 智能客服与信息播报:Spark-TTS 可以将文字信息转化为自然语音,用于智能客服系统,提供24小时不间断的服务,或者在公共交通、机场、医院等公共场所进行信息播报。
  • 语音克隆与虚拟角色配音:Spark-TTS 支持零样本语音克隆,能快速复制特定说话人的声音风格,适用于虚拟角色配音、动画制作或虚拟主播等领域。

安装Spark-TTS

Spark-TTS整合安装包

由于迅雷限速下载还需要几个小时,等下载好了,再发链接

image-20250402192830272
image-20250402192830272

由于平台不让放链接,可以关注“星哥玩云”公众号,回复“TTS安装包”获得ChatTTS和Spark-TTS的一键安装包

1. 下载Spark-TTS源码

推荐有一定操作基础的这样安装

首先,在非系统盘创建一个由英文或数字组成的文件夹,例如 D:/spark。之所以要求使用英文、数字且非系统盘,是为了尽量避免可能出现的中文、权限等方面的错误。

然后,访问 Spark-TTS 官方代码仓库:https://github.com/SparkAudio/Spark-TTS

如下图所示,点击下载源码的 ZIP 包:

点击下载源码 zip 包
点击下载源码 zip 包

下载完成后解压,将所有文件和文件夹复制到 D:/spark 文件夹中。复制后的目录结构应如下图所示:

复制后目录结构如图
复制后目录结构如图

2. 创建虚拟环境并安装依赖

创建虚拟环境

在该文件夹地址栏输入 cmd 并回车,在弹出的黑色终端窗口中执行以下命令:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
python -m venv venv

执行后,D:/spark 目录下会多出一个 venv 文件夹:

成功后文件夹会多出一个 venv 目录
成功后文件夹会多出一个 venv 目录

注意: 如果在执行时提示 python 不是内部或外部命令,说明没有安装 Python 或没有将其添加到系统环境变量中,请参考相关文章安装 Python。

接下来,执行 venv\scripts\activate 激活虚拟环境。激活后,终端行首会出现 (venv) 字样,表示激活成功。后续所有命令都需要在此环境下执行,每次执行前请检查是否已激活。

确保开头有(venv)字样
确保开头有(venv)字样

安装依赖

在已激活的虚拟环境中,继续在终端中执行以下命令,安装所有依赖:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pip install -r requirements.txt
​
或者:
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple

3. 下载模型

开源 AI 项目所需的模型通常托管在 Hugging Face (huggingface.co) 上。由于该网站在国内已被屏蔽,因此需要科学上网才能下载模型。请确保已配置好科学上网环境,并设置了系统代理。

在当前目录 D:/spark 下创建一个名为 down.txt 的文本文件,将以下代码复制粘贴到文件中并保存:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from huggingface_hub import snapshot_download
snapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")
print('下载完成')

然后,在已激活虚拟环境的终端窗口中执行以下命令:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
python down.txt

注意检查命令行前是否存在 (venv)

等待终端提示下载完成。

如果输出类似以下信息,说明网络连接错误,可能是科学上网环境配置不正确:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
Returning existing local_dir `pretrained_models\Spark-TTS-0.5B` as remote repo cannot be accessed in `snapshot_download` ((MaxRetryError("HTTPSConnectionPool(host='huggingface.co', port=443): Max retries exceeded with url: /api/models/SparkAudio/Spark-TTS-0.5B/revision/main (Caused by ConnectTimeoutError(<urllib3.connection.HTTPSConnection object at 0x000001BC4C8A4430>, 'Connection to huggingface.co timed out. (connect timeout=None)'))"), '(Request ID: aa61d1fb-ffc7-4479-9a99-2258c1bc0aee)')).
连接失败,请正确配置科学上网环境
连接失败,请正确配置科学上网环境

4. 启动 Web 界面

模型下载完成后,就可以启动并打开 Web 界面了。

在已激活虚拟环境的终端中执行以下命令:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
python webui.py

等待出现如下信息时,表示启动完成:

启动成功
启动成功

此时,可以在浏览器中打开地址 http://127.0.0.1:7860,Web 界面如下图所示:

打开web界面
打开web界面

5. 语音克隆测试

如下图所示,选择一个你想要克隆音色的音频文件(时长 3-10 秒,发音清晰,背景干净)。

然后在右侧 Text of prompt speech 中输入该音频对应的文本内容,左侧输入你希望生成的语音文本,最后点击底部的 Generate 按钮开始执行。

执行语音克隆
执行语音克隆

执行完成后,如下图所示。

6. 在 pyVideotrans 软件中使用

Spark-TTS 与 F5-TTS 非常相似,只需进行简单修改,就可以直接在 pyVideotrans 的 F5-TTS 配音渠道中使用 Spark-TTS。

打开 webui.py 文件,在大约第 135 行的上方粘贴以下代码:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
    def basic_tts(gen_text_input, ref_text_input, ref_audio_input,remove_silence=None,speed_slider=None):
        """
        Gradio callback to clone voice using text and optional prompt speech.
        - text: The input text to be synthesised.
        - prompt_text: Additional textual info for the prompt (optional).
        - prompt_wav_upload/prompt_wav_record: Audio files used as reference.
        """
        prompt_speech = ref_audio_input
        prompt_text_clean = None if len(ref_text_input) < 2 else ref_text_input
​
        audio_output_path = run_tts(
            gen_text_input,
            model,
            prompt_text=prompt_text_clean,
            prompt_speech=prompt_speech
        )
        return audio_output_path,prompt_text_clean
特别要注意代码对应层级需对齐
特别要注意代码对应层级需对齐

特别注意: Python 代码使用空格进行缩进对齐,否则代码会报错。为避免出错,建议不要使用记事本打开 webui.py 文件,而是使用专业的代码编辑器,例如 Notepad++ 或 VSCode 等免费工具。

然后,找到大约第 190 行的 generate_buttom_clone = gr.Button("Generate") 代码。 在其上方粘贴以下代码,同样必须注意对齐:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
generate_buttom_clone2 = gr.Button("Generate2",visible=False)
generate_buttom_clone2.click(
       basic_tts,
       inputs=[
          text_input,
          prompt_text_input,
          prompt_wav_upload,
          text_input,
          text_input
       ],
       outputs=[audio_output,prompt_text_input],
       api_name="basic_tts"
 )
注意层级对齐
注意层级对齐

保存文件后,重新启动 webui.py

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
python webui.py
启动时务必注意(venv)
启动时务必注意(venv)
  • 将地址 http://127.0.0.1:7860 填写到 pyVideotrans 软件的 “菜单” -> “TTS 设置” -> “F5-TTS” 的 API 地址中,即可开始使用。参考音频的位置和填写方式与 F5-TTS 的使用方法一致。

结束

ChatTTS和Spark-TTS都是非常优秀的免费开源声音克隆、文本转语音软件。 感兴趣的小伙伴可以试试。

写文不易,如果你都看到了这里,请点个赞和在看,分享给更多的朋友;也别忘了关注星哥玩云!这里有满满的干货分享,还有轻松有趣的技术交流~点个赞、分享给身边的小伙伴,一起成长,一起玩转技术世界吧! 😊

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
ChatTTS webUI & API:ChatTTS本地网页界面的高效文本转语音、同时支持API调用!
Github:https://github.com/jianchang512/ChatTTS-ui
AI进修生
2024/12/02
1.4K0
ChatTTS webUI & API:ChatTTS本地网页界面的高效文本转语音、同时支持API调用!
6k Star!ChatTTS:开源领域最强的文本到语音转换(TTS)模型!
体验地址:https://huggingface.co/2Noise/ChatTTS
AI进修生
2024/12/02
5300
6k Star!ChatTTS:开源领域最强的文本到语音转换(TTS)模型!
【机器学习】ChatTTS:开源文本转语音(text-to-speech)大模型天花板
我很愿意推荐一些小而美、高实用模型,比如之前写的YOLOv10霸榜百度词条,很多人搜索,仅需100M就可以完成毫秒级图像识别与目标检测,相关的专栏也是CSDN付费专栏中排行最靠前的。今天介绍有一个小而美、高实用性的模型:ChatTTS。
LDG_AGI
2024/08/13
1.3K0
【机器学习】ChatTTS:开源文本转语音(text-to-speech)大模型天花板
chatTTS 最强文字转语音模型本地部署!
今天本地部署了下传说中的语音合成大模型chatTTS,合成效果非常不错,比市面上其他工具合成的感情更丰富,语气更自然一些,一起来听听。
zz_jesse
2024/07/05
1.1K0
chatTTS 最强文字转语音模型本地部署!
CosyVoice:开源强大的 AI 语音合成工具
在当今科技飞速发展的时代,AI 语音合成技术正逐渐改变着我们的生活。今天,就为大家介绍一款卓越的语音合成工具——CosyVoice。
井九
2024/10/12
1.3K0
在Jetson上玩转大模型Day12:NanoLLM开发平台(2):语音对话助手
前面已经简单介绍过在Jetson AI Lab所提供的NanoLLM开发平台上的API基本内容,使用这些API可以非常轻松地开发并整合比较复杂的应用,现在就用一个比较具有代表性的Llamaspeak对话机器人项目,做个简答的比较。
GPUS Lady
2024/11/18
2280
在Jetson上玩转大模型Day12:NanoLLM开发平台(2):语音对话助手
使用 browser-use-webui 进行网页信息填写和录入
在数字化时代,网页信息填写和录入是许多业务流程中的重要环节,例如注册账户、提交在线表单或更新个人信息。这些任务往往耗时且容易出错,而自动化工具的引入可以显著提高效率并减少人为失误。GitHub 上的 browser-use/web-ui 项目为这一需求提供了一个创新且实用的解决方案。
叶子Tenney
2025/03/13
9900
使用 browser-use-webui 进行网页信息填写和录入
热门开源项目ChatTTS: 国内语音技术突破,实现弯道超车
随着开源程序的发展,越来越多的程序员开始关注并加入开源大模型的行列。每个人对开源行业和项目的关注点各不相同,现在快来加入我们的开源热门项目推荐活动,分享你感兴趣的热门项目吧!
Srlua
2024/06/17
5900
热门开源项目ChatTTS: 国内语音技术突破,实现弯道超车
ChatTTS 保姆级教程从入门到精通
欢迎来到这篇 ChatTTS 保姆级教程!今天我们将深入探讨 ChatTTS,从入门到精通,让你掌握这款强大的文本转语音工具。不论你是初学者还是有一定基础的用户,都能在这篇文章中找到有用的信息。
猫头虎
2024/06/06
6.7K0
ChatTTS 保姆级教程从入门到精通
AI超强语音转文本SenseVoice,本地化部署教程!
这里使用autodl 机器学习平台,官网地址:https://www.autodl.com/market/list
贾维斯Echo
2024/09/05
3.3K0
AI超强语音转文本SenseVoice,本地化部署教程!
AI女友养成记 CosyVoice vs MiniCPM-o2.6
本期准备了模型,素材,语音文件以及长文本的纯人声配音测试,表现稳定,配音迅速,可对比chatTTS的批量文本配音,支持调节语速,3s实现极速语音复制,测试了长文本的小说配音,语速均匀,不会出现语速不符,目前还没有语气助词的配音,可以结合TTS实现,可支持ollama实现实时语音对话。
疯狂的KK
2025/01/20
4760
AI女友养成记 CosyVoice  vs MiniCPM-o2.6
Fish Agent :最新开源AI实时语音对话代理!音色克隆,模仿情感,声音自然
以前写过一个叫 Fish Speech 的TTS项目,效果还不错,也是第一梯队的TTS模型。
AI进修生
2024/12/02
6290
Fish Agent :最新开源AI实时语音对话代理!音色克隆,模仿情感,声音自然
Mac 本地部署Stable Diffusion
Stable Diffusion 官网给出了mac系统的安装步骤,中间遇到些问题,不过整体比较顺利。官网安装说明:https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Installation-on-Apple-Silicon#downloading-stable-diffusion-models
数据仓库晨曦
2024/01/08
2K0
Mac 本地部署Stable Diffusion
分享一款可用于对话场景的文本转语音免费工具
不知道大家在日常的学习、工作中是否有这样的一个情况,当我们阅读完一篇文章,很快就能读完,但印象不会很深;或者说在很多时候,对着电脑、手机看久了,眼睛很疲劳,希望能够通过听觉来接收我们文章的内容。我自己在时常阅读公众号文章,就很喜欢去听,而不是阅读的方式。逐渐发现听内容比阅读内容更容易吸收,而且能够极大的缓解我们的眼睛疲劳。
兔云小新LM
2024/06/10
4630
分享一款可用于对话场景的文本转语音免费工具
肝了4天,我用ChatTTS和LLM让deeplearning.ai课程说上流畅中文
我们都知道外网上有很多优秀的视频教程平台,比如 Coursera 和 deeplearning.ai。尤其是后者,由吴恩达老师与OpenAI、Langchain、LlamaIndex、AutoGen等公司和作者合作,推出了一系列广受好评的LLM教程,如Prompt Engineering、Langchain教程、LlamaIndex教程和AutoGen教程。deeplearning.ai 的课程紧跟时下热点,是大语言模型爱好者和从业者不可或缺的资源。然而,deepleaning.ai 的课程通常没有中文字幕,这无疑提高了学习的门槛。即使有些同学坚持学习,也可能因为语言障碍只能学到皮毛。我肝了4天,我成功地让这些课程说上流畅地道的普通话。话不多说,让我们直接看看效果视频。
AgenticAI
2025/03/18
1450
肝了4天,我用ChatTTS和LLM让deeplearning.ai课程说上流畅中文
基于腾讯云CVM搭建CosyVoice环境
CosyVoice,这一由阿里通义实验室于七月初发布的开源语音合成大模型,展现了在自然语言合成领域的独特实力。它不仅支持包括中文、英文、日语、粤语和韩语在内的五种不同语言,更在多音色和丰富情感的语音生成方面设立了新的标杆。
buzzfrog
2024/08/27
7381
基于腾讯云CVM搭建CosyVoice环境
【AI落地应用实战】文本生成语音Parler-TTS + DAMODEL复现指南
这里我要推荐的【好事】文章是如何从零构建一个现代深度学习框架,2024年可以说是大模型发展迅速的一年,国内的国际的各大厂商都推出了多种场景的大模型,那么作为小白,虽然不是大模型从业者,但是也想了解一下大模型这样的深度学习框架到底是怎么来的,是如何构建的呢?可以看这篇文章:
中杯可乐多加冰
2024/11/12
4890
在Jetson上玩转大模型Day12:NanoLLM开发平台(2):语音对话助手
这个Llamaspeak项目在2023年提出第一个版本时,是以NVIDIA的RIVA语音技术结合Text-Generation-Webui界面与LLM大语言模型而成,整个安装的过程是相当复杂的,主要包括以下步骤:
GPUS Lady
2024/11/19
2860
在Jetson上玩转大模型Day12:NanoLLM开发平台(2):语音对话助手
对话型文字转语音软件Dia-1.6B免安装一键启动整合包下载
本次分享一个刚出的超逼真对话型文字转语音软件Dia-1.6B,这个TTS软件不像传统的文字转语音那样,Dia可以生成对话音频,还可以生成非语言音效,如笑声,咳嗽,清嗓子等,还支持声音克隆。我基于当前Dia最新版本制作了免安装一键启动整合包。
用户11671502
2025/05/26
1090
对话型文字转语音软件Dia-1.6B免安装一键启动整合包下载
【人工智能】Transformers之Pipeline(三):文本转音频(text-to-audio/text-to-speech)
pipeline(管道)是huggingface transformers库中一种极简方式使用大模型推理的抽象,将所有大模型分为音频(Audio)、计算机视觉(Computer vision)、自然语言处理(NLP)、多模态(Multimodal)等4大类,28小类任务(tasks),共计覆盖32万个模型。
LDG_AGI
2024/08/13
3390
【人工智能】Transformers之Pipeline(三):文本转音频(text-to-audio/text-to-speech)
推荐阅读
相关推荐
ChatTTS webUI & API:ChatTTS本地网页界面的高效文本转语音、同时支持API调用!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验