前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >用腾讯云语音合成(TTS)批量生成英语绘本的朗读音频

用腾讯云语音合成(TTS)批量生成英语绘本的朗读音频

原创
作者头像
AIGC部落
发布2024-06-23 16:31:23
1120
发布2024-06-23 16:31:23
举报
文章被收录于专栏:Dance with GenAIDance with GenAI

孩子进行英语启蒙,需要看很多英语绘本,而且要听配套的音频来练听力。但有些英语绘本是没有对应音频的,下面简单几步,就可以将任意英语绘本制作出对应的英语朗读音频。

先到电子书资源网站搜索这个绘本名称,如果有电子书,可以直接下载,最好是pdf格式的;

如果没有电子书,但是有实体书,比如从图书馆借的绘本,可以用手机拍照做成PDF文件。

绘本每一页拍照后,按照页码顺序选择,然后点击:更多——打印或生成PDF

点击右上角,选择:另存为PDF

选择一个文件夹,保存,然后将这个PDF文件传输到电脑。

得到绘本的PDF文件后,然后申请一个腾讯云的账号,新用户可以领取一个语音合成的免费资源包,内含800万调用字符,有效期为3个月。语音合成(Text To Speech,TTS)可以将文本转化成拟人化语音,提供多种音色选择,支持自定义音量、语速,让发音更自然、更专业、更符合场景需求。语音合成可以应用于语音导航、有声读物、机器人、语音助手、自动新闻播报等场景。

不过注意,这个语音合成-通用免费资源包不含长文本,一次最多只能支持500个英文字母的语音合成。

然后,在deepseek输入框中输入提示词:

你是一个Python编程专家,要写一个通过腾讯云的语音合成API进行批量AI英语语音合成的Python脚本,具体步骤如下:

腾讯云SecretId:XXX,SecretKey:XXX

读取文件夹“F:\aivideo”中的pdf文件,如果pdf文件是图像格式,调用Tesseract进行OCR文本识别,提取出全部的文本内容;如果不是图像格式,直接提取其全部文本内容;

对于每个pdf文件,创建一个TextToVoice基础语音合成任务(语言为英语),然后定期检查任务状态,直到任务完成或失败。完成后,将语音合成结果保存到本地文件。识别结果保存到文件夹:F:\\aivideo ,文件名为对应的pdf文件名,格式为mp3,采样率为16000 Hz

注意:

一次请求有字数限制:英文最大支持400个字母,包括标点符号在内。如果pdf文本中字母超过400个,要对文本进行拆分,然后语音合成,语音合成完成后,按顺序把语音文件合并成一个。

在保存音频文件时,需要确保传入的是字节对象而不是字符串。

如果创建任务或查询状态时发生错误,应该打印错误信息;

每一步都要输出信息到屏幕上;

输出参数

参数名称类型描述

AudioStringbase64编码的wav/mp3音频数据

示例值:UklGRlR/AABXQVZFZm10IBAAAAABAAEAgD4AAAB9AAACABAAZGF0YSx9AAD+

输出示例:

{

"Response": {

"Audio": "UklGRqRwAABXQVZFZm10IBAAAAABAAEAgD4AAAB9AAACABAAZGF0YYBwAAAA......AAAAA=",

"RequestId": "d91f1496-0514-4281-932e-15a022b67d16",

"SessionId": "session-1234",

"Subtitles": [

{

"BeginIndex": 0,

"BeginTime": 250,

"EndIndex": 1,

"EndTime": 430,

"Phoneme": "ni2",

"Text": "你"

},

{

"BeginIndex": 1,

"BeginTime": 430,

"EndIndex": 2,

"EndTime": 670,

"Phoneme": "hao3",

"Text": "好"

}

]

}

}

Deepseek生成的python源代码:

代码语言:txt
复制
import os
import time
import json
import base64
import PyPDF2
import pytesseract
from pdf2image import convert_from_path
from tencentcloud.common import credential
from tencentcloud.common.profile.client_profile import ClientProfile
from tencentcloud.common.profile.http_profile import HttpProfile
from tencentcloud.common.exception.tencent_cloud_sdk_exception import TencentCloudSDKException
from tencentcloud.tts.v20190823 import tts_client, models
import moviepy.editor as mp
# 腾讯云API的SecretId和SecretKey
SECRET_ID = "XXX"
SECRET_KEY = "XXX"
# 文件夹路径
PDF_FOLDER = "F:\\aivideo"
def extract_text_from_pdf(pdf_path):
try:
# 尝试使用PyPDF2读取PDF文本
with open(pdf_path, 'rb') as file:
reader = PyPDF2.PdfFileReader(file)
text = ""
for page_num in range(reader.numPages):
page = reader.getPage(page_num)
text += page.extract_text()
return text
except:
# 如果失败,使用pdf2image和pytesseract进行OCR
images = convert_from_path(pdf_path)
text = ""
for image in images:
text += pytesseract.image_to_string(image, lang='eng')
return text
def split_text(text, max_length=400):
words = text.split()
chunks = []
current_chunk = []
current_length = 0
for word in words:
if current_length + len(word) + 1 > max_length:
chunks.append(' '.join(current_chunk))
current_chunk = [word]
current_length = len(word)
else:
current_chunk.append(word)
current_length += len(word) + 1
if current_chunk:
chunks.append(' '.join(current_chunk))
return chunks
def create_tts_task(client, text):
try:
req = models.TextToVoiceRequest()
params = {
"Text": text,
"SessionId": str(int(time.time())),
"ModelType": 1,
"VoiceType": 101001, # 英语女声
"SampleRate": 16000
}
req.from_json_string(json.dumps(params))
resp = client.TextToVoice(req)
return resp.Audio
except TencentCloudSDKException as err:
print(f"Error creating TTS task: {err}")
return None
def save_audio_to_file(audio, file_path):
with open(file_path, 'wb') as f:
f.write(base64.b64decode(audio))
print(f"Audio saved to {file_path}")
def merge_audio_files(file_paths, output_path):
clips = [mp.AudioFileClip(f) for f in file_paths]
final_clip = mp.concatenate_audioclips(clips)
final_clip.write_audiofile(output_path, codec='mp3')
for f in file_paths:
os.remove(f)
print(f"Merged audio saved to {output_path}")
def main():
cred = credential.Credential(SECRET_ID, SECRET_KEY)
httpProfile = HttpProfile()
httpProfile.endpoint = "http://tts.tencentcloudapi.com"
clientProfile = ClientProfile()
clientProfile.httpProfile = httpProfile
client = tts_client.TtsClient(cred, "ap-guangzhou", clientProfile)
for filename in os.listdir(PDF_FOLDER):
if filename.endswith('.pdf'):
pdf_path = os.path.join(PDF_FOLDER, filename)
print(f"Processing {pdf_path}")
text = extract_text_from_pdf(pdf_path)
if text:
chunks = split_text(text)
audio_files = []
for i, chunk in enumerate(chunks):
audio = create_tts_task(client, chunk)
if audio:
temp_file_path = os.path.join(PDF_FOLDER, f"temp_{i}.mp3")
save_audio_to_file(audio, temp_file_path)
audio_files.append(temp_file_path)
if audio_files:
output_file_path = os.path.join(PDF_FOLDER, os.path.splitext(filename)[0] + '.mp3')
merge_audio_files(audio_files, output_file_path)
else:
print(f"No text extracted from {pdf_path}")
if __name__ == "__main__":
main()

程序运行成功,pdf文本完美的转换为音频文件,朗读音色很自然,和真人非常接近。

回到腾讯云控制台,点击:语音合成资源包,可以查看刚才程序运行消耗的字符数量和剩余字符数量。

可以看到,一本简单的英文绘本消耗了3712个字符,免费的语音合成资源包支持8000000个字符,大概可以转换2000本左右英文绘本。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音合成
语音合成(Text To Speech,TTS)满足将文本转化成拟人化语音的需求,打通人机交互闭环。提供多场景、多语言的音色选择,支持 SSML 标记语言,支持自定义音量、语速等参数,让发音更专业、更符合场景需求。语音合成广泛适用于智能客服、有声阅读、新闻播报、人机交互等业务场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档