首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >[AI OpenAI-doc] 语音转文字

[AI OpenAI-doc] 语音转文字

作者头像
从零开始学AI
发布于 2024-04-28 07:29:33
发布于 2024-04-28 07:29:33
2.1K08
代码可运行
举报
文章被收录于专栏:AIAI
运行总次数:8
代码可运行

学习如何将音频转换为文本

介绍

音频 API 提供了两个语音转文本的端点,即转录和翻译,基于我们先进的开源大型-v2 Whisper 模型。它们可用于:

  • 将音频转录为音频所使用的任何语言。
  • 将音频翻译并转录为英文。

目前,文件上传限制为 25 MB,并支持以下输入文件类型:mp3、mp4、mpeg、mpga、m4a、wav 和 webm。

快速入门

转录

转录 API 的输入是您想要转录的音频文件和音频转录的所需输出文件格式。我们目前支持多种输入和输出文件格式。

代码语言:python
代码运行次数:7
运行
AI代码解释
复制
python
from openai import OpenAI
client = OpenAI()

audio_file= open("/path/to/file/audio.mp3", "rb")
transcription = client.audio.transcriptions.create(
  model="whisper-1", 
  file=audio_file
)
print(transcription.text)

默认情况下,响应类型将为包含原始文本的 json。

代码语言:json
AI代码解释
复制
{
  "text": "Imagine the wildest idea that you've ever had, and you're curious about how it might scale to something that's a 100, a 1,000 times bigger.
....
}

音频 API 还允许您在请求中设置附加参数。例如,如果您想将 response_format 设置为文本,您的请求将如下所示:

代码语言:python
代码运行次数:1
运行
AI代码解释
复制
python
from openai import OpenAI
client = OpenAI()

audio_file = open("/path/to/file/speech.mp3", "rb")
transcription = client.audio.transcriptions.create(
  model="whisper-1", 
  file=audio_file, 
  response_format="text"
)
print(transcription.text)

API 参考包括可用参数的完整列表。

翻译

翻译 API 接受任何支持的语言的音频文件作为输入,并在必要时将音频转录成英文。这与我们的 /Transcriptions 终点不同,因为输出不是原始输入语言,而是转译成英文文本。

代码语言:python
代码运行次数:0
运行
AI代码解释
复制
python
from openai import OpenAI
client = OpenAI()

audio_file= open("/path/to/file/german.mp3", "rb")
translation = client.audio.translations.create(
  model="whisper-1", 
  file=audio_file
)
print(translation.text)

在这种情况下,输入的音频是德语,输出的文本如下所示:

代码语言:md
AI代码解释
复制
Hello, my name is Wolfgang and I come from Germany. Where are you heading today?

我们目前仅支持将文本翻译成英文。

支持的语言

我们目前通过转录和翻译终点支持以下语言:

南非荷兰语、阿拉伯语、亚美尼亚语、阿塞拜疆语、白俄罗斯语、波斯尼亚语、保加利亚语、加泰罗尼亚语、中文、克罗地亚语、捷克语、丹麦语、荷兰语、英语、爱沙尼亚语、芬兰语、法语、加利西亚语、德语、希腊语、希伯来语、印地语、匈牙利语、冰岛语、印度尼西亚语、意大利语、日语、卡纳达语、哈萨克语、韩语、拉脱维亚语、立陶宛语、马其顿语、马来语、马拉地语、毛利语、尼泊尔语、挪威语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、塞尔维亚语、斯洛伐克语、斯洛文尼亚语、西班牙语、斯瓦希里语、瑞典语、他加禄语、泰米尔语、泰语、土耳其语、乌克兰语、乌尔都语、越南语和威尔士语。

虽然底层模型是在 98 种语言上进行训练的,但我们只列出了超过 50% 单词错误率(WER)的语言,这是语音转文本模型准确性的行业标准基准。模型将返回未在上述列表中列出的语言的结果,但质量将较低。

时间戳

默认情况下,Whisper API 将以文本形式输出所提供音频的转录内容。timestamp_granularities[] 参数可以启用更结构化和带有时间戳的 json 输出格式,时间戳可以在段落级别、单词级别或两者都有。这使得转录和视频编辑可以达到单词级别的精度,从而可以删除与个别单词相关联的特定帧。

代码语言:python
代码运行次数:0
运行
AI代码解释
复制
from openai import OpenAI
client = OpenAI()

audio_file = open("speech.mp3", "rb")
transcript = client.audio.transcriptions.create(
  file=audio_file,
  model="whisper-1",
  response_format="verbose_json",
  timestamp_granularities=["word"]
)

print(transcript.words)

长音频输入

默认情况下,Whisper API 仅支持小于 25 MB 的文件。如果您有一个超过这个大小的音频文件,您需要将其分割成小于或等于 25 MB 的块,或者使用压缩的音频格式。为了获得最佳性能,我们建议您避免在句子中间分割音频,因为这可能会导致一些上下文丢失。

处理这个问题的一种方法是使用 PyDub 开源 Python 包来分割音频:

代码语言:python
代码运行次数:0
运行
AI代码解释
复制
from pydub import AudioSegment

song = AudioSegment.from_mp3("good_morning.mp3")

# PyDub 以毫秒为单位处理时间
ten_minutes = 10 * 60 * 1000

first_10_minutes = song[:ten_minutes]

first_10_minutes.export("good_morning_10.mp3", format="mp3")

OpenAI 不对 PyDub 等第三方软件的可用性或安全性作任何保证。

提示

您可以使用提示来提高 Whisper API 生成的转录质量。模型将尝试匹配提示的风格,因此如果提示中使用了大写字母和标点符号,它更有可能也会使用。然而,当前的提示系统比我们的其他语言模型要受限得多,并且只提供有限的控制生成的音频。以下是提示在不同情况下如何帮助的一些示例:

  • 提示对于纠正模型可能在音频中错误识别的特定单词或首字母缩写词非常有帮助。例如,以下提示改进了 DALL·E 和 GPT-3 这两个单词的转录,之前被写作为 "GDP 3" 和 "DALI":"这篇文稿是关于 OpenAI,该公司开发出像 DALL·E、GPT-3 和 ChatGPT 这样的技术,希望有一天能建立一个造福全人类的 AGI 系统。"
  • 为了保留被分割成段落的文件的上下文,您可以使用前一段的转录作为提示。这样会使转录更准确,因为模型将使用前一个音频的相关信息。模型只会考虑提示的最后 224 个标记,并忽略之前的任何内容。对于多语言输入,Whisper 使用自定义分词器。对于仅英语输入,它使用标准的 GPT-2 分词器,这两者都可以通过开源的 Whisper Python 包访问。
  • 有时,模型在转录中可能会跳过标点符号。您可以通过使用包含标点符号的简单提示来避免这种情况:"你好,欢迎来到我的讲座。"
  • 模型在音频中也可能会省略常用的填充词。如果您想在转录中保留这些填充词,可以使用包含它们的提示:"嗯,让我想想,嗯...好的,我想我是这么想的。"
  • 某些语言可以以不同的方式书写,例如简体或繁体中文。模型可能不会始终使用您希望在转录中使用的写作风格。您可以通过使用您喜欢的写作风格的提示来改进这一点。

提高可靠性

正如我们在提示部分中所探讨的,使用 Whisper 时面临的最常见挑战之一是模型通常无法识别不常见的单词或首字母缩略词。为了解决这个问题,我们已经强调了几种不同的技术,可以在这些情况下提高 Whisper 的可靠性:

使用提示参数

第一种方法涉及使用可选的提示参数来传递正确拼写的单词的字典。

由于 Whisper 并未使用指令遵循技术进行训练,它的运作方式更像是一个基本的 GPT 模型。需要牢记的是,Whisper 只考虑提示的前 244 个标记。

代码语言:python
代码运行次数:0
运行
AI代码解释
复制
python
from openai import OpenAI
client = OpenAI()

audio_file = open("/path/to/file/speech.mp3", "rb")
transcription = client.audio.transcriptions.create(
  model="whisper-1", 
  file=audio_file, 
  response_format="text",
  prompt="ZyntriQix, Digique Plus, CynapseFive, VortiQore V8, EchoNix Array, OrbitalLink Seven, DigiFractal Matrix, PULSE, RAPT, B.R.I.C.K., Q.U.A.R.T.Z., F.L.I.N.T."
)
print(transcription.text)

虽然这将提高可靠性,但该技术仅限于 244 个字符,因此您的 SKU 列表需要相对较小,以便这成为一种可扩展的解决方案。

使用 GPT-4 进行后处理

第二种方法涉及使用 GPT-4 或 GPT-3.5-Turbo 进行后处理。

我们首先通过 system_prompt 变量为 GPT-4 提供指令。类似于我们之前使用提示参数所做的,我们可以定义我们公司和产品的名称。

代码语言:python
代码运行次数:0
运行
AI代码解释
复制
python
system_prompt = "您是 ZyntriQix 公司的一名有益助手。您的任务是纠正转录文本中的任何拼写错误。确保以下产品名称的拼写正确:ZyntriQix、Digique Plus、CynapseFive、VortiQore V8、EchoNix Array、OrbitalLink Seven、DigiFractal Matrix、PULSE、RAPT、B.R.I.C.K.、Q.U.A.R.T.Z.、F.L.I.N.T. 仅添加必要的标点符号,如句号、逗号和大写字母,并且仅使用提供的上下文。"

def generate_corrected_transcript(temperature, system_prompt, audio_file):
    response = client.chat.completions.create(
        model="gpt-4-turbo",
        temperature=temperature,
        messages=[
            {
                "role": "system",
                "content": system_prompt
            },
            {
                "role": "user",
                "content": transcribe(audio_file, "")
            }
        ]
    )
    return completion.choices[0].message.content

corrected_text = generate_corrected_transcript(0, system_prompt, fake_company_filepath)

如果您尝试对自己的音频文件使用这种方法,您会发现 GPT-4 能够纠正转录中的许多拼写错误。由于其更大的上下文窗口,这种方法可能比使用 Whisper 的提示参数更具可扩展性,并且更可靠,因为相较于 Whisper,GPT-4 可以通过指令和引导来进行指导,而 Whisper 由于缺乏指令遵循功能,无法做到这一点。


本文系外文翻译,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系外文翻译,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
[AI OpenAI-doc] 文字转语音
音频 API 提供基于我们的 TTS(文本到语音)模型的语音端点。它配备了 6 种内置语音,并可用于:
从零开始学AI
2024/04/23
2.3K0
[AI OpenAI-doc] 文字转语音
OpenAI手把手官方教学:如何用GPT-4创建会议纪要生成AI
本教程将介绍如何使用 OpenAI 的 Whisper 和 GPT-4 模型开发一个自动会议纪要生成器。该应用的功能是转录会议音频、总结讨论的内容、提取要点和行动项目以及执行情绪分析。
机器之心
2023/09/08
1.6K0
OpenAI手把手官方教学:如何用GPT-4创建会议纪要生成AI
语音识别模型
Whisper 是 OpenAI 的一项语音处理项目,旨在实现语音的识别、翻译和生成任务。作为基于深度学习的语音识别模型,Whisper 具有高度的智能化和准确性,能够有效地转换语音输入为文本,并在多种语言之间进行翻译。通过不断的优化和更新,Whisper 致力于提供更加优质和高效的语音处理解决方案,以满足不同场景和需求下的语音交互应用。
霍格沃兹测试开发Muller老师
2024/10/29
1.4K0
用谷歌Colab免费批量将本地电脑上的Mp3语音文件转文字
可以下载电脑版谷歌drive软件:Google Drive for desktop,使用更方便:
AIGC部落
2024/10/21
6220
用谷歌Colab免费批量将本地电脑上的Mp3语音文件转文字
[AI OpenAI-doc] 速率限制
速率限制有五种度量方式:RPM(每分钟请求次数)、RPD(每天请求次数)、TPM(每分钟令牌数)、TPD(每天令牌数)和IPM(每分钟图片数)。速率限制可能会在任何选项上达到,取决于哪个先发生。例如,您可能会发送20个请求到 ChatCompletions 终点,但只有100个令牌,这将填满您的限制(如果您的 RPM 是20),即使在这20个请求中您没有发送150k个令牌(如果您的 TPM 限制是150k)。
从零开始学AI
2024/05/17
7020
[AI OpenAI-doc] 速率限制
OpenAI新开放了这些好用的API功能
带有视觉能力的 GPT-4,有时也称为 GPT-4V 或 gpt-4-vision-preview ,在 API 中,允许模型接收图像并回答有关它们的问题。 该模型最擅长回答有关图像中存在的内容的一般问题。虽然它确实了解图像中对象之间的关系,但它尚未优化以回答有关图像中某些对象位置的详细问题。 例如,你可以问它汽车是什么颜色的,或者根据冰箱里的东西,晚餐的一些想法可能是什么,但如果你给它看一个房间的图像,并问它椅子在哪里,它可能无法正确回答问题。
腾讯技术工程官方号
2023/11/22
2.1K0
OpenAI新开放了这些好用的API功能
深度解析:如何用好 Whisper 的 `prompt` 和 `initial_prompt` 参数?
最近,OpenAI 的 Whisper 模型在语音转文字领域引起了广泛关注。作为一个支持多语言的强大转录工具,Whisper 提供了许多自定义功能,其中**prompt** 和 initial_prompt 参数尤其重要。合理使用它们,可以显著提升转录效果。
井九
2025/01/09
1.1K0
深度解析:如何用好 Whisper 的 `prompt` 和 `initial_prompt` 参数?
[AI OpenAI-doc] 图像生成
本指南涵盖了使用这三个API端点的基础知识,并提供了有用的代码示例。想要尝试DALL·E 3,请前往ChatGPT。想要尝试DALL·E 2,请查看DALL·E预览应用。
从零开始学AI
2024/04/21
2290
[AI OpenAI-doc] 图像生成
一文带你了解OpenAI近期更新开放的API功能
OpenAI近期召开了开发者大会,同时也发布和开放了一些新的功能特性,比如新版本GPT-4 Turbo,支持128k上下文,知识截止更新到2023年4月,视觉能力、DALL·E3,文字转语音TTS等等全都对API开放,GPTs商店已经对Plus账户开放。
码之有理
2023/12/07
1.9K0
终于,OpenAI开放ChatGPT API,成本直降90%,百万token才2美元
机器之心报道 机器之心编辑部 现在,第三方可以通过 API 将对话模型 ChatGPT 和语音转文本模型 Whisper 集成到自己的应用程序和服务中了。 2022 年 11 月,OpenAI 上线 ChatGPT,自此以后,这个对话模型一路开挂。毫不夸张的说,与 ChatGPT 相关的话题应该算是继 AlphaGo 以来,最出圈的人工智能热点了,推出仅仅两个月,月活用户就破亿,成为史上用户增长速度最快的消费级应用程序。 ChatGPT 的出现,让大家觉得,AI 似乎终于能够和人正常交流了,虽然有时候会出错
机器之心
2023/03/29
1.5K0
终于,OpenAI开放ChatGPT API,成本直降90%,百万token才2美元
[AI OpenAI-doc] 微调
OpenAI 的文本生成模型已经在大量文本上进行了预训练。为了有效地使用这些模型,我们在提示中包含了说明和有时几个示例。使用示例来展示如何执行任务通常被称为 "少样本学习"。
从零开始学AI
2024/04/20
3170
[AI OpenAI-doc] 微调
AI大模型×音视频:2025年开发者的实战指南
2025年,AI大模型已超越纯文本领域,在音频与视频处理方面取得突破性进展。OpenAI 在2024年推出的 GPT-4o(Omni)模型,不仅能实时理解文本与图像,还具备“语音进、语音出”的多模态交互能力,实现低延迟的对话与生成;同年,Meta 宣布 Movie Gen 模型系列,可从文本提示生成最长16秒的高清短视频,并同步生成最多45秒的音频,为内容创作带来全新可能(Reuters, VentureBeat)。面对这些前沿技术,开发者需要掌握从基础调用到端到端集成的实战技巧,才能在智能客服、短视频创作、虚拟主播等场景中抢占先机。
大熊计算机
2025/07/14
820
[AI OpenAI-doc] 批处理 API
了解如何使用 OpenAI 的批处理 API 发送异步请求组,其成本降低 50%,具有一个独立的更高速率限制池,并提供明确的 24 小时完成时间。该服务非常适合处理不需要即时响应的作业。您也可以直接在这里查看 API 参考。
从零开始学AI
2024/05/18
5520
[AI OpenAI-doc] 批处理 API
AIGC: 2 语音转换新纪元-Whisper技术在全球客服领域的创新运用
Whisper 是由 OpenAI 开发的一种高效的语音识别(ASR)技术,旨在将人类的语音转换成文本。
李福春
2024/03/10
5320
AIGC: 2 语音转换新纪元-Whisper技术在全球客服领域的创新运用
[AI OpenAI-doc] 视觉
具有视觉功能的 GPT-4 Turbo 允许模型接收图像并回答与之相关的问题。在历史上,语言模型系统受限于仅接收单一输入模态,即文本。对于许多用例来说,这限制了像 GPT-4 这样的模型可用的领域。以前,该模型有时被称为 GPT-4V 或 gpt-4-vision-preview 在 API 中。请注意,助手 API 目前不支持图像输入。
从零开始学AI
2024/04/22
3780
[AI OpenAI-doc] 视觉
[AI OpenAI-doc] 安全最佳实践
OpenAI 的 Moderation API 是免费使用的,可以帮助减少您完成中不安全内容的频率。或者,您可能希望开发自己的内容过滤系统,以适应您的使用情况。
从零开始学AI
2024/05/12
2510
[AI OpenAI-doc] 安全最佳实践
openai whisper 语音识别,语音翻译
Whisper 是openai开源的一个通用的语音识别模型,同时支持把各种语言的音频翻译为成英文(音频->文本)。
崔哥
2024/03/08
2.2K0
AIGC 办公自动化:智能会议记录与摘要助手完整教程
在现代办公环境中,会议记录是一项重要但繁琐的任务。手动记录会议内容不仅费时,还容易遗漏关键信息。借助 人工智能生成内容(AIGC)技术,我们可以自动转录语音、提取关键信息,并生成结构化的会议摘要,极大提高工作效率。
IT蜗壳-Tango
2025/03/27
4730
基于OpenAI Whisper AI模型自动生成视频字幕:全面解析与实战指南
在数字化时代,视频内容已成为信息传播的重要载体。然而,为视频添加字幕却是一项繁琐且耗时的工作。幸运的是,随着人工智能技术的飞速发展,特别是OpenAI Whisper模型的推出,我们有了更加高效、智能的解决方案。
小白的大数据之旅
2024/12/28
1.1K0
[AI OpenAI] 您好,GPT-4o
GPT-4o(“o”代表“omni”)是朝着更加自然的人机交互迈出的一步——它可以接受任何组合的文本、音频和图像作为输入,并生成任何组合的文本、音频和图像输出。它可以在短至232毫秒内响应音频输入,平均响应时间为320毫秒,这与人类在对话中的响应时间相似。它在英文文本和代码处理方面与GPT-4 Turbo的性能相当,在非英语语言的文本处理上有显著提升,同时API的速度更快且成本降低50%。与现有模型相比,GPT-4o在视觉和音频理解方面特别出色。
从零开始学AI
2024/05/14
1970
[AI OpenAI] 您好,GPT-4o
相关推荐
[AI OpenAI-doc] 文字转语音
更多 >
交个朋友
加入腾讯云官网粉丝站
蹲全网底价单品 享第一手活动信息
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验