首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >openai whisper 语音识别,语音翻译

openai whisper 语音识别,语音翻译

作者头像
崔哥
发布2024-03-08 10:02:20
发布2024-03-08 10:02:20
3.1K00
代码可运行
举报
文章被收录于专栏:崔哥的专栏崔哥的专栏
运行总次数:0
代码可运行

简介

Whisper 是openai开源的一个通用的语音识别模型,同时支持把各种语言的音频翻译为成英文(音频->文本)。

安装

代码语言:javascript
代码运行次数:0
运行
复制
apt install ffmpeg

pip install -U openai-whisper

使用

指令

代码语言:javascript
代码运行次数:0
运行
复制
whisper video.mp4
whisper audio.flac audio.mp3 audio.wav --model medium
whisper japanese.wav --language Japanese
whisper chinese.mp4 --language Chinese --task translate
whisper --help

代码中使用,以下是Python示例

代码语言:javascript
代码运行次数:0
运行
复制
import whisper

model = whisper.load_model("base")
result = model.transcribe("audio.mp3")
print(result["text"])

扩展,Whisper ASR Webservice

whisper 只支持服务端代码调用,如果前端要使用得通过接口,Whisper ASR Webservice帮我们提供了这样的接口,目前提供两个接口,一个音频语言识别和音频转文字(支持翻译和转录)

Whisper ASR Webservice除了支持Whisper,还支持faster-whisperfaster-whisper据说能够实现比 Whisper更快的转录功能,同时显存占用也比较小。

Whisper ASR Webservicegit 仓库 下的docker-compose.gpu.yml可以直接使用

接口文档

http://localhost:9000/docs

其中,音频转文字接口,识别出的文字可能是简体,繁体混合的,可以通过参数initial_prompt调节,比如设置参数值为以下是普通话的句子,这是一段会议记录。,来源: https://blog.csdn.net/gootyking/article/details/134475995

参考

https://zhuanlan.zhihu.com/p/617770448

https://github.com/openai/whisper

https://github.com/SYSTRAN/faster-whisper

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 简介
  • 安装
  • 使用
  • 扩展,Whisper ASR Webservice
    • 接口文档
  • 参考
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档