前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >OpenAI Voice Engine:关于语音引擎小规模预览的经验教训

OpenAI Voice Engine:关于语音引擎小规模预览的经验教训

作者头像
AIGC新知
发布于 2024-10-08 10:40:46
发布于 2024-10-08 10:40:46
1450
举报
文章被收录于专栏:AIGC新知AIGC新知

人工智能技术不断突破的今天,OpenAI再次以其创新力引领行业。3月30日凌晨,该公司在其官方网站上首次向世界展示了其最新研发的自定义音频模型——Voice Engine,开启了声音复制和生成的新篇章。

Voice Engine:声音复制的新纪元

Voice Engine代表了OpenAI在音频技术领域的一次重大飞跃。这款模型通过深度学习算法,能够根据用户提供的一段简短参考声音,仅需15秒,便能创造出与原声极为相似的全新音频。

在声音的清晰度、连贯性、音色和自然度等关键维度上,Voice Engine均展现出超越市场上大多数产品的优秀性能。

Voice Engine的多样化应用

OpenAI不仅展示了Voice Engine在音频合成方面的卓越能力,还揭示了其在商业领域的广泛潜力。

该技术不仅能够为内容创作者、配音演员等专业人士提供便利,还能够为那些失去声音表达能力的人群带来希望。

Part.01

语音合成

通过自然、富有感情的声音为非读者和儿童提供阅读帮助,这些声音代表比预设声音更广泛的发言者。

Age of Learning 是一家致力于儿童学业成功的教育技术公司,一直在使用它来生成预先编写的画外音内容。他们还使用语音引擎和 GPT-4 创建实时、个性化的响应来与学生互动。借助这项技术,Age of Learning 能够为更广泛的受众创造更多内容。

Part.02

翻译视频和播客

HeyGen是一家AI视频合成平台,主要帮助企业开发商品展示的“数字人”。他们通过使用Voice Engine进行视频翻译,扩展至多国语言来扩大全球覆盖受众。

输入一段原参考语音,就能将其转化成中文语音或者日文语音。

Part.03

改善偏远地区的基本服务交付

Dimagi 正在为社区卫生工作者构建工具,以提供各种基本服务,例如为母乳喂养母亲提供咨询。为了帮助这些工人发展技能,Dimagi 使用语音引擎和 GPT-4 以每个工人的主要语言(包括斯瓦希里语)或更非正式的语言(例如在肯尼亚流行的代码混合语言)提供交互式反馈。

Part.04

帮助患有突发性或退化性言语疾病的患者恢复声音

Lifespan 的诺曼·普林斯神经科学研究所是一个非营利性卫生系统,是布朗大学医学院的主要教学附属机构,正在探索人工智能在临床环境中的应用。他们一直在试点一个项目,为患有语言障碍的肿瘤或神经病因的个人提供语音引擎。

由于语音引擎需要如此短的音频样本,法蒂玛·米尔扎 (Fatima Mirza)、罗海德·阿里 (Rohaid Ali) 和康斯坦蒂娜·斯沃科斯 (Konstantina Svokos) 医生利用为学校录制的视频中的音频,恢复了一名因血管性脑肿瘤而失去流利言语的年轻患者的声音项目。

安全构建语音引擎

生成类似于人们声音的言论存在严重风险。

需要原始发言者的明确和知情同意,不允许为个人用户创建自己的声音。合作伙伴还必须清楚地向观众透露,他们听到的声音是人工智能生成的。

实施了一套安全措施,包括添加水印以追踪语音引擎生成的任何音频的来源,以及主动监控其使用方式。

我们认为,任何合成语音技术的广泛部署都应该伴随着语音认证体验,以验证原始说话者是否有意将其语音添加到服务中,以及禁止语音列表,以检测并防止创建过于相似的语音到杰出人物。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-03-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC新知 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!人格化语音时代来了
国产大模型进步的速度早已大大超出了人们的预期。年初 DeepSeek-R1 爆火,以超低的成本实现了部分超越 OpenAI o1 的表现,一定程度上让人不再过度「迷信」国外大模型。
机器之心
2025/05/17
1970
超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!人格化语音时代来了
OpenAI下周要有大动作,奥特曼在线剧透:不是GPT-5,不是搜索引擎
今日凌晨 OpenAI 官宣,将于美国时间 13 日上午 10 点进行一场直播。Sam Altman 随即转发这一消息,并表示「不是 gpt-5,不是搜索引擎,但我们一直在努力开发一些我们认为人们会喜欢的新东西!我感觉这就像魔法一样。」
机器之心
2024/05/14
1330
OpenAI下周要有大动作,奥特曼在线剧透:不是GPT-5,不是搜索引擎
业界 | 吴恩达盛赞的Deep Voice详解教程,教你快速理解百度的语音合成原理(上)
AI科技评论按:百度前段时间推出了语音合成应用 Deep Voice,AI科技评论也于近日回顾了百度在语音识别及语音合成的研究历程《从SwiftScribe说起,回顾百度在语音技术的七年积累》,但对于不了解TTS的同学们来说,要理解 Deep Voice 同样困难。 而近日,百度首席科学家吴恩达在 Twitter 上转发了MIT Dhruv Parthasarathy 的一篇medium 文章,其详细阐述了Baidu Deep Voice 的具体原理及操作方法。吴恩达表示,“如果你是语音合成的新手,那么这篇
AI科技评论
2018/03/12
2.1K0
业界 | 吴恩达盛赞的Deep Voice详解教程,教你快速理解百度的语音合成原理(上)
对话型文字转语音软件Dia-1.6B免安装一键启动整合包下载
本次分享一个刚出的超逼真对话型文字转语音软件Dia-1.6B,这个TTS软件不像传统的文字转语音那样,Dia可以生成对话音频,还可以生成非语言音效,如笑声,咳嗽,清嗓子等,还支持声音克隆。我基于当前Dia最新版本制作了免安装一键启动整合包。
用户11671502
2025/05/26
1190
对话型文字转语音软件Dia-1.6B免安装一键启动整合包下载
博鳌AI同传遭热议!腾讯翻译君负责人李学朝、讯飞胡郁有话说
---- 【新智元导读】首次正式亮相国际级会议的AI同传,腾讯翻译君不仅仅代表了自己,还代表了整个AI智能翻译业界。近几天AI同传遭遇社会嘲笑,对此,腾讯翻译君负责人李学朝,讯飞胡郁有话说。 这几天又有一个AI火了。 没错,我们说的是在2018年博鳌论坛担任同声传译的腾讯同传。 这个事件让人想起了2017年“3·15晚会”打假人脸识别,让人脸识别技术一夜走红,也让众多人脸识别公司躺枪。一年后的今天,公众对人脸识别的接受度已经明显提升,技术在不断发展,人脸识别的商业化应用在不断产生。 当时,人脸识别公司云
新智元
2018/04/17
1.2K0
博鳌AI同传遭热议!腾讯翻译君负责人李学朝、讯飞胡郁有话说
OpenAI为高级语音模式添加五种声音,已正式推出!华为发布业界首个L4自动驾驶网络|AI日报
法国亿万富翁加入字节跳动董事会!美国总统候选人哈里斯、特朗普纷纷向人工智能和加密货币产业示好|AI日报
可信AI进展
2024/09/27
1140
OpenAI 官宣旗舰模型 GPT-4o,完全免费、无障碍与人交谈!奥特曼:这是我们最好的模型
上周,关于 OpenAI 即将发布重大更新的报道层出不穷。有报道称,ChatGPT 制造商 OpenAI 计划通过推出 Google 搜索的竞争对手来增强聊天机器人的功能并开拓新市场。报道还称,这款新搜索产品可能会在 5 月 13 日 Google I/O 大会前一天发布。不过 Altman 否认了此类传言。
深度学习与Python
2024/05/15
2200
OpenAI 官宣旗舰模型 GPT-4o,完全免费、无障碍与人交谈!奥特曼:这是我们最好的模型
下周!OpenAI将有大动作,奥特曼剧透:Not GPT-5,Not 搜索引擎
OpenAI 有了新动向!今日凌晨 OpenAI 官宣,将于美国时间 13 日上午 10 点进行一场直播。Sam Altman 随即转发这一消息,并表示「不是 gpt-5,不是搜索引擎,但我们一直在努力开发一些我们认为人们会喜欢的新东西!我感觉这就像魔法一样。」
ShuYini
2024/05/17
1220
下周!OpenAI将有大动作,奥特曼剧透:Not GPT-5,Not 搜索引擎
多位AI大牛被曝离职创业;「国家队」下场,移动、电信发布大模型;谷歌手动删除并回应新AI搜索失误丨AI情报局
连信数字是一家AI大模型智能体及产业化应用科技服务商,专注于人工智能大模型各领域智能体及产业应用。本轮融资由华德诚志重科、华德众科领投,衢州国投等跟投。资金将用于推动大模型核心能力进一步跃升,加速智能体产品的研发与产业化应用落地。
AI科技评论
2024/06/03
2240
多位AI大牛被曝离职创业;「国家队」下场,移动、电信发布大模型;谷歌手动删除并回应新AI搜索失误丨AI情报局
【AIGC】内容创作——AI文字、图像、音频和视频的创作流程
近年来,生成式人工智能(AIGC,Artificial Intelligence Generated Content)技术迅速发展,彻底改变了内容创作的各个领域。无论是文字、图像、音频,还是视频,AI都在推动着创作流程的颠覆性变革。本文将详细介绍AIGC在内容创作中的应用,并分析其背后的技术及对未来的影响。
2的n次方
2024/10/15
1K0
【AIGC】内容创作——AI文字、图像、音频和视频的创作流程
【AGI-Eval行业动态】OpenAI 语音模型三连发,AI 语音进入“声优”时代
美东时间 3 月 20 日,OpenAI 发布了三款全新语音模型,分别是自动语音识别模型(ASR) GPT - 4o Transcribe 和 GPT - 4o Mini Transcribe,以及语音合成模型(TTS) GPT - 4o Mini TTS。
AGI-Eval评测社区
2025/04/08
2430
【AGI-Eval行业动态】OpenAI 语音模型三连发,AI 语音进入“声优”时代
惊掉下巴:GPT-4o现场爆改代码看图导航!OpenAI曝光LLM路线图,GPT Next年底发
这几天,在巴黎举办的最大科技活动VivaTech上,OpenAI再次带来了许多惊喜。
新智元
2024/05/25
1510
惊掉下巴:GPT-4o现场爆改代码看图导航!OpenAI曝光LLM路线图,GPT Next年底发
1000+AI智能体复活,OpenAI版元宇宙上线? ChatGPT+VR百分百还原「西部世界」
YouTube博主Art from the Machine正式发布Mantella,能够让「上古卷轴5」中的NPC们复活的全新AI Mod。
新智元
2023/09/09
3780
1000+AI智能体复活,OpenAI版元宇宙上线? ChatGPT+VR百分百还原「西部世界」
OpenAI颠覆世界:GPT-4o免费发布,实时语音视频交互引领科幻时代
导读:令人难以置信!OpenAI承诺要重塑历史,而现在他们已经做到了!在今晚的发布会上,电影《Her》中的场景似乎变成了现实。得益于GPT-4o技术的加持,ChatGPT与人类的交流流畅得宛如与真人对话,惊呆众人。看着一个个科幻场景变为现实!
用户11203141
2025/03/06
970
OpenAI颠覆世界:GPT-4o免费发布,实时语音视频交互引领科幻时代
深度学习(五):语音处理领域的创新引擎(5/10)
在语音处理领域,传统方法如谱减法、维纳滤波等在处理复杂语音信号时存在诸多局限性。这些方法通常假设噪声是平稳的,但实际噪声往往是非平稳的,导致噪声估计不准确。同时,为了去除噪声,传统方法不可避免地会对语音信号造成一定程度的失真,影响语音的自然性,且面对复杂多变的噪声环境,传统方法的适应性和鲁棒性有限。
正在走向自律
2024/12/18
2620
深度学习(五):语音处理领域的创新引擎(5/10)
千元以内,DIY 一个 AI 大语言模型对话玩具
明星机器人初创公司 Figure,携手 OpenAI 发布令人震撼的全新机器人演示。短短几周内,自 3 月 1 日宣布获得 OpenAI 等巨头投资后,Figure 迅速融合了 OpenAI 的前沿多模态大模型技术。这一突破让我萌生了一个大胆想法——自制一个由大模型加持的玩具,姑且叫他 Figure 3000 吧。
Rude3Knife的公众号
2024/03/22
2.2K2
千元以内,DIY 一个 AI 大语言模型对话玩具
.NET 的文本转语音合成
我经常飞去芬兰见我的妈妈。每次飞机降落在万塔机场时,我都会对鲜有旅客前往机场出口感到惊讶。绝大多数的旅客会转机到跨越所有中欧及东欧的目的地。所以难怪在飞机开始下降时,会发出一大堆有关转机的公告。“如果你的目的地是塔林,请到 123 号登机口登机”,“如果是飞往圣彼德堡的 XYZ 次航班,请到 234 号登机口登机”等。当然,乘务员通常不会讲十几种语言,因此他们使用英语,而英语不是大多数旅客的本地语言。鉴于客机上的公告 (PA) 系统的质量,以及引擎噪音、哭闹的婴儿和其他干扰,如何有效地传达信息?
AI.NET 极客圈
2019/07/19
2.1K0
OpenAI工程师亲自修订:用ChatGPT实时语音API构建应用
很多研究 ChatGPT 的人,在使用后不久就会开始捣鼓 ChatGPT API。它是 OpenAI 提供的开放程序接口,让开发者可以把业界最先进的大模型引入到自己的产品中,构建聊天机器人、虚拟助手等等。近一年来,依靠这套工具打造的热门 App 已有不少。
机器之心
2025/02/03
2650
OpenAI工程师亲自修订:用ChatGPT实时语音API构建应用
[官方]你好 GPT-4o [译]
我们很高兴地宣布,推出了全新的旗舰模型 GPT-4o,能够在音频、视觉和文本之间实时进行推理。
硬核编程
2024/05/20
2080
[官方]你好 GPT-4o [译]
免费GPT-4o来袭,音频视觉文本实现「大一统」
今天凌晨,即北京时间5月14日1点整,OpenAI 召开了首场春季发布会,CTO Mira Murati 在台上和团队用短短不到30分钟的时间,揭开了最新旗舰模型 GPT-4o 的神秘面纱,以及基于 GPT-4o 的 ChatGPT,均为免费使用。
AI科技评论
2024/05/14
2550
免费GPT-4o来袭,音频视觉文本实现「大一统」
推荐阅读
超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!人格化语音时代来了
1970
OpenAI下周要有大动作,奥特曼在线剧透:不是GPT-5,不是搜索引擎
1330
业界 | 吴恩达盛赞的Deep Voice详解教程,教你快速理解百度的语音合成原理(上)
2.1K0
对话型文字转语音软件Dia-1.6B免安装一键启动整合包下载
1190
博鳌AI同传遭热议!腾讯翻译君负责人李学朝、讯飞胡郁有话说
1.2K0
OpenAI为高级语音模式添加五种声音,已正式推出!华为发布业界首个L4自动驾驶网络|AI日报
1140
OpenAI 官宣旗舰模型 GPT-4o,完全免费、无障碍与人交谈!奥特曼:这是我们最好的模型
2200
下周!OpenAI将有大动作,奥特曼剧透:Not GPT-5,Not 搜索引擎
1220
多位AI大牛被曝离职创业;「国家队」下场,移动、电信发布大模型;谷歌手动删除并回应新AI搜索失误丨AI情报局
2240
【AIGC】内容创作——AI文字、图像、音频和视频的创作流程
1K0
【AGI-Eval行业动态】OpenAI 语音模型三连发,AI 语音进入“声优”时代
2430
惊掉下巴:GPT-4o现场爆改代码看图导航!OpenAI曝光LLM路线图,GPT Next年底发
1510
1000+AI智能体复活,OpenAI版元宇宙上线? ChatGPT+VR百分百还原「西部世界」
3780
OpenAI颠覆世界:GPT-4o免费发布,实时语音视频交互引领科幻时代
970
深度学习(五):语音处理领域的创新引擎(5/10)
2620
千元以内,DIY 一个 AI 大语言模型对话玩具
2.2K2
.NET 的文本转语音合成
2.1K0
OpenAI工程师亲自修订:用ChatGPT实时语音API构建应用
2650
[官方]你好 GPT-4o [译]
2080
免费GPT-4o来袭,音频视觉文本实现「大一统」
2550
相关推荐
超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!人格化语音时代来了
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档