前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >OpenAI Voice Engine:关于语音引擎小规模预览的经验教训

OpenAI Voice Engine:关于语音引擎小规模预览的经验教训

作者头像
AIGC新知
发布2024-10-08 18:40:46
840
发布2024-10-08 18:40:46
举报
文章被收录于专栏:AIGC新知

在人工智能技术不断突破的今天,OpenAI再次以其创新力引领行业。3月30日凌晨,该公司在其官方网站上首次向世界展示了其最新研发的自定义音频模型——Voice Engine,开启了声音复制和生成的新篇章。

Voice Engine:声音复制的新纪元

Voice Engine代表了OpenAI在音频技术领域的一次重大飞跃。这款模型通过深度学习算法,能够根据用户提供的一段简短参考声音,仅需15秒,便能创造出与原声极为相似的全新音频。

在声音的清晰度、连贯性、音色和自然度等关键维度上,Voice Engine均展现出超越市场上大多数产品的优秀性能。

Voice Engine的多样化应用

OpenAI不仅展示了Voice Engine在音频合成方面的卓越能力,还揭示了其在商业领域的广泛潜力。

该技术不仅能够为内容创作者、配音演员等专业人士提供便利,还能够为那些失去声音表达能力的人群带来希望。

Part.01

语音合成

通过自然、富有感情的声音为非读者和儿童提供阅读帮助,这些声音代表比预设声音更广泛的发言者。

Age of Learning 是一家致力于儿童学业成功的教育技术公司,一直在使用它来生成预先编写的画外音内容。他们还使用语音引擎和 GPT-4 创建实时、个性化的响应来与学生互动。借助这项技术,Age of Learning 能够为更广泛的受众创造更多内容。

Part.02

翻译视频和播客

HeyGen是一家AI视频合成平台,主要帮助企业开发商品展示的“数字人”。他们通过使用Voice Engine进行视频翻译,扩展至多国语言来扩大全球覆盖受众。

输入一段原参考语音,就能将其转化成中文语音或者日文语音。

Part.03

改善偏远地区的基本服务交付

Dimagi 正在为社区卫生工作者构建工具,以提供各种基本服务,例如为母乳喂养母亲提供咨询。为了帮助这些工人发展技能,Dimagi 使用语音引擎和 GPT-4 以每个工人的主要语言(包括斯瓦希里语)或更非正式的语言(例如在肯尼亚流行的代码混合语言)提供交互式反馈。

Part.04

帮助患有突发性或退化性言语疾病的患者恢复声音

Lifespan 的诺曼·普林斯神经科学研究所是一个非营利性卫生系统,是布朗大学医学院的主要教学附属机构,正在探索人工智能在临床环境中的应用。他们一直在试点一个项目,为患有语言障碍的肿瘤或神经病因的个人提供语音引擎。

由于语音引擎需要如此短的音频样本,法蒂玛·米尔扎 (Fatima Mirza)、罗海德·阿里 (Rohaid Ali) 和康斯坦蒂娜·斯沃科斯 (Konstantina Svokos) 医生利用为学校录制的视频中的音频,恢复了一名因血管性脑肿瘤而失去流利言语的年轻患者的声音项目。

安全构建语音引擎

生成类似于人们声音的言论存在严重风险。

需要原始发言者的明确和知情同意,不允许为个人用户创建自己的声音。合作伙伴还必须清楚地向观众透露,他们听到的声音是人工智能生成的。

实施了一套安全措施,包括添加水印以追踪语音引擎生成的任何音频的来源,以及主动监控其使用方式。

我们认为,任何合成语音技术的广泛部署都应该伴随着语音认证体验,以验证原始说话者是否有意将其语音添加到服务中,以及禁止语音列表,以检测并防止创建过于相似的语音到杰出人物。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-03-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC新知 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
人工智能与机器学习
提供全球领先的人脸识别、文字识别、图像识别、语音技术、NLP、人工智能服务平台等多项人工智能技术,共享 AI 领域应用场景和解决方案。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档