在人工智能技术不断突破的今天,OpenAI再次以其创新力引领行业。3月30日凌晨,该公司在其官方网站上首次向世界展示了其最新研发的自定义音频模型——Voice Engine,开启了声音复制和生成的新篇章。
Voice Engine:声音复制的新纪元
Voice Engine代表了OpenAI在音频技术领域的一次重大飞跃。这款模型通过深度学习算法,能够根据用户提供的一段简短参考声音,仅需15秒,便能创造出与原声极为相似的全新音频。
在声音的清晰度、连贯性、音色和自然度等关键维度上,Voice Engine均展现出超越市场上大多数产品的优秀性能。
Voice Engine的多样化应用
OpenAI不仅展示了Voice Engine在音频合成方面的卓越能力,还揭示了其在商业领域的广泛潜力。
该技术不仅能够为内容创作者、配音演员等专业人士提供便利,还能够为那些失去声音表达能力的人群带来希望。
Part.01
语音合成
通过自然、富有感情的声音为非读者和儿童提供阅读帮助,这些声音代表比预设声音更广泛的发言者。
Age of Learning 是一家致力于儿童学业成功的教育技术公司,一直在使用它来生成预先编写的画外音内容。他们还使用语音引擎和 GPT-4 创建实时、个性化的响应来与学生互动。借助这项技术,Age of Learning 能够为更广泛的受众创造更多内容。
Part.02
翻译视频和播客
HeyGen是一家AI视频合成平台,主要帮助企业开发商品展示的“数字人”。他们通过使用Voice Engine进行视频翻译,扩展至多国语言来扩大全球覆盖受众。
输入一段原参考语音,就能将其转化成中文语音或者日文语音。
Part.03
改善偏远地区的基本服务交付
Dimagi 正在为社区卫生工作者构建工具,以提供各种基本服务,例如为母乳喂养母亲提供咨询。为了帮助这些工人发展技能,Dimagi 使用语音引擎和 GPT-4 以每个工人的主要语言(包括斯瓦希里语)或更非正式的语言(例如在肯尼亚流行的代码混合语言)提供交互式反馈。
Part.04
帮助患有突发性或退化性言语疾病的患者恢复声音
Lifespan 的诺曼·普林斯神经科学研究所是一个非营利性卫生系统,是布朗大学医学院的主要教学附属机构,正在探索人工智能在临床环境中的应用。他们一直在试点一个项目,为患有语言障碍的肿瘤或神经病因的个人提供语音引擎。
由于语音引擎需要如此短的音频样本,法蒂玛·米尔扎 (Fatima Mirza)、罗海德·阿里 (Rohaid Ali) 和康斯坦蒂娜·斯沃科斯 (Konstantina Svokos) 医生利用为学校录制的视频中的音频,恢复了一名因血管性脑肿瘤而失去流利言语的年轻患者的声音项目。
安全构建语音引擎
生成类似于人们声音的言论存在严重风险。
需要原始发言者的明确和知情同意,不允许为个人用户创建自己的声音。合作伙伴还必须清楚地向观众透露,他们听到的声音是人工智能生成的。
实施了一套安全措施,包括添加水印以追踪语音引擎生成的任何音频的来源,以及主动监控其使用方式。
我们认为,任何合成语音技术的广泛部署都应该伴随着语音认证体验,以验证原始说话者是否有意将其语音添加到服务中,以及禁止语音列表,以检测并防止创建过于相似的语音到杰出人物。