Loading [MathJax]/jax/output/CommonHTML/config.js

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 > 如何使用人工智能合成人声？

问如何使用人工智能合成人声？

提问于 2018-06-28 16:20:32

回答 8关注 1查看 2.9K

人工智能语音技术逐渐在人类生活中普及，AI技术得到越来越多人的关注。那么如何使用人工智能合成人声？

即时通信IM，全球通信，1折起

即时通信IM基础功能包/审核包/推送服务Push 首购1折起，新老同享7折起

回答 8

Aimeesu

发布于 2018-06-29 06:43:19

第一个是语音库的制作过程，第二个是使用语音库将文本变成音频的过程。

语音库的制作首先需要收集对方的需求，确定音色、风格、使用领域、产品特性、角色要求；然后找到配音员试音，根据需求设计试音文本，收集录音，通过实验分析确定发音人是否合适做音库；然后确认实验效果是否能接受；最后投入音库生产线，录音脚本设计、录音资源训练、效果优化。

朝夕熊博客

发布于 2018-06-29 06:51:59

理论上只要能从文本上分析出情感，就可以实现，但目前还没有解决，顶多可以由人工实现标注出情感标签来实现。语音合成擅长产出风格一致的语音（同一发音人），而缺少变化。正因如此，李易老师、任志宏老师、李立宏老师这些具备个人特色但又极其规范的发音方式，最容易获得跟其本人发音接近的合成效果，而表现力丰富的情况则不易。想象着一部动画片全部由TTS自动配音，是根本无法看的，也就看个故事，无法做到身临其境。

微雨微语

发布于 2018-06-29 07:09:46

说白了是数据生成。可以根据文本生成语音，也可以根据语音生成语音，本质上，跟用一张图像生成另外一张图像（如生成表情，卡通生成真实图像，真实图像生成卡通等等）没有重大区别。

定义一个ground true，让生成的数据跟这个比较，使其最接近。反正所有的机器学习原理都是这个。

和开发者交流更多问题细节吧，去写回答

相关文章

让你的声音动起来，人声驱动合成逼真的视频人像

github git 开源

标题：Photorealistic Audio-driven Video Portraits

好好学SLAM

2021/05/28

2.4K0

谷歌AI黑科技曝光：合成语音与真人声音难以区分

【腾讯科技编者按】据国外媒体报道称，如果按照最新的标准来看，人类似乎已经将自己的“声带”正式献给了人工智能。这可并不是笔者在这儿危言耸听，而是谷歌本月开创性地推出了一款名为“Tacotron 2”的全新文字转语音系统，它具有惊人的发音准确性，且实际文本阅读效果几乎同真人声音无法区分。消息称，“Tacotron 2”其实已经是谷歌的第二代类似技术，它由两个深度神经网络组成。其中一个负责将文本转换为可视化的图谱（通常是PDF格式），然后再将这个生成的这个可视化图谱载入第二个深度神经网络WaveNet（这

企鹅号小编

2018/01/19

1.4K0

谷歌AI黑科技曝光：合成语音与真人声音难以区分

怎么看语音合成平台语音合成平台如何使用

语音合成费用中心云服务器

如果专门请人来进行语音播报，将会浪费很多的时间和成本。而语音合成这项技术就解决了这个问题了，它能够提供和真人相似的语音，在成本上大大降低了。但要怎么看语音合成平台呢？

用户8715145

2021/10/29

2.9K0

使用 Spleeter 对音频消除人声提取伴奏

tensorflow linux python https

有时我们需要对音频进行消除人声（原声）处理，在质量要求不太高的情况下通常会选择使用后期软件来完成。这类软件市面上也非常多，像 GoldWave Audacity 等都内置了消除人声的功能。因为人声在左右声道的波形是完全相同的，并且频率通常处在特定区间内，这使得人声能够较为容易的从背景伴奏中分离去除。

reizhi

2022/09/26

1.7K0

使用 Spleeter 对音频消除人声提取伴奏

人工智能如何改变视频游戏产业：增强和合成媒体

游戏图像处理 go

借助《堡垒之夜》，开发商Epic Games不仅创造了一款国际知名的游戏，还建立了一个新的虚拟社交空间。索尼推出了PlayStation VR，这是首个面向大众市场游戏机，让我们能够在舒适的客厅中体验高清虚拟现实。在过去的二十年中，有无数的游戏行业革命性变化的例子。它们这些都指向相同的结论：随着技术的发展和发展，游戏行业也随之发展。游戏领域的下一个重大变革将来自我们这个时代最具革命性的技术之一：人工智能。本文将解释AI是如何改变视频游戏行业，以及它将如何在未来几年内强烈影响这个行业。

deephub

2020/05/09

1.5K0

人工智能如何改变视频游戏产业：增强和合成媒体

神器！人工智能分离歌曲中的人声和背景音乐

https 网络安全网站腾讯云开发者社区

之前分享过将视频转GIF如何将视频轻松转换为 GIF 和文字转语音如何轻松的将文字转语音，今天分享几个神器，可以分离音频中的人声和背景音乐。

苏生不惑

2020/09/10

6.7K0

使用Python进行面部合成，合成结果请忽略！

python https 网络安全 json

return_landmarkInt是否检测并返回人脸关键点。合法值为：2 检测。返回 106 个人脸关键点。1检测。返回 83 个人脸关键点。0不检测注：本参数默认值为 0 2 检测。返回 106 个人脸关键点。 1检测。返回 83 个人脸关键点。 0不检测

一墨编程学习

2019/04/18

1.1K0

谷歌再出黑科技！人工智能模拟的人声和真人几乎难以分辨

人工智能机器学习

谷歌再出黑科技用人工智能模拟出来的声音几乎可以和真人以假乱真在我们的印象中，机器的声音都是冰冷的电子音，虽然人类也一直致力于研究让机器“说人话”，但搞出来的成果似乎还是跟人类真实的声音差距很大，生硬、不自然一直是通病。在这方面，谷歌倒是一直不遗余力的在研究，所谓只要功夫深，铁杵磨成针。前段时间，他们终于宣布，让机器说人话这事儿，有进展了！！！谷歌最近发布了一个利用神经网络合成语音的模型，它可能会让电脑发出的声音变得更有“人味儿”。根据dailymail报道，谷歌最近展示了一种新的语音系统

企鹅号小编

2018/01/15

3.9K0

谷歌再出黑科技！人工智能模拟的人声和真人几乎难以分辨

干货 | 2 分钟论文：如何使用数据合成烟雾流 ?

人工智能机器学习编程算法

来源 / Two Minute Papers 翻译 / 张丽敏校对 / 凡江整理 / 雷锋字幕组本期论文：基于CNN特征描述符的数据驱动合成烟雾流体 Data-Driven Synthesis of Smoke Flows with CNN-based Feature Descriptors ▷ 观看论文解读或许，你还记得以前Wavelet Turbulence的论文，也是我迄今为止最喜欢的一篇。在我大二的时候，第一次看到这个的我，完全被这完美的效果震惊了，这项经历让我至今难以忘怀。该项技术还获得了

AI科技评论

2018/03/14

9680

干货 | 2 分钟论文：如何使用数据合成烟雾流 ?

这家AI创业公司说，听完1分钟音频就能合成出你的声音

安妮编译整理量子位出品 | 公众号 QbitAI 如果以后智能家居产品用Angelababy的声音叫你起床，电子词典用川普的声音教你学英语，你可千万不要太惊异。目前，人工智能技术已经将语音变得可以像像素一样可复制和扩展了。这个语音合成领域的大突破还得从Lyrebird说起。昨天，一家名为Lyrebird的加拿大AI初创公司推出了它第一款产品，他们宣布，这个产品拥有的算法可以通过倾听一分钟的音频样本记住发音人的声色，并模仿他的声音合成各种语句。我们先来听听Lyrebird的产品合成的特朗普、奥巴马和

量子位

2018/03/30

1.8K0

如何用图片合成视频

如今视频在我们的生活中，随处可见，随手可得。如果你想把一些照片，合成视频，可以使用专业的视频剪辑软件，比如：剪映，另外也可以通过编写程序的方式来完成。这种方式处理起来更加的高效。接下来，我将使用代码的方式，实现图片合成视频。

TalkPython

2022/11/21

2.3K0

人工智能AI库Spleeter免费人声和背景音乐分离实践(Python3.10)

人工智能 python3 程序模型实践

Spleeter的模型源来自最大的音乐网站Deezer，底层基于深度学习框架Tensorflow，它可以通过模型识别出素材中的背景音乐素材，从而判断出哪些是背景音乐，哪些是外部人声。

用户9127725

2023/04/27

1.8K0

使用PaddlePaddle轻松实现语音合成

语音合成 android flask 神经网络深度学习

使用PaddlePaddle轻松实现语音合成，提供了简单的示例代码，GUI界面操作，还有Flask的Web接口，可以给Android调用。

夜雨飘零

2022/09/07

1.3K0

使用PaddlePaddle轻松实现语音合成

使用nemo训练语音合成模型

训练好的模型会保存在./nemo_experiments/Tacotron2/训练时间/checkpoints/Tacotron2.nemo文件中。

zzyh

2022/06/03

1.3K0

哎，记者、设计师、作曲家……你们的饭碗还稳吗？

企鹅号小编

2017/12/28

9400

哎，记者、设计师、作曲家……你们的饭碗还稳吗？

学习|Android使用TTS语音合成

android 编程算法 kotlin 语音合成

所谓活到老，学到老，本篇开始我写的Android代码尽量都转为Android指定的官方语言Kotlin，一是技多不压身，二是Kotlin的语法与我接触的第一门开发语言Delphi有点像，学起来也不太难，所以直接在代码中开始使用才能掌握的更快。

Vaccae

2019/12/11

4.3K0

2019深度学习语音合成指南（上）

语音合成 https 网络安全神经网络

人工生成的人类语音被称为语音合成。这种基于机器学习的技术适用于文本到语音转换、音乐生成、语音生成、启用语音的设备、导航系统以及视障人士的可访问性。

AiTechYun

2019/12/23

9030

2019深度学习语音合成指南（上）

如何在EasyDSS中使用ffmpeg实现点播视频的拼接与合成？

云点播 api 云直播移动直播

EasyDSS视频直播点播平台能支持多屏播放，能实现视频流媒体的上传、转码、存储、录像、推流、拉流、直播、点播等功能，可兼容Windows、Android、iOS、Mac等操作系统，还能支持CDN转推，具备较强的可拓展性与灵活性。为了便于用户自由调用与二次开发，我们也提供了丰富的API接口供用户使用，有需要的用户可以查阅官方API文档。此外，我们也会根据具体的项目及用户需求，对EasyDSS进行定制化开发。

TSINGSEE青犀视频

2022/08/08

6920

2019深度学习语音合成指南

还记得我们前几天发出文章《百度超谷歌跃升全球第二，硬核语音技术成抢夺智能音箱“C位”的王牌》吗？本篇文章我们将讲述 2019年深度学习语音合成的一些进展，其中有多篇工作来自百度研究院或百度硅谷人工智能研究院。

AI科技评论

2019/09/04

1.3K0

谷歌正在研究能够让计算机合成语音更加自然的技术 | 黑科技

人工智能神经网络

研究通过将人类语音片段嵌入计算机语音风格，来获得重音等效果。 3月28日，据国外媒体报道，谷歌研究院正在探索让机器合成语音更加自然的方法。谷歌大脑和机器感知团队的成员本周二在博客中公布了一些能让语音更具有表现力的方法示例。同时，谷歌发布了“云端文本转语音”服务的测试版，提供了与谷歌助手同样的语音合成服务。该服务采用了DeepMind的WaveNet技术，这个技术可以被用于生成非常自然的声音。有报道显示，谷歌研究员近期发表了两篇论文，提出了新的发音方法，介绍了如何模仿语音中的重音或语调。这两篇论文的技术都

镁客网

2018/05/29

4880

相似问题

人工智能时代，教育如何做人工智能的“弄潮儿”？

1407

监护人声明应该怎么写？

3763

TTS语音合成产品,如何使用粤语发声？

2442

人工智能：投资热、落地难，人工智能行业该怎么发展突破？

1375

离线语音合成sdk怎么使用？

0657

相关问答用户

请输入您想邀请的人

擅长4个领域

腾讯 | 技术专家擅长2个领域

萃橙科技 | 合伙人擅长4个领域

活动推荐

邀您试用DNSPod，实现在外也可访问群晖NAS

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例