声纹识别技术是声纹技术中最为核心的一项,和指纹识别、人脸识别一样,声纹识别也是生物特征识别技术的一种,该技术利用算法和神经网络模型,让机器能够从音频信号中识别出不同人说话的声音。
在10月19日的分享中,谷歌声纹识别与语言识别团队负责人王泉老师着重介绍了声纹识别技术以及相关的音频基础知识,并详细阐述深度学习时代最前沿的声纹识别模型,包括各种推理逻辑和损失函数的设计思路,以及数据处理方面的相关话题。
但是许多人误以为声纹技术等价于声纹识别,却不知道声纹技术还有着许多十分重要且有趣的其他应用。所以在「从算法到应用,入门声纹技术」系列分享的第二讲中,王泉老师将着重介绍声纹技术除声纹识别之外的其他应用,声纹分割聚类便是其中最具代表性的应用,也就是关于「谁在什么时间说了什么」这个问题的答案。
今晚八点,王泉老师将继续带入门声纹技术分享【声纹分割聚类与其他应用】,马上进入直播交流群获取详情!
入门声纹技术 第二讲
声纹分割聚类与其他应用
10月26日(今日) 20:00
▲ 扫码进群,获取直播链接 ▲
分享要点
本次分享先介绍经典的非监督式声纹分割聚类方法,包括K-均值聚类和谱聚类等,再介绍目前新兴的监督式声纹分割聚类方法。此外,我们还将介绍声纹技术如何完成个性化的语音识别、语音检测,如何实现声纹克隆和人声分离等「黑魔法」,以及如何被作为一种还原度测试。
嘉宾简介
王泉
美国谷歌公司资深软件工程师、声纹识别与语言识别团队负责人,《声纹技术:从核心算法到工程实践》一书作者。在谷歌任职期间,作者带领其团队将先进的声纹技术部署到了大量产品中,使得谷歌智能音箱成为市面上第一款支持多用户模式的同类产品。此外,作者在声纹识别、声纹分割聚类、人声分离、语音检测、语言识别以及语音合成等诸多领域拥有大量专利,发表过多篇重量级论文。机器之心此前有多篇报道所涉及的工作都来自其团队及合作者。
▼立刻扫码进群,获取直播详情▼
图书推荐
《声纹技术:从核心算法到工程实践》一书是谷歌公司声纹识别与语言识别团队负责人王泉老师在声纹领域深耕多年后,为国内读者打造的一部技术宝典。
本书从20 世纪 60 年代的早期技术讲起,回顾了声纹技术数十年发展历程中最具代表性的方法,并重点介绍了深度学习时代的声纹技术及其广泛应用,其中包含了大量发表于2019和2020年的前沿研究成果。
此外,作者根据其多年的工程经验积累,开创性地在本书中加入了专门探讨声纹技术工程部署的章节,详细阐述了声纹技术在工程部署中常会遇到的各种问题,以及各种解决方案的优劣。为进一步结合实践,还配备了大量编程案例以及思考练习题。
▼扫码获取本书详情▼
如果喜欢本文
欢迎 在看丨留言丨分享至朋友圈 三连
热文推荐
本文分享自 博文视点Broadview 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!