程序员读书节重磅直播丨王泉：入门声纹技术之声纹分割聚类与其他应用

博文视点Broadview

发布于 2023-05-19 19:48:07

6280

声纹识别技术是声纹技术中最为核心的一项，和指纹识别、人脸识别一样，声纹识别也是生物特征识别技术的一种，该技术利用算法和神经网络模型，让机器能够从音频信号中识别出不同人说话的声音。

在10月19日的分享中，谷歌声纹识别与语言识别团队负责人王泉老师着重介绍了声纹识别技术以及相关的音频基础知识，并详细阐述深度学习时代最前沿的声纹识别模型，包括各种推理逻辑和损失函数的设计思路，以及数据处理方面的相关话题。

但是许多人误以为声纹技术等价于声纹识别，却不知道声纹技术还有着许多十分重要且有趣的其他应用。所以在「从算法到应用，入门声纹技术」系列分享的第二讲中，王泉老师将着重介绍声纹技术除声纹识别之外的其他应用，声纹分割聚类便是其中最具代表性的应用，也就是关于「谁在什么时间说了什么」这个问题的答案。

今晚八点，王泉老师将继续带入门声纹技术分享【声纹分割聚类与其他应用】，马上进入直播交流群获取详情！

入门声纹技术第二讲

声纹分割聚类与其他应用

10月26日（今日） 20:00

▲ 扫码进群，获取直播链接 ▲

分享要点

本次分享先介绍经典的非监督式声纹分割聚类方法，包括K-均值聚类和谱聚类等，再介绍目前新兴的监督式声纹分割聚类方法。此外，我们还将介绍声纹技术如何完成个性化的语音识别、语音检测，如何实现声纹克隆和人声分离等「黑魔法」，以及如何被作为一种还原度测试。

嘉宾简介

王泉

美国谷歌公司资深软件工程师、声纹识别与语言识别团队负责人，《声纹技术：从核心算法到工程实践》一书作者。在谷歌任职期间，作者带领其团队将先进的声纹技术部署到了大量产品中，使得谷歌智能音箱成为市面上第一款支持多用户模式的同类产品。此外，作者在声纹识别、声纹分割聚类、人声分离、语音检测、语言识别以及语音合成等诸多领域拥有大量专利，发表过多篇重量级论文。机器之心此前有多篇报道所涉及的工作都来自其团队及合作者。

▼立刻扫码进群，获取直播详情▼