读书节公开课丨王泉：入门声纹技术之音频基础与声纹识别

博文视点Broadview

发布于 2023-05-19 19:45:42

9380

文章被收录于专栏：博文视点Broadview博文视点Broadview

博文视点程序员读书节活动进行中，持续关注每日推送更多精彩活动享不停。

◆

广义上讲，所有可以区分每个人不同声音的特征，都可以称为「声纹」。由于这些特征的存在，声纹和指纹一样，衍生出各种实用的技术。

声纹技术中最为核心的一项便是声纹识别技术。和指纹识别、人脸识别一样，声纹识别也是生物特征识别技术的一种，该技术利用算法和神经网络模型，让机器能够从音频信号中识别出不同人说话的声音。除了声纹识别之外，声纹技术也被广泛用于声纹分割聚类, 以及构建更为强大的语音识别、语音合成以及人声分离系统。

为了帮助大家更好的了解声纹技术，我们邀请到《声纹技术：从核心算法到工程实践》作者、谷歌资深软件工程师、声纹识别与语言识别团队负责人王泉老师带来技术分享【音频基础与声纹识别】，明日（10月19日）20:00锁定博文视点直播间！

入门声纹技术第一讲

音频基础与声纹识别

10月19日（周一）20:00

▲扫码进入直播群▲

分享概要

本期分享着重介绍声纹识别技术以及相关的音频基础知识。

我们首先回顾声纹技术的整个发展历程，从「声纹」一词第一次被发明，到最早的实用系统，再到已经普及我们每个人身边的相关产品。考虑到一些听众可能没有语音背景，我们会对听觉感知和音频处理方面的基本概念和方法做一些简单的介绍。我们重点介绍声纹领域最核心的应用——声纹识别，并详细阐述深度学习时代最前沿的声纹识别模型，包括各种推理逻辑和损失函数的设计思路，以及数据处理方面的相关话题。

嘉宾简介

王泉

美国谷歌公司资深软件工程师、声纹识别与语言识别团队负责人，《声纹技术：从核心算法到工程实践》一书作者。在谷歌任职期间，作者带领其团队将先进的声纹技术部署到了大量产品中，使得谷歌智能音箱成为市面上第一款支持多用户模式的同类产品。此外，作者在声纹识别、声纹分割聚类、人声分离、语音检测、语言识别以及语音合成等诸多领域拥有大量专利，发表过多篇重量级论文。机器之心此前有多篇报道所涉及的工作都来自其团队及合作者。

图书推荐

《声纹技术：从核心算法到工程实践》一书是谷歌公司声纹识别与语言识别团队负责人王泉老师在声纹领域深耕多年后，为国内读者打造的一部技术宝典。