机动组声纹技术系列分享第2期
声纹识别技术是声纹技术中最为核心的一项,和指纹识别、人脸识别一样,声纹识别也是生物特征识别技术的一种,该技术利用算法和神经网络模型,让机器能够从音频信号中识别出不同人说话的声音。
在10月19日的分享中,谷歌声纹识别与语言识别团队负责人王泉老师着重介绍了声纹识别技术以及相关的音频基础知识,并详细阐述深度学习时代最前沿的声纹识别模型,包括各种推理逻辑和损失函数的设计思路,以及数据处理方面的相关话题。第一讲回顾:入门声纹技术(一):音频基础与声纹识别。
但是许多人误以为声纹技术等价于声纹识别,却不知道声纹技术还有着许多十分重要且有趣的其他应用。所以在「从算法到应用,入门声纹技术」系列分享的第二讲中,王泉老师将着重介绍声纹技术除声纹识别之外的其他应用,声纹分割聚类便是其中最具代表性的应用,也就是关于「谁在什么时间说了什么」这个问题的答案。
10月26日,第二期分享
声纹分割聚类与其他应用
分享主题:声纹分割聚类与其他应用
分享嘉宾:王泉,美国谷歌公司资深软件工程师、声纹识别与语言识别团队负责人,《声纹技术:从核心算法到工程实践》一书作者。在谷歌任职期间,作者带领其团队将先进的声纹技术部署到了大量产品中,使得谷歌智能音箱成为市面上第一款支持多用户模式的同类产品。此外,作者在声纹识别、声纹分割聚类、人声分离、语音检测、语言识别以及语音合成等诸多领域拥有大量专利,发表过多篇重量级论文。机器之心此前有多篇报道所涉及的工作都来自其团队及合作者。
分享概要:第二期分享先介绍经典的非监督式声纹分割聚类方法,包括K-均值聚类和谱聚类等,再介绍目前新兴的监督式声纹分割聚类方法。此外,我们还将介绍声纹技术如何完成个性化的语音识别、语音检测,如何实现声纹克隆和人声分离等「黑魔法」,以及如何被作为一种还原度测试。
直播时间:10月26日 20:00—21:00 直播环节:主题讲解+QA 直播赠书:我们将在直播过程中,从所有在直播间弹幕提问题的小伙伴中抽取10人,送出《声纹技术:从核心算法到工程实践》。本次直播中的赠书由博文视点提供。
加入机动组,一起看直播
「机动组」是机器之心发起的人工智能技术社区,将持续提供技术公开课、论文分享、热门主题解读等线上线下活动,并在社群中提供每日精选论文与教程、智能技术研究周报,同时「机动组」也将不定期组织人才服务、产业技术对接等活动,欢迎所有AI领域技术从业者加入。
添加机器之心小助手(syncedai5),备注「声纹」,加入本次直播群。
ps:如果小助手无法添加,请将「微信ID」发送邮件到dujiahao@jiqizhixn.com,我们将与你联系,邀你入群。
特别鸣谢
博文视点( Broadview )是电子工业出版社下属旗舰级子公司。在IT出版领域打磨多年,以敏锐眼光、独特视角密切关注技术发展趋势及变化,致力于将技术大师之优秀思想、一线专家之一流经验集结成书,为众多爱学习的小伙伴奉献精诚佳作,助力个人、团队成长。