Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >专访微软研究院俞栋:基于深度学习的语音识别及CNTK的演进

专访微软研究院俞栋:基于深度学习的语音识别及CNTK的演进

作者头像
用户1737318
发布于 2018-06-06 05:22:00
发布于 2018-06-06 05:22:00
5970
举报
文章被收录于专栏:人工智能头条人工智能头条

作为人工智能领域的一个重要方向,语音识别近年来在深度学习(Deep Learning)的推动下取得了重大的突破,为人机语音交互应用的开发奠定了技术基础。语音识别技术演进及实现方法、效果,既是语音识别从业者需要系统掌握的知识,也是智能化应用开发者应当了解的内容。日前,微软研究院首席研究员、《解析深度学习-语音识别实践》第一作者俞栋接受CSDN专访,深入解析了基于深度学习的语音识别的最新技术方向,和微软团队的实践心得,并对微软开源的深度学习工具CNTK的迭代思路做了介绍。

俞栋介绍了deep CNN、LFMMI、深度聚类、PIT和RNN生成模型等最新的用于语音识别的深度学习模型,以及《解析深度学习-语音识别实践》中提到的迁移学习、计算型网络(CN)等技术。他表示,更困难环境下的识别(如远场、高噪音、或带口音的语音识别)会是下一个需要解决的问题,目前他的团队就专注于研发对各种场景都具有更强识别能力的模型,如deep CNN以及能提升远场识别率的模型(如PIT)。

作为研究人员,俞栋同样注重工程方面的实用性。问题的重要性、研究方向的潜力、解决方案的普适性和工程上的便利性,是他选择研究方向的四个重要考量因素。从工程的角度,他认为,计算型网络在语音识别中的应用,需要考虑训练的难易程度、模型的大小、以及运行时的速度、时延和能耗。这其实也是CNTK未来迭代的核心诉求。

此外,他表示,深度学习只是众多人工智能技术中的一种,主要擅长非线性特征提取和端到端的基于梯度的优化,无法单独用来解决许多实际问题,把多种技术有机地结合起来才是最佳方案。

俞栋,1998年加入微软公司,现任微软研究院首席研究员,兼任浙江大学兼职教授和中科大客座教授。语音识别和深度学习方向的资深专家,出版了两本专著,发表了160多篇论文,是60项专利的发明人及深度学习开源软件CNTK的发起人和主要作者之一。曾获2013年IEEE信号处理协会最佳论文奖。现担任IEEE语音语言处理专业委员会委员,曾担任IEEE/ACM音频、语音及语言处理汇刊、IEEE信号处理杂志等期刊的编委。

以下为采访实录:

语音识别的最新进展

CSDN:能否介绍当前语音识别领域最让您兴奋的一些进展,以及您目前所做的一些有趣的工作?

俞栋:自从2010年我们在大词汇量语音识别系统里成功引入深层神经网络后,语音识别研究和应用就进入了深度学习时代。最近这几年语音识别领域的发展速度大大超出了我们的预期,每年都有新的更有效的模型和方法被提出来。

在最近的这一年里,有几项工作让我觉得很有意思。

  • 第一项工作是包括IBM、微软、讯飞、上海交大等研究机构报告的深层卷积网络(deep CNN)在大词汇量语音识别中的成功应用。之前我们一般仅在底层使用卷积网络,在那样的框架下卷积网络大大增加工作量但识别上的性能优势并不明显,所以在书中我们没有花很大的篇幅介绍这方面的工作。但当我们应用类似于图像识别中所用的诸如VGG、GoogleNet、和ResNet那样的深层卷积网络时,识别率有了很大的提升,甚至超过了之前表现最佳的深层双向LSTM。由于时延(latency)的原因,双向LSTM不能用于实时系统,而深层卷积网络的时延比较小而且可控,所以可以用于实时语音识别系统中。
  • 第二项工作是约翰霍普金斯大学Dan Povey博士主导的lattice free MMI(LFMMI)。为了提高语音识别系统构建过程的鲁棒性,传统语音识别系统的构建需要经过很多步骤。最近几年里,许多研究人员都在尝试通过端到端(end-to-end)优化直接构建识别系统以省去其他步骤,最有影响力的工作是基于LSTM的Connectionist Temporal Classification(CTC)模型。Google和百度都报告说成功应用了该技术,但据我们所知,直接使用CTC需要大量的调参工作因而总的建模时间反而更长,否者效果很差。或者说这一方法在新任务上的可重复性较差。而LFMMI从传统的MMI序列训练方法发展而来,引入了CTC的一些概念,也可以实现端到端的训练,但构建过程更容易重复,鲁棒性更高。
  • 第三和第四项工作是对鸡尾酒会问题的解决方案。鸡尾酒会是语音识别里一个很难但很重要的问题。最近有两项工作使我们看到了解决这一问题的曙光。
    • 一项是MERL的John Hershey博士为主提出的深度聚类(Deep Clustering)方法。他们的方法通过把混合语音的每个time-frequency bin结合它的context映射到一个新的空间,使得在这一空间中属于同一说话人的bin距离较小因而可以聚类到一起。
    • 另一项是我们和Aalborg大学合作提出的具有置换不变性的训练方法(permutation invariant training,PIT)。PIT通过自动寻找分离出的信号和标注的语源之间的最佳匹配来优化语音分离这一目标。这两种方法各有千秋,我个人的观点是PIT更有潜力一些,最终解决问题的有可能是PIT的某种改进或这两种方法的某种组合。
  • 另外在基于RNN生成模型的识别方法(例如sequence-to-sequence模型)上最近也有一些进展,但总的来说,这一方面的研究还在初步阶段。

我最近在做三项工作:

  • 一项是deep CNN,我们差不多与其他几个研究组同时发现了deep CNN在大词汇量语音识别中的优越性能;
  • 一项是基于 PIT的语音分离,我是这项工作的主导者和主要贡献者;
  • 第三项是基于RNN生成模型的识别方法,我们有一些新的想法,但这项工作还在初级阶段。

深度学习与语音识别

CSDN:概括地说,除了特征提取,深度学习在语音识别领域主要还发挥哪些作用?

俞栋:深度学习目前最主要的作用仍然在特征提取上。即使deep CNN也可以看成是一个更复杂的特征提取器。但正如你可以想见的,深度学习的作用不仅仅是特征提取。比如我们两年前提出的prediction-adaptation-correction(PAC)模型可以把一些识别上的行为特征比如预测、自适应、和纠偏直接建在模型里。又比如,我们在书中提到的noise-aware和speaker-aware自适应方法可以通过网络结构直接实现自适应建模。再比如,PIT模型可以直接由深度学习模型分离语音,而基于CTC和RNN生成模型的识别方法更是直接由深度学习模型产生识别结果。

CSDN:您与邓力博士合著的《解析深度学习-语音识别实践》系统地介绍了基于DNN的语音识别技术,哪些人应该读这本书?他们会收获些什么?这本书适合入门吗?需要读者具备什么知识基础?

俞栋:对于正在或将来想从事语音识别研究或工程实践的学者、学生、和工程师,这本书都会对他们有所助益。而这也正是我们写这本书的初衷。在这本书里,我们试图描绘基于深度学习的语音识别技术的整个框架和主要技术。因为我本人一直奋斗在科研的第一线,所以在书中我们能够提供各种方法提出的基本思路、具体的数学推导、以及实现上的细节和经验。我们希望这本书可以成为大家的reference book。不同的读者可以在书中找到他们想要了解的东西。对于非语音识别领域的研究人员,这本书中提到的方法和思想对他们解决自己的问题也会有所帮助,因为这些都是通用的。

这本书同样适合入门。事实上北美和日本都有大学把本书作为本科或研究生语音处理课程的教材或参考书之一。要读懂这本书,读者只需要基本的微积分、概率论、和矩阵分析的知识。当然,学过机器学习会对里面提到的一些基本概念有更好的认识,而有传统语音识别系统的知识有助于理解识别系统的整个框架以及序列层面上的区分度训练(sequence-level discriminative training)。

CSDN:您介绍了很多提高鲁棒性的方法,有哪一种是您最喜欢的吗?

俞栋:从实用的角度看,基于辅助信息(auxiliary information)的方法例如noise-aware和speaker-aware模型、以及基于SVD和KLD regularization的自适应方法目前最简单有效。

CSDN:书中专门谈到了迁移学习,举了一些例子,如欧洲语言到中文普通话的成功迁移,那么哪些因素决定共享DNN隐层架构在当前语音识别领域的边界和局限?迁移学习在语音识别领域推广应用的挑战是什么?

俞栋:理论上来讲基于共享DNN隐层架构的多语言迁移学习没有本质上的局限,这是因为你总能找到某个层面,在这个层面上语音特征非常类似,即使是非常不同的语言,比如西语与中文。从工程实践的角度来讲,会有权衡。一般来讲,迁移学习想要实现两个目标,一个是快速学习新任务(在这里是新语言),一个是减少学习新任务所需的数据。所以如果一个新语言有足够的数据而运算工具不是问题,那么直接训练可能更好,这是因为一个已经收敛的模型比较难调整到新语言上,就好像一个成年人学新语言比幼儿会难一些。但是如果数据和运算工具有一个不足,那么基于共享DNN隐层架构的多语言迁移学习就会对你的最终系统有帮助。

值得指出的是,基于共享DNN隐层架构的迁移学习也可以用于唤醒词识别(hot-word detection)中以支持用户自选唤醒词。图像识别中也有类似的应用,比如,用ImageNet训练出来的分类器的隐层可以用于image captioning或其他图像分类任务。另外,我们这里提到的是特征层面的迁移,其他层面的迁移也有可能但会困难很多。

CSDN:书中还强调了计算型网络(CN)在新语音识别系统中的作用,考虑CN需要注意哪些问题?热门的LSTM RNN被高估了吗?

俞栋:从学术研究的角度来讲最重要的是分析模型各变量之间的关系,然后用计算型网络来实现这些关系。从工程的角度来讲,还要考虑训练的难易程度、模型的大小、以及运行时的速度、时延和能耗。

LSTM 在许多模型中仍然有重要的作用。不过我们发现一些其他模型在某些问题上可以和LSTM表现接近甚至超过它,比如前面提到的deep CNN在非特定人语音识别上能超过LSTM,而GRU和基于Rectified Linear Unit 的RNN在很多时序问题上和LSTM表现接近但更简单。

未来技术趋势

CSDN:语音识别的未来技术方向,其中哪些是您的团队所关注的?您如何确定一个技术研究的方向?

俞栋:我们认为更困难环境下的识别比如远场、高噪音、或带口音的语音识别会是下一个需要解决的问题,我们的研究也侧重在这些方面。我们目前专注于研发对各种场景都具有更强识别能力的模型比如 deep CNN 以及能提升远场识别率的模型比如PIT。我们也关注可能引发技术革新的其他新想法比如基于RNN生成模型的识别系统。

对于研究方向,我个人主要基于如下四个方面来决定:

  1. 问题的重要性。我们侧重解决重要的问题而不管问题本身是简单还是困难。
  2. 研究方向或方法的潜力而不仅仅是目前的表现。如果一个方法目前表现不够佳,但是具有很大的可扩展性和想象空间,那么我们会在这个方向上推进。
  3. 解决方案的普适性。我们更喜欢能解决一类问题或多个场景的方法而不是某个特定问题或场景的方法。
  4. 工程上的便利性。我们更喜欢简洁的方法,简洁的方法更便于工程实现和快速迭代。

CSDN:训练关键的发音特征并泛化,目前有什么样的进展?您认为技术成熟还需要什么条件?

俞栋:我们现在的所有模型都不对关键的发音特征做任何预设,模型参数完全是从数据中学出来的。

在机器学习中,有个著名的bias and variance dilemma。拟合能力弱的模型一般有较小的方差引起的错误率,比较不容易过拟合,但有较大的由偏差引起的错误率。而拟合能力强的模型则反之。由偏差引起的错误率不容易减小,但是由方差引起的错误率却可以通过增加训练数据来减小。深度学习模型其实就是拟合能力较强的一类模型,目前解决泛化能力(或由方差引起的错误率)的主要方法就是增加训练数据。

但是人可以用少得多的训练数据达到在不同场合下的较高的识别率,尤其是对未见场合的泛化能力人远远超过深度学习。我个人做过一些这方面的探索,比如让每个音素学习一个在多种环境下都适用的模板(或mask),但遗憾的是这些尝试并不成功。目前我们还没有发现具有这种强泛化能力的模型。要解决这个问题,机器学习算法必须能够自动识别各层次低维流型上不同sample的相同点和不同点,并知道对哪个问题用哪个层次上的特征。

CSDN:未来三五年的语音识别领域,是否还有一些非深度学习方法具有挖掘的潜力(或者可以和深度学习进行结合实现更好的效果)?

俞栋:其实目前的主流语音识别技术仍然集成了传统方法和深度学习方法。如果把深度学习定义为任何具有多级非线性处理的系统,那么任何含有深度学习模块的系统都是深度学习系统。但这并不表示深度学习就是全部。

从更广泛的范围来看,深度学习只是众多人工智能技术中的一种,它的主要长处还是在于非线性特征提取和端到端的基于梯度的优化。许多问题都不能仅仅使用深度学习技术来完成。比如AlphaGo 其实就是集成了深度学习、强化学习、和蒙特卡洛树搜索技术。我个人认为应该让每个技术做它擅长的事,把多种技术有机地结合起来会是解决很多实际问题的最佳方案。

新技术学习方法

CSDN:这本书的参考文献数量达到了450多份,包括很多论文,这可能得益于您的IEEE的工作,但目前各个大会/期刊收的论文非常多,能否介绍一些快速选择和研读论文的通用方法?

俞栋:你会发现,虽然论文很多,但主要的进展仍然是由几个主要的研究机构和个人推动的。如果你没有足够的时间,那么跟踪这些研究机构和个人会是一个比较有效的方法。如果你能与他们建立良好的关系,你甚至可以在他们的工作正式出版之前就了解他们的进展或得到文章的预印本。如果你还有时间,我建议你去参加相关的学术会议。学术会议是信息交流的场所,你可以了解到大家都在讨论什么问题和方法,推荐阅读哪一篇文章,注意哪一项工作。

当然,并不是每篇文章都值得仔细研读。我会阅读概要、简介、和总结以对一篇文章有个大致的了解,而只花更多时间在有新思想、新方法、新视角或者新结论的具有潜力的工作上。

CNTK加速模型训练速度

CSDN:您认为CNTK在语音识别算法开发中的优势如何体现?

俞栋:就我个人所知,许多新的语音识别模型都是基于CNTK开发的。我们一开始开发CNTK主要就是为语音识别的研究服务的。即使今天CNTK能方便地支持图像、视频、文本、以及其他信息的处理,它对于语音识别模型的支持仍然比较好。CNTK非常灵活,它支持各种主流模型,比如 DNN、CNN、LSTM,同时可以自定义各种新模型,比如PIT模型和PAC模型就都是完全由CNTK构建的。另外,因为CNTK也是我们产品线上的主要工具,所以我们开发了许多高效率高性能的并行算法。这些算法极大地提升了像语音识别这样需要大量训练数据的任务的训练速度。

CSDN:能否介绍CNTK的Python支持的进展?未来对于其他语言如Matlab、R、Java、Lua、Julia的支持是如何规划的?

俞栋:我们在已经发布的1.5和1.6版本中已经有对Python的支持。在将要发布的2.0版本中我们会提供更完善的支持,另外2.0版的API也会更完整、更灵活。在新的API框架下,加入对其他语言的支持会变得很容易。

CSDN:CNTK可扩展GPU的能力值得称道,但大规模部署GPU能耗同样不小,现在有不少FPGAASIC加速方案的尝试,CNTK会做类似扩展的考虑吗?

俞栋:事实上,感谢我们工程师的优化工作,我们目前的所有语音识别系统都可以在单CPU上实现实时识别。所以在serving端,GPU能耗还不是问题。 但我们预见到单CPU的瓶颈,所以在CNTK上也在部署低精度低能耗的CPU/GPU架构。当然,我们也有同事在做FPGA的工作。

CSDN:深度学习用于语音识别的形式往往是混合模型,您认为是否有必要考虑CNTK与非深度机器学习系统的整合,比如Yahoo!的Caffe-On-Spark

俞栋:在运行环境上的集成方面,黄学东博士(1993年被微软从卡内基梅隆大学聘请来主导语音识别项目)主导的Philly项目有做类似的工作。

CSDN:在未来半年CNTK会有哪些重要的更新?

俞栋:我们会有更好更灵活的API层,会提供更全面的Python支持,会进一步提升训练的效率,对稀疏矩阵会做更好的支持,会支持低精度计算。当然,更多种类的更复杂的计算节点(比如LFMMI)也会加入到工具中。

CSDN:除了CNTK,还有哪些深度学习开源技术是您喜欢的?

俞栋:TensorFlow、Torch、MxNet、Theano等都是不错的深度学习开源工具。每种工具都有自己的特点和长处。

《解析深度学习-语音识别实践》的另外一位作者邓力也已经同意接受CSDN的专访,文章将于近期发布,敬请期待。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2016-08-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人工智能头条 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
腾讯 AI Lab 副主任俞栋:过去两年基于深度学习的声学模型进展
本文摘取该论文主干部分进行编译介绍,希望为读者提供相关进展的概括性了解。
腾讯AI实验室
2018/01/15
6.8K14
腾讯 AI Lab 副主任俞栋:过去两年基于深度学习的声学模型进展
[深度学习概念]·主流声学模型对比
语音识别建模对语音识别来说是不可或缺的一部分,因为不同的建模技术通常意味着不同的识别性能,所以这是各个语音识别团队重点优化的方向。也正是因为如此,语音识别的模型也层出不穷,其中语言模型包括了N-gram、RNNLM等,在声学模型里面又涵盖了HMM、DNN、RNN等模型...
小宋是呢
2019/06/27
3.6K0
[深度学习概念]·主流声学模型对比
机器语音识别技术发展脉络概览 | 文末有彩蛋
通常我们说到语音识别技术的时候,指的是整个语音对话系统,如图所示,语音对话系统通常包括四个主要组成部分的一个或多个:语音识别系统将语音转化为文本、语义理解系统提取用户说话的语义信息、文字转语音系统将内容转化为语音、对话管理系统连接其他三个系统并完成与实际应用场景的沟通。所有这些部分对建立一个成功的语音对话系统都是很关键的。
用户7623498
2020/08/04
1K0
机器语音识别技术发展脉络概览 | 文末有彩蛋
专访 | 腾讯AI Lab西雅图实验室负责人俞栋:语音识别领域的现状与进展
机器之心原创 作者:邱陆陆 去年三月,语音识别和深度学习领域的著名专家俞栋宣布加入腾讯,担任腾讯成立不久的腾讯 AI Lab 副主任及西雅图实验室负责人。加入腾讯不久后,俞栋在机器之心主办的第一届全球机器智能峰会(GMIS 2017)上,发表了主题为《语音识别领域的前沿研究》的演讲,分享了语音领域的四个前沿方向,包括:更有效的序列到序列直接转换模型,鸡尾酒会问题,持续预测与适应的模型,以及前端与后端联合优化等。 如今一年过去了,这些问题的研究现状如何?是否得到了业界的肯定与应用?腾讯 AI Lab 的进
机器之心
2018/05/08
8390
CNN 在语音识别中的应用
本文介绍了语音识别技术中的端到端模型、基于CTC的序列模型、基于序列学习的注意力机制模型、基于3D卷积神经网络的语音识别系统等。其中,端到端模型可以直接从原始音频数据中学习到针对语音识别的抽象表示,具有较好的可扩展性和鲁棒性;而基于CTC的序列模型则通过连接主义学习的方法,将CTC定义的序列映射问题转化为神经网络中的参数优化问题,进一步提高了语音识别的准确率;基于序列学习的注意力机制模型则借鉴了语言学中的注意力机制,通过对输入序列进行加权处理,进一步提高了模型的识别准确率;基于3D卷积神经网络的语音识别系统则利用3D卷积核对输入序列进行卷积处理,提取出序列中的特征信息,进一步提高了模型的识别准确率。
serena
2017/10/20
9.2K3
CNN 在语音识别中的应用
GMIS 2017 | 腾讯AI Lab副主任俞栋:语音识别研究的四大前沿方向
机器之心整理 演讲者:俞栋 5 月 27-28 日,机器之心在北京顺利主办了第一届全球机器智能峰会(GMIS 2017),来自美国、加拿大、欧洲,中国香港及国内的众多顶级专家分享了精彩的主题演讲。在这
机器之心
2018/05/08
1.2K0
GMIS 2017 | 腾讯AI Lab副主任俞栋:语音识别研究的四大前沿方向
腾讯AI Lab副主任俞栋在GMIS 2017大会上的演讲:语音识别领域的四项前沿研究
本文转载自机器之心 作者:黄小天 5 月 27 日,由机器之心主办、为期两天的全球机器智能峰会(GMIS 2017)在北京 898 创新空间顺利开幕。大会第一天重要嘉宾「LSTM 之父」Jürgen Schmidhuber、Citadel 首席人工智能官邓力、腾讯 AI Lab 副主任俞栋、英特尔 AIPG 数据科学部主任、GE Transportation Digital Solutions CTO Wesly Mukai 等知名人工智能专家参与峰会,并在主题演讲、圆桌论坛等互动形式下,从科学家、企业家、
腾讯技术工程官方号
2018/01/30
8470
腾讯AI Lab副主任俞栋在GMIS 2017大会上的演讲:语音识别领域的四项前沿研究
独家 | 一文读懂语音识别(附学习资源)
一、前言 6月27日,美国权威科技杂志《MIT科技评论》公布2017全球最聪明50家公司榜单。科大讯飞名列中国第一、全球第六。全世界排在科大讯飞前面企业分别是:英伟达、Spacex、亚马逊、23andme、Alphabet。 《MIT科技评论》认为,“科大讯飞旗下的语音助手是中国版的Siri,其可携带实时翻译器则是一款杰出的人工智能应用,克服了方言、俚语和背景杂音,可将汉语精准地翻译成十几种语言。科大讯飞在中国语音技术市场的占有率70%。”越来越多的人认为,语音识别将成为下一代交互革命的关键技术。 与此
数据派THU
2018/01/30
2.6K0
独家 | 一文读懂语音识别(附学习资源)
从不温不火到炙手可热:语音识别技术简史
【导读】语音识别自半个世纪前诞生以来,一直处于不温不火的状态,直到 2009 年深度学习技术的长足发展才使得语音识别的精度大大提高,虽然还无法进行无限制领域、无限制人群的应用,但也在大多数场景中提供了一种便利高效的沟通方式。本篇文章将从技术和产业两个角度来回顾一下语音识别发展的历程和现状,并分析一些未来趋势,希望能帮助更多年轻技术人员了解语音行业,并能产生兴趣投身于这个行业。
AI科技大本营
2019/08/23
1.7K0
从不温不火到炙手可热:语音识别技术简史
语音识别现状与工程师必备技能
作者 | 陈孝良 责编 | 胡永波 目前来看,语音识别的精度和速度比较取决于实际应用环境,在安静环境、标准口音、常见词汇上的语音识别率已经超过95%,完全达到了可用状态,这也是当前语音识别比较火热的原因。 随着技术的发展,现在口音、方言、噪声等场景下的语音识别也达到了可用状态,但是对于强噪声、超远场、强干扰、多语种、大词汇等场景下的语音识别还需要很大的提升。当然,多人语音识别和离线语音识别也是当前需要重点解决的问题。 学术界探讨了很多语音识别的技术趋势,有两个思路是非常值得关注的,一个是就是端到端的语音识别
用户1737318
2018/06/05
2K0
语音识别技术的发展与未来趋势:深度学习、端到端建模与多模态融合
语音识别(Speech Recognition)技术是指将口述或语音信号转化为文本或命令的自动化过程。随着深度学习技术的快速发展,语音识别取得了长足的进步,成为人机交互、智能助理和语音控制等领域的核心技术之一。本文将详细介绍语音识别技术的发展历程,重点介绍了深度学习、端到端建模以及多模态融合等技术在语音识别领域的应用,并展望了未来的发展趋势。
网络技术联盟站
2023/07/04
1.1K0
语音识别技术的发展与未来趋势:深度学习、端到端建模与多模态融合
深度学习(五):语音处理领域的创新引擎(5/10)
在语音处理领域,传统方法如谱减法、维纳滤波等在处理复杂语音信号时存在诸多局限性。这些方法通常假设噪声是平稳的,但实际噪声往往是非平稳的,导致噪声估计不准确。同时,为了去除噪声,传统方法不可避免地会对语音信号造成一定程度的失真,影响语音的自然性,且面对复杂多变的噪声环境,传统方法的适应性和鲁棒性有限。
正在走向自律
2024/12/18
2680
深度学习(五):语音处理领域的创新引擎(5/10)
智能音箱大战全面开火,那么问题来了:如何成为一名全栈语音识别工程师?
文 / 陈孝良 11月16号,百度发布了渡鸦智能音箱和DuerOS开发板SoundPi,至此,国内再一名巨头加入智能音箱大战。迄今为止,国内战场上的巨头有阿里、京东、腾讯、百度、小米、科大讯飞等,国外则有苹果、微软、亚马逊、谷歌、脸书、三星等,这些巨头占据了全球市值的排名榜,同时发力争夺未来人工智能时代的语音入口,甚至亚马逊和阿里率先不惜代价开启了补贴大战。这些全球巨头的激烈竞争,将对未来十年产生极其重要的影响,同时,这更是新一波的职业快速发展机会。 语音智能当前的核心关键是声学问题和语义理解,随着市
AI科技大本营
2018/04/27
1.1K0
智能音箱大战全面开火,那么问题来了:如何成为一名全栈语音识别工程师?
独家 | 一文读懂深度学习(附学习资源)
Figure1. Deep learning导图 前言 深度学习(deep learning)的概念最早可以追溯到1940-1960年间的控制论(cybernetics),之后在1980-1990年间发展为连接主义(connectionism),第三次发展浪潮便是2006年由人工神经网络(Artificial neural network)扩展开来并发展成为今天十分火热的深度学习(Figure 2)。实际上,深度学习的兴起和发展是非常自然的,人们在应用经典的机器学习方法时,需要对具体的问题或者数据相
数据派THU
2018/01/30
2K0
独家 | 一文读懂深度学习(附学习资源)
【AIDL专栏】陶建华:深度神经网络与语音(附PPT)
“人工智能前沿讲习班”(AIDL)由中国人工智能学会主办,旨在短时间内集中学习某一领域的基础理论、最新进展和落地方向,并促进产、学、研相关从业人员的相互交流。对于硕士、博士、青年教师、企事业单位相关从业者、预期转行AI领域的爱好者均具有重要的意义。2018年AIDL活动正在筹备,敬请关注公众号获取最新消息。
马上科普尚尚
2020/05/14
1.4K0
【AIDL专栏】陶建华:深度神经网络与语音(附PPT)
GMM-HMM模型 vs. DNN-HMM模型 vs. DNN-CTC模型 | 语言模型之战 | 老炮儿聊机器语音 | 4th
随着语音识别技术越来越热,声学模型的训练方法也越来越多,各种组合和变化也是层出不穷,而随着深度学习的兴起,使用了接近30年的语音识别声学模型HMM(隐马尔科夫模型)逐渐被DNN(深度神经网络)所替代,模型精度也有了突飞猛进的变化,其中声学模型模型结构经历了从经典的GMM-HMM,到DNN-HMM,再到DNN+CTC的转变,本文列出了其中的常见模型,权当是一篇导读性质的文章,供大家学习时参考。
用户7623498
2020/08/04
2.1K0
GMM-HMM模型 vs. DNN-HMM模型 vs. DNN-CTC模型 | 语言模型之战 | 老炮儿聊机器语音 | 4th
语音识别全面进入CNN时代:会读“语谱图”的全新语音识别框架
近年来,人工智能和人类生活越来越息息相关,人们一直憧憬身边可以出现一个真正的贾维斯,希望有一天计算机真的可以像人一样能听会说,能理解会思考。而实现这一目标的重要前提是计算机能够准确无误的听懂人类的话语,也就是说高度准确的语音识别系统是必不可少的。 作为国内智能语音与人工智能产业的领导者,科大讯飞公司一直引领中文语音识别技术不断进步。去年12月21日,在北京国家会议中心召开的以“AI复始,万物更新”为主题的年度发布会上,科大讯飞提出了以前馈型序列记忆网络(FSMN, Feed-forward Sequenti
新智元
2018/03/14
3.6K0
语音识别全面进入CNN时代:会读“语谱图”的全新语音识别框架
深度学习在语音识别方面的应用
语音识别是一项非常重要的技术,它可以将人类的语音转化为计算机可以理解的形式。深度学习是一种非常强大的机器学习技术,它在语音识别方面也有广泛的应用。本文将详细介绍深度学习在语音识别方面的应用。
网络技术联盟站
2023/05/12
6200
深度学习在语音识别方面的应用
深度学习的进展
深度学习是人工智能领域的一个重要分支,它利用神经网络模拟人类大脑的学习过程,通过大量数据训练模型,使其能够自动提取特征、识别模式、进行分类和预测等任务。近年来,深度学习在多个领域取得了显著的进展,尤其在自然语言处理、计算机视觉、语音识别和机器翻译等领域取得了突破性的进展。随着算法和模型的改进、计算能力的提升以及数据量的增长,深度学习的应用范围不断扩大,对各行各业产生了深远的影响。
用户10781703
2024/02/19
2430
腾讯任命俞栋为AI Lab副主任,主管西雅图实验室
2017年5月2日,腾讯宣布任命语音识别技术顶级专家俞栋博士为AI Lab(人工智能实验室)副主任,并成立美国西雅图AI实验室。 俞栋博士将负责西雅图AI实验室的运营及管理,推动腾讯在语音识别及自然语言理解等AI领域的基础研究。 这是近段时间以来,腾讯在人工智能领域的第三个大动作。 一个多月前的3月19日,由腾讯AI Lab研发的围棋AI绝艺,在日本UEC杯围棋大赛中夺得冠军。这是低调运行近一年后,腾讯AI Lab首次对外展示研究成果。 就在绝艺夺冠后不久,3月23日,腾讯宣布任命人工智能领域顶尖
腾讯技术工程官方号
2018/01/30
8790
腾讯任命俞栋为AI Lab副主任,主管西雅图实验室
推荐阅读
相关推荐
腾讯 AI Lab 副主任俞栋:过去两年基于深度学习的声学模型进展
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档