首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

CNN 在语音识别中的应用

本文介绍了语音识别技术中的端到端模型、基于CTC的序列模型、基于序列学习的注意力机制模型、基于3D卷积神经网络的语音识别系统等。其中,端到端模型可以直接从原始音频数据中学习到针对语音识别的抽象表示,具有较好的可扩展性和鲁棒性;而基于CTC的序列模型则通过连接主义学习的方法,将CTC定义的序列映射问题转化为神经网络中的参数优化问题,进一步提高了语音识别的准确率;基于序列学习的注意力机制模型则借鉴了语言学中的注意力机制,通过对输入序列进行加权处理,进一步提高了模型的识别准确率;基于3D卷积神经网络的语音识别系统则利用3D卷积核对输入序列进行卷积处理,提取出序列中的特征信息,进一步提高了模型的识别准确率。

03
您找到你想要的搜索结果了吗?
是的
没有找到

浅谈深度学习在语音识别领域的应用

深度学习在语音识别领域取得的成绩是突破性的。2009年深度学习的概念被引入语音识别领域,并对该领域产生了巨大的影响。在短短几年时间内,深度学习的方法在TIMIT数据集上将基于传统的混合高斯模型(gaussian mixture model,GMM)的错误率从21.7%降低到了使用深度学习模型的17.9%。如此大的提高幅度很快引起了学术界和工业界的广泛关注。从2010年到2014年间,在语音识别领域的两大学术会议IEEE-ICASSP和Interspeech上,深度学习的文章呈现出逐年递增的趋势。在工业界,包括谷歌、苹果、微软、IBM、百度等在内的国内外大型IT公司提供的语音相关产品,比如谷歌的Google Now、苹果的Siri、微软的Xbox和Skype等,都是基于深度学习算法。

02

【专访微软黄学东】0.1%,0.2%与0.3%,语音识别军备竞赛中小数点差距有何意义

【新智元导读】 微软语音识别研究团队在黄学东的带领下,去年将语音识别的单词错误率降至5.9%,又在最近降至5.1%。在本次专访中,我们讨论了语音识别错误率百分之几的小数点在研究和实际应用上的意义。黄学东认为,从研究角度来说,这个意义十分重大,即便是0.1%的差距,无论是运算量还是时间,耗费都是巨大的。 达到人类水平,超越人类水平,人工智能研究领域的突破性进展。 以上赞誉被给予了微软最近的语音识别研究成果:其语音识别研究团队在黄学东的带领下,去年将语音识别的单词错误率降至5.9%,又在最近降至5.1%。 从研

07

【更正】微软人工智能首席科学家邓力:深度学习十年简史和人工智能未来展望(33PDF下载)

【新智元导读】微软人工智能首席科学家邓力18日在自动化学会与新智元携手举办的首届 AI WORLD 2016世界人工智能大会 发表主旨演讲《深度学习十年简史和人工智能未来展望》。邓力博士回顾了他与 Hinton 的合作及其产业影响,重点讲述语音识别如何随深度学习发展进入商用阶段,还介绍了微软近两年的人工智能进展,并对深度学习技术、应用和产业进行展望。演讲最后,邓力分享了他最新的思想和工作——将符号式逻辑推理和数值张量式神经网络结合到一起,有望解决深度学习黑箱问题,常识嵌入与充实问题,以及逻辑推理规则的自动

013

微软人工智能首席科学家邓力:深度学习十年简史和人工智能未来展望(33PDF下载)

【新智元导读】微软人工智能首席科学家邓力18日在首届世界人工智能大会 AI WORLD 2016 发表主旨演讲《深度学习十年简史和人工智能未来展望》。邓力博士回顾了他与 Hinton 的合作及其产业影响,重点讲述语音识别如何随深度学习发展进入商用阶段,还介绍了微软近两年的人工智能进展,并对深度学习技术、应用和产业进行展望。演讲最后,邓力分享了他最新的思想和工作——将符号式逻辑推理和数值张量式神经网络结合到一起,有望解决深度学习黑箱问题、常识嵌入与充实问题,以及逻辑推理规则的自动学习问题。 邓力:感谢大家!

07

Linux下利用python实现语音识别详细教程

语音识别源于 20 世纪 50 年代早期在贝尔实验室所做的研究。早期语音识别系统仅能识别单个讲话者以及只有约十几个单词的词汇量。现代语音识别系统已经取得了很大进步,可以识别多个讲话者,并且拥有识别多种语言的庞大词汇表。 语音识别的首要部分当然是语音。通过麦克风,语音便从物理声音被转换为电信号,然后通过模数转换器转换为数据。一旦被数字化,就可适用若干种模型,将音频转录为文本。 大多数现代语音识别系统都依赖于隐马尔可夫模型(HMM)。其工作原理为:语音信号在非常短的时间尺度上(比如 10 毫秒)可被近似为静止过程,即一个其统计特性不随时间变化的过程。 许多现代语音识别系统会在 HMM 识别之前使用神经网络,通过特征变换和降维的技术来简化语音信号。也可以使用语音活动检测器(VAD)将音频信号减少到可能仅包含语音的部分。 幸运的是,对于 Python 使用者而言,一些语音识别服务可通过 API 在线使用,且其中大部分也提供了 Python SDK。

05
领券