前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >谷歌发布迄今最准确商用端到端语音识别系统,词错率将至5.6%,性能提升16%

谷歌发布迄今最准确商用端到端语音识别系统,词错率将至5.6%,性能提升16%

作者头像
企鹅号小编
发布于 2018-02-28 03:10:20
发布于 2018-02-28 03:10:20
1.1K0
举报
文章被收录于专栏:企鹅号快讯企鹅号快讯

新智元编译

【新智元导读】谷歌大脑和Speech团队发布最新端到端自动语音识别(ASR)模型,词错率将至5.6%,相比传统的商用方法实现了16%的改进。新方法利用联合训练,结合多种优化算法显著提升LAS模型的性能,在多语言/方言识别方面有令人瞩目的潜在应用。

论文:https://arxiv.org/pdf/1712.01769.pdf

在谷歌的各种语音搜索应用中使用的传统的自动语音识别(ASR)系统,包括一个声学模型(AM),一个发音模型(PM)和一个语言模型(LM),所有这些模型都是在不同的数据集上独立训练,并且通常是手动设计的。AM提取声学特征,并预测一组子词单元(subword unit),通常是上下文相关的或与上下文无关的音素。然后,一个手动设计的词典(PM)将声学模型生成的音素序列映射到单词。最后,LM将概率分配给单词序列。对独立的组件进行训练会增加复杂性,与联合训练所有组件相比并不是最佳的方法。在过去几年里,开发端到端系统越来越受欢迎,这些端到端系统试图将这些单独的组件作为一个单一的系统来学习。虽然这些端到端模型在已有研究中已经显示出不错的结果[2,3],但目前尚不清楚这种方法是否能够改进现有的最先进的传统系统。

谷歌最近公开了他们的最新研究:State-of-the-art Speech Recognition With Sequence-to-Sequence Models(“使用序列到序列模型的最先进的语音识别模型”)[4]。这篇论文描述了一个新的端到端模型,它的性能优于目前已商用的传统方法[1]。在谷歌的研究中,新的的端到端系统的词错率(WER)降到5.6%,相比使用传统方法的一个强大系统(词错率为6.7%),性能提高了16%。此外,这个端到端模型在任何假设重评分( hypothesis rescoring)之前输出初始词假设,由于不包含单独的LM和PM,它的大小只有传统模型的1/18。

这个系统建立在Listen-Attend-Spell(LAS)端到端架构上,最早是由William Chan等人在Listen, Attend and Spell [2]这篇论文中提出。LAS架构由3个组件组成。分别是 listener 编码器,它与标准AM类似,接受输入语音信号x的时频表示,并使用一组神经网络层将输入映射到一个更高级的特征表示 henc。编码器的输出被传递给一个 attender,它使用henc来学习输入特征x和预测的子词单元之间的对齐,其中每个子词通常是一个字素。最后,attention模块的输出被传递给类似LM的speller(即,解码器),它产生一组假设词的概率分布。

LAS端到端模型的组件

LAS模型的所有组件都作为单一的端到端神经网络进行联合训练,而不是像传统的系统那样作为单独的模块进行训练,这使得训练更简单。

此外,由于LAS模型完全是神经网络,所以不需要外部的、手工设计的组件,例如有限状态转换器,词典或文本标准化模块。最后,与传统模型不同的是,训练端到端模型不需要从一个单独的系统中生成的决策树或时间校准引导,并且可以在给定的文本记录和相应的声学特征对下训练。

在文献[4]中,我们介绍了一系列新的结构上的改进,包括优化传递给解码器的注意力向量,以及用更长的子字单元(即字符)进行训练。此外,我们还介绍了优化训练过程的一些方法,包括使用最小词错率训练[5]。正是这些结构化和优化改进使得新模型相对传统模型得到16%的性能提升。

这项研究的另一个令人兴奋的潜在应用是多方言和多语言系统,其中优化单个神经网络的简单性使得这样的模型非常有吸引力。在这里,所有的方言/语言的数据可以组合起来训练一个网络,而不需要为每种方言/语言单独设置AM,PM和LM。我们发现,这些模型在7种英语方言[6]和9种印度语方言[7]上运作良好,表现比单独在各种语言/方言上分别训练的模型更好。

虽然结果令人瞩目,但研究人员认为目前的工作尚未完成。目前,这些模型不能实时处理语音[8,9,10],而实时处理对于语音搜索等对延迟敏感的应用是很强的需求。另外,在现场生产的数据上评估时,这些模型仍然不够好。 此外,我们的端到端模型是在22000个音频-文本对上学习的,而传统的系统通常是在大得多的语料库上训练。最后,这个新模型不能学习罕用词汇的正确拼写,例如专有名词,通常需要手动设计的PM。谷歌接下来的努力将集中在这些挑战上。

论文:使用序列到序列模型的最先进的语音识别模型

摘要

基于attention的编码器-解码器架构,例如Listen, Attend and Spell(LAS),将传统的自动语音识别(ASR)系统的声学模型、发音模型和语言模型组件组合成一个单独的神经网络。我们以前的工作已经证明这样的架构在听写任务上可以媲美最先进的ASR系统,但对于语音搜索等更具挑战性的任务,这样的架构是否可行还不明确。在这项工作中,我们探索了LAS模型的各种结构化和优化改进,从而显着提高了其性能。在结构方面,我们表明,字段(word piece)模型可以用来代替字素(grapheme)。

我们提出了一种新的多头注意力架构(multi-head attention architecture),它比常用的单头注意力有所改进。在优化方面,我们探索了同步训练,scheduled sampling,标签平滑,以及应用最小词错率优化等技术,这些都是为了提高准确性。我们用一个单向LSTM编码器来呈现流式识别结果。在一个12500小时的语音搜索任务中,我们发现所提出的改进方案将LAS系统的WER从9.2%降低到5.6%,这相对当前最优的传统系统提高了16%(当前最优的传统系统WER为6.7%)。

参考文献:

[1] G. Pundak and T. N. Sainath, “Lower Frame Rate Neural Network Acoustic Models," in Proc. Interspeech, 2016.

[2] W. Chan, N. Jaitly, Q. V. Le, and O. Vinyals, “Listen, attend and spell,” CoRR, vol. abs/1508.01211, 2015

[3] R. Prabhavalkar, K. Rao, T. N. Sainath, B. Li, L. Johnson, and N. Jaitly, “A Comparison of Sequence-to-sequence Models for Speech Recognition,” in Proc. Interspeech, 2017.

[4] C.C. Chiu, T.N. Sainath, Y. Wu, R. Prabhavalkar, P. Nguyen, Z. Chen, A. Kannan, R.J. Weiss, K. Rao, K. Gonina, N. Jaitly, B. Li, J. Chorowski and M. Bacchiani, “State-of-the-art Speech Recognition With Sequence-to-Sequence Models,” submitted to ICASSP 2018.

[5] R. Prabhavalkar, T.N. Sainath, Y. Wu, P. Nguyen, Z. Chen, C.C. Chiu and A. Kannan, “Minimum Word Error Rate Training for Attention-based Sequence-to-Sequence Models,” submitted to ICASSP 2018.

[6] B. Li, T.N. Sainath, K. Sim, M. Bacchiani, E. Weinstein, P. Nguyen, Z. Chen, Y. Wu and K. Rao, “Multi-Dialect Speech Recognition With a Single Sequence-to-Sequence Model” submitted to ICASSP 2018.

[7] S. Toshniwal, T.N. Sainath, R.J. Weiss, B. Li, P. Moreno, E. Weinstein and K. Rao, “End-to-End Multilingual Speech Recognition using Encoder-Decoder Models”, submitted to ICASSP 2018.

[8] T.N. Sainath, C.C. Chiu, R. Prabhavalkar, A. Kannan, Y. Wu, P. Nguyen and Z. Chen, “Improving the Performance of Online Neural Transducer Models”, submitted to ICASSP 2018.

[9] C.C. Chiu* and C. Raffel*, “Monotonic Chunkwise Attention,” submitted to ICLR 2018.

[10] D. Lawson*, C.C. Chiu*, G. Tucker*, C. Raffel, K. Swersky, N. Jaitly. “Learning Hard Alignments with Variational Inference”, submitted to ICASSP 2018.

[11] T.N. Sainath, R. Prabhavalkar, S. Kumar, S. Lee, A. Kannan, D. Rybach, V. Schogol, P. Nguyen, B. Li, Y. Wu, Z. Chen and C.C. Chiu, “No Need for a Lexicon? Evaluating the Value of the Pronunciation Lexica in End-to-End Models,” submitted to ICASSP 2018.

[12] A. Kannan, Y. Wu, P. Nguyen, T.N. Sainath, Z. Chen and R. Prabhavalkar. “An Analysis of Incorporating an External Language Model into a Sequence-to-Sequence Model,” submitted to ICASSP 2018.

论文:https://arxiv.org/pdf/1712.01769.pdf

谷歌博客:https://research.googleblog.com/2017/12/improving-end-to-end-models-for-speech.html

本文来自企鹅号 - 新智元媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文来自企鹅号 - 新智元媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
业界 | 谷歌发布全新端到端语音识别系统:词错率降至5.6%
选自Google Research 作者:Tara N. Sainath、Yonghui Wu 机器之心编译 参与:刘晓坤、李泽南 近日,谷歌发表博客介绍了他们对端到端语音识别模型的最新研究成果,新模型结合了多种优化算法提升 LAS 模型的性能。相较于分离训练的传统系统,新方法充分地发挥了联合训练的优势,在语音搜索任务中取得了当前业内最低的词错率结果。 当前最佳语音搜索模型 传统自动语音识别系统(ASR)一直被谷歌的多种语音搜索应用所使用,它由声学模型(AM)、发音模型(PM)和语言模型(LM)组成,所有这
机器之心
2018/05/10
1K0
学界 | 谷歌语音识别端到端系统单词错误率降至5.6%,较传统模型提升16%
AI 科技评论按:本文是由来自谷歌语音团队的科学家 Tara N. Sainath 和来自谷歌大脑团队的科学家 Yonghui Wu 共同撰写的,文中简单介绍了最新论文《State-of-the-art Speech Recognition With Sequence-to-Sequence Models》的主要思想与取得的成果以及 Listen-Attend-Spell(LAS)的端到端体系结构。AI 科技评论根据原文进行了编译。 提升语音识别的端到端模型 在谷歌各式各样的语音搜索应用中,都是基于传统的自
AI科技评论
2018/03/14
8850
学界 | 谷歌语音识别端到端系统单词错误率降至5.6%,较传统模型提升16%
谷歌最新端到端语音识别系统:词错率降至5.6%,性能提升16%!
-免费加入AI技术专家社群>> 导读:谷歌大脑和Speech团队发布最新端到端自动语音识别(ASR)模型,词错率将至5.6%,相比传统的商用方法实现了16%的改进。 传统自动语音识别系统(ASR)一直被谷歌的多种语音搜索应用所使用,它由声学模型(AM)、发音模型(PM)和语言模型(LM)组成,所有这些都会经过独立训练,同时通常是由手动设计的,各个组件会在不同的数据集上进行训练。AM 提取声学特征并预测一系列子字单元(subword unit),通常是语境依赖或语境独立的音素。然后,手动设计的词典(PM)将声
企鹅号小编
2018/02/27
1.3K0
谷歌最新端到端语音识别系统:词错率降至5.6%,性能提升16%!
【论文推荐】最新5篇语音识别(ASR)相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正
【导读】专知内容组整理了最近五篇语音识别(Automatic Speech Recognition, ASR)相关文章,为大家进行介绍,欢迎查看! 1. Audio Adversarial Examples: Targeted Attacks on Speech-to-Text(音频对抗样本:针对语音到文本的攻击) ---- ---- 作者:Nicholas Carlini,David Wagner 摘要:We construct targeted audio adversarial examples on
WZEARW
2018/04/13
2.9K0
【论文推荐】最新5篇语音识别(ASR)相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正
基于无监督预训练的语音识别技术落地实践 火山语音表示有话要说
 点击上方“LiveVideoStack”关注我们 ▲扫描图中二维码或点击阅读原文▲ 了解音视频技术大会更多信息 ---- 一直以来,火山语音团队都为时下风靡的视频平台提供基于语音识别技术的智能视频字幕解决方案,简单来说就是可以自动将视频中的语音和歌词转化成文字,来辅助视频创作的功能。但伴随平台用户的快速增长以及对语言种类更加丰富多样的要求,传统采用有监督学习技术来解决的办法日渐遭遇瓶颈,这让团队着实犯了难。 众所周知,传统的有监督学习会对人工标注的有监督数据产生严重依赖,尤其在大语种的持续优化以及小语
LiveVideoStack
2023/04/04
7640
基于无监督预训练的语音识别技术落地实践 火山语音表示有话要说
重磅纯干货 | 超级赞的语音识别/语音合成经典论文的路线图(1982-2018.5)
网址:https://github.com/zzw922cn/awesome-speech-recognition-speech-synthesis-papers
用户7623498
2020/08/04
1.3K0
从不温不火到炙手可热:语音识别技术简史
【导读】语音识别自半个世纪前诞生以来,一直处于不温不火的状态,直到 2009 年深度学习技术的长足发展才使得语音识别的精度大大提高,虽然还无法进行无限制领域、无限制人群的应用,但也在大多数场景中提供了一种便利高效的沟通方式。本篇文章将从技术和产业两个角度来回顾一下语音识别发展的历程和现状,并分析一些未来趋势,希望能帮助更多年轻技术人员了解语音行业,并能产生兴趣投身于这个行业。
AI科技大本营
2019/08/23
1.7K0
从不温不火到炙手可热:语音识别技术简史
ICLR 2025|小米新一代Kaldi语音识别算法CR-CTC,纯CTC性能实现SOTA
新一代 Kaldi 团队是由 Kaldi 之父、IEEE fellow、小米集团首席语音科学家 Daniel Povey 领衔的团队,专注于开源语音基础引擎研发,从神经网络声学编码器、损失函数、优化器和解码器等各方面重构语音技术链路,旨在提高智能语音任务的准确率和效率。
机器之心
2025/02/08
2960
ICLR 2025|小米新一代Kaldi语音识别算法CR-CTC,纯CTC性能实现SOTA
对话摘要技术在美团的探索(SIGIR)
总第512篇 2022年 第029篇 随着互联网产生的文本数据越来越多,文本信息过载问题日益严重,对各类文本进行一个“降维”处理显得非常必要,而文本摘要就是其中一个重要的手段。 本文首先介绍了经典的文本摘要方法,随后分析了对话摘要的模型,并分享了美团在真实对话摘要场景中面临的挑战。同时基于实际的场景,本文提出了阅读理解的距离监督Span-Level对话摘要方案(已发表在SIGIR 2021),该方法比强基准方法在ROUGE-L指标和BLEU指标上提升了3%左右。 1. 对话摘要技术背景 2. 文本摘要与对
美团技术团队
2022/05/27
1.1K0
对话摘要技术在美团的探索(SIGIR)
SFFAI分享 | 田正坤 :Seq2Seq模型在语音识别中的应用
随着神经机器翻译的兴起,基于Attention的Seq2Seq模型由于其强大的建模变长序列直接转换问题的能力,也在其他领域获得了极大的关注。语音识别问题本质上也是两个变长序列直接转换的问题,Seq2Seq模型的提出为解决语音识别问题开辟了另一条道路,其优雅的模型结构和强大的性能使得语音识别问题有希望彻底摆脱语言模型和发音词典,真正的进行端到端的联合优化。
马上科普尚尚
2020/05/14
1.9K0
SFFAI分享 | 田正坤 :Seq2Seq模型在语音识别中的应用
CNN 在语音识别中的应用
本文介绍了语音识别技术中的端到端模型、基于CTC的序列模型、基于序列学习的注意力机制模型、基于3D卷积神经网络的语音识别系统等。其中,端到端模型可以直接从原始音频数据中学习到针对语音识别的抽象表示,具有较好的可扩展性和鲁棒性;而基于CTC的序列模型则通过连接主义学习的方法,将CTC定义的序列映射问题转化为神经网络中的参数优化问题,进一步提高了语音识别的准确率;基于序列学习的注意力机制模型则借鉴了语言学中的注意力机制,通过对输入序列进行加权处理,进一步提高了模型的识别准确率;基于3D卷积神经网络的语音识别系统则利用3D卷积核对输入序列进行卷积处理,提取出序列中的特征信息,进一步提高了模型的识别准确率。
serena
2017/10/20
9.2K3
CNN 在语音识别中的应用
10小时训练数据打造多语种语音识别新高度
本文联合撰写: 腾讯:吕志强,颜京豪,胡鹏飞,康健,阿敏巴雅尔 导语|在刚刚结束的NIST OPENASR评测中,TEG AI语音联合清华大学,刷新世界小语种语音识别比赛6项第一。从2000年开始,NIST组织的RT(英文语音识别),LRE(语音语种识别),SRE(语音说话人识别),OPENKWS(语音关键词识别)等比赛一直是语音届的标杆竞赛,其组织比赛方向也可以看出目前学术和工业界的语音研究发展方向。长期以来,NIST组织的语音比赛受到了来自世界一线的研究单位支持与参与。而2020年新增的OPENASR
腾讯高校合作
2021/01/07
1.7K0
DLM:微信大规模分布式n-gram语言模型系统
Wechat & NUS《A Distributed System for Large-scale n-gram Language Models at Tencent》分布式语言模型,支持大型n-gram LM解码的系统。本文是对原VLDB2019论文的简要翻译。
AI科技大本营
2019/09/12
1.5K0
DLM:微信大规模分布式n-gram语言模型系统
深度 | 神奇的神经机器翻译:从发展脉络到未来前景(附论文资源)
机器之心(海外)原创 作者:Mos Zhang 参与:Panda 机器翻译(MT)是借机器之力「自动地将一种自然语言文本(源语言)翻译成另一种自然语言文本(目标语言)」[1]。使用机器做翻译的思想最早由 Warren Weaver 于 1949 年提出。在很长一段时间里(20 世纪 50 年代到 80 年代),机器翻译都是通过研究源语言与目标语言的语言学信息来做的,也就是基于词典和语法生成翻译,这被称为基于规则的机器翻译(RBMT)。随着统计学的发展,研究者开始将统计模型应用于机器翻译,这种方法是基于对双语
机器之心
2018/05/08
1.3K0
深度 | 神奇的神经机器翻译:从发展脉络到未来前景(附论文资源)
[论文品读]·d-vector解读(Deep Neural Networks for Small Footprint Text-Dependent Speaker Verification)
在本文中,我们研究深度神经网络(DNNs)在小型文本相关的说话者验证任务的应用。在开发阶段,DNN经过训练,可以在帧级别对说话人进行分类。在说话人录入阶段,使用训练好的的DNN用于提取来自最后隐藏层的语音特征。这些说话人特征或平均值,d-vector,用作说话人特征模型。在评估阶段,为每个话语提取d-vector与录入的说话人模型相比较,进行验证。实验结果表明基于DNN的说话人验证与常用的i-vector相比,系统在一个小的声音文本相关的说话人验证任务实现了良好的性能表现。此外,基于DNN的系统对添加的噪声更加稳健,并且在低错误拒绝操作点上优于i-vector系统。最后,组合系统在进行安静和嘈杂的条件分别优于i-vector系统以14%和25%的相对错误率(EER)。
小宋是呢
2019/06/27
1.3K0
[论文品读]·d-vector解读(Deep Neural Networks for Small Footprint Text-Dependent Speaker Verification)
干货 | Siri 语音识别的小心机:你在哪里,就能更准确地识别那附近的地址
AI 科技评论按:这篇文章来自苹果机器学习日记(Apple Machine Learning Journal)。与其他科技巨头人工智能实验室博客的论文解读、技术成果分享不同,苹果的机器学习日记虽然也是介绍他们对机器学习相关技术的心得体会,但侧重点在于技术产品的实现过程、技术资源用户体验之间的取舍,更像是「产品经理的 AI app 研发日记」。过往内容可以参见 如何设计能在Apple Watch上实时运行的中文手写识别系统,苹果揭秘「Hey Siri」的开发细节,为了让iPhone实时运行人脸检测算法,苹果原来做了这么多努力。
AI科技评论
2018/09/21
2.1K0
干货 | Siri 语音识别的小心机:你在哪里,就能更准确地识别那附近的地址
资源 | Github项目推荐 | Google发布序列到序列建模模块化可扩展框架Lingvo
最简单的入门方法是使用我们提供的Docker脚本。 如果你想直接在机器上安装它,请查看下一节。
AI科技评论
2019/10/31
5680
AI语音模型与人脑有多相似?上科大/UCSF/复旦联合团队解析深度语音模型与人脑听觉通路的表征与计算相似性
人类依赖大脑的听觉通路实现高效精准的语音信号处理,能够轻松实现每分钟300个汉字或者150个英文单词的自然语音识别。如何建模大脑的听觉和语言环路并解析自然语音感知的神经机制是长久以来认知神经科学关注的重要问题。如今,计算机科学家花费了数十年才终于实现了较为接近人类水平的自动语音识别AI模型。这类纯工程的AI模型完全抛弃了早期基于语言学理论的模型框架,完全采用数据驱动的端到端大规模预训练深度神经网络。那么这样的模型究竟与人脑听觉通路有多少相似性呢?
脑机接口社区
2023/11/05
3360
AI语音模型与人脑有多相似?上科大/UCSF/复旦联合团队解析深度语音模型与人脑听觉通路的表征与计算相似性
谷歌手机输入法可以离线语音识别了!模型精度远超经典CTC
2012 年,在深度学习技术的帮助下,语音识别研究有了极大进展,很多产品开始采用这项技术,如谷歌的语音搜索。这也开启了该领域的变革:之后每一年都会出现进一步提高语音识别质量的新架构,如深度神经网络、循环神经网络、长短期记忆网络、卷积神经网络等等。然而,延迟仍然是重中之重:自动语音助手对请求能够提供快速及时的反应,会让人感觉更有帮助。
机器之心
2019/04/09
1.5K0
谷歌手机输入法可以离线语音识别了!模型精度远超经典CTC
从技术到产品,苹果Siri深度学习语音合成技术揭秘
选自苹果 机器之心编译 参与:蒋思源、李亚洲、路雪 Siri 是一个使用语音合成技术与人类进行交流的个人助手。从 iOS 10 开始,苹果已经在 Siri 的语音中用到了深度学习,iOS 11 中的 Siri 依然延续这一技术。使用深度学习使得 Siri 的语音变的更自然、流畅,更人性化。机器之心对苹果期刊的该技术博客进行了介绍,更详细的技术请查看原文。 介绍 语音合成,也就是人类声音的人工产品,被广泛应用于从助手到游戏、娱乐等各种领域。最近,配合语音识别,语音合成已经成为了 Siri 这样的语音助手不可
机器之心
2018/05/08
1.4K0
从技术到产品,苹果Siri深度学习语音合成技术揭秘
推荐阅读
业界 | 谷歌发布全新端到端语音识别系统:词错率降至5.6%
1K0
学界 | 谷歌语音识别端到端系统单词错误率降至5.6%,较传统模型提升16%
8850
谷歌最新端到端语音识别系统:词错率降至5.6%,性能提升16%!
1.3K0
【论文推荐】最新5篇语音识别(ASR)相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正
2.9K0
基于无监督预训练的语音识别技术落地实践 火山语音表示有话要说
7640
重磅纯干货 | 超级赞的语音识别/语音合成经典论文的路线图(1982-2018.5)
1.3K0
从不温不火到炙手可热:语音识别技术简史
1.7K0
ICLR 2025|小米新一代Kaldi语音识别算法CR-CTC,纯CTC性能实现SOTA
2960
对话摘要技术在美团的探索(SIGIR)
1.1K0
SFFAI分享 | 田正坤 :Seq2Seq模型在语音识别中的应用
1.9K0
CNN 在语音识别中的应用
9.2K3
10小时训练数据打造多语种语音识别新高度
1.7K0
DLM:微信大规模分布式n-gram语言模型系统
1.5K0
深度 | 神奇的神经机器翻译:从发展脉络到未来前景(附论文资源)
1.3K0
[论文品读]·d-vector解读(Deep Neural Networks for Small Footprint Text-Dependent Speaker Verification)
1.3K0
干货 | Siri 语音识别的小心机:你在哪里,就能更准确地识别那附近的地址
2.1K0
资源 | Github项目推荐 | Google发布序列到序列建模模块化可扩展框架Lingvo
5680
AI语音模型与人脑有多相似?上科大/UCSF/复旦联合团队解析深度语音模型与人脑听觉通路的表征与计算相似性
3360
谷歌手机输入法可以离线语音识别了!模型精度远超经典CTC
1.5K0
从技术到产品,苹果Siri深度学习语音合成技术揭秘
1.4K0
相关推荐
业界 | 谷歌发布全新端到端语音识别系统:词错率降至5.6%
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档