语音识别技术,也被称为自动语音识别Automatic Speech Recognition (ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。
本文介绍了语音识别技术中的端到端模型、基于CTC的序列模型、基于序列学习的注意力机制模型、基于3D卷积神经网络的语音识别系统等。其中,端到端模型可以直接从原始音频数据中学习到针对语音识别的抽象表示,具有较好的可扩展性和鲁棒性;而基于CTC的序列模型则通过连接主义学习的方法,将CTC定义的序列映射问题转化为神经网络中的参数优化问题,进一步提高了语音识别的准确率;基于序列学习的注意力机制模型则借鉴了语言学中的注意力机制,通过对输入序列进行加权处理,进一步提高了模型的识别准确率;基于3D卷积神经网络的语音识别系统则利用3D卷积核对输入序列进行卷积处理,提取出序列中的特征信息,进一步提高了模型的识别准确率。
深度学习在语音识别领域取得的成绩是突破性的。2009年深度学习的概念被引入语音识别领域,并对该领域产生了巨大的影响。在短短几年时间内,深度学习的方法在TIMIT数据集上将基于传统的混合高斯模型(gaussian mixture model,GMM)的错误率从21.7%降低到了使用深度学习模型的17.9%。如此大的提高幅度很快引起了学术界和工业界的广泛关注。从2010年到2014年间,在语音识别领域的两大学术会议IEEE-ICASSP和Interspeech上,深度学习的文章呈现出逐年递增的趋势。在工业界,包括谷歌、苹果、微软、IBM、百度等在内的国内外大型IT公司提供的语音相关产品,比如谷歌的Google Now、苹果的Siri、微软的Xbox和Skype等,都是基于深度学习算法。
你知道吗?人类每听20个词,其实就有一两个成为“漏网之鱼”。而在一段五分钟的对话中,这一数字达到了80。但对于我们而言,少听一两个词并不会影响我们对语意的理解,然而想象一下,计算机如果要完成这件事有多难? 去年,IBM已经在语音识别领域走到了一个新的里程碑:系统的错误率降低为6.9%;而AI科技评论了解到,近日IBM Watson的语音识别系统将这个数字降到了5.5%。 清华大学的邓志东教授此前在采访中向AI科技评论表示,只有AI技术达到人类水平,它才有商业化的可能性。技术越来越接近人类水平也一直是人工
语音识别建模对语音识别来说是不可或缺的一部分,因为不同的建模技术通常意味着不同的识别性能,所以这是各个语音识别团队重点优化的方向。也正是因为如此,语音识别的模型也层出不穷,其中语言模型包括了N-gram、RNNLM等,在声学模型里面又涵盖了HMM、DNN、RNN等模型...
选自IBM 作者:George Saon 机器之心编译 参与:吴攀、黄小天 去年十月,微软人工智能与研究部门的一个研究者和工程师团队报告他们的语音识别系统实现了和专业速录员相当甚至更低的词错率(WER)——达到了 5.9%,参考机器之心文章《重磅 | 微软语音识别实现历史性突破:语音转录达到专业速录员水平(附论文)》。但 IBM 官方博客今日发文宣称人类的水平实际上应该是 5.1%,而同时该文章还表示 IBM 的系统的词错率已经超越了之前微软报告的最佳水平,达到了 5.5%。IBM 宣称这是一个全新的突破,
语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。
【新智元导读】 微软语音识别研究团队在黄学东的带领下,去年将语音识别的单词错误率降至5.9%,又在最近降至5.1%。在本次专访中,我们讨论了语音识别错误率百分之几的小数点在研究和实际应用上的意义。黄学东认为,从研究角度来说,这个意义十分重大,即便是0.1%的差距,无论是运算量还是时间,耗费都是巨大的。 达到人类水平,超越人类水平,人工智能研究领域的突破性进展。 以上赞誉被给予了微软最近的语音识别研究成果:其语音识别研究团队在黄学东的带领下,去年将语音识别的单词错误率降至5.9%,又在最近降至5.1%。 从研
【新智元导读】微软人工智能首席科学家邓力18日在自动化学会与新智元携手举办的首届 AI WORLD 2016世界人工智能大会 发表主旨演讲《深度学习十年简史和人工智能未来展望》。邓力博士回顾了他与 Hinton 的合作及其产业影响,重点讲述语音识别如何随深度学习发展进入商用阶段,还介绍了微软近两年的人工智能进展,并对深度学习技术、应用和产业进行展望。演讲最后,邓力分享了他最新的思想和工作——将符号式逻辑推理和数值张量式神经网络结合到一起,有望解决深度学习黑箱问题,常识嵌入与充实问题,以及逻辑推理规则的自动
【新智元导读】微软人工智能首席科学家邓力18日在首届世界人工智能大会 AI WORLD 2016 发表主旨演讲《深度学习十年简史和人工智能未来展望》。邓力博士回顾了他与 Hinton 的合作及其产业影响,重点讲述语音识别如何随深度学习发展进入商用阶段,还介绍了微软近两年的人工智能进展,并对深度学习技术、应用和产业进行展望。演讲最后,邓力分享了他最新的思想和工作——将符号式逻辑推理和数值张量式神经网络结合到一起,有望解决深度学习黑箱问题、常识嵌入与充实问题,以及逻辑推理规则的自动学习问题。 邓力:感谢大家!
导读:从市场披露的投资数据分析,在2011年到2015年的五年时间,人工智能领域的并购资金从2.82亿美元增长到2015年的23.88亿美元,而并购数量也从67起增长到397起。以谷歌、苹果、IBM、
笔者在前文《Azure AI 服务之文本翻译》中简单介绍了 Azure 认知服务中的文本翻译 API,通过这些简单的 REST API 调用就可以轻松地进行机器翻译。如果能在程序中简单的集成语音转文本
最近百度公布的数据显示,自1月25日春节假期以来,百度输入法日均语音请求量已破10亿次大关,再创行业历史新高。
AI 研习社按:本月 18 日,由美中技术与创新协会(Association of Technology and Innovation,ATI)主办的第一届“AI NEXT”大会在西雅图召开。本次会议的主要嘉宾包括:微软首席 AI 科学家邓力,微软院士黄学东,Uber 深度学习负责人 Luming Wang 等。华人之外,还有亚马逊 Alexa 首席科学家 Nikko Strom,微软小娜架构师 Savas Parastatidis 等业内知名专家。 大会主题是“探索 AI 的潜力,把 AI 技术应用于实用
AI科技评论按:本月 18 日,由美中技术与创新协会(Association of Technology and Innovation,ATI)主办的第一届“AI NEXT”大会在西雅图召开。本次会议的主要嘉宾包括:微软首席 AI 科学家邓力,微软院士黄学东,Uber 深度学习负责人 Luming Wang 等。华人之外,还有亚马逊 Alexa 首席科学家 Nikko Strom,微软小娜架构师 Savas Parastatidis 等业内知名专家。 大会主题是“探索 AI 的潜力,把 AI 技术应用于
“人工智能前沿讲习班”(AIDL)由中国人工智能学会主办,旨在短时间内集中学习某一领域的基础理论、最新进展和落地方向,并促进产、学、研相关从业人员的相互交流。对于硕士、博士、青年教师、企事业单位相关从业者、预期转行AI领域的爱好者均具有重要的意义。2018年AIDL活动正在筹备,敬请关注公众号获取最新消息。
对于想进入语音识别领域的学习者来说,了解语音识别系统的一些基本概念,会有助于更快的进入这个行业的交流平台,本文对语音识别系统的一些常见概念做了整理,希望能对刚开始接触语音学习的人有所帮助。
黄学东 微软全球技术院士 精彩回顾 2018 新智元产业跃迁 AI 技术峰会圆满结束,点击链接回顾大会盛况: 爱奇艺 http://www.iqiyi.com/l_19rr3aqz3z.html 腾讯新闻 http://v.qq.com/live/p/topic/49737/preview.html 新浪科技 http://video.sina.com.cn/l/p/1722511.html 云栖社区 https://yq.aliyun.com/webinar/play/419 斗鱼
这次出手的,又是谷歌 AI 团队。刚刚,他们为旗下的一款手机输入法 Gboard (不要跟谷歌拼音输入法搞混了啊~)上线了新功能:离线语音识别。目前这一新功能,只能在其自家的产品 Pixel 系列手机上使用。
人工神经网络(Artificial Neural Network,简称ANN)是一种模仿生物神经网络的算法数学模型,用于进行信息处理和模式识别。
对于单文本行的图片进行识别,另一种常用的网络模型为编码-解码模型(Encoder-Decoder),并加入了注意力模型(Attention model)来帮助特征对齐,故简称EDA。
域名作为互联网上的“门牌号”,如果只能“写”而不能“读”的话,在现今电子设备智能化便携化的趋势下将极其不便。人工智能有两大基础:语音和视觉,智能音箱之所以取代电视机顶盒和路由器成为智能家居的入口,就是因为把握住智能语音这个基础点,倘若域名也能通过语音输入,将极大地推动细小的便携性智能设备(例如手机、手表、VR和AR等)对于互联网应用的语音接入。“语音域名”既要兼容传统域名的同时,又要创新式地开启互联网应用语音交互这一特性,这样,“语音域名”既能通过语音输入来访问互联网应用,也能让人类通过眼睛来轻易辨认以便记忆和认证。
【导读】语音识别自半个世纪前诞生以来,一直处于不温不火的状态,直到 2009 年深度学习技术的长足发展才使得语音识别的精度大大提高,虽然还无法进行无限制领域、无限制人群的应用,但也在大多数场景中提供了一种便利高效的沟通方式。本篇文章将从技术和产业两个角度来回顾一下语音识别发展的历程和现状,并分析一些未来趋势,希望能帮助更多年轻技术人员了解语音行业,并能产生兴趣投身于这个行业。
2014年,人工智能得到了前所未有的关注, Eron Musk和霍金的“人工智能恶魔论”在学术界和产业界引发了激烈争论;资本对这个方向也是趋之若鹜,截止到2004年,有超过20亿美元的风险投资流入到基
本文介绍了腾讯数平精准推荐团队的OCR识别算法,包括识别算法的演进之路以及4个代表性方法。
2015年,整个IT技术领域发生了许多深刻而又复杂的变化,InfoQ策划了“解读2015”年终技术盘点系列文章,希望能够给读者清晰地梳理出技术领域在这一年的发展变化,回顾过去,继续前行。 2015年,借助移动互联网技术、机器学习领域深度学习技术的发展,以及大数据语料的积累,自然语言处理(Natural Language Processing,简称NLP)技术发生了突飞猛进的变化。越来越多的科技巨头开始看到了这块潜在的“大蛋糕”中蕴藏的价值,通过招兵买马、合作、并购的方式、拓展自己在自然语言处理研究领域的业务
2020年的春节假期因为新冠疫情给所有人来了个措手不及,大量“云”服务被激活,作为在线沟通工具的输入法首当其冲,成为特殊时期接受考验的中坚力量之一,特别是语音输入能力,更是成为用户评价输入法是否好用的重要维度。
想一下未来50年或者100年,您的孙子或者孙子的孙子,是否还会花费人生中十几年甚至几十年的时间学习一门外语,甚至还学不好?
版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。
微软Build开发者大会、Facebook F8开发者大会以及Google I/O开发者大会被称为行业的风向标,而人工智能已成为绝大多数开发人员无法绕过的技术,聊天机器人、人工智能助理的流行,也预示着应用交互界面将迎变革。人工智能带来哪些困扰和机遇?未雨绸缪,移动开发者应当如何借势人工智能?本次人工智能专场将汇聚人工智能领域的技术精英,解析如何利用人工智能前沿技术,让应用好看、好用、好玩。 本文将带您全方位了解MDCC 2016人工智能与机器人专访细则,大会门票 8 折优惠将于明天结束,欲购从速!五人以上团
那么,智能时代跟FreeSWITCH什么关系呢?严格来说,其实没什么关系。你看,我今天又标题党了。
---- 新智元报道 来源:Facebook AI 编辑:LRS 【新智元导读】Facebook在语音识别上又出重磅新作,继wav2vec, wav2vec 2.0以来,又出完全不需要监督数据的wav2vec-U,小众语言也能用语音识别啦! 相比显示器、鼠标、键盘这些传统的人机交互方式以外,随着语音识别技术的逐渐成熟,和电子产品进行「对话」也逐渐成为一种稀松平常的人机交互。 无论是给计算机或其他设备下达指示,还是回答用户的问题,语音识别在各个方面让电子产品的使用变得更加容易,无需学习,想要干什么只
人工智能从幕后走向实用离不开人工智能技术取得的突破和发展。在互联网时代背景下,大数据、新型高性能计算架构以及深度学习帮助人工智能技术实现了从量变到质变的转变。其中,计算机视觉、语音识别技术均已能够规模
几千年来,人们就已经有了思考如何构建智能机器的想法。从那时开始,人工智能 (AI) 经历了起起落落,这证明了它的成功以及还未实现的潜能。如今,随时都能听到应用机器学习算法来解决新问题的新闻。从癌症检测和预测到图像理解和总结以及自然语言处理,AI 正在增强人们的能力和改变我们的世界。
可靠、稳健、可泛化的语音识别是机器学习领域一个持续的挑战。通常,训练自然语言理解模型需要包含数千小时语音和数百万(甚至数十亿)单词文本的语料库,以及能够在合理时间内处理这些数据的强大硬件。
终于有时间更新语音识别系列了,之前的几篇: 语音识别系列︱用python进行音频解析(一) 语音识别系列︱paddlehub的开源语音识别模型测试(二) 语音识别系列︱paddlespeech的开源语音识别模型测试(三)
语音识别源于 20 世纪 50 年代早期在贝尔实验室所做的研究。早期语音识别系统仅能识别单个讲话者以及只有约十几个单词的词汇量。现代语音识别系统已经取得了很大进步,可以识别多个讲话者,并且拥有识别多种语言的庞大词汇表。 语音识别的首要部分当然是语音。通过麦克风,语音便从物理声音被转换为电信号,然后通过模数转换器转换为数据。一旦被数字化,就可适用若干种模型,将音频转录为文本。 大多数现代语音识别系统都依赖于隐马尔可夫模型(HMM)。其工作原理为:语音信号在非常短的时间尺度上(比如 10 毫秒)可被近似为静止过程,即一个其统计特性不随时间变化的过程。 许多现代语音识别系统会在 HMM 识别之前使用神经网络,通过特征变换和降维的技术来简化语音信号。也可以使用语音活动检测器(VAD)将音频信号减少到可能仅包含语音的部分。 幸运的是,对于 Python 使用者而言,一些语音识别服务可通过 API 在线使用,且其中大部分也提供了 Python SDK。
本文将探索 AI 的一些重要方面和它的子领域。我们首先会分析 AI 的时间线,然后深入介绍每种要素。 几千年来,人们就已经有了思考如何构建智能机器的想法。从那时开始,人工智能 (AI) 经历了起起落落
自1962年IBM推出第一台语音识别机器以来,语音识别科学已经走了很长一段路。这已经不是什么秘密了。
点击两下esc按键,恢复esc弹起状态 esc按键接触不良,不服气的按着esc看一看你能否拖动文件
近年来,人工智能和人类生活越来越息息相关,人们一直憧憬身边可以出现一个真正的贾维斯,希望有一天计算机真的可以像人一样能听会说,能理解会思考。而实现这一目标的重要前提是计算机能够准确无误的听懂人类的话语,也就是说高度准确的语音识别系统是必不可少的。 作为国内智能语音与人工智能产业的领导者,科大讯飞公司一直引领中文语音识别技术不断进步。去年12月21日,在北京国家会议中心召开的以“AI复始,万物更新”为主题的年度发布会上,科大讯飞提出了以前馈型序列记忆网络(FSMN, Feed-forward Sequenti
【新智元导读】微软的语音识别技术又获得了新的突破:9月13日,微软语音与对话研究团队在arxive上发表论文,宣布在 作为行业标准的 Switchboard 基准上,微软的错误率做到了6.3%,比上周 IBM 公布的 6.6 % 有小幅提升。要实现微软 CEO 纳德拉提到的“对话即平台”AI战略,语音识别准确度的提升是不可或缺的。 昨天,微软研究院在让计算机理解语音上又获得了里程碑式的突破。 在作为行业标准的Switchboard 语音识别任务中,微软研究团队将词汇错误率(WER)降到了6.3%,打破了此前
摘要 : 自然语言是人类交流信息的工具。很多自然语言处理问题都可以等同于通信系统中的解码问题 -- 一个人根据接收到的信息,去猜测发话人要表达的意思。这其实就象通信中,我们根据接收端收到的信号去分析、理解、还原发送... 自然语言是人类交流信息的工具。很多自然语言处理问题都可以等同于通信系统中的解码问题 -- 一个人根据接收到的信息,去猜测发话人要表达的意思。这其实就象通信中,我们根据接收端收到的信号去分析、理解、还原发送端传送过来的信息。以下该图就表示了一个典型的通信系统: 其中 s1,s2,s3..
导读:对于人工智能来说,前60年的人工智能历程,可以用“无穷动”来形容;后60年的人工智能发展,可以用“无穷大”来期许。
📷 在AI领域,相比创业公司,大公司具有天然的先发优势。在技术方面,决定技术的三个要素——数据、算法模型、计算力,背后的潜台词对应的是数据量、人才、资金,大公司更占优。在产品应用方面,大公司本身就有大量的用户基数、畅通的推广渠道,也是大公司的强项。 事实上,现在已经很难说哪家大公司完全与AI不相关,毕竟只要有数据,就很难不用到机器学习的算法。不过,出于本身的战略规划及实际业务情况,大公司对于AI行业的重视程度肯定各不相同。 国内方面 未上市公司方面 一 旷视(Megvii)
从图中可以看到,语言信号可以表示为一个d T的matrix。其中,d为向量的维度(不同的表示方法,维度不一样), T为向量的个数。 同理,文本也可以表示为一个V N的matrix,N表示组成text的token(不同的表示方法,token的含义不一样)的个数,V表示token集合的大小(即token去重后的数量)。 语音信号的预处理通常采用重叠的稠密采样机制,通常T >> N。语音识别问题的输入输出都是matrix,输入vector及输出token的选取,不同的算法有不同的方式。整体来看,语音识别问题就是一个Seq2Seq的变换问题
【新智元导读】国际知名市场研究公司Research and Markets 2016年5月4日发布报告《全球及中国语音产业报告,2015-2020》的修订版本。报告认为,随着语音在智能产业的应用不断加深,全球,以及中国的语音市场在接下来的5年当中仍将维持显著地增长,到2020年,全球语音市场规模预计将达到191.7亿美元。报告数据显示,尽管领头羊Nuance仍然占据着三成的市场份额,但是已经出现明显下滑趋势,其他科技巨头谷歌、微软、苹果和科大讯飞则获得了迅速的增长,全球市场份额分别为20.7%、13.4%、
来源:环球科学ScientificAmerican 作者:陈宗周 本文长度为5200字,建议阅读5分钟 本文回顾机器翻译发展史,并分析这个曾一度陷入低潮的领域,是如何实现飞跃,并可能在不久的将来打破不同民族间的语言壁垒的。 2017年3月的全国“两会”上,李克强总理来到安徽代表团。讯飞公司董事长刘庆峰拿起桌子上一部手机模样的小设备,说出总理以前对讯飞的勉励——让世界聆听我们的声音,机器马上翻译成流利的英文。他又说“这个哈密瓜很甜”,机器立刻又翻译成流利的维吾尔语。这部叫晓译多语种翻译机的小机器,是讯飞公
领取专属 10元无门槛券
手把手带您无忧上云