今年 2 月,中国人工智能公司出门问问联合西北工业大学推出了全球首个面向产品和工业界的端到端语音识别开源工具 ——WeNet。
素来被认为是“人脸识别独角兽”——或者更宽泛一点说,“计算机视觉独角兽”的依图科技,公布了他们中文语音识别技术的最新突破,以及令人瞩目的产业布局。
随着物联网技术和智能设备技术的快速发展,人与机器的交互,不再仅依赖于鼠标和键盘,更有可能的是直接采用语音。 这其中的关键技术就是自动语音识别(Automatic Speech Recognition,ASR)。其所要完成的工作,简单地说,就是在与机器进行语音交流时,能够让机器听懂你在说什么。 但语音识别技术的发展日新月异,新的理论和方案不断出现,读者除了掌握基本原理,也亟须了解语音识别最新的前沿技术,例如加权有限状态转换器(WFST)、端到端(E2E)语音识别等。 本次博文视点学院公开课,我们特邀厦门大
飞桨语音模型库PaddleSpeech,为开发者提供了语音识别、语音合成、声纹识别、声音分类等多种语音交互能力,代码全部开源,各类服务一键部署,并附带保姆级教学文档,让开发者轻松搞定产业级应用!
这家以“图”起家的AI公司,现在宣布修个“语音”双学位,而且出场便是学霸的方式——随手甩出一张摸底考第一名成绩单。
12月10-12日, 2015中国大数据技术大会 将在北京召开。会议前夕,我们特采访了本次会议的深度学习分论坛演讲嘉宾阿里巴巴iDST语音组高级专家鄢志杰,以期对其从事工作和演讲内容有进一步的了解。 鄢志杰将在12月11日下午的深度学习分论坛进行题为“Deep Learning 助力客服小二:数据技术及机器学习在客服中心的应用”的主题演讲,分享基于DNN、CNN、RNN(LSTM)及其各种组合模型的语音识别、自然语言处理技术在客服领域的应用。 鄢志杰在接受采访时表示,他的分享内容将包括Deep Learni
智能语音在近年一直是个很火的话题,商业应用也在不断增加,在10月10号的深蓝&大咖面对面活动中,我们邀请到了语音界大佬陈果果博士,针对目前语音领域问题进行分享与探讨。
是磁带、光盘、录音笔、手机等录音工具,还是会议、访谈、沟通、演唱等场景?是键指如飞的神奇速录师,还是方便快捷的语音转文字AI小工具?
智能语音技术已经在生活中随处可见,常见的智能应用助手、语音播报、近年来火热的虚拟数字人,这些都有着智能语音技术的身影。智能语音是由语音识别,语音合成,自然语言处理等诸多技术组成的综合型技术,对开发者要求高,一直是企业应用的难点。 飞桨语音模型库 PaddleSpeech ,为开发者提供了语音识别、语音合成、声纹识别、声音分类等多种语音处理能力,代码全部开源,各类服务一键部署,并附带保姆级教学文档,让开发者轻松搞定产业级应用! PaddleSpeech 自开源以来,就受到了开发者们的广泛关注,关注度持续上涨。
【新智元导读】微软语音识别技术24年老将黄学东近日被评为“微软全球技术院士”,成功摘下这一微软技术的“桂冠”。 黄学东于1993年加入微软。1995年,黄学东最终把洪小文也拉入微软。黄学东还曾在Bing工作,一直跟随沈向洋博士。接受新智元的专访时,他谈到了去年微软对话语音识别词错率低至5.9%背后的故事。 同时,黄学东认为语音识别的下一个大难关是语义理解,目前看来最有希望的路线是 LSTM + Attention。 黄学东,微软语音识别技术 24 年老将,IEEE/ACM 双科院士,微软深度学习工具包CNT
大家好,我是崔庆才。 想必大家在开发项目过程中可能或多或少用到语音识别、语音合成等相关技术,但又不知道哪家的服务好,而且有的收费还贼贵。尤其流式识别更是个难题。 今天我给大家推荐一个流式语音合成库,现在在 GitHub 上已经开源,而且已经斩获 3.1k star,效果很不错,同时这也是业界首个流式语音合成系统,推荐给大家试试。 具体详情大家可以了解下文哈,最后还有直播课,大家感兴趣欢迎扫码了解。 智能语音技术已经在生活中随处可见,常见的智能应用助手、语音播报、近年来火热的虚拟数字人,这些都有着智能语音技术
选自Mozilla 机器之心编译 参与:刘晓坤 Mozilla 对语音识别的潜能抱有很大期望,但这一领域目前仍然存在对创新的明显阻碍,这些挑战激发这家公司启动了 DeepSpeech 项目和 Common Voice 项目。近日,他们首次发布了开源语音识别模型,其拥有很高的识别准确率。与此同时,这家公司还发布了世界上第二大的公开语音数据集,该数据集由全球将近 20000 人所贡献。 开源语音识别模型:https://hacks.mozilla.org/2017/11/a-journey-to-10-word
在日常工作、生活中,语音识别技术作为基础服务,越来越多的出现在我们周围,比如智能音箱、会议记录、字幕生成等等。
虽然基于RNN的技术已经在语音识别任务中得到验证,但训练RNN网络需要的大量数据和计算能力。最近,Facebook的AI研究中心(FAIR)发表的一个研究论文,提出了一种新的单纯基于卷积神经网络(Convolutional Neural Network)的语音识别技术,而且提供了开源的实现wav2letter++,一个完全基于卷积模型的高性能的语音识别工具箱。
作者 | 陈孝良 责编 | 胡永波 目前来看,语音识别的精度和速度比较取决于实际应用环境,在安静环境、标准口音、常见词汇上的语音识别率已经超过95%,完全达到了可用状态,这也是当前语音识别比较火热的原因。 随着技术的发展,现在口音、方言、噪声等场景下的语音识别也达到了可用状态,但是对于强噪声、超远场、强干扰、多语种、大词汇等场景下的语音识别还需要很大的提升。当然,多人语音识别和离线语音识别也是当前需要重点解决的问题。 学术界探讨了很多语音识别的技术趋势,有两个思路是非常值得关注的,一个是就是端到端的语音识别
人工智能从幕后走向实用离不开人工智能技术取得的突破和发展。在互联网时代背景下,大数据、新型高性能计算架构以及深度学习帮助人工智能技术实现了从量变到质变的转变。其中,计算机视觉、语音识别技术均已能够规模
林元庆离开百度三个多月后(戳这里看大数据文摘此前报道),他的新公司Aibee拿到了1.65亿元的天使轮融资。 作为曾经的百度研究院院长、深度学习实验室(IDL)主任,林元庆这番创业选择了传统行业,与他的前同事、百度前首席科学家吴恩达(Andrew Ng)的选择不约而同(戳这里了解吴恩达新公司landing.ai)。 Aibee(爱笔)寓意AI2B,意即用AI技术对传统行业赋能升级。 对于一家AI创业公司来说,最重要的工作可能是“抢人”——精干的AI团队将成为公司最大的资产。目前,Aibee有近20名员工,其
随着物联网技术和智能设备技术的快速发展,人与机器的交互,不再仅依赖于鼠标和键盘,更有可能的是直接采用语音。
作为人工智能领域的一个重要方向,语音识别近年来在深度学习(Deep Learning)的推动下取得了重大的突破,为人机语音交互应用的开发奠定了技术基础。语音识别技术演进及实现方法、效果,既是语音识别从业者需要系统掌握的知识,也是智能化应用开发者应当了解的内容。日前,微软研究院首席研究员、《解析深度学习-语音识别实践》第一作者俞栋接受CSDN专访,深入解析了基于深度学习的语音识别的最新技术方向,和微软团队的实践心得,并对微软开源的深度学习工具CNTK的迭代思路做了介绍。 俞栋介绍了deep CNN、LFMMI
昨日,百度语音能力引擎论坛在北京召开。在论坛上,百度展示了其在语音技术上的最新成果,并公开了语音专用终端芯片——百度鸿鹄的落地情况。此外,机器之心也采访了百度语音首席架构师贾磊。百度通过本次发布说明,深度学习端到端技术依然大有发展空间,软件驱动专用芯片设计成 AI 落地新打法。
文 / 陈孝良 11月16号,百度发布了渡鸦智能音箱和DuerOS开发板SoundPi,至此,国内再一名巨头加入智能音箱大战。迄今为止,国内战场上的巨头有阿里、京东、腾讯、百度、小米、科大讯飞等,国外则有苹果、微软、亚马逊、谷歌、脸书、三星等,这些巨头占据了全球市值的排名榜,同时发力争夺未来人工智能时代的语音入口,甚至亚马逊和阿里率先不惜代价开启了补贴大战。这些全球巨头的激烈竞争,将对未来十年产生极其重要的影响,同时,这更是新一波的职业快速发展机会。 语音智能当前的核心关键是声学问题和语义理解,随着市
“AI+IoT”将是未来的风口,各种应用和商机将成井喷式增长,国内外各大互联网巨头早已提前布局AI+IoT的战略,这同时也是恩智浦的核心战略之一。AI+IoT技术的应用,大到汽车和电视,小到灯泡、闹钟,都可以使用AI的控制技术。
这两天发现朋友圈被Google开源深度学习系统TensorFlow的新闻刷屏了。这当然是一个很好的消息,尤其对我们这种用机器学习来解决实际问题的工程师来说更是如此。但同时很多人并不清楚听起来神乎其神的“TensorFlow”到底是什么,有什么意义。
▊《Kaldi语音识别实战》 陈果果 等著 电子书售价:44.5元 2020年3月出版 刚刚过去的十年是语音技术发展的黄金十年。2010 年前后,从谷歌公司发布第一个语音搜索应用、苹果公司发布第一个语音助手 Siri 开始,语音技术的发展转瞬进入了快车道。 语音技术的基础算法不断推陈出新,语音任务 Benchmark 持续被刷新;语音产品的应用也从一开始很小众的语音输入,逐渐渗透到人们生活的方方面面。 语音产业飞速发展,传统的语音技术教材已经满足不了该领域从业者的迫切需求。本书以目前流行的开源语音识别工具
技术的进步推动了语音界面的发展,通过机器学习工具的普及,使得更多的互联网连接产品能够比以往任何时候都更能倾听和回应我们的声音。许多人将会体验到新的语音设备带来的便利。 Mozilla(缩写MF或MoF
8月2日消息,自然语言处理领域顶级会议ACL2019在意大利弗洛伦萨继续召开。会上滴滴正式宣布开源基于深度学习的语音和自然语言理解模型训练平台DELTA,以进一步帮助AI开发者创建、部署自然语言处理和语音模型,构建高效的解决方案,助力NLP应用更好落地。
2015年,整个IT技术领域发生了许多深刻而又复杂的变化,InfoQ策划了“解读2015”年终技术盘点系列文章,希望能够给读者清晰地梳理出技术领域在这一年的发展变化,回顾过去,继续前行。 2015年,借助移动互联网技术、机器学习领域深度学习技术的发展,以及大数据语料的积累,自然语言处理(Natural Language Processing,简称NLP)技术发生了突飞猛进的变化。越来越多的科技巨头开始看到了这块潜在的“大蛋糕”中蕴藏的价值,通过招兵买马、合作、并购的方式、拓展自己在自然语言处理研究领域的业务
近年来AI技术发展速度迅猛,深入到生活中的方方面面,从手机APP到车载语音系统。今天小PP和大家一起仔细了解,AI技术中的语音技术在各场景的应用,并奉上对应模型~
【新智元导读】微软亚洲研究院常务副院长芮勇在《新智元:机器+人类=超智能时代》书中畅想人工智能发展6大阶段,详细介绍微软语音识别、图像识别、牛津计划等多项人工智能项目。芮勇指出,越来越多的科技公司都在开放或开源核心的人工智能技术。微软已经开放了很多人工智能技术,包括我在上文中提到的牛津计划,还包括Azure Machine Learning,以及不久前亚洲研究院开源的分布式机器学习工具包DMTK。我们不仅仅是开源某一个具体的算法,我们其实开源了一整套的分布式训练框架,使得任何别的机器学习的算法能在一个更大规
桔妹导读:8月2日消息,自然语言处理领域顶级会议ACL2019在意大利弗洛伦萨继续召开。会上滴滴正式宣布开源基于深度学习的语音和自然语言理解模型训练平台DELTA,以进一步帮助AI开发者创建、部署自然语言处理和语音模型,构建高效的解决方案,助力NLP应用更好落地。
AI 研习社按:本月 18 日,由美中技术与创新协会(Association of Technology and Innovation,ATI)主办的第一届“AI NEXT”大会在西雅图召开。本次会议的主要嘉宾包括:微软首席 AI 科学家邓力,微软院士黄学东,Uber 深度学习负责人 Luming Wang 等。华人之外,还有亚马逊 Alexa 首席科学家 Nikko Strom,微软小娜架构师 Savas Parastatidis 等业内知名专家。 大会主题是“探索 AI 的潜力,把 AI 技术应用于实用
杰出的科学家和工程师们一直在努力地给机器赋予自然交流的能力,语音识别就是其中的一个重要环节。人类对语音识别技术的研究从上世纪 50 年代开始就未曾停止。在长期的探索中,一次次重大的技术突破逐渐让语音识别技术进入我们的日常生活。今天的 ASR 技术水平是前所未有的。高性能的语音识别给我们带来了更多的生活体验,我们拥有了可以对话的智能数字助手;它也在逐步改善相关领域的生产力水平。
在人工智能产业中,应用层是一个极大的部分,是人工智能技术最终的目的地。除了机器人、无人机和无人驾驶等硬件产品之外,人工智能的软件应用在单独商业化的同时,也在为这些硬件产品提供服务,像智能家居的语音控制
图神经网络「GNN」是近年来最火爆的研究领域之一,常用于社交网络和知识图谱的构建,由于具有良好的可解释性,现在已经广泛使用在各个场景当中。
AI科技评论按:本月 18 日,由美中技术与创新协会(Association of Technology and Innovation,ATI)主办的第一届“AI NEXT”大会在西雅图召开。本次会议的主要嘉宾包括:微软首席 AI 科学家邓力,微软院士黄学东,Uber 深度学习负责人 Luming Wang 等。华人之外,还有亚马逊 Alexa 首席科学家 Nikko Strom,微软小娜架构师 Savas Parastatidis 等业内知名专家。 大会主题是“探索 AI 的潜力,把 AI 技术应用于
在温正棋看来,鉴于开源等原因,智能语音的核心技术已经不存在太大差别,而他们相比之下的优势更多集中在业务服务能力及闭环技术的应用层面。 前段时间,亚马逊智能音箱Echo时而抽风的怪笑声令消费者“震惊”,虽然到底是什么原因造成的,我们目前尚不清楚。不过,我们可以确定的是,语音交互已经成为了人们智能生活中不可或缺的一个因素。 选择极限元 他的初衷就是把研究转化为产品应用到市场 “我自己是中科院自动化所模式识别国家重点实验室的副研究员,就想把研究做成产品运用到市场上,这是我当初加入极限元的初衷。”极限元CEO温正
当你想要知道明天的天气情况时,可以直接问家里的智能音箱;当你开车时想要切换导航路线,可以直接说出新的目的地;当你感觉空调不够凉爽的时候,也可以直接告诉空调把温度调低一些……
在本文中,我们提供了一个用于训练语音识别的RNN的简短教程,其中包含了GitHub项目链接。 作者:Matthew Rubashkin、Matt Mollison 硅谷数据科学公司 在SVDS的深度
就目前的 AI 来看,判断某项工作是不是会被机器替代,有俩前提,大前提:可以获得足够的有效数据(能自动生成数据则无敌),也就是说机器有快速进化的基础;小前提:人本身的进化过程没有见过大量的数据,也就是说人的起点并不高。考虑到“自动生成数据”这个关键,我冥思苦想以后发现,还真没准是编程。
可靠、稳健、可泛化的语音识别是机器学习领域一个持续的挑战。通常,训练自然语言理解模型需要包含数千小时语音和数百万(甚至数十亿)单词文本的语料库,以及能够在合理时间内处理这些数据的强大硬件。
最近在研究语音识别方向,看了很多的语音识别的资料和文章,了解了一下语音识别的前世今生,其中包含了很多算法的演变,目前来说最流行的语音识别算法主要是依赖于深度学习的神经网络算法,其中RNN扮演了非常重要的作用,深度学习的应用真正让语音识别达到了商用级别。然后我想动手自己做一个语音识别系统,从GitHub上下载了两个流行的开源项目MASR和ASRT来进行复现,发现语音识别的效果没有写的那么好,其中如果要从零来训练自己的语言模型势必会非常耗时。
【新智元导读】巨头都在争相开源,那么彼此之间会不会形成竞争?近日,火狐浏览器的所有者 Mozilla 开源了一个语音数据库,与谷歌所做的数据库高度类似。这篇文章比较了两家公司数据库的构成要素和数据搜集方法。文章认为,那些免费的音频资源更实用,甚至比那些大公司秘而不宣的数据集更有价值。 一个语音虚拟助理,比如Siri、Alexa、Cortana或者Google Home的表现,很大程度上是由驱动其的数据决定的。要训练这些程序来理解你正在说什么,首先要拥有大量关于人类对话的现实案例数据。 这让现有的语音识别公司
AI 开发者消息,当地时间 7 月 28 日至 8 月 2 日,自然语言处理领域顶级会议 ACL2019 在意大利佛罗伦萨召开,会上滴滴正式宣布开源基于深度学习的语音和自然语言理解模型训练平台 DELTA,以进一步帮助 AI 开发者创建、部署自然语言处理和语音模型,构建高效的解决方案,助力 NLP 应用更好落地。
在龚思颖看来,蓦然认知所要做的就是,基于NLP和NLU技术打造智能搜索引擎,自动连接服务,做内容与服务的分发。 在以联合创始人身份进入蓦然认知之前,龚思颖担任的是大疆北美地区人力资源及客户关系负责人。可以说,对于人工智能行业,她没有真正的进入过。也因此,在创始人戴帅湘找到她的时候,她虽然看好但也没有一口答应,而是拿着BP向周边的投资人和算法工程师朋友咨询了一圈,均得到了积极的反馈。 彼时,因为周边朋友的影响,龚思颖也动起了“进一步接触中国科技”的念头。多种因素交叉之下,她最终决定回国并加入蓦然认知。 图 |
参考: 语音识别系列︱用python进行音频解析(一) 语音识别系列︱paddlehub的开源语音识别模型测试(二)
本文主要针对中文语音识别问题,选用常用的模型进行 离线 demo 搭建及实践说明。
智能语音技术已经在生活中随处可见,常见的智能应用助手、语音播报、近年来火热的虚拟数字人,这些都有着智能语音技术的身影。智能语音是由语音识别,语音合成,自然语言处理等诸多技术组成的综合型技术,对开发者要求高,一直是企业应用的难点。
近日,阿里巴巴达摩院机器智能实验室语音识别团队,推出了新一代语音识别模型—— DFSMN,不仅被谷歌等国外巨头在论文中重点引用,更将全球语音识别准确率纪录提高至 96.04%(基于世界最大的免费语音识别数据库LibriSpeech)。
Kaldi 是一个开源的语音识别系统,由 Daniel Povey 主导开发,在很多语音识别测试和应用中广泛使用。但它依赖大量脚本语言,且核心算法是用 C++ 编写的,对声学模型的更新和代码调试带来一定难度。
领取专属 10元无门槛券
手把手带您无忧上云