大约一年前,中国移动以13.6亿人民币的代价获得了科大讯飞15%的股权,后者股价一路攀升,从不足30元到最高61元,成为一大牛股,市值高达240多亿人民币。而在刚刚过去的长假中,“云知声”也高调宣布获得金额为千万美金折合约1亿元人民币A轮融资。虽然其体量尚无法和科大相比,但这对沉寂一年的语音识别市场却是重大利好。 而同样涉足该领域的百度、腾讯、搜狗也正在加快技术迭代的脚步,作为战略级标配,语音技术在巨头眼中都格外重要。与国外巨头占领语音市场相似,业内普遍认为,受技术门槛的限制,语音市场创业窗口或已
毫无疑问近年来最具中国特色的科技发明非红包莫属,这一基于中国传统民俗,结合社交网络、移动支付等互联网技术的应用正在成为新的春节习俗。与两年前只有微信一家不同,今年互联网红包迎来众多巨头参战,BAT三大
作者:司明 【新智元导读】视频图像分析、人脸识别、语音识别、物流算法等人工智能前沿技术和养猪会碰撞出什么火花?AI落地养殖业的具体过程是怎样,散养-集中养殖-IT技术零星使用-全流程的人工智能技术的应
6月12日晚上,距离世界杯开幕只有两天时间,作为本届世界杯赞助商之一的vivo在上海发布重量级新机型vivoNEX。这款新机是今年2月底在MWC上展示的vivo APEX概念机的量产版,集成了不少黑科技——NEX对于vivo的价值有点像MIX对于小米的价值,大幅提升了手机品牌的科技感。
一、前言 6月27日,美国权威科技杂志《MIT科技评论》公布2017全球最聪明50家公司榜单。科大讯飞名列中国第一、全球第六。全世界排在科大讯飞前面企业分别是:英伟达、Spacex、亚马逊、23andme、Alphabet。 《MIT科技评论》认为,“科大讯飞旗下的语音助手是中国版的Siri,其可携带实时翻译器则是一款杰出的人工智能应用,克服了方言、俚语和背景杂音,可将汉语精准地翻译成十几种语言。科大讯飞在中国语音技术市场的占有率70%。”越来越多的人认为,语音识别将成为下一代交互革命的关键技术。 与此
说到语音识别、语音翻译、图像识别、人脸识别等等,现在已经非常非常非常普及了,看过‘最强大脑’的朋友,也应该对‘小度’这个机器人有所了解,战胜国际顶尖的‘大脑’- 水哥,(PS:内幕不知),那么今天,我们来看下关于语音识别,是如何做到的,Java又是如何识别语音的?如何转换语音?
我今天演讲主要分四个部分,第一个是分享语音识别概述,然后是深度神经网络的基础;接下来就是深度学习在语音识别声学模型上面的应用,最后要分享的是语音识别难点以及未来的发展方向。
今年5月,MarTech概念创始人Scott Brinker团队发布2022年全球「Martech Map」。疫情间接推动了Martech行业的发展,入选的全球MarTech服务商数量达到9932家,相较于2011年的150家,增长率达到了惊人的6521%。
从锤子科技发布会,到乌镇大会搜狗CEO王小川的演讲,语音识别和机器翻译技术成了万众瞩目的焦点。一夜之间,传统的键盘输入法似乎即将被颠覆,语音输入法技术真的有这么牛吗? 乌镇大会上,搜狗CEO王小川用自
10月中旬,乌镇智库联合网易科技、网易智能发布了《乌镇指数:全球人工智能发展报告(2016)》系列报告。报告介绍了人工智能的一系列热点问题,包括企业分布规模、投融资情况、研究成果、细分领域等,对人工智
作为一款以语音为媒介的社交软件,它的玩法非常简单。在每个房间有主持人、嘉宾、观众三种角色。主持人创建房间后,跟嘉宾聊天,观众可旁听,三种身份经主持人同意后还可转换,主播也可邀请观众上麦互动。他们以语音的形式进行交流,听后即焚。这便是典型的实时语音语聊房场景。
语音识别技术,也被称为自动语音识别Automatic Speech Recognition (ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。
智能语音技术已经在生活中随处可见,常见的智能应用助手、语音播报、近年来火热的虚拟数字人,这些都有着智能语音技术的身影。智能语音是由语音识别,语音合成,自然语言处理等诸多技术组成的综合型技术,对开发者要求高,一直是企业应用的难点。 飞桨语音模型库 PaddleSpeech ,为开发者提供了语音识别、语音合成、声纹识别、声音分类等多种语音处理能力,代码全部开源,各类服务一键部署,并附带保姆级教学文档,让开发者轻松搞定产业级应用! PaddleSpeech 自开源以来,就受到了开发者们的广泛关注,关注度持续上涨。
今年 2 月,中国人工智能公司出门问问联合西北工业大学推出了全球首个面向产品和工业界的端到端语音识别开源工具 ——WeNet。
8月份有幸收到雷锋网的邀请参加CCF-GAIR大会,金光闪闪的嘉宾团体和高大上的会议盛况自不必说。作为一个一直从事nlp技术和相关产品的工程师,这里写点个人的想法和收获。 主要分三部分:第一部分是人工智能擅长什么、不擅长什么;第二部介绍下参会大神们在机器学习、视觉等领域的工作;第三部分写了个人在如何做人工智能产品的思考。 __AI擅长什么,不擅长什么__ 牛津大学计算机科学系主任、Deep Mind-Oxford Partnership负责人Michael Wooldridge教授做了题为《Routes t
大家好,我是崔庆才。 想必大家在开发项目过程中可能或多或少用到语音识别、语音合成等相关技术,但又不知道哪家的服务好,而且有的收费还贼贵。尤其流式识别更是个难题。 今天我给大家推荐一个流式语音合成库,现在在 GitHub 上已经开源,而且已经斩获 3.1k star,效果很不错,同时这也是业界首个流式语音合成系统,推荐给大家试试。 具体详情大家可以了解下文哈,最后还有直播课,大家感兴趣欢迎扫码了解。 智能语音技术已经在生活中随处可见,常见的智能应用助手、语音播报、近年来火热的虚拟数字人,这些都有着智能语音技术
2016年3月,谷歌宣布向第三方开放语音识别技术,在语音识别市场再掀波澜。 谷歌将通过全新的“谷歌云语音应用程序界面”(Google Cloud Speech API)开放服务,初期将免费提供,后期暂未确定。这可能让谷歌与其他语音识别专业公司产生直接竞争。谷歌已对语音识别技术作出大量研发投入,目前可对超过80种语言进行语音识别。有鉴于此,竞争将非常激烈。 然而,规模较小的公司仍能在语音识别领域拥有独特优势。因为谷歌的重点并非生物识别方面的语音技术。而由于物联网将语音识别作为便利的用户界面,所以语音识别有可能
【新智元导读】国际知名市场研究公司Research and Markets 2016年5月4日发布报告《全球及中国语音产业报告,2015-2020》的修订版本。报告认为,随着语音在智能产业的应用不断加深,全球,以及中国的语音市场在接下来的5年当中仍将维持显著地增长,到2020年,全球语音市场规模预计将达到191.7亿美元。报告数据显示,尽管领头羊Nuance仍然占据着三成的市场份额,但是已经出现明显下滑趋势,其他科技巨头谷歌、微软、苹果和科大讯飞则获得了迅速的增长,全球市场份额分别为20.7%、13.4%、
AI科技评论按:4月9日,CITE 2017第五届深圳国际电子信息博览会盛大开幕。腾讯AI实验室主任张潼亮相峰会,并分享了三项内容:如何构建AI生态、AI时代的关键要素、腾讯AI Lab的研究和应用方向。 如何构建AI生态? 怎样构建AI生态呢?在AI Lab看来,有三个非常重要的因素。 第一个因素是我们希望能够建立一个纵向的政产学研用合作机制。如果进行顺利,这能够加快学校研究的产业化落地,为产品服务。腾讯 AI lab是企业里的研究机构,它有一个承上启下的作用,包括与产品的结合,与学校和政府的结合
【新智元导读】微软语音识别技术24年老将黄学东近日被评为“微软全球技术院士”,成功摘下这一微软技术的“桂冠”。 黄学东于1993年加入微软。1995年,黄学东最终把洪小文也拉入微软。黄学东还曾在Bing工作,一直跟随沈向洋博士。接受新智元的专访时,他谈到了去年微软对话语音识别词错率低至5.9%背后的故事。 同时,黄学东认为语音识别的下一个大难关是语义理解,目前看来最有希望的路线是 LSTM + Attention。 黄学东,微软语音识别技术 24 年老将,IEEE/ACM 双科院士,微软深度学习工具包CNT
【新智元导读】2016年12月18日,新智元百人峰会闭门论坛在微软亚洲研究院举行。云知声CEO黄伟在会上带来了《构建AI生态,技术和商业应该是一个良性循环 》的分享。黄伟认为:人工智能领域里面虽然BAT很重视AI,而且有了很强的人才团队,但是跟行业结合恰恰是BAT很难做到的,因为他们在上面。AI和IoT是新的一波机会。 以下是黄伟演讲实录。 大家下午好!今天前面杨总(新智元杨静)说了雾霾天出来做这样的交流其实都是真爱,前面二位老总介绍的一些微软包括海尔做的事情,我非常高兴的一点是,我们选择的方向都是对的,都
李先刚:我目前任职于滴滴出行AI Labs首席算法工程师,负责滴滴语音相关的技术和应用,关注的领域包括语音相关前沿算法(包括语音识别、说话人识别和自然语言处理等)和他们的产业应用(尤其是在出行场景中的应用)。
近日,著名的语音识别与图像处理解决方案提供商Nuance Communications(以下称Nuance)宣布,已经以2.15亿美元完成了对客户服务与互动解决方案提供商TouchCommerce的收
在位于合肥规划中三到四平方公里的中国语音产业园,建筑机械群正在紧张作业。在竣工的讯飞大厦里,两千多名科大讯飞员工围绕“声音”忙碌着。在移动互联网的风口,兼具软件和互联网公司特征的讯飞,站在了2B和2C市场的十字路口,前途看上去机会重重但又充满凶险。 近期,受科大讯飞邀请,笔者与一些媒体人前往合肥,对讯飞的技术、处境,以及讯飞怎么看待语音市场的竞争态势与格局,做了采访与了解。 一、移动语音市场要爆发了!是真的吗? 今年是中国语音市场最热闹的一年。创业新秀云知声刚获得1500万美元投
最近Bot这种虚拟机器人成为了国际新热点,但于有些人而言,它们已经做了十几年。 席卷全球的Bots风让语义识别渐渐浮出水面 长期以来,语音交互领域的公司,我们对语音识别的公司(诸如科大讯飞,云之声,思必驰)非常熟悉,但对于只专注于其背后更深一个层次的语义识别公司却知之甚少,当然这并不是我们孤陋寡闻,而是语义识别的属性决定它会更多地躲在背后干实事。 以本次在贵阳数博会发布2.0平台的小i机器人CEO袁晖的比方为例,“当用户对Siri讲一句话时,语音识别分析出这句话说的是什么,语义识别分析出这句话是什么意思。语
摘要总结:Mozilla开源语音识别模型和世界第二大语音数据集,以帮助研究人员进行语音识别研究。其中包括DeepSpeech项目,一个由Mozilla开发的语音到文本转换引擎,以及Common Voice项目,这是一个由全球公众贡献的语音数据集。
我一定是对这颗i.MX RT的MCU太过于偏爱,之前已经在上面做了一个语音识别技术方案(见《AIoT的语音识别方案》),但总觉得我们还能挑战一下更复杂的应用,对于高性能和高运算量最有挑战的还是在视觉方面的应用,目前最广泛应用和接受的还是人脸识别,所以打算把下一个目标放在人脸识别上面。
舒石、若朴 发自 凹非寺 量子位·QbitAI 报道 全球最知名的孵化器Y Combinator,近日举行了最新一期的DemoDay(第24次),人工智能成为最热门的标签之一。 这批103个项目从7200多家创业公司中挑选而来,来自22个国家和地区。 根据量子位的统计,此次DemoDay共有21个人工智能创业项目。主要分布于医疗、金融、NLP、语音识别、计算机视觉等不同的行业和领域。人工智能热潮的裹挟下,创业已经越来越跟人工智能相关,希望这次DemoDay能对国内创业者有所启示。 YC的DemoDay堪称是
9月11日, 在腾讯全球数字生态大会AI专场上,腾讯云AI计算机视觉产品中心总经理王磊透露:“通过第三方数据库统计显示,腾讯人工智能中国专利申请超过5600件,授权超过1200件,AI领域中国专利申请总量位于中国互联网公司第一。” 王磊表示:“作为腾讯AI能力的商业化出口,腾讯云一直在推动AI技术与各行业的结合,持续释放AI应用价值,并取得了一系列成果。目前,腾讯云AI公有云日处理图像超30亿张,日处理语音超250万小时,日处理自然语言超千亿句。服务全球用户数超过12亿,客户数超过200万。腾讯云已经
Voicera获1450万美元融资,智能语音真的前途无限吗?
作者 | 刘燕 Nuance 已是没落的语音识别巨头,微软欲花 160 亿美元买下它,这笔交易值吗? 1微软拟斥资 160 亿美元收购 Nuance 北京时间 4 月 12 日,根据彭博社的报道,微软正在就收购全球最大语音识别公司 Nuance Communications Inc. 进行深入谈判。据悉,微软可能愿意为收购这家公司支付高达 160 亿美元(1049 亿元人民币)的收购价格。 报道称,两家公司之间的谈判“正在进行中”,尚未最终敲定。CNBC 援引知情人士消息称,交易可能最早于周日签署,最早于周
是磁带、光盘、录音笔、手机等录音工具,还是会议、访谈、沟通、演唱等场景?是键指如飞的神奇速录师,还是方便快捷的语音转文字AI小工具?
技术的进步推动了语音界面的发展,通过机器学习工具的普及,使得更多的互联网连接产品能够比以往任何时候都更能倾听和回应我们的声音。许多人将会体验到新的语音设备带来的便利。 Mozilla(缩写MF或MoF
素来被认为是“人脸识别独角兽”——或者更宽泛一点说,“计算机视觉独角兽”的依图科技,公布了他们中文语音识别技术的最新突破,以及令人瞩目的产业布局。
介绍了一种以ARM为核心的嵌入式语音识别模块的设计与实现。模块的核心处理单元选用ST公司的基于ARM Cortex-M3内核的32位处理器STM32F103C8T6。本模块以对话管理单元为中心,通过以LD3320芯片为核心的硬件单元实现语音识别功能,采用嵌入式操作系统μC/OS-II来实现统一的任务调度和外围设备管理。经过大量的实验数据验证,本文设计的语音识别模块具有高实时性、高识别率、高稳定性的优点。本文引用地址:http://www.eepw.com.cn/article/201706/347845.htm
选自Mozilla 机器之心编译 参与:刘晓坤 Mozilla 对语音识别的潜能抱有很大期望,但这一领域目前仍然存在对创新的明显阻碍,这些挑战激发这家公司启动了 DeepSpeech 项目和 Common Voice 项目。近日,他们首次发布了开源语音识别模型,其拥有很高的识别准确率。与此同时,这家公司还发布了世界上第二大的公开语音数据集,该数据集由全球将近 20000 人所贡献。 开源语音识别模型:https://hacks.mozilla.org/2017/11/a-journey-to-10-word
【导读】语音识别自半个世纪前诞生以来,一直处于不温不火的状态,直到 2009 年深度学习技术的长足发展才使得语音识别的精度大大提高,虽然还无法进行无限制领域、无限制人群的应用,但也在大多数场景中提供了一种便利高效的沟通方式。本篇文章将从技术和产业两个角度来回顾一下语音识别发展的历程和现状,并分析一些未来趋势,希望能帮助更多年轻技术人员了解语音行业,并能产生兴趣投身于这个行业。
这家以“图”起家的AI公司,现在宣布修个“语音”双学位,而且出场便是学霸的方式——随手甩出一张摸底考第一名成绩单。
10月13日,央视点名曝光科大讯飞非法侵占安徽扬子鳄国家级自然保护区,以建设培训基地为名开发房地产。
2017年5月2日,腾讯宣布任命语音识别技术顶级专家俞栋博士为AI Lab(人工智能实验室)副主任,并成立美国西雅图AI实验室。 俞栋博士将负责西雅图AI实验室的运营及管理,推动腾讯在语音识别及自然语言理解等AI领域的基础研究。 这是近段时间以来,腾讯在人工智能领域的第三个大动作。 一个多月前的3月19日,由腾讯AI Lab研发的围棋AI绝艺,在日本UEC杯围棋大赛中夺得冠军。这是低调运行近一年后,腾讯AI Lab首次对外展示研究成果。 绝艺团队参加UEC比赛时 就在绝艺夺冠后不久,3月23日,腾讯
【新智元导读】云知声 CEO 黄伟在 世界人工智能大会 AI WORLD 2016 发表演讲《AI 已来,未来已来》,分享了云知声在技术、产品、商业上的思考。黄伟在演讲中提到,AI 正从感知迈入认知阶段,交互方式的改革让智能语音市场前景无限。黄伟以云知声在智能语音、智能家居、智能车载等领域的技术和应用落地为例,介绍了深度学习、大数据和云计算的结合如何促进 AI 产业发展。最后,黄伟呼吁 AI 从业者,要通过技术和商业上的努力,真正把人工智能技术带入生活。 【黄伟】:大家下午好!今天非常高兴能够参加这么一个
2017年5月2日,腾讯宣布任命语音识别技术顶级专家俞栋博士为AI Lab(人工智能实验室)副主任,并成立美国西雅图AI实验室。 俞栋博士将负责西雅图AI实验室的运营及管理,推动腾讯在语音识别及自然语言理解等AI领域的基础研究。 这是近段时间以来,腾讯在人工智能领域的第三个大动作。 一个多月前的3月19日,由腾讯AI Lab研发的围棋AI绝艺,在日本UEC杯围棋大赛中夺得冠军。这是低调运行近一年后,腾讯AI Lab首次对外展示研究成果。 就在绝艺夺冠后不久,3月23日,腾讯宣布任命人工智能领域顶尖
腾讯AI Lab是腾讯企业级人工智能实验室,于2016年4月在深圳成立,目前其在中国和美国有70位世界级科学家及300余位经验丰富的应用工程师。
高尔夫电子练习器、GoogleGlass、车联网车检大师,这些高大上的新玩意,出现在广州的一次小沙龙上。 3月15日,一群热衷智能硬件的人齐聚广州TIT创意园,有智能硬件开发先驱广州杰升科技CEO Jack,有中国Google Glass领先开发者GlassX团队的CTO Leap,有来自车联网、电商、运营商从业者,还有一些科技媒体作者。平时这些硬件积极分子都在一个叫“4G山寨会”的微信群就4G、移动互联网和智能硬件激烈碰撞,现在他们面对面。 连接让“物”和云产生化学反应 杰升科技
语音识别技术即Automatic Speech Recognition(简称ASR),是指将人说话的语音信号转换为可被计算机程序所识别的信息,从而识别说话人的语音指令及文字内容的技术。目前语音识别被广泛的应用于客服质检,导航,智能家居等领域。树莓派自问世以来,受众多计算机发烧友和创客的追捧,曾经一“派”难求。别看其外表“娇小”,内“心”却很强大,视频、音频等功能通通皆有,可谓是“麻雀虽小,五脏俱全”。本文采用百度云语音识别API接口,在树莓派上实现低于60s音频的语音识别,也可以用于合成文本长度小于1024字节的音频。 此外,若能够结合snowboy离线语音唤醒引擎可实现离线语音唤醒,实现语音交互。
---- 新智元报道 编辑:桃子 【新智元导读】3人团队如何用AI改变语音市场? 三人打下的专注语音技术独角兽,如今又成功融资了。 前段时间,美国音频API平台AssemblyAI完成了3000万美元的B轮融资。 这是一个可以自动将音频和视频文件以及实时音频流转换为文本的平台。 AssemblyAI的创始人兼首席执行官Dylan Fox表示, 「我们正在构建用于定制化语音识别的API,开发人员可以用我们的API 将语音转录成文字或者创建自己的语音接口,而且他们不需要做任何数据上的挖掘和训练,我们
《钢铁侠》里的AI管家贾维斯,想必大家都不陌生,这样可以像人一样和自己对话的AI管家,我们是不是都想拥有一个? 贾维斯之所以可以像人一样和我们对话,必然离不开语音识别技术的加持。 如今,从语音输入法到智能家居等,生活中到处都可以通过语音进行人机交互。 拥有一个贾维斯的梦想好像越来越近了! 为了让这个梦想更近一步,学习好语音识别技术势在必行! 今天,博文菌就给大家推荐一本语音识别领域的扛鼎之作——《人工智能:语音识别理解与实践(精装版)》,该书被列入“国家出版基金支持项目”,并入选为《人工智能出版工程》系列丛
7 月 12 日-7 月 14 日,2019 第四届全球人工智能与机器人峰会(CCF-GAIR 2019)于深圳正式召开。峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办,深圳市人工智能与机器人研究院协办,得到了深圳市政府的大力指导,是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流博览盛会,旨在打造国内人工智能领域极具实力的跨界交流合作平台。
在人工智能的辉煌进程中,语音识别技术无疑占据了一个至关重要的地位。从最初的简单命令识别到今日能理解复杂语境的智能助手,语音识别技术已经深入人类生活的各个角落。它不仅改变了我们与机器交流的方式,更开启了一个全新的互动时代。
领取专属 10元无门槛券
手把手带您无忧上云