首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

语音识别领域的最新进展目前是什么样的水准?

我记得有一次讲座中,黄学东博士回顾了语音识别领域的发展历程,并分享了微软在这一领域取得的一些最新突破。先看看今年《经济学人杂志》的封面故事——我们终于可以和机器讲话了。里面有一个很有名的图表总结了整个领域从1954年IBM科学家第一次进行机器翻译的探索,到2016年微软第一次在会话语音识别上达到人类水平的历史性突破。在几十年的历程中,有非常多优秀的公司在语音和语言领域进行了不懈地探索,终于在今天,达到了和人一样精准的语音识别,这是非常了不起的历史性突破。1982年我在清华做硕士论文时,做的就是语音识别。硕士毕业读博士时,我在计算机系方棣棠先生的带领下,继续做这方面的研究。很难想象在我的有生之年,我们能让计算机语音识别可以达到如此精准的水平。所以想跟大家分享一下,我们是怎样追求这个梦想,持之以恒,通过不懈的努力达到历史性突破的。再来人工智能包括感知和认知这两大块。可以毫无疑问地说,在感知这个领域,人工智能已经几乎达到人类同样的水平,但这当然是在特定任务的情况下。在认知领域,包括自然语音理解、推理、知识学习等,我觉得还差的很远。所以大家在说人工智能达到了前所未有的高度时,一定要搞清楚,说的是在认知领域还是在感知领域。

2015年,微软亚洲研究院率先在计算机视觉领域有了很大的突破。研究员们在当年的ImageNet图像识别挑战赛中使用了神经网络有152层的深度学习,这是非常了不起的突破。而去年微软在语音识别的Switchboard上再次取得重大突破,使得计算机的语音识别能力超过世界上绝大多数人,与人类专业高手持平。语言是人类特有的交流工具。今天,计算机可以在假定有足够计算资源的情况下,非常准确地识别你和我讲的每一个字,这是一个非常大的历史性突破,也是人工智能在感知上的一个重大里程碑。所以,我想简单回顾一下语音识别的发展历程。几年前我和JamesBaker,RajReddy合写了一篇文章。RajReddy是图灵奖得主,JamesBaker是第一个用马尔可夫模型做语音识别的人,当年创建了Dragon公司并一直担任CEO,我最年轻。所以文章可以说表达了我们三代人在语音领域过去40年里的一些追求。虽然文章发表在两年前,但现在看里面讲的很多东西已经过时了,因此可以看出这个领域的进展有多么神速。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180209A0VYIY00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券