前几天看到一个笑话,福建人和东北人玩成语接龙游戏。
福建人:心心相印
东北人:认贼作父
福建人:互相伤害
东北人:还能咋滴
当然也有H开头的“胡建”和H开头的“河兰”。地域辽阔也导致了各地语言的差别,比较特殊的就是方言。既让人哭笑不得又能让人茫然四顾一脸懵。
面对这样的客观情况,人工智能在语音识别会不会意识到这一点,提出解决方法呢?
人机对话的第一步,就是要让机器学会“听”和“说”。“听”是不断追求准确度。“说”则是要让大脑有人性、有人味。
作为“大脑”最基本的功能之一,实现“听”这一功能的语音识别技术研究经历了从标准模板匹配转向基于统计模型再到深度神经网络的过程。起初,辨识语音必经声学模型到音素模型,再到语言模型的多步骤转化。近年来,在大量语料和深度学习的训练下,这一步骤已经被极大简化,机器从输入到输出中自行生成程序,准确率有了大幅提升。“听”也就更清楚了。
2011年起步的语音识别 ,在2016 年的时候语音识别技术的准确率已经达到97%了。
2012-2016年的4年里,语音识别的准确率提升了近30%。即便有严重地方口音的普通话,每100句中语音也能毫无差别的识别出85句。按照可以听错一个字的标准来计算,语音识别的技术可以毫无差错的识别出98句。这个识别体系要做到方言识别,需要至少720小时的语料用于训练,从声音、内容到说话者,都要不断变化以提升系统的敏感度。
领取专属 10元无门槛券
私享最新 技术干货