Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >语音识别——ANN加餐

语音识别——ANN加餐

作者头像
企鹅号小编
发布于 2018-01-03 01:50:46
发布于 2018-01-03 01:50:46
6K0
举报
文章被收录于专栏:人工智能人工智能

Dear junqiang:

Hello.

昨天学习了语音识别的基础知识,早上起床马不停蹄写了BP网络后,把语音识别的相关方法也写出来咯。

自己也在科大讯飞的语音识别组工作过将近2个月,语音识别是个很苦很酷的事情,讯飞的日子很丰富,依稀记得那个价值30万的讯飞听见产品抱在自己手上的“恐怖感觉”和“紧张刺激”。

纪念一下:

讯飞18岁,bingo~

接下来说一下语音识别,从以下几个方向展开(注意只是简单科普,具体写代码左转去Google):

语音识别的基本原理

语音识别基本原理

声学模型

语言模型

语音转写技术路线

基本分类

第三代语音识别框架

口语化和篇章语言模型技术

远场语音识别问题及其解决方案

语音转写后处理

语音转写个性化方案(未来)

我就非常粗暴的简单介绍:

———— 语音识别基本原理 ————

语音识别是门多学科的技术,简单说就是把“语音”转换成“文字”,主要分为ASR(Automatic Speech Recognition)和STT(Speech To Text)两大技术。

语音识别就如同“机器去读谱”

声音采集——>频率——>端点检测——>声学模型——>语音模型

频率:麦克风采集声音经过计算机处理得到“频率”,计算机上直观显示为“频率读谱”;

端点检测:识别频谱中哪些是语音段(有说话),哪些是静寂段(没有说话),即可准确识别出“哪些片段有说话”。

声学模型:即建模,把语音信号与拼音串(提前训练得出)建立联系。即可识别出“pinyin串”。

语音模型:也是建模,把拼音串与文字串建立联系。即可识别出“词串”。

上面说的几种模型如下(不懂具体没关系,大概知道有什么就好,后面具体说):

声音模型(Acoustic Model、AM)

这个是对发出的声音建模;

词W发音时对应生成的特征X向量的概率;

主要的框架有GM-HMM (高斯模糊-隐马尔可夫模型)、 DNN-HMM(深度神经网络-隐马尔可夫模型)

语音模型(Language Model、LM)

连续词串的建模,发音串对应某个词串的概率(累死于你拼音输入法输入拼音,出来一堆候选项);

需灵活的模型对所有可能出现的结果来进行描述;

主要的框架有N-Gram、RNN(递归神经网络)

解码(Decoding)

从声学模型与语音模型建立的庞大解空间向量中产生出概率最大的模型。

解空间:解空间是指齐次线性方程组所有解的集合构成一个向量空间(by百度百科)

下面对这几个模型详细介绍一哈~

声学模型

声学模型就是判断声音读谱的每一帧属于什么音素。

音素:

“声学建模”的大概过程如下,这个过程很简单,具体细节不必理解:

为了解决帧之间组合产生的混乱情况,发展出了各式解决办法 —— 语音识别框架。

第一代语音识别框架

这一代框架是HMM-GMM模型,HMM即隐马尔可夫模型,把“音素”转化到“状态”。这个模型解决这个过程中的概率选择。GMM即高斯混合模型,是整个框架的基础。

HMM-GMM框架分为五层。分别是:原始输入语音层、特征状态序列层、HMM模型层、声韵母序列层、词序列层。

原始输入语音层: 即为原始输入的频谱。

特征状态序列层:通过前面说到的Mel滤波器将频谱转为状态序列S1、S2、Sn

HMM模型层:将音素进行计算,转化为声韵母。

声韵母序列层:由HMM转化而来的声韵母序列的集合。

词序列层:这一系列声韵母转化为特定的词片段。

这是原始的第一代技术,后来逐步发展,又发展出来了第二代语音识别框架。

第二代语音识别框架

这一代的特点是把第一代的GMM替换为了DNN(深度神经网络)。

所有的状态都可以用一个模型来建模,共享一个输出 。由于DNN是分布式部署的,可以同时训练某个音素(比如“a”)及其反例。正反结合使得识别准确率更高。

基于HMM-RNN框架

DNN模型:

RNN模型:(有了中间的反馈)

由于RNN是前一时刻的隐层节点的输出作为当前时刻该隐层的输入,让这个网络有了“记忆的能力”,同时如果采用双向的反馈,也能“预测未来输出”。

由于语音输入是一个时序性很强的数据,所有RNN由于其“记忆”的天然优势,使得能很好地适用于这些语音的声学建模。

后来,当前也有使用CNN结合的框架,这也可以说是第三代技术吧。

第三代语音识别框架

这中模型中,结合了CNN(卷积神经网络),CNN各层所提取特征从局部到整体,降低了学习难度,减少了模型的尺寸大小。因为CNN原是用于图像识别的,有很好地记忆局部以及适应局部偏移的特性。

经过声学建模,频谱就会转变为音素序列集合,然后通过语言模型,就可以转为词序列。

语言模型

语言模型即是将“pinyin”转为“词串序列”。这个语言模型也有几代技术的更新迭代。

N-Gram结构模型

前期使用的是N-Gram策略。基本是通过前一个词的概率,计算后一个词的概率。人的常用语和词是有概率分布的咯,就和常用汉字一样哈。

但是由于N-Gram的建模能力有限,只能“看到”前面的三四个词,而且从来没有出现过的词是无法识别的,由于存在这些问题,故提出了RNN结构来优化。

RNN结构的语言模型

RNN模型能将“历史信息”保存到隐层中去,理论上能保存无限长的历史记录;

输入W(t),当前词是Wi,用V维的0-1向量表示;

输出为y(t)为各个词Wj的概率;

将当前的V维音素向量输入,与先前的S(t-1)向量混合计算,生成当前的V维S(t)词串,并输出y(t)即词串中各个词的概率向量。

声音模型和语言模型都需要大量的数据喂养来建模,在通过解码技术后,方可使用。这也就是大数据下语音翻译技术有了长足进步的一方面原因。

———— 语音转写技术路线 ————

有了上述声学建模和语言建模的基础,我们来说一下最常接触到的“语音转写”。语音转写就是把语音转为文字。

语音转写分为:语音听写和语音转写两大类。

按照学术界的分类方法:

语音听写(Dictation):实时地语音识别

语音转写(Transcription):非实时地语音识别

按照工业界的分类方法:

语音听写:面向人机对话的系统,比如语音输入法

语音转写:面向人人对话的系统,比如会议转写系统,我原先在的“讯飞听见”部门就是这个方向的。

介绍一下当前热门的第三代语音识别框架模型

第三代语音识别框架

这是End-End的系统,即输入语音频谱,最后直接输出文字,无需其他系统的参与,实现了声学模型和语言模型的混合。基于Enc-Dec框架(这是啥?你想知道,我也不懂,还需学习…)

这个模型结合了负向和正向的识别,使得准确率能够大幅提高。

第三代的语音转写技术识别率已经很高,在普通话情况下基本可以识别准确,但当前也存在一些问题。

口语化和篇章语音模型技术

人在说话时,会带入口语化词、回读、重读“嗯啊”等无意义词汇。

可以采用“加噪训练”,即在训练语言模型时就人为刻意地加入这些“noise”进行训练,可以使得最后的口语识别率大大提高。同时由于RNN的记忆优势,也可以采用上下文结合分析的方式,即“篇章语音模型技术”来更加准确地判断。

远场语音识别问题

远场是说我们距离收音的设备距离较远,会产生一系列的噪声问题,如混响、背景噪声、人声干扰、回声等噪声。

混响:

如何解决远场语音识别问题?

工业界如何解决远场问题呢?工业界普遍采用麦克风阵列技术+深度学习 来解决问题。

麦克风阵列:

麦克风阵列 + 深度学习 的解决方式:

在上述的方式后,即可解决语音转写。但即使这个过程的准确率百分百准确,最后的文章的阅读性也是极差的,我们说的话如果一字不差的写出来,无法想象…(震惊)

这时候,口语如何更好地处理 —— 语音转写后处理技术,解决口语 与 用户理解的书面语之间的转换。

语音转写后处理技术

这个技术基本的过程:断句——>文本顺滑、口语规整——>标点——>分段

断句:根据习惯,将字符串分成不同子句。

文本顺滑:去除语义词、重复词、口语化词、无意义词等。

标点:预测标点“, 。 ! ?……”

预测分段:根据前后文语义来分段。

———— 总结 ————

语音转写涉及到了CNN(更好地掌握宏观)、DNN(更好地降噪和处理)、RNN(更好地识别声学模型),是现在神经网络当前热门技术的综合应用,十分好玩。

好,结束,吃饭。

Sincerely

俊强

2017年12月9日 8:19:07

学习内容来自讯飞听见及网络,整理简化得。

本文来自企鹅号 - 全球大搜罗媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文来自企鹅号 - 全球大搜罗媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
NLP入门之语音模型原理
这一篇文章其实是参考了很多篇文章之后写出的一篇对于语言模型的一篇科普文,目的是希望大家可以对于语言模型有着更好地理解,从而在接下来的NLP学习中可以更顺利的学习. 1:传统的语音识别方法: 这里我们
云时之间
2018/04/11
1.5K0
NLP入门之语音模型原理
《语音信号处理》 语音识别章节 读书笔记
两本书,《语音信号处理》赵力编和《语音信号处理》韩纪庆编。强烈推荐韩纪庆版本,知识点很全面,可以作为语音识别的入门中文书籍,章节很也短,很快就入门了。
全栈程序员站长
2022/09/01
5620
《语音信号处理》 语音识别章节 读书笔记
从GMM-HMM到DNN-HMM
首先,如下图所示是一个常见的语音识别框架图,语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。这里我们要探讨的GMM-HMM模型属于其中的声学模型。
小小杨
2021/10/13
1.9K0
语音识别技术的发展与未来趋势:深度学习、端到端建模与多模态融合
语音识别(Speech Recognition)技术是指将口述或语音信号转化为文本或命令的自动化过程。随着深度学习技术的快速发展,语音识别取得了长足的进步,成为人机交互、智能助理和语音控制等领域的核心技术之一。本文将详细介绍语音识别技术的发展历程,重点介绍了深度学习、端到端建模以及多模态融合等技术在语音识别领域的应用,并展望了未来的发展趋势。
网络技术联盟站
2023/07/04
1.1K0
语音识别技术的发展与未来趋势:深度学习、端到端建模与多模态融合
从不温不火到炙手可热:语音识别技术简史
【导读】语音识别自半个世纪前诞生以来,一直处于不温不火的状态,直到 2009 年深度学习技术的长足发展才使得语音识别的精度大大提高,虽然还无法进行无限制领域、无限制人群的应用,但也在大多数场景中提供了一种便利高效的沟通方式。本篇文章将从技术和产业两个角度来回顾一下语音识别发展的历程和现状,并分析一些未来趋势,希望能帮助更多年轻技术人员了解语音行业,并能产生兴趣投身于这个行业。
AI科技大本营
2019/08/23
1.7K0
从不温不火到炙手可热:语音识别技术简史
【AIDL专栏】陶建华:深度神经网络与语音(附PPT)
“人工智能前沿讲习班”(AIDL)由中国人工智能学会主办,旨在短时间内集中学习某一领域的基础理论、最新进展和落地方向,并促进产、学、研相关从业人员的相互交流。对于硕士、博士、青年教师、企事业单位相关从业者、预期转行AI领域的爱好者均具有重要的意义。2018年AIDL活动正在筹备,敬请关注公众号获取最新消息。
马上科普尚尚
2020/05/14
1.4K0
【AIDL专栏】陶建华:深度神经网络与语音(附PPT)
机器语音识别技术发展脉络概览 | 文末有彩蛋
通常我们说到语音识别技术的时候,指的是整个语音对话系统,如图所示,语音对话系统通常包括四个主要组成部分的一个或多个:语音识别系统将语音转化为文本、语义理解系统提取用户说话的语义信息、文字转语音系统将内容转化为语音、对话管理系统连接其他三个系统并完成与实际应用场景的沟通。所有这些部分对建立一个成功的语音对话系统都是很关键的。
用户7623498
2020/08/04
1K0
机器语音识别技术发展脉络概览 | 文末有彩蛋
10小时训练数据打造多语种语音识别新高度
本文联合撰写: 腾讯:吕志强,颜京豪,胡鹏飞,康健,阿敏巴雅尔 导语|在刚刚结束的NIST OPENASR评测中,TEG AI语音联合清华大学,刷新世界小语种语音识别比赛6项第一。从2000年开始,NIST组织的RT(英文语音识别),LRE(语音语种识别),SRE(语音说话人识别),OPENKWS(语音关键词识别)等比赛一直是语音届的标杆竞赛,其组织比赛方向也可以看出目前学术和工业界的语音研究发展方向。长期以来,NIST组织的语音比赛受到了来自世界一线的研究单位支持与参与。而2020年新增的OPENASR
腾讯高校合作
2021/01/07
1.7K0
GMM-HMM模型 vs. DNN-HMM模型 vs. DNN-CTC模型 | 语言模型之战 | 老炮儿聊机器语音 | 4th
随着语音识别技术越来越热,声学模型的训练方法也越来越多,各种组合和变化也是层出不穷,而随着深度学习的兴起,使用了接近30年的语音识别声学模型HMM(隐马尔科夫模型)逐渐被DNN(深度神经网络)所替代,模型精度也有了突飞猛进的变化,其中声学模型模型结构经历了从经典的GMM-HMM,到DNN-HMM,再到DNN+CTC的转变,本文列出了其中的常见模型,权当是一篇导读性质的文章,供大家学习时参考。
用户7623498
2020/08/04
2.1K0
GMM-HMM模型 vs. DNN-HMM模型 vs. DNN-CTC模型 | 语言模型之战 | 老炮儿聊机器语音 | 4th
学界 | 词错率2.97%:云从科技刷新语音识别世界纪录
云从表示,这已是云从在近半年以来第二次宣布刷新世界纪录。今年 4 月,云从科技跨镜追踪技术(ReID)技术在 Market-1501,DukeMTMC-reID,CUHK03 三个数据集刷新了世界纪录,其中最高在 Market-1501 上的首位命中率(Rank-1 Accuracy)达到 96.6%,让跨镜追踪技术(ReID)技术在准确率上首次达到商用水平。
机器之心
2018/12/05
7060
《语音信号处理》整理[通俗易懂]
说话的声音(声带震动)和其他声音相比,有独特的时域和频域模式。声带的震动产生基频(fundamental frequency),口腔共振(the pharyngeal and oral resonance cavities)等产生高频谐波
全栈程序员站长
2022/07/21
1.9K0
《语音信号处理》整理[通俗易懂]
EeSen、FSMN、CLDNN、BERT、Transformer-XL…你都掌握了吗?一文总结语音识别必备经典模型(二)
 机器之心专栏 本专栏由机器之心SOTA!模型资源站出品,每周日于机器之心公众号持续更新。 本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。 本文将分 3 期进行连载,共介绍 17 个在语音识别任务上曾取得 SOTA 的经典模型。 第 1 期:NNLM、RNNLM、LSTM-RNNLM、Bi-lstm、Bi-RN
机器之心
2023/02/23
8620
EeSen、FSMN、CLDNN、BERT、Transformer-XL…你都掌握了吗?一文总结语音识别必备经典模型(二)
独家 | 一文读懂语音识别(附学习资源)
一、前言 6月27日,美国权威科技杂志《MIT科技评论》公布2017全球最聪明50家公司榜单。科大讯飞名列中国第一、全球第六。全世界排在科大讯飞前面企业分别是:英伟达、Spacex、亚马逊、23andme、Alphabet。 《MIT科技评论》认为,“科大讯飞旗下的语音助手是中国版的Siri,其可携带实时翻译器则是一款杰出的人工智能应用,克服了方言、俚语和背景杂音,可将汉语精准地翻译成十几种语言。科大讯飞在中国语音技术市场的占有率70%。”越来越多的人认为,语音识别将成为下一代交互革命的关键技术。 与此
数据派THU
2018/01/30
2.6K0
独家 | 一文读懂语音识别(附学习资源)
张海腾:语音识别实践教程
作为智能语音交互相关的从业者,今天以天池学习赛:《零基础入门语音识别:食物声音识别》为例,带大家梳理一些自动语音识别技术(ASR)关的知识,同时给出线上可运行的完整代码实践,供大家练习。
Datawhale
2021/06/01
2.6K0
张海腾:语音识别实践教程
王尔玉:语言与语义识别的技术发展与趋势
12月15日,由腾讯云主办的首届“腾讯云+社区开发者大会”在北京举行。本届大会以“新趋势•新技术•新应用”为主题,汇聚了超40位技术专家,共同探索人工智能、大数据、物联网、小程序、运维开发等热门技术的最新发展成果,吸引超过1000名开发者的参与。以下是大数据AI分会场的演讲内容,稍作整理,分享给大家。
腾讯云开发者社区技术沙龙
2018/12/24
2.6K0
王尔玉:语言与语义识别的技术发展与趋势
[语音识别] 单音素、三音素、决策树
以前的音标现在也可以叫音素,而且现在正广泛的把音标叫音素。 每一种语言中的音素都是不一样的,即使是同种语言中,方言的音素也是不一样的。音素应该与人体的发音严格的区分开,因为音素是指一个有规律的有限的发音系统而人体的发音则是无限的。 以英语为例,英语共有48个音素,其中元音20个,辅音28个。英语辅音和元音在语言中的作用,就相当于汉语中的声母和韵母。记录语音音素的符号叫做音标。音标可以分为两种,即严式音标和宽式音标。一般学习语言使用宽式音标即可,比如广泛运用的英语国际音标。而对于语音、音韵等专业研究来说,用严式音标则最大可能地记录任意一种语言的语音。 音素是构成音节的最小单位或最小的语音片段,是从音质的角度划分出来的最小的线性的语音单位。在语音学与音韵学中,音素一词所指的是说话时所发出的声音。音素是具体存在的物理现象。国际音标(这里指的是国际语音协会制定的国际音标,注意同英语国际音标区分)的音标符号与全人类语言的音素具有一一对应。
MachineLP
2020/03/25
3.1K0
人工智能 - 语音识别的技术原理是什么
转自:https://www.zhihu.com/question/20398418/answer/18080841
陈哈哈
2020/07/06
3.1K1
人工智能 - 语音识别的技术原理是什么
李理:递归神经网络RNN扼要
本系列文章面向深度学习研发者,系统讲解了深度学习的基本知识及实践,以Image Caption Generation为切入点,逐步介绍自动梯度求解、卷积神经网络(CNN)、递归神经网络(RNN)等知识点。本文为第14篇,RNN系列第1篇。作者:李理 目前就职于环信,即时通讯云平台和全媒体智能客服平台,在环信从事智能客服和智能机器人相关工作,致力于用深度学习来提高智能机器人的性能。 1. 内容简介 前面我们介绍了CNN,这对于Image Caption来说是基础的特征提取部分,或者说是对图像的“理解
用户1737318
2018/06/06
5710
语音识别流程梳理
其中,声学模型主要描述发音模型下特征的似然概率,语言模型主要描述词间的连接概率;发音词典主要是完成词和音之间的转换。 接下来,将针对语音识别流程中的各个部分展开介绍。
用户5521279
2021/01/25
9.3K0
加权有限状态机在语音识别中的应用
本文介绍了加权有限状态机在语音识别中的应用,主要包括了WFST的基本操作、组合操作、确定化操作以及权重推移操作。在语音识别中,WFST可以用于表达发音词典、语言模型和声学模型,并通过贝叶斯公式将声学模型和语言模型结合起来。最终通过Viterbi算法或者beam-search算法,从声学特征中计算出对应的最小权重路径,从而得到最终的识别结果。
李炼
2017/08/21
3.6K0
加权有限状态机在语音识别中的应用
推荐阅读
相关推荐
NLP入门之语音模型原理
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档