首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

图像成"热词"!多模态语音识别模型VHASR让AI"看图说话"更准

始智AI wisemodel.cn开源社区

传统的语音识别(ASR)只能依靠音频输入,而多模态语音识别则可以通过引入额外信息来提高准确性。其中,基于图像的多模态语音识别(IBSR),可以利用与语音相关的图像信息来辅助识别,但目前缺乏统一有效的方法。

VHASR模型创新性地将视觉信息作为热词,采用双流架构来增强语音识别能力,在多个数据集的测试中都取得了优于现有方法的成果,证明了其在提升语音识别准确度方面的有效性。

目前,该模型已经开源,并上线始智AI wisemodel开源社区,欢迎大家前去体验。

模型及github地址链接:

https://wisemodel.cn/models/193746/VHASR

https://github.com/193746/VHASR

01

背景介绍

单模态语音识别(Automatic Speech Recognition, ASR)模型接收音频作为输入并输出转录文本。为了进一步降低模型的语音识别错误,可以输入一些额外的与待转录语音相关的信息,这些信息可以是文本模态的,也可以是视觉模态的,利用其他模态信息的语音识别模型称为多模态语音识别模型。

多模态语音识别模型Image based multimodal ASR (IBSR)是采用图像的方式为ASR模型引入视觉模态信息。IBSR从和语音相关的图像中提取视觉特征,避免与图像相关的关键词被错误转录。

IBSR是一个较少被关注的领域,目前,该领域缺乏一种通用有效的利用图像信息的方法,这导致了不同的研究工作得出了不同的实验结果。一些工作通过引入图像信息提升了语音识别模型的性能,而另一些工作却产生了相反的结果。

本文提出了一种能有效利用音频相关图像信息的新方法,并建立了一个多模态语音识别模型VHASR,它将视觉信息视作热词来增强模型的语音识别能力。

VHASR采用双流架构,在ASR流的基础上,额外引入了一条基于图像热词进行文本转录的VH流,通过双流的合并最终能实现关键视觉信息对语音识别的增强。在Flickr8k、ADE20k、COCO和OpenImages共四个数据集上评估了提出的模型。

实验结果表明,VHASR可以有效地利用图像中的关键信息来增强模型的语音识别能力。其性能不仅超越了单模态语音识别模型,而且在现有的基于图像的多模态语音识别模型中达到了SOTA。

02

实现方法

受文本热词的启发,提出了图像热词,并将其应用于VHASR,下图展示了文本热词和图像热词的对比。支持文本热词的ASR模型首先选择与语音最相关的前k个热词,然后将这k个热词的特征注入模型,以优化推理结果,确保模型对这些词的正确转录。

图像热词首先将图像分块,然后评估这些分块与音频之间的关联性。增强高相关性分块对模型的影响,同时削弱低相关性分块的影响,这样可以在不对模型语音识别性能造成干扰的情况下确保正确转录和图像相关的关键词。

VHASR采用双流架构,一条是接收音频信息,输出转录文本的ASR流,另一条是用于嵌入图像热词并输出相应文本的VH流。在推理时,先分别进行两条工作流的文本转录,然后进行双流输出的合并。具体方法如下:

(1) ASR 流

VHASR的ASR流采用Paraformer作为基础框架。这是一种非自回归的平行Transformer,它由 Encoder、Predictor、Sampler和Decoder四部分组成。Encoder和Decoder均采用基于Transformer的SAN-M结构,Predictor 为2层 DNN 模型,它基于CIF (Continuous Integrate and Fire)机制对齐语音和文字,以预测目标文字个数。Sampler不含有可学习的参数,旨在通过采样文本特征来增强Decoder的上下文建模能力。具体来说,Paraformer会进行双轮训练,第一轮训练时Sampler会根据Decoder的解码结果与实际文本的距离来采样一定数量的文本向量,并将声学特征向量与采样文本向量融合成含有语义信息的特征向量,用于Decoder的第二轮解码。

(2) VH流

VHASR的VH流先使用一个ViT(Vision Transformer)模型提取图像热词的特征,然后使用一个双向Transformer进行文本的解码。我们采用CLIP的视觉编码器抽取图像热词特征,然后计算音频与图像热词间的余弦相似度,该相似度表征了每个图像热词和音频的关联性,将该相似度与图像热词特征相乘,可以调整图像热词特征的注意力分数,增强高相关性热词对后续转录的影响,同时削弱低相关性热词的影响。最后进行解码时,为了避免VH流转录结果发生偏移,我们为VH流额外引入了ASR流的中间特征。

(3) 双流合并

在合并两条工作流时,我们提出了三种合并方法,其中最优合并方法的具体过程为:首先计算音频-图像相似度,若该相似度低于阈值,则认为该图片和音频关联性低,引入该图片的信息会导致ASR错误增加,于是丢弃VH流的输出,使用ASR流的输出作为最终结果。若该相似度高于阈值,我们再计算图像-文本token相似度,逐token对比ASR流和VH流的输出,选取高相似度的token作为最终的输出。

03

实验情况

在Flickr8k、ADE20k、COCO和OpenImages上开展实验。下表展示了基线和三种合并方法的比较。VHASR有着最强的ASR性能,它不仅优于其他两种合并方法,而且优于基线方法,充分证明了该方法的正确性。

通过图表可以看到在Flickr8k上VHASR和其他benchmark的比较。一些工作认为Flickr8k中的语音有着足够高的质量,引入其他模态特征来进一步提高ASR模型的转录精度具有挑战性。然而,VHASR利用图像热词法得到的视觉信息,显著提升了ASR性能,取得了最低的词错率。

与这些benchmark相比,提出的通过图像热词注入视觉模态信息的方法在精炼图像表示和消除无关图像信息方面能做的更好,因此,即使在数据集质量高、基线强的情况下,提出的模型也可以使用视觉信息来进一步提升ASR性能。

为了进一步证明引入与音频相关的图像信息可以减少VHASR的转录错误,并验证将VHASR应用于现实生活场景的可能性,本文还进行了audio corruption实验。该实验中,在输入音频的某些片段中添加噪声,以探究通过图像热词引入的视觉特征是否可以帮助VHASR正确转录这些受干扰的音频片段。结果表明,在嘈杂的现实环境中,图像信息可以帮助VHASR纠正与图像相关但存在转录错误的单词。

此外,还进行了两组消融实验,分别证明了通过视觉热词提取的精炼视觉表示相比于完整视觉表示的有效性,以及ASR基线的健壮性。

编辑丨赵雅鑫

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O2c5qjb7bbQHyvUuUKhbzwxQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券