
语音语义技术是人机交互通道,识别越准确,交互越流畅,交互效果越好

主要挑战:

下面我们就针对这3个挑战,看看阿里热线小蜜是怎么优化的、

作者对比了几种ASR自然语言理解的方案:

作者基于阿里热线小蜜业务,最终选择了容错SLU的方案。其主要优点在于:
作者没有讲阿里小蜜是如何预训练模型的。但是可以参考下论文《Learning ASR-Robust Contextualized Embeddings for Spoken Language Understanding》:


作者展示的效果:

效果看起来挺好的。不过,接的文本任务是比较简单的意图分类(或 匹配),如果后续涉及到实体识别、KBQA的任务,这方案就不太适用了。

作者提出的方案主要就是进行抽取式摘要


参阅:https://zhuanlan.zhihu.com/p/264184125
关于这块,作者主要介绍了情绪识别相关的内容。方案也是比较经典的多模态融合模型,没太多可说的:

先介绍下,同步、异步和双工的区别:

上图的电话号码例子就非常形象:

双工对话的特点:
作者的解决方案是加了一块 Duplex DM模块:

触发从原来的完整的ASR结果信息,变成了Micro-turn。我理解应该就是流式的ASR,使得相应速度更快,做到边听边想:

在每个Micro-turn,基于当前的对话上下文和双工状态,由Duplex DM给出对应的Action。Action包括:等待,调用Chatbot链路并回答、任务无关的回复(task-free chat)、中断当前播音等等。
其中,task-free chat,是双工对话中一些当前场景无关的响应,例如语气承接,句尾承接(如 好的。。 嗯。。)等等
作者没有介绍Duplex DM具体怎么做。但介绍了单单在问电话号码场景下,就还额外优化了 数字意图识别、数字改写、micro-turn DST & Decoder ==
相信 Duplex DM 决策的场景肯定不只这一个场景,如果每个都这样case by case 去优化的话,个人感觉这样做的方案还是挺重的