在实验中,多语言模型的性能优于单语言模型。
对于某中心的语音代理而言,扩展到新的语言传统上意味着从头开始训练一个新的自然语言理解模型,这种方法扩展性不佳。
另一种方法是训练一个多语言模型——一个可以同时处理多种语言的单一模型:支持一个大型模型所需的精力少于支持一群小型模型。此外,多语言模型允许用户混合使用不同语言发出请求,这更符合我们对21世纪人工智能的期望。
在某机构上个月于国际计算语言学会议上发表的一篇论文中,研究了使用迁移学习和数据混合来训练多语言模型。结果表明,所得模型的性能与当前生产环境中使用的单语言模型相似或更好。
多语言建模在过去几年成为一个热门话题,特别关注将从一个语言的大规模语料库训练获得的知识迁移到在其他语言少量数据上训练的模型中。这个问题被称为低资源跨语言迁移学习。在论文中,也实验了从高资源语言到高资源语言的迁移,以模拟现实世界的情况。
单语言模型使用不同语言的数据进行训练,但除此之外,它们通常具有相同的架构。由此可见,通过使用相同的模型架构,应该能够训练一个由多种语言数据输入驱动的通用多语言模型。
语音代理的自然语言理解模型首先被训练来识别话语领域,例如音乐、天气等。然后,分别训练模型以执行领域特定的意图分类和槽填充任务。
例如,如果请求是“播放 Lady Gaga 的‘Bad Romance’”,意图将是“播放音乐”,而为了满足此请求,系统需要捕获槽位及槽值 {歌曲名 = Bad Romance} 和 {艺术家名 = Lady Gaga}。
在实验中,领域分类模型是一个最大熵逻辑回归模型。对于意图分类和槽填充,构建了一个多任务深度神经网络模型。
首先将输入词元映射到共享空间的词嵌入中,然后将它们馈送到双向长短时记忆编码器中以获得上下文信息。接着,该上下文信息传播到下游任务,其中使用条件随机场进行槽填充,使用多层感知机进行意图分类。
使用四种语言的数据训练模型,包括三种相对接近的语言:英式英语、西班牙语和意大利语。第四种语言是印地语,这是一种资源匮乏的语言,在词汇和语法上与其他三种语言不同。
在迁移学习实验中,将从英语训练的模型中转移不同的信息块——嵌入、编码器和解码器权重——转移到将英语与其他三种语言分别结合的多语言模型中。还实验了数据混合,训练一个英语和西班牙语的模型以及一个英语和意大利语的模型,并将它们分别迁移到包含意大利语和西班牙语的多语言模型中。
迁移之后,再使用数据集中所有四种语言的数据对每个模型进行微调。
根据四个指标评估模型:用于领域分类任务的领域准确率;用于意图分类任务的意图准确率;用于槽填充的微平均槽位F1分数;以及帧准确率,即领域、意图和所有槽位均被正确识别的话语的相对数量。
对于每个多语言模型,将其在每种语言上的性能与该语言的最先进单语言模型的性能进行比较。基线模型使用最大熵模型而非深度神经网络作为编码器。
所有性能指标都显示出相似的模式:多语言深度神经网络模型通常优于单语言模型。最好的结果来自于从源模型向目标模型迁移编码器权重,帧准确率平均提高了约1%。额外迁移解码器权重会略微降低性能,尽管所得模型仍然优于基线。
在源模型训练期间进行数据混合确实能提高性能,但只是轻微的。
有趣的是,帧准确率的最大提升——约1.2%——来自向印地语迁移模型。这可能是因为印地语的基线模型是在一个低资源数据集上训练的。多语言模型可能从其他语言中学习到了一般性的语言信息,而单语言模型无法仅从印地语数据集中提取这些信息。
研究领域:
对话式人工智能
标签:
自然语言理解、迁移学习、语音代理
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。