基础模型,如大语言模型和视觉语言模型,正变得越来越流行,但其能源效率低下和计算成本高昂仍然是广泛部署的障碍。为了应对这些挑战,我们提出了一种新架构,在我们的实验中,它将基础模型的推理时间减少了30%,同时保持了其准确性。我们的架构通过保持模型的适应性和结构完整性,克服了先前提高效率方法的挑战。
在传统架构中,当基础模型面对新任务时,数据会流经其所有的处理节点或神经元——即使它们与当前任务无关。不幸的是,这种全员参与的方法导致了高计算需求和成本增加。
我们的目标是构建一个能够根据任务动态选择合适的神经元子集的模型;这类似于大脑依赖视觉或听觉皮层中的专门神经元群来看或听的方式。这样的基础模型可以适应多种输入(如语音和文本),跨越多种语言,并产生多种输出。
在我们于今年的国际学习表征会议(ICLR)上发表的一篇论文中,我们提出了一种用于多语言语音识别、翻译和语言识别的新型上下文感知基础模型。该模型不是激活整个网络,而是根据输入上下文选择激活的神经元束或模块。输入上下文包括特征,例如输入使用何种语言、特定语言的语音特征,以及任务是语音翻译、语音识别还是语言识别。
一旦模型识别出上下文,它会预测激活每个模块的可能性。我们称这些可能性为门概率,每个概率构成一个我们称为门预测器的过滤器。如果门概率超过某个阈值,则激活相应的模块。
例如,基于几个德语单词的发音,模型可能会预测上下文是“德语音频”,其可能性超过了门阈值。该预测会打开一部分合适的路径,同时关闭其他路径。
先前的剪枝方法侧重于对模型层和卷积核进行细粒度剪枝。然而,层剪枝可能会损害模型的结构完整性,而细粒度的核剪枝可能会抑制模型适应不同输入的能力。
模块级剪枝使我们能够在结构灵活性和解释不同上下文的能力之间取得平衡。该模型被训练在运行时动态剪枝不相关的模块,这鼓励每个模块专门处理不同的任务。
在实验中,我们的模型表现出与传统模型相当的性能,但使用的GPU数量减少了30%,从而降低了成本并提高了速度。
除了节省计算资源,我们的方法还让我们能够观察模型在训练过程中如何处理语言信息。对于任务的每个组成部分,我们可以看到使用各种模块的概率分布。例如,如果我们要求模型将德语语音转录为文本,则只有用于德语和语音的模块会被激活。
这项工作专注于处理语音任务的基础模型。未来,我们旨在探索这种方法如何能推广到处理更多输入的基础模型,包括视觉、语音、音频和文本。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。