首先根据图像内容使用相似度与标题共识分值,从训练集中检索出相关的描述句子,然后使用文本引导注意力单元计算词汇与视觉区域的相关度,并据此提取图像的上下文特征。...Gu 等人(2018) 采用融合两层堆叠注意力机制的LSTM 网络,对视觉信息进行过滤,实现由粗到细的图像描述。...这种方法从视觉概念检测、生成句子到句子排序几个步骤之间是离散的,没有使用端到端的优化技术,从而也可能使得整个模型陷入局部最优状态,性能受到限制。...他们使用目标检测技术得到图像中的各语义对象,并结合其属性、关系等特征,生成图像的场景图( scene graph),然后利用 GCN 提取其特征,结合在大规模文本库上预训练的字典,为图像生成描述语义信息更为丰富的语句...以元学习(Meta-learning)思想为基础,将图像和文本结合在一起作为学习目标,通过动态地学习文本中的少量先验知识,进而影响视觉模型中的参数更新,并实现视觉模型与语言模型的参数共享。