首先根据图像内容使用相似度与标题共识分值,从训练集中检索出相关的描述句子,然后使用文本引导注意力单元计算词汇与视觉区域的相关度,并据此提取图像的上下文特征。...Zhang 等人(2019a) 则认为直接从参考句子中获取的视觉概念或属性并不完整,还需要从集外选取更多的视觉先验,补充其可能由于正负样本不均衡导致的不准确或训练样本中缺失的概念。...因此,研究人员还通过改进语言模型的内部或外部结构,从数据的流向上对模型进行改进,通过优化记忆单元或模型架构充分利用模型训练时的局部与全局信息,改善生成句子的质量。...对于实验评测,目前针对图像的标题生成与描述多为数据集内测试,即在同一个封闭的数据集内进行模型训练、参数寻优与最终测试。...但该数据集并未完全公开,目前可用的部分主要是训练集,因此,使用时选取其中的 6 000 幅图像及其描述用于训练与验证,剩余的 1 000 幅图像与描述则作为测试集。