如图 1 所示,首先对图像中的视觉内容进行解析,将其转换成视觉语义编码,然后根据编码内容进行解码,将其映射到语言空间中,生成相关词汇,并组合成用词准确、结构合理的自然语言。...Yao 等人(2010)首先使用图像分割与 SIFT 特征等将图像解析为视觉语义组件,然后将其转换为Web 本体语言,实现其与通用知识库的衔接,并通过检索技术与语义解析图,将视觉概念转换成自然语言。...1. 2. 1 基于全局视觉特征的描述模型
基于全局视觉特征的描述模型是将图像特征提取出来之后直接送入语言模型中,语言模型根据记忆对不同的特征进行解码,生成句子,其模型框架如图 3 所示(其中 vf 表示图像的全局视觉特征...但对于图像描述而言,无论是在语言模型的每个时间步上还是在第一个时间步上输入全局特征,都可能会引起新的问题,其根本原因在于语言模型中的视觉语义与语言词汇没有进行有效而合理的对应与校准。...在方法层面,借鉴机器翻译的工作流程,采用“编码—解码”框架,将图像作为“源语言”,将待生成的句子描述作为“目标语言”。