这种方法首先依赖于特征的表达能力,用以支撑将图像解析成准确的视觉语义概念;其次,需要构建较为完善的 Web 语义库,使得能够查询到置信度较高的语义本体,并组合成新的描述语句。...Gu 等人(2018) 采用融合两层堆叠注意力机制的LSTM 网络,对视觉信息进行过滤,实现由粗到细的图像描述。...这种方法从视觉概念检测、生成句子到句子排序几个步骤之间是离散的,没有使用端到端的优化技术,从而也可能使得整个模型陷入局部最优状态,性能受到限制。...3 、图像情感与个性化
除了为图像生成更为详细的精细化描述外,人们也注意到在日常交流中其语言常蕴含多种个性化和情感信息。 在描述一幅图像时,常常根据个人经验和观感在句子中掺杂多种情感信息。...noun pair,ANP)”,将其嵌入到描述句子中,为每幅图像形成“正面(positive)”和“负面( negative)”的图像描述。