图像标注(Image Captioning)是产生图像文字描述的过程。使用了自然语言处理和计算机视觉去产生描述。
数据的形式图像(Imnage)->标注(captions)。
网络拓扑
编码器(Encoder)
卷积神经网络(CNN)可以用来作为编码器。将输入图像交给CNN去抽取特征。把最后一层隐藏层连接到解码器。
解码器(Decoder)
解码器是循环神经网络(RNN),它可以进行单词级别的语言建模。第一步接收编码器的输出和<START>向量。
从CNN(编码器)最后一层隐层的输出传给解码器是第一步。我们令向量x_1=<START> 和期望标签y_1=序列中的第一个词 。类似的,x_2=第一个词的词向量 ,希望网络预测第二个词。最终,在最后一步,x_T=<END> ,目标标签y_T=<END> 。
在训练期间,每一步都把正确的输入给与解码器,即使解码器在之前产生了错误。
图片表征(image representation)是解码器的输入。令向量x_1=<START> 并计算第一个词y_1的分布。我们从分布选出一个词,令它的嵌合向量为x_2,重复这个过程直到<END> 被产生。
在测试过程中,时间t解码器的输出被反馈且成为解码器t+1时刻的输入。
本文系外文翻译,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文系外文翻译,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。