前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >深度学习图像标注

深度学习图像标注

作者头像
轻吻晴雯
发布2018-05-09 23:12:45
2.6K0
发布2018-05-09 23:12:45
举报
文章被收录于专栏:杂文共赏

图像标注(Image Captioning)是产生图像文字描述的过程。使用了自然语言处理和计算机视觉去产生描述。

图像标注
图像标注

数据的形式图像(Imnage)->标注(captions)。

网络拓扑

编码器(Encoder)

卷积神经网络(CNN)可以用来作为编码器。将输入图像交给CNN去抽取特征。把最后一层隐藏层连接到解码器。

解码器(Decoder)

解码器是循环神经网络(RNN),它可以进行单词级别的语言建模。第一步接收编码器的输出和<START>向量。

训练

从CNN(编码器)最后一层隐层的输出传给解码器是第一步。我们令向量x_1=<START> 和期望标签y_1=序列中的第一个词 。类似的,x_2=第一个词的词向量 ,希望网络预测第二个词。最终,在最后一步,x_T=<END> ,目标标签y_T=<END>

在训练期间,每一步都把正确的输入给与解码器,即使解码器在之前产生了错误。

测试

图片表征(image representation)是解码器的输入。令向量x_1=<START> 并计算第一个词y_1的分布。我们从分布选出一个词,令它的嵌合向量为x_2,重复这个过程直到<END> 被产生。

在测试过程中,时间t解码器的输出被反馈且成为解码器t+1时刻的输入。

数据集

超过12万张图片和图片的描述

Flickr 8K

Flickr 30K

图像标注数据集2016

本文系外文翻译,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系外文翻译前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 训练
  • 测试
  • 数据集
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档