目前,我和我的三个朋友正在进行一个项目,基于特定图像中的对象生成图像描述(当向系统提供图像时,必须基于对象和它们之间的关系生成新颖的描述)。因此,简单地说,一个人正在计划识别图像中的对象,并使用基于快速区域的CNN (FRCNN)对它们进行标记。在我的部分中,我必须根据这些图像标签( FRCNN的输出正计划作为我的RNN的输入)通过考虑它们之间的关系来实现有意义的描述。
目前,我正计划实现一个递归神经网络(RNN)来生成描述。但是,我怀疑,当RNN只是给定一组单词(图像、标签、名称)作为输入时,是否可以使用RNN生成描述。由于RNN主要用于具有序列的用例,如果我只给出标签名称,它是否能够通过考虑它们之间的关系来生成描述?
如果没有,谁能告诉我实现这一点的最佳方式是什么?
PS:我是机器学习的新手,希望能有一个清晰的想法来找到更好的解决方案。
发布于 2017-07-05 14:47:31
实际上,我现在也在学习RNN。我相信从一个单独的图像,如果图像有意义,可以生成一句话来描述它。
我将与你分享一些我认为有帮助的资料
https://stackoverflow.com/questions/44929055
复制相似问题