作者:Shijie Geng,Ji Zhang,Hang Zhang,Ahmed Elgammal,Dimitris N. Metaxas
摘要:我们提出了一种简单的方法,可以实现复杂推理所涉及的视觉问题回答的意外优越性能。我们的解决方案从所有关于图像的问题的高频词汇中收集统计特征,并将其用作准确的知识,以回答相同图像的进一步问题。我们充分意识到这种设置并不是普遍适用的,并且在一个更常见的环境中,人们应该假设问题是单独提出的,并且无法收集这些问题以获得知识库。尽管如此,我们使用这种方法作为证据来证明我们观察到特征提取部分的瓶颈效应比知识推理部分更严重。当使用相同的推理模型和1)地面实况特征时,我们显示出显着的差距; 2)统计特征; 3)从完全学习的探测器中检测到特征,并分析这些差距对视觉推理主题的研究意味着什么。我们的统计特征模型在GQA Challenge 2019中获得第二名。
原文标题:2nd Place Solution to the GQA Challenge 2019
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。