请回答这道选择题:
手捧玫瑰的女子,绅士风度的男子,停靠路边的马车,他们在做什么?
正确答案是D。
这道题不是出给人类的,而是出给AI的行为理解题。
它来自全球最难的图像理解题库之一——VCR(VisualCommonsense Reasoning)。类似读心术,希望AI像人一样,懂得图中人在正在做什么。
11月19日,腾讯微视视频理解团队在VCR打榜竞赛中,做了近27万道这样的选择题。
结果,他们提出了单模型BLENDer (BimodaL ENcoDer),在三个阶段的PK中,准确率达到了81.6%、86.4%、70.8%,一举超过谷歌等行业,甚至高于一些多模型的准确率,取得最高分,夺得冠军。
对于你来说,这题很简单;但是,对AI,太南了。
说白了,AI很缺“某个动机导致某种行为”的逻辑关联数据。
BLENDer拿着百万部电影故事情节,来做训练,才有了高准确率。
回到最开始的那道题,AI训练和分析的关键是——什么样的场合,穿什么样的衣服。
女主,一袭古典风婚纱,男主,一身华丽燕尾服,再加上捧着玫瑰,手牵手。在“服装-场合”的逻辑关联分析下,答案自然是婚礼。
据说,VCR题库还有不少选择题,难住了AI。
要不来试试,看看BLENDer是否和你所想一致。
1、右侧男子举着火柴做什么?
A. 他在照亮地上的东西
B. 他在照亮房间
C. 他在念咒语
D. 他准备吹灭火柴
正确答案是 A。
AI解题在两个要素,眼睛往地上看,火柴又燃得旺,组合起来,他是想看清楚些地上的东西。
2、背影男子为什么要扛着布袋奔跑?
A. 他在找船舱
B. 他着急登船
C. 他在寻人
D. 他在找一些危险的人
正确答案是B。
AI分析的重点在识别男子前方的支架,那是船的骨干,男子着急地朝船跑,就是要赶着登船。
这个模型有什么用?
其实模型在视频推送、智能交互、信息无障碍(比如,为视障人士描述某条短视频正在发生什么)等方面,都可大有作为。
它在微视上也已经应用,对视频打上搞笑类、情感类、科普类、美妆类等不同标签,既可以推送给感兴趣的网友,也方便网友快速找到。
腾讯算法工程师说,现在只是一个小小的阶段性目标,还希望做更多创造性的工作。
领取专属 10元无门槛券
私享最新 技术干货