新智元报道编译:肖琴、金磊【新智元导读】DeepMind提出了一种让神经网络进行抽象推理的新方法,类似人类的IQ测试。结果发现经典模型如ResNet得分极低,数据稍有改动就变“白痴”,而他们关注推理的架构得分高很多,如果能给出结果的符号解释,模型的预测性能和泛化性能还会显著提高。
在许多长期存在的机器学习问题中,基于神经网络的模型持续取得了令人振奋的结果,但是,开发它们推理抽象概念的能力被证明是很困难的。已有的研究解决了通用学习系统的重要特性,基于此,DeepMind的最新研究提出了一种在学习机器中测量抽象推理的方法,并解释了关于泛化(generalisation)本质的一些重要见解。
答案是A,为什么?
因为在每一排中,方框里黑点的数目有一种“渐增”的关系,因此右下角黑点的数量应该是4。IQ测试题2:右下角应该选哪个?
答案是A,为什么?
首先,每一列的三角形状的数目分别是1个、5个和7个,因此,右下角三角形状的数量应该是1,因此我们排除了B、F、G这三个答案,剩下A、C、D、E、H。
这道题中还需要观察“线”的关系,我们观察到每一排最右方的线是AND的关系,即同时出现在左边两个格的线才会出现在第三个格。因此,我们得到了右下角格的线,进一步排除C、D、E、H,正确答案就是A。IQ测试题3:右下角应该选哪个?
答案仍然是A,为什么?
首先,每一列的形状的数量有一种“渐增”的关系,因此右下角形状的数量应该是5个,排除D、G。
跟前一题类似,线同样是AND的关系,我们得到右下角的线,符合的只有A、D、E、H,D已经在前一步排除,因此剩下A、E、H三个选项。
再看形状颜色,每一列都分别有浅灰、深灰和黑色,因此右下角应该是黑色,得到正确答案A。我们还没有办法让机器学习智能体接触到类似的“日常体验”,这意味着我们无法轻易地衡量它们将知识从现实世界迁移到视觉推理测试的能力。尽管如此,我们仍然可以创建一个实验设置,充分利用人类视觉推理测试。
WReN模型CNN会独立处理每个内容panel并且一个单独的回答会选择一个panel来产生9个矢量embedding。然后将这组embedding传递给RN(其输出是单个sigmoid单元),为相关答案选择panel的“得分”进行编程。通过该网络进行8次这样的传递(为简便起见,我们仅描绘2次),每次答案选择一次,就会通过softmax函数得分以确定模型的预测答案。
所有模型在中性分裂(左图)上的的性能,以及根据β=0的泛化误差排序的泛化机制WReN模型(右图)的泛化性能。性能最佳的模型是WReN模型。这种强大的性能可能部分归因于RelationNetwork模块,它是为了推理对象之间的关系而明确设计的,部分是由于评分结构。请注意,评分结构不足以解释改进的性能,因为WReN模型基本上优于最佳Wild-ResNet模型,该模型也具有评分结构。
离心(distraction)的影响。在两个PGM中,底层结构S是[形状,颜色,连续单元],但是(b)包括形状数、形状类型,线颜色和线型的离心。辅助训练的效果然后,我们通过使用符号元目标训练我们的模型来探索辅助训练对抽象推理和概括的影响。在中立状态下,我们发现辅助训练使测试精度提高了13.9%。重要的是,模型捕获数据的整体能力的改进也适用于其他泛化机制。
领取专属 10元无门槛券
私享最新 技术干货