一项名为BabyVision的新基准测试正在社区引发热议。研究人员用儿童发展心理学中的视觉推理任务来测试当前最先进的多模态大模型,结果令人意外:GPT 5.2勉强达到三岁儿童水平,Gemini 3 Pro Preview表现稍好但仍落后于六岁孩子,其他顶级模型甚至更糟。
这张对比图揭示了一个常被忽视的事实:我们以为AI无所不能,但在最基础的视觉空间推理上,它们连幼儿园的门槛都没迈过。
有人嘲笑这个结果荒谬可笑。但冷静思考:生物从蠕虫进化到人类幼儿的智能水平,用了数千万年。而基于Transformer的AI从诞生到现在,才用了十年左右。
问题的根源在于架构本身。人类大脑有大量神经回路专门处理视觉信息,我们天生擅长模式识别、运动感知、深度判断。我们用双眼获取高分辨率动态画面,大脑能在毫秒间完成物理模拟。当有人向你抛球时,你瞬间就能计算出轨迹和落点。
而大模型呢?它们只能处理静态的单张图片,必须先把像素转换成token才能理解,缺乏真正的世界模拟能力。这就像让一个天生失明的人仅凭文字描述来解答图形谜题。
有趣的是,ARC AGI这类被认为是视觉测试的基准,实际上是用JSON格式的文本输入,模型根本没调用视觉编码器。这意味着空间智能被迫由核心语言模型来处理,天然就处于劣势。有研究者指出,如果视觉编码层表现糟糕,后面再强的推理能力也是白搭。
这个基准测试的价值在于,它暴露了多模态发展中的短板。视觉能力的突破对机器人领域意义重大。当模型真正具备空间理解能力时,新的应用场景将大量涌现。
有人在评论区分享了一个有趣的视角:父母更容易觉得自己十几岁的孩子笨,反而觉得三岁时聪明可爱。这说明随着能力提升,我们的期待也在水涨船高。
也许我们需要换个角度看这个结果。与其说AI只有三岁水平,不如说AI已经有三岁水平了。距离Transformer架构诞生不过数年,它就完成了进化史上数千万年的跨越。按这个速度,一两年内视觉理解超越成年人也许并非幻想。
reddit.com/r/singularity/comments/1qh1omx/babyvision_a_new_benchmark_for_humanlevel_visual