GPT-4o 多模态视觉能力激发多重想象。
作者丨许一扬
编辑丨陈彩娴
1、小红书打卡潮
GPT-4o 发布以后,虽然业内一片嘘声,小红书上却掀起了一股打卡热潮。社交媒体小红书上,多个贴文以及下面的评论区争相考验 GPT-4o 的“眼力”。
Cr. 阿遥(小红书ID: 958377307)
左右滑动查看更多
相比 Gemini 等一众多模态 AI 模型,GPT-4o 的输出难以置信的准确,超半数情况下 zero-shot 直接命中,附线索提示的 few-shot 则基本上全部命中。
而其余国外厂商的多模态大模型错误率较高。
值得注意的是,GPT-4o 的识别结果也并不稳定,且较容易受到提示语的影响。特别是使用中文进行提问,GPT-4o 倾向于先猜测东南亚地点,经提示以后才能命中答案。
GPT-4o 一次性命中,Gemini 1.5 Pro 识别失败,GPT-4o 中文 few-shot 命中(Cr. 小红书“鼠拨土和她的CEO朋友们”)
左右滑动查看更多
相比之下,小红书博主 206265 使用英语对在美国拍摄的7张照片进行提问,GPT-4o 的所有回答全部正确。
这些案例表明,只要某一地点在网上有一定程度的曝光,GPT-4o 基本上都能够从成千上万个可能选项中快速识别出目标。
迄今为止,在多模态大模型中,这种优秀的街景识别能力独一无二。GPT-4o 的性能表现甚至在一定程度上超越了 Google Lens 这一结合了搜索和识图的在线引擎;而谷歌相比 OpenAI,无疑已经在地图和图像领域浸淫多年。
我们有理由认为,OpenAI 使用了海量视觉数据对 GPT-4o 进行训练,这是规模法则(scaling law)智能涌现(emergent intelligence)的又一案例。
那么,拥有更多海量地图和图像数据的谷歌可否后来居上?紧随 OpenAI 发布的 Gemini 和 Project Astra 是否有发布会上所展示的、不逊于 GPT-4o 的视觉能力?
2、Apple Vision Pro 或获加持?
毫无疑问的是,有了五感中“两感”和“脑子”的 GPT-4o 能够帮助视障、听障甚至行动障碍人群,将我们的感(sensing)和知(perceiving)提前一步进行处理。
OpenAI 已经宣布与视障人群志愿平台 Be My Eyes 合作,帮助视障人群“看见”周围的世界——过马路、打车等,小菜一碟。
OpenAI & Be My Eyes:让手机成为视障人群的眼睛
但,对于一般用户来说,在街道上走路,让 AI 嵌入场景中、与场景互动,也许你同时与 AI 对话——的智能硬件——你想到了什么?
没错,Apple Vision Pro 智能眼镜。
结合 GPT-4o,Apple Vision Pro 尤其在户外的应用场景大幅拓宽。原本相对固定的组件位置活动起来了,原本相对独立的交互模式结合起来了,原本相对尴尬的 XR 终于有用武之地了。
想象一下佩戴 Apple Vision Pro 去水果店“鉴瓜”的情景——也许依然有一丝尴尬,但至少实用,对吧?
“这瓜保熟吗?”GPTs,让你拥有独一无二的鉴瓜技能
这当然不仅是一个玩笑,这代表在加入多模态以后,GPT-4o 以及未来与之类似的大模型已有超越部分人类的感知、决策能力——不仅仅是速度上,也不仅仅是“鉴瓜”。
从这一角度上来说,XR(Mixed Reality)这一十年前就提出的设想或许才刚刚度过漫长的“冰河世纪”,即将获得更大的天地。
另一方面,这仅仅是五感中的“视”、“听”。如果再加上第三重要的“触”,是否就指向在今年爆火的“具身智能”了呢?
3、AI Native 软硬件
昔日想象已成现实
紧随 GPT-4o 竞相揭晓的,不仅有谷歌的 Gemini 以及 Project Astra,而且还有微软的新一代笔电产品、Adobe的 AI产品线 更新。
微软的发布会着重强调了 Copilot Plus PCs 的 Recall(回溯)功能,即 Copilot 能够记忆并回顾电脑屏幕上出现过的一切内容,形成所谓的“图像记忆”(photographic memory)。
这不就是 Windows 上的 ChatGPT 客户端吗?且加上原生+硬件级别的加持,它理应比不久前 MacOS 端推出的 ChatGPT 更加强大。
Recall 功能的下一步也许就是效仿 ChatGPT 的 Memory,在日常聊天、使用中学习并适应用户的习惯,提前洞悉用户需求。
我们不妨再拓展一下:在不远的未来,AI 是否可以获得控制鼠标指针的能力,从而帮助我们操作图形系统呢?是否可以根据“图像记忆”自动搭建工作流,从而实现一定程度的自动化呢?
罗永浩大概万万没想到,锤子的 TNT 竟然在这个时候实现,而且远比他原本想象的更强大。
注:本文头图由GPT-4o 生成