GPT-4o 引爆小红书打卡潮，推动 Vision Pro想象，刷新微软、Adobe 产品线

AI科技评论

发布于 2024-06-03 15:01:01

1070

发布于 2024-06-03 15:01:01

文章被收录于专栏：AI科技评论AI科技评论

GPT-4o 多模态视觉能力激发多重想象。

作者丨许一扬

编辑丨陈彩娴

1、小红书打卡潮

GPT-4o 发布以后，虽然业内一片嘘声，小红书上却掀起了一股打卡热潮。社交媒体小红书上，多个贴文以及下面的评论区争相考验 GPT-4o 的“眼力”。

Cr. 阿遥（小红书ID: 958377307）

左右滑动查看更多

相比 Gemini 等一众多模态 AI 模型，GPT-4o 的输出难以置信的准确，超半数情况下 zero-shot 直接命中，附线索提示的 few-shot 则基本上全部命中。

而其余国外厂商的多模态大模型错误率较高。

值得注意的是，GPT-4o 的识别结果也并不稳定，且较容易受到提示语的影响。特别是使用中文进行提问，GPT-4o 倾向于先猜测东南亚地点，经提示以后才能命中答案。

GPT-4o 一次性命中，Gemini 1.5 Pro 识别失败，GPT-4o 中文 few-shot 命中（Cr. 小红书“鼠拨土和她的CEO朋友们”）

左右滑动查看更多

相比之下，小红书博主 206265 使用英语对在美国拍摄的7张照片进行提问，GPT-4o 的所有回答全部正确。

这些案例表明，只要某一地点在网上有一定程度的曝光，GPT-4o 基本上都能够从成千上万个可能选项中快速识别出目标。

迄今为止，在多模态大模型中，这种优秀的街景识别能力独一无二。GPT-4o 的性能表现甚至在一定程度上超越了 Google Lens 这一结合了搜索和识图的在线引擎；而谷歌相比 OpenAI，无疑已经在地图和图像领域浸淫多年。

我们有理由认为，OpenAI 使用了海量视觉数据对 GPT-4o 进行训练，这是规模法则（scaling law）智能涌现（emergent intelligence）的又一案例。

那么，拥有更多海量地图和图像数据的谷歌可否后来居上？紧随 OpenAI 发布的 Gemini 和 Project Astra 是否有发布会上所展示的、不逊于 GPT-4o 的视觉能力？

2、Apple Vision Pro 或获加持？

毫无疑问的是，有了五感中“两感”和“脑子”的 GPT-4o 能够帮助视障、听障甚至行动障碍人群，将我们的感（sensing）和知（perceiving）提前一步进行处理。

OpenAI 已经宣布与视障人群志愿平台 Be My Eyes 合作，帮助视障人群“看见”周围的世界——过马路、打车等，小菜一碟。

OpenAI & Be My Eyes：让手机成为视障人群的眼睛

但，对于一般用户来说，在街道上走路，让 AI 嵌入场景中、与场景互动，也许你同时与 AI 对话——的智能硬件——你想到了什么？

没错，Apple Vision Pro 智能眼镜。

结合 GPT-4o，Apple Vision Pro 尤其在户外的应用场景大幅拓宽。原本相对固定的组件位置活动起来了，原本相对独立的交互模式结合起来了，原本相对尴尬的 XR 终于有用武之地了。

想象一下佩戴 Apple Vision Pro 去水果店“鉴瓜”的情景——也许依然有一丝尴尬，但至少实用，对吧？

“这瓜保熟吗？”GPTs，让你拥有独一无二的鉴瓜技能

这当然不仅是一个玩笑，这代表在加入多模态以后，GPT-4o 以及未来与之类似的大模型已有超越部分人类的感知、决策能力——不仅仅是速度上，也不仅仅是“鉴瓜”。

从这一角度上来说，XR（Mixed Reality）这一十年前就提出的设想或许才刚刚度过漫长的“冰河世纪”，即将获得更大的天地。

另一方面，这仅仅是五感中的“视”、“听”。如果再加上第三重要的“触”，是否就指向在今年爆火的“具身智能”了呢？

3、AI Native 软硬件

昔日想象已成现实

紧随 GPT-4o 竞相揭晓的，不仅有谷歌的 Gemini 以及 Project Astra，而且还有微软的新一代笔电产品、Adobe的 AI产品线更新。

微软的发布会着重强调了 Copilot Plus PCs 的 Recall（回溯）功能，即 Copilot 能够记忆并回顾电脑屏幕上出现过的一切内容，形成所谓的“图像记忆”（photographic memory）。

这不就是 Windows 上的 ChatGPT 客户端吗？且加上原生+硬件级别的加持，它理应比不久前 MacOS 端推出的 ChatGPT 更加强大。

Recall 功能的下一步也许就是效仿 ChatGPT 的 Memory，在日常聊天、使用中学习并适应用户的习惯，提前洞悉用户需求。

我们不妨再拓展一下：在不远的未来，AI 是否可以获得控制鼠标指针的能力，从而帮助我们操作图形系统呢？是否可以根据“图像记忆”自动搭建工作流，从而实现一定程度的自动化呢？

罗永浩大概万万没想到，锤子的 TNT 竟然在这个时候实现，而且远比他原本想象的更强大。

注：本文头图由GPT-4o 生成

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-05-31，如有侵权请联系 cloudcommunity@tencent.com 删除

adobe

本文分享自 AI科技评论微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度