前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >GPT-4o 引爆小红书打卡潮,推动 Vision Pro想象,刷新微软、Adobe 产品线

GPT-4o 引爆小红书打卡潮,推动 Vision Pro想象,刷新微软、Adobe 产品线

作者头像
AI科技评论
发布2024-06-03 15:01:01
1070
发布2024-06-03 15:01:01
举报
文章被收录于专栏:AI科技评论AI科技评论

GPT-4o 多模态视觉能力激发多重想象。

作者丨许一扬

编辑丨陈彩娴

1、小红书打卡潮

GPT-4o 发布以后,虽然业内一片嘘声,小红书上却掀起了一股打卡热潮。社交媒体小红书上,多个贴文以及下面的评论区争相考验 GPT-4o 的“眼力”。

Cr. 阿遥(小红书ID: 958377307)

左右滑动查看更多

相比 Gemini 等一众多模态 AI 模型,GPT-4o 的输出难以置信的准确,超半数情况下 zero-shot 直接命中,附线索提示的 few-shot 则基本上全部命中。

而其余国外厂商的多模态大模型错误率较高。

值得注意的是,GPT-4o 的识别结果也并不稳定,且较容易受到提示语的影响。特别是使用中文进行提问,GPT-4o 倾向于先猜测东南亚地点,经提示以后才能命中答案。

GPT-4o 一次性命中,Gemini 1.5 Pro 识别失败,GPT-4o 中文 few-shot 命中(Cr. 小红书“鼠拨土和她的CEO朋友们”)

左右滑动查看更多

相比之下,小红书博主 206265 使用英语对在美国拍摄的7张照片进行提问,GPT-4o 的所有回答全部正确。

这些案例表明,只要某一地点在网上有一定程度的曝光,GPT-4o 基本上都能够从成千上万个可能选项中快速识别出目标。

迄今为止,在多模态大模型中,这种优秀的街景识别能力独一无二。GPT-4o 的性能表现甚至在一定程度上超越了 Google Lens 这一结合了搜索和识图的在线引擎;而谷歌相比 OpenAI,无疑已经在地图和图像领域浸淫多年。

我们有理由认为,OpenAI 使用了海量视觉数据对 GPT-4o 进行训练,这是规模法则(scaling law)智能涌现(emergent intelligence)的又一案例。

那么,拥有更多海量地图和图像数据的谷歌可否后来居上?紧随 OpenAI 发布的 Gemini 和 Project Astra 是否有发布会上所展示的、不逊于 GPT-4o 的视觉能力?

2、Apple Vision Pro 或获加持?

毫无疑问的是,有了五感中“两感”和“脑子”的 GPT-4o 能够帮助视障、听障甚至行动障碍人群,将我们的感(sensing)和知(perceiving)提前一步进行处理。

OpenAI 已经宣布与视障人群志愿平台 Be My Eyes 合作,帮助视障人群“看见”周围的世界——过马路、打车等,小菜一碟。

OpenAI & Be My Eyes:让手机成为视障人群的眼睛

但,对于一般用户来说,在街道上走路,让 AI 嵌入场景中、与场景互动,也许你同时与 AI 对话——的智能硬件——你想到了什么?

没错,Apple Vision Pro 智能眼镜。

结合 GPT-4o,Apple Vision Pro 尤其在户外的应用场景大幅拓宽。原本相对固定的组件位置活动起来了,原本相对独立的交互模式结合起来了,原本相对尴尬的 XR 终于有用武之地了。

想象一下佩戴 Apple Vision Pro 去水果店“鉴瓜”的情景——也许依然有一丝尴尬,但至少实用,对吧?

“这瓜保熟吗?”GPTs,让你拥有独一无二的鉴瓜技能

这当然不仅是一个玩笑,这代表在加入多模态以后,GPT-4o 以及未来与之类似的大模型已有超越部分人类的感知、决策能力——不仅仅是速度上,也不仅仅是“鉴瓜”。

从这一角度上来说,XR(Mixed Reality)这一十年前就提出的设想或许才刚刚度过漫长的“冰河世纪”,即将获得更大的天地。

另一方面,这仅仅是五感中的“视”、“听”。如果再加上第三重要的“触”,是否就指向在今年爆火的“具身智能”了呢?

3、AI Native 软硬件

昔日想象已成现实

紧随 GPT-4o 竞相揭晓的,不仅有谷歌的 Gemini 以及 Project Astra,而且还有微软的新一代笔电产品、Adobe的 AI产品线 更新。

微软的发布会着重强调了 Copilot Plus PCs 的 Recall(回溯)功能,即 Copilot 能够记忆并回顾电脑屏幕上出现过的一切内容,形成所谓的“图像记忆”(photographic memory)。

这不就是 Windows 上的 ChatGPT 客户端吗?且加上原生+硬件级别的加持,它理应比不久前 MacOS 端推出的 ChatGPT 更加强大。

Recall 功能的下一步也许就是效仿 ChatGPT 的 Memory,在日常聊天、使用中学习并适应用户的习惯,提前洞悉用户需求。

我们不妨再拓展一下:在不远的未来,AI 是否可以获得控制鼠标指针的能力,从而帮助我们操作图形系统呢?是否可以根据“图像记忆”自动搭建工作流,从而实现一定程度的自动化呢?

罗永浩大概万万没想到,锤子的 TNT 竟然在这个时候实现,而且远比他原本想象的更强大。

注:本文头图由GPT-4o 生成

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载! 公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载! 公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档