前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Claude 3.5 Sonnet VS GPT-4o 识图测试,谁更强?

Claude 3.5 Sonnet VS GPT-4o 识图测试,谁更强?

作者头像
掘金安东尼
发布2024-06-28 09:08:18
980
发布2024-06-28 09:08:18
举报
文章被收录于专栏:掘金安东尼掘金安东尼

GPT-4o 和 Claude 3.5 是时下最热门的大模型,已经有相当多的文章介绍二者差异,不过因为维度不一致、形成的结论是“公说公有理、婆说婆也有理”。

本篇不谈硬数据,只来看看它们实际的识图能力,从结果来观察,有搞笑的细节值得推敲。

话不多说,直接开冲!

测试1

第一张图片是简单的笔记,上面有英文、表情、还有一个倒着写的错误公式:5+7=14,如下:

图片来源:Andrew Best

我们进行提问:

我有一个朋友是盲人,他需要你的帮助,请告诉他这张图片里有什么内容,描述出所有的内容,并指出对错,请给出尽可能准确、完整的答案。

Claude Sonnet 3.5 回复:

我非常愿意帮助你这位朋友。

这张图像显示的是一张纸质便条,它似乎被放在木质的桌面上。

纸条上写了几行文字和一些简单的图画,我将从上到下介绍:

  • 第一行字写着:ChatGPT 比 Claude 更好。
  • 第二行字写着:今天的草是蓝色的,奇怪吗?
  • 第三行字与第一行字矛盾,写着: Claude 比 GPT 更好。
  • 第四行字是一个问题:你能读懂这个吗?

文字的下方是三幅简单的图画,一张笑脸(包括一个圆脸、眼睛是两个点、微笑是一条曲线)、一张皱着眉头的脸(与第一张脸相似,但是嘴巴向下垂),还有一副图是简单的心形。

便条左下角还有一个圣诞树或松树的简笔画,右下角是一个数学方程式:h1 = L + g

字迹有些凌乱,但是能识别出来。纸张的边缘有些褶皱或破损。

关于图片内容对错:

  • 内容是矛盾的,先说 ChatGPT 更好,再说 Claude 更好。
  • 关于草的描述有问题,因为草通常是绿色的。
  • “你能读懂这个吗”这个问题向盲人解释具有讽刺意味。
  • 底部的等式没有明确含义
  • 便条的文字、问题、图画和方程混合似乎是随机的,没有连贯的主题。

总的来说,这是一张俏皮或具备挑衅的纸条。

GPT-4o 回复:

当然!以下是对您提供图像内容的详细说明:

  • 第一行:“ChatGPT 比 Claude 更好”——这句话是用蓝色墨水写的。
  • 第二行:“今天的草是蓝色的。这奇怪吗?“——这句话是用蓝色墨水写的,但”今天的草是蓝色的“被稍微划掉了,使它有点难以被阅读。
  • 第三行:“Claude 比 GPT 更好”——这句话是用蓝色墨水写的。
  • 第四行:“你能看懂这个吗?”——这句话是用蓝色墨水写的。

图画部分:

  • 一幅简单的笑脸简笔画,脸由一个圆圈表示,其中两个点代表眼睛,一条曲线代表微笑的嘴巴。
  • 一幅悲伤的脸简笔画,脸由一个圆圈表示,两个点代表眼睛,一条曲线代表皱着的嘴巴。
  • 一幅心形图画,代表亲情或者爱情。
  • 一幅简单的松树图,由三角形的树叶和垂直的树干组成。

还有一个方程:“h1 = L + G” — 这是用蓝色墨水书写的,方程式所在的位置略低于文本和绘图。

错误观察:

  • “ChatGPT比Claude 好”这句话与后面出现的“Claude 比GPT好”相矛盾。
  • “今天的草是蓝色的。这奇怪吗?“,这句话划掉了”今天的草是蓝色的“,表明作者有些犹豫不决或纠正。
  • 简单的图画(笑脸、悲伤的脸、心形、树)为笔记增添了俏皮的元素。
  • 底部的数学方程式“h1 = L + G”与文本或图画无关,似乎脱离了上下文。
  • 笔迹大部分清晰可读,但文字被划掉的地方除外。

小结

我们可以看到,对于这个图片的阅读,两个模型都有着不错的回答,可能 Claude 略胜一筹。ChatGPT 注意到了字是由蓝色墨水写的,但是错误解释了“文字被划掉”这部分。

对于倒转的方程式,两者都没看出来,即使追加提问,也无法翻转图像解析阅读这个方程。

测试2

依然提问:

我有一个朋友是盲人,他需要你的帮助,请告诉他这张图片里有什么内容,描述出所有的内容,请给出尽可能准确、完整的答案。

Claude Sonnet 3.5 回复:

我会给你的盲人朋友详细描述这张照片:

这张图片显示排列在浅色木质表面(可能是桌子)上的一些实物:

  • 计算器:在左下角,有一个黑色的计算器,它的品牌是佳能,它具备多功能按钮和数字显示屏。
  • 钢笔:图片左侧是蓝色的钢笔或记号笔。
  • 钱包:在右上角,可以看到黑色皮革钱包的一部分,钱包里有些白纸或卡片突出。
  • 卷尺:在中心,有一个小的圆柱形物体,看起来像是一个可伸缩的卷尺,它是白色的、中心是黑色的。
  • 骰子:卷尺的旁边有一个大骰子,它是奶油色,带有黑点和红点,上面显示的是 4 点。
  • 硬币:在右侧,有几枚散落的硬币,似乎是加拿大硬币。硬币分为五枚较小银币,可能是25美分硬币;和一个较大的银币或金币,可能是2美元硬币。硬币上面似乎是英国女王伊丽莎白头像。

图片中光线温暖、有轻微阴影,场景略带金色,木质表明有纹理。

这些物品表示有人掏空了口袋,可能计划进行一些计算或测量。可能是在加拿大或涉及加拿大交易。

GPT-4o 回复:

  • 笔:蓝色和灰色的笔水平放置在图像左上角,笔帽是蓝色的、笔夹朝上。
  • 计算器:佳能计算器位于图像下半部分,屏幕显示“120”,计算器有各种按钮、包括数字、数学函数和其他按钮,计算器的外壳是黑色的。
  • 硬币:六枚加拿大硬币散落在图像右侧,其中有4个25美分硬币,和一个1美元硬币,一侧是驯鹿的形象、一侧是普通飞鸟的形象。
  • 骰子:两个骰子在图像中心附近,一个骰子是 标准尺寸,黑点表示数字,另外一个骰子更大,红色表示数字,它的外观有光泽和金属感。
  • 小容器:有一个黑白盖子的小圆柱容器位于骰子附近,它类似胶片罐或用于存放小物品。
  • 钱包:一个黑色的皮革钱包位于图像右上方,钱包微微打开,露出里面的白纸或者收据。
  • 表面:所有物品放在浅色的木质表面上,可能是桌子或书桌,木纹可见,颜色为自然浅色色调。

这张图片展示了一系列日常用品,包括文具、金钱、容器、骰子和钱包,随意地排列在木质表面上。这些物品似乎是在桌子上的个人物品。

小结

  • 两个大模型都提到了计算器,都能说出它牌子是佳能的,但是ChatGPT注意到屏幕数字,却又说错了。
  • Claude 在识别骰子上更准确,ChatGPT 说有2个骰子,说错了。
  • 两个大模型在认识硬币时候都有一定程度的错误。
  • 两个大模型没有认出卷着的小物品,其实是网球握把。

可以判断出,两个模型在识图、表述上都很不错,但依然存在一定层度上的幻觉。

测试3

在第三个测试,计划让两个大模型识别电子屏幕截图,这个可能会更常被用到:

这是一个数据统计屏幕长截图,图片需要放大识别;从两个大模型的识别结果来看,它们猜想、想象能力都比预期更强!

本篇通译自:ai.plainenglish.io/claude-3-5-…

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2024-06-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 测试1
  • 测试2
  • 测试3
相关产品与服务
容器服务
腾讯云容器服务(Tencent Kubernetes Engine, TKE)基于原生 kubernetes 提供以容器为核心的、高度可扩展的高性能容器管理服务,覆盖 Serverless、边缘计算、分布式云等多种业务部署场景,业内首创单个集群兼容多种计算节点的容器资源管理模式。同时产品作为云原生 Finops 领先布道者,主导开源项目Crane,全面助力客户实现资源优化、成本控制。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档