前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >从奥运梗图,实测明星产品MiniCPM-V 2.6

从奥运梗图,实测明星产品MiniCPM-V 2.6

原创
作者头像
算法一只狗
发布2024-08-12 23:55:18
1670
发布2024-08-12 23:55:18
举报
文章被收录于专栏:算法一只狗

这次巴黎奥运会,奥运健儿创造历史的速度太快了,导致每天早上都会有不同的热搜,普通人根本就看不过来。除了关注奥运健儿在赛场上的表现之外,本次巴黎奥运会最出圈的可能就要数各种名场面的出现了。

比如开幕式中的各种各样的梗图,看得网友知乎过瘾

这些梗图的流传,给广大网友带来了无尽的欢乐与娱乐。它们不仅展示了网友们丰富的创意和幽默感,还成为了人们交流的一种新方式。因此,这次就用奥运会的梗图,来测试一下最近比较火爆的明星产品MiniCPM-V 2.6。

MiniCPM-V2.6是面壁智能新开源的端侧多模态模型,它参数量仅有8B,但是在对比20B以下其他大模型中,其单图、多图、视频理解等三项能力都获得了SOTA(State of the Art,即当前最佳水平)的成绩。这个成绩已经能够比肩目前最火的多模态大模型GPT-4o

总结起来它有以下特点:

  • 最前的端侧多模态模型:单图、多图、视频理解等三项能力都获得了SOTA,超越GPT-4V
  • 最高多模态像素密度:类比知识密度,MiniCPM-V2.6取得了两倍于 GPT-4o 的单 token 编码像素密度(token density)
  • 易于部署可用:量化后端侧 6G 内存可用;端侧推理速度达 18 tokens / s,相比上代模型快 33%。

奥运梗图实测

1.奥运开模式的《最后的晚餐》

首先让我们测试一下下面这张图片,图片中反映了两个不同时代的女性形象。2024年奥运会开模式时的这张图片,被网友称为《最后的晚餐》

MiniCPM-V 2.6和GPT-4o都能够很好的识别出这张图片是由两个图片进行对比。同时他们都认为这种变化展示了文化的多样性。

在进一步询问到:“这是一种进步,还是一种倒退?”的时候,MiniCPM-V 2.6认为这是一种进步思想的体现:

这种变化可以进步,因为现代奥运会展示了对包容性和多样性的承诺。

这种回答很有zzzq的意味,看来MiniCPM-V 2.6数据集中应该也包含了很多国外的训练数据集,导致目前的回答思维逻辑偏向于西方的思维。

而GPT-4o秉承着“一碗水端平”的思想🤣,则认为这是进步还是倒退取决于个人的价值观和审美标准。这反而会符合中国人的思考方式。

2.韩国国旗的乌龙

开幕式中最搞笑的是,在现场播报,把韩国念成朝鲜,这不是相当于让朝韩统一了吗?🤣

不仅把韩国名字念错了,法国媒体把韩国国旗里的「太极」改成了红日,强行让日韩「合为一体」。

把这张搞错的图问了一下MiniCPM-V 2.6,它没有准确识别到国旗是否正确。

但是如果问GPT-4o,它能够指出这个国旗是错误的:

这张图片中的韩国国旗是不正确的。韩国国旗的圆圈应该是红蓝两色,而不是单一的红色。此外,韩国国旗的四个角应该有四组黑色的卦象符号,但图片中的旗帜没有显示这些符号。

如果问它是怎么组合的,它只答对了一半,错误的回答了是通过“朝鲜”和“日本”的国旗融合而成的。

不过从两个模型的回答上,MiniCPM-V 2.6暂时不能够识别出有错误的地方,而GPT-4o起码可以指出是有错误的。

3.捅出篓子的:奥运五环

最搞笑的是,开幕式把奥运五环给挂反了,说明法国人民可能对于不同颜色有不一样的理解

我把这张图让GPT-4o识别一下,看看它知不知道搞笑在哪里?结果它能够把折叠的奥运五环给识别出来,同时知道现场升起的旗帜是挂反了

而测试了MiniCPM-V 2.6之后,发现它也能够理解奥运五环旗帜挂反的这个事实:

这个图的搞笑之处在于,原本奥运五环的颜色顺序是红色、蓝色、黑色、黄色和绿色。然而,在现场升起的五环中,颜色顺序被颠倒了,变成了黄色在上,绿色在上。这种颜色顺序的错误让人感到滑稽和有趣。

这说明连AI都能够看出这么大的一个漏洞,而法国人民竟然完全没有意识到这个错误,这捅的篓子足够大的了。各位以后捅娄子了可以想想这件事,或者能够给自己一点安慰🤣

4.动图测试:法国版《燃冬》

要说最为激情四射的,当然要数下面这个法国版《燃冬》的视频

这视频看得人面红耳赤,三个人的动作都很暧昧。在图书馆中的一女两男,直接把央视解说都干沉默了。他们法国人也有自己的燃冬。

于是,我把这个片段直接让MiniCPM-V 2.6分析一下,结果把AI模型干傻眼了:它认为整个场景看起来充满活力和艺术气息,可能与文化活动或艺术表演有关。

这三个人似乎在一个装饰精美的房间里,可能是某种表演或庆祝活动的一部分。从他们的服装和互动来看,可能是在进行某种角色扮演、舞蹈排练或者戏剧表演。

而GPT-4o给出的结论则认为他们在互相安慰:这三个人似乎正在进行某种互动,看起来像是拥抱或安慰对方的情景。

两个AI模型,GPT-4o会指出这三个人在互相暧昧的动作。而MiniCPM-V 2.6则认为他们在表演,可能对于这种辣眼睛的行为,MiniCPM-V 2.6会给出更加保守的回答。

总结

从奥运的各种梗图测试下来,MiniCPM-V 2.6的表现令人经验,在一些图片理解上和GPT-4o的理解能力持平。而且相对于动则几十G的内存去跑,MiniCPM-V 2.6量化后仅需要6G就可以了,对于普通人来说完全可以部署到自己的电脑上,可玩性也更强。希望面壁智能能够检测开源路线,让广大开发者能够享受到最新科技带来的乐趣。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 奥运梗图实测
    • 1.奥运开模式的《最后的晚餐》
      • 2.韩国国旗的乌龙
        • 3.捅出篓子的:奥运五环
          • 4.动图测试:法国版《燃冬》
          • 总结
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档