从奥运梗图，实测明星产品MiniCPM-V 2.6

原创

算法一只狗

发布于 2024-08-12 23:55:18

1670

发布于 2024-08-12 23:55:18

文章被收录于专栏：算法一只狗

这次巴黎奥运会，奥运健儿创造历史的速度太快了，导致每天早上都会有不同的热搜，普通人根本就看不过来。除了关注奥运健儿在赛场上的表现之外，本次巴黎奥运会最出圈的可能就要数各种名场面的出现了。

比如开幕式中的各种各样的梗图，看得网友知乎过瘾

这些梗图的流传，给广大网友带来了无尽的欢乐与娱乐。它们不仅展示了网友们丰富的创意和幽默感，还成为了人们交流的一种新方式。因此，这次就用奥运会的梗图，来测试一下最近比较火爆的明星产品MiniCPM-V 2.6。

MiniCPM-V2.6是面壁智能新开源的端侧多模态模型，它参数量仅有8B，但是在对比20B以下其他大模型中，其单图、多图、视频理解等三项能力都获得了SOTA（State of the Art，即当前最佳水平）的成绩。这个成绩已经能够比肩目前最火的多模态大模型GPT-4o

总结起来它有以下特点：

最前的端侧多模态模型：单图、多图、视频理解等三项能力都获得了SOTA，超越GPT-4V
最高多模态像素密度：类比知识密度，MiniCPM-V2.6取得了两倍于 GPT-4o 的单 token 编码像素密度（token density）
易于部署可用：量化后端侧 6G 内存可用；端侧推理速度达 18 tokens / s，相比上代模型快 33%。

奥运梗图实测

1.奥运开模式的《最后的晚餐》

首先让我们测试一下下面这张图片，图片中反映了两个不同时代的女性形象。2024年奥运会开模式时的这张图片，被网友称为《最后的晚餐》

MiniCPM-V 2.6和GPT-4o都能够很好的识别出这张图片是由两个图片进行对比。同时他们都认为这种变化展示了文化的多样性。

在进一步询问到：“这是一种进步，还是一种倒退？”的时候，MiniCPM-V 2.6认为这是一种进步思想的体现：

这种变化可以进步，因为现代奥运会展示了对包容性和多样性的承诺。

这种回答很有zzzq的意味，看来MiniCPM-V 2.6数据集中应该也包含了很多国外的训练数据集，导致目前的回答思维逻辑偏向于西方的思维。

而GPT-4o秉承着“一碗水端平”的思想🤣，则认为这是进步还是倒退取决于个人的价值观和审美标准。这反而会符合中国人的思考方式。

2.韩国国旗的乌龙

开幕式中最搞笑的是，在现场播报，把韩国念成朝鲜，这不是相当于让朝韩统一了吗？🤣

不仅把韩国名字念错了，法国媒体把韩国国旗里的「太极」改成了红日，强行让日韩「合为一体」。

把这张搞错的图问了一下MiniCPM-V 2.6，它没有准确识别到国旗是否正确。

但是如果问GPT-4o，它能够指出这个国旗是错误的：

这张图片中的韩国国旗是不正确的。韩国国旗的圆圈应该是红蓝两色，而不是单一的红色。此外，韩国国旗的四个角应该有四组黑色的卦象符号，但图片中的旗帜没有显示这些符号。

如果问它是怎么组合的，它只答对了一半，错误的回答了是通过“朝鲜”和“日本”的国旗融合而成的。

不过从两个模型的回答上，MiniCPM-V 2.6暂时不能够识别出有错误的地方，而GPT-4o起码可以指出是有错误的。

3.捅出篓子的：奥运五环

最搞笑的是，开幕式把奥运五环给挂反了，说明法国人民可能对于不同颜色有不一样的理解

我把这张图让GPT-4o识别一下，看看它知不知道搞笑在哪里？结果它能够把折叠的奥运五环给识别出来，同时知道现场升起的旗帜是挂反了

而测试了MiniCPM-V 2.6之后，发现它也能够理解奥运五环旗帜挂反的这个事实：

这个图的搞笑之处在于，原本奥运五环的颜色顺序是红色、蓝色、黑色、黄色和绿色。然而，在现场升起的五环中，颜色顺序被颠倒了，变成了黄色在上，绿色在上。这种颜色顺序的错误让人感到滑稽和有趣。

这说明连AI都能够看出这么大的一个漏洞，而法国人民竟然完全没有意识到这个错误，这捅的篓子足够大的了。各位以后捅娄子了可以想想这件事，或者能够给自己一点安慰🤣

4.动图测试：法国版《燃冬》

要说最为激情四射的，当然要数下面这个法国版《燃冬》的视频

这视频看得人面红耳赤，三个人的动作都很暧昧。在图书馆中的一女两男，直接把央视解说都干沉默了。他们法国人也有自己的燃冬。

于是，我把这个片段直接让MiniCPM-V 2.6分析一下，结果把AI模型干傻眼了：它认为整个场景看起来充满活力和艺术气息，可能与文化活动或艺术表演有关。

这三个人似乎在一个装饰精美的房间里，可能是某种表演或庆祝活动的一部分。从他们的服装和互动来看，可能是在进行某种角色扮演、舞蹈排练或者戏剧表演。

而GPT-4o给出的结论则认为他们在互相安慰：这三个人似乎正在进行某种互动，看起来像是拥抱或安慰对方的情景。

两个AI模型，GPT-4o会指出这三个人在互相暧昧的动作。而MiniCPM-V 2.6则认为他们在表演，可能对于这种辣眼睛的行为，MiniCPM-V 2.6会给出更加保守的回答。

总结

从奥运的各种梗图测试下来，MiniCPM-V 2.6的表现令人经验，在一些图片理解上和GPT-4o的理解能力持平。而且相对于动则几十G的内存去跑，MiniCPM-V 2.6量化后仅需要6G就可以了，对于普通人来说完全可以部署到自己的电脑上，可玩性也更强。希望面壁智能能够检测开源路线，让广大开发者能够享受到最新科技带来的乐趣。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯技术创作特训营S8