Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >国产端侧小模型超越 GPT-4V,「多模态」能力飞升

国产端侧小模型超越 GPT-4V,「多模态」能力飞升

作者头像
AI科技评论
发布于 2024-05-22 06:43:13
发布于 2024-05-22 06:43:13
9900
举报
文章被收录于专栏:AI科技评论AI科技评论

端侧大模型的解耦难题:是模型适配终端,还是终端适配模型?

作者 | 西西

编辑 | 陈彩娴

在刚刚过去的机器人学术顶会 ICRA 2024 上,「具身智能」成为热议,其中围绕具身智能的一个普遍疑问是:若将 AI 大模型应用到消费级机器人领域,首先是模型适配终端,还是终端适配模型?

过去一年,由于 6B、7B 等小模型的成果井喷,以及 MoE 训练技术的越发成熟,将模型跑在手机、学习机、平板电脑、机器人甚至汽车等等终端应用上的想象力开始变大,无论算法层还是硬件层都「蠢蠢欲动」。诚然,这已经成为一个明朗的行业方向,但在系统整合上却要面临不同话语体系之间的博弈。

以机器人为例。从算法层看,将模型做小是关键,但硬件厂商关心的却是模型能否适配自身的产品:

首先,消费机器人有固定的产品周期,从研发到投入市场往往要经历大半年到一年半左右的时间。因此,尽管 ChatGPT 破圈后已经过去一年多,但目前已经上市的扫地机中却没有已经部署大模型的产品;

其次,硬件底层的芯片有上限,芯片设计完后就是一个性能参数限定的「物理」产品,其中带宽能跑多少、内存能用多大都已经是已知数,这就直接了应用在硬件上的 AI 模型能用多大参数、跑多快速度。

因此,机器人厂商普遍关注两个问题:一是如何将目标尺寸的大模型跑在固有的芯片上,二是如何使大模型服务好已有的场景,如扫地、语音交互等。

同样的问题也出现在其他的终端应用领域,如手机、平板、学习机等。此外,由于视觉是上一代 AI 与终端应用结合的主流,如智能手机中的人脸识别、语音交互,多模态也成为端侧大模型的性能首选。

这意味着,接下来的端侧大模型爆发将离不开三个要素:一,满足产品形态与适配芯片的需求;二,具备多模态模型能力;三,能够在长周期的产品研发投入中保持具有竞争力的价格优势。

但目前,国内外大模型厂商能聚焦、兼顾三者的团队寥寥无几。这意味着,在未来的 2024 年乃至 2025 年,能够在适配、性能与价格上率先拔得头筹的算法团队,将能赢得端侧 AI 领域的最终话语权。

图注:OpenCompass 榜单变化显示,小参数、高性能模型逐渐成为 AI 技术趋势

据 AI 科技评论观察,国内的大模型团队在端侧上也发力迅猛。以多模态能力为例,国外 OpenAI、谷歌,国内阿里、面壁智能等均在 20B 以内参数规模的小模型上有布局。而据了解,20 亿几乎是目前国内芯片厂商正在研发的终端芯片主流支持的参数规模,而面壁正是这一参数量级的代表性玩家。

而近日,主打「小钢炮」的面壁智能所发布的新成果更尤为值得关注!继被吴恩达大力推广的 ChatDev 后,面壁在端侧模型上频出奇招,再次推出端侧多模态模型 MiniCPM-Llama3-V 2.5,直接干翻 GPT-4V 与多模态巨无霸 Gemini Pro,引起了海内外的广泛关注。

1、端侧小模型 SOTA 诞生?

据了解,面壁智能最新发布的多模态模型 MiniCPM-Llama3-V 2.5 性能飞跃,今非昔比:

  • 多模态能力飞升:参数规模仅 8B,综合性能却超越谷歌的多模态巨无霸 Gemini Pro 与 OpenAI 的 GPT-4V;
  • OCR 能力 SOTA:能够精准识别长图、难图与长文本,9 倍像素更清晰,同时具备识别与推理能力;
  • 手机端突破:首次整合 NPU 和 CPU 加速框架, 对手机端多模态大模型进行系系统级加速,速度提升 150 倍;
  • 多语种能力:支持 30 多种语言,除了中英双语,还包括法语、德语、西班牙语等等主流语言,基本覆盖了一带一路的所有国家;
  • ……

图注:面壁新模型 MiniCPM-Llama3-V2.5 综合能力水平指数

笔者看了表示大为震撼。我们知道面壁在今年 1 月发布的 MiniCPM 是专攻「以小博大」的端侧模型,但没想到短短3个月,从 MiniCPM-V 到 MiniCPM-V 2.0、再到 MiniCPM-Llama3-V2.5,面壁智能的端侧模型不断迭代,在多模态各项能力上竟取得了如此迅速、耀眼的突破!

在综合评测权威平台 OpenCompass 上,面壁 MiniCPM-Llama3-V2.5 以小博大,以 8B 量级综合性能超越多模态巨无霸 GPT-4V 和 Gemini Pro,是目前端侧最强的模型:

多模态能力是当前大模型最核心的竞争力之一,手机、PC 等智能终端设备因其高频的影像视觉处理需求,对在端侧部署 AI 模型提出了更高的多模态识别与推理能力要求。

具体从 OCR 识别、模型幻觉能力与空间理解能力来看的话,面壁的最新 MiniCPM-Llama3-V2.5 实现了开源模型的性能 SOTA。展开来看:

OCR 识别中,在 OCR 综合能⼒权威榜单 OCRBench 上,面壁「多模态小钢炮」超越了Claude 3V Opus、GeminiPro 等标杆模型,也超过了原先排名第一的上海人工智能实验室 InternVL-Chat-V1.5、最新霸榜第一!

排名第二的 InternVL-Chat-V1.5 虽然没有比面壁 MiniCPM-Llama3-V2.5 落后太多,但前者参数是后者的 3 倍。

幻觉能力上,MiniCPM-Llama3-V 2.5 在Object HalBench 榜单上超越了 GPT-4V 等众多模型(注:目标幻觉率应为0):

空间理解能力上,在专注于评估多模态模型基本现实世界空间理解能力的 RealWorldQA 榜单上,MiniCPM-Llama3-V 2.5 再次超越 GPT-4V 和 Gemini Pro:

面壁智能 CTO 曾国洋在数月前告诉过 AI 科技评论,他一直认为模型的空间理解能力是实现 AGI 的几个重要组成能力之一。要实现 AGI,现有的长文本长序列架构还不能满足,AGI 还需要一个更好的框架来解决模型的记忆与学习问题,一块是空间记忆,另一块则是经验学习。

从这个思路看,面壁智能 MiniCPM-Llama3-V2.5 的发布,或者不只表明了面壁在端侧模型上的突破,还有更宏大的 AGI 愿景。

2、「识别」、「推理」比翼双飞

关于多模态,过去行业的标杆成果往往以物体精准识别为主,但大规模预训练语言模型诞生后,AI 模型的常识与推理能力愈发成为考量多模态模型的关键维度。

能同时兼顾「识别」与「推理」能力的多模态模型凤毛麟角,此次面壁发布的 8B 多模态小模型成为了其中之一。多个案例展示了面壁多模态小钢炮的识别-推理能力:

1)《三体》相关建筑图识别推理——

面壁智能 MiniCPM-Llama3-V 2.5 很快就能推理出这些建筑是为了纪念《三体》及其对中国科幻文学的贡献而设计:

但 GPT-4V 则答非所问:

2)手机图片识别与信息提取、结构化输出——

输入一张手机拍摄的火车票,MiniCPM-Llama3-V 2.5 能准确提取信息,给出无误的「json」格式输出:

3)高精尖行业学术论文图表分析——

给 MiniCPM-Llama3-V 2.5 一张包含复杂逻辑的流程图:

MiniCPM-Llama3-V 2.5 不仅能够轻松看懂流程图中不同模块的文字、箭头之间的空间位置和复杂逻辑关系 ,还能给出清晰易懂的解释说明:

4)长图长文本识别与信息推理——

输入一张包含稠密信息的长文长图:

↓向下滑动查看长图内容↓

向 MiniCPM-Llama3-V 2.5 提问,其能直接根据长图信息进行推理问答:

复杂推理能力对多模态大模型至关重要,它使得模型不仅能理解单一的文本或图像等模态信息,还能跨越不同模态间的综合信息,做出更加准确和深入的分析。

MiniCPM-Llama3-V 2.5 进一步升级,可深入洞察图像,在更复杂、更接近人类的水平上进行思考和解决问题,无疑是 AI 大模型中的「小福尔摩斯」。

此外,在视觉一块,面壁 MiniCPM-V 系列模型也实现了识别图像像素的飞升。

据面壁智能透露,有别于传统技术仅能识别20万像素小图,MiniCPM-V 系列可以高效编码及无损识别180万高清像素图片,并且支持任意长宽比图像识别、甚至「有点变态」的 1:9 极限宽高比。

3、多语种能力增强

端侧部署迎来春天

具体在手机、学习机等等端侧的部署应用上,除了识别与推理的能力一体化,面壁 MiniCPM-Llama3-V2.5 的另外两项优势体现在多语种能力与端侧部署加速上。

多语种能力

得益于 VisCPM 的跨语言泛化技术,在中英双语多模态能力的基础上,MiniCPM-Llama3-V2.5 仅通过少量翻译的多模态数据的指令微调,高效泛化支持了德语、法语、西班牙语、意大利语、俄语等 30+ 种语言的多模态能力,几乎覆盖了所有一带一路的国家,意味着全球上百个国家的数十亿人口,都能与 MiniCPM-Llama3-V2.5 丝滑交互。

此处 GIF 为 2 倍速,我们正进一步加速优化中

在对话中,MiniCPM-Llama3-V2.5 表现出了良好的多语言多模态对话性能。

与目前国内较为领先的零一万物多模态模型 Yi-VL 34B 为参照,多语言版本 LLaVABench 评测结果显示,MiniCPM-Llama3-V2.5 对话能力更胜一筹:

需要注意的是,并非所有基于 Llama3 微调的模型都有出色的能力,这中间依然涉及到高门槛的训练技巧。例如,Bunny-Llama-3-8B、XTuner-Llama3-8B-v1.1、LLaVA-NeXT Llama-3-8B 等模型均是借鉴 Llama3,但在综合能力上却远远落后于 MiniCPM-Llama3-V2.5:

端侧部署

如前所述,由于终端硬件产品的物理限制,部署到端侧的 AI 模型既要满足硬件的端侧要求,并在成本可控的情况下实现同等参数性能最佳、同等性能参数最小。

在图像编码方面,面壁首次整合 NPU 和 CPU 加速框架,在 MiniCPM-Llama3-V 2.5 图像编码方面实现了 150 倍加速提升。

在语言模型推理方面,目前开源社区的报告结果中,Llama 3 语言模型在手机端侧的解码速度在 0.5 token/s 上下,相比之下,多模态大模型的端侧运行面临着更大的效率挑战,经过 CPU、编译优化、显存管理等优化方式,面壁将 MiniCPM-Llama3-V 2.5 在手机端的语言解码速度提升到 3-4 token/s。目前,语言模型的图像编码加速也在进行中,更灵敏互动体验即将到来。

总的来说,面壁最新取得的端侧多模态模型成果 MiniCPM-Llama3-V 2.5 是国产端侧之光,加速了国产大模型部署在端侧的节奏,也给端侧 AI 行业提供了多方位的参考。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
国产「小钢炮」一夜干翻巨无霸GPT-4V、Gemini Pro!稳坐端侧多模态铁王座
拳打GPT-4V,脚踢Gemini Pro,仅仅8B参数就能击败多模态大模型王者。
新智元
2024/05/22
1650
国产「小钢炮」一夜干翻巨无霸GPT-4V、Gemini Pro!稳坐端侧多模态铁王座
手机上的 GPT-4V 级多模态大型语言模型!
随着多模态大型语言模型(MLLM)的快速发展,作者的理解、推理和交互能力在多个模态下有了显著提升。这不仅从根本上改变了AI研究和发展的新格局,而且为向下一个AI里程碑迈进提供了一扇诱人的窗户。然而,当前的MLLM在实际应用中仍存在很大的局限性。其中一个最突出的挑战是,目前大多数MLLM参数数量庞大,计算负担重,导致大多数MLLM只能部署在高性能云服务器上,从而产生大量的能源消耗和碳排放。这一限制极大地限制了潜在的应用范围,如在移动设备、敏感能源场景、没有稳定网络连接的离线场景以及个人和工业用户的隐私/安全保护场景等。
AIGC 先锋科技
2024/08/19
1710
手机上的 GPT-4V  级多模态大型语言模型!
中文OCR超越GPT-4V,参数量仅2B,面壁小钢炮拿出了第二弹
从 ChatGPT 到 Sora,生成式 AI 技术遵从《苦涩的教训》、Scaling Law 和 Emerging properties 的预言一路走来,让我们已经看到了 AGI 的冰山一角,但技术的发展的方向还不尽于此。
机器之心
2024/04/13
2130
中文OCR超越GPT-4V,参数量仅2B,面壁小钢炮拿出了第二弹
斯坦福 AI 团队“套壳”清华系开源大模型被实锤!被揭穿后全网删库跑路
5 月 29 日,一个来自斯坦福的作者团队在 Medium 上发布了一篇名为《Llama 3-V: Matching GPT4-V with a 100x smaller model and 500 dollars》的文章,文章中称他们训练出了一个比 GPT-4V、Gemini Ultra、Claude Opus 更强的 SOTA 开源多模态模型,尺寸比 GPT4-V 小 100 倍,训练成本仅需 500 美元。
深度学习与Python
2024/06/17
1800
斯坦福 AI 团队“套壳”清华系开源大模型被实锤!被揭穿后全网删库跑路
端侧AI的终极形态
作为争夺下一代流量入口的关键机遇,端侧AI(运行在手机等设备端的生成式AI模型)已然成为各大厂商必争之地。虽然,站在当下的时间点,除了少数工程样机之外,我们仍难以在终端设备上获得理想的AI体验,这主要是因为大模型在终端设备落地时,仍然面临诸多挑战。比如,短期内,从突破难度来排序,电池续航和散热问题>显存带宽>GPU算力和显存容量,成为一系列亟待解决的难点。尽管如此,终端生态多方的信心并没有受到影响,大家正在使尽浑身解数共同促进端侧AI的实现。
小腾资讯君
2024/08/28
4150
重磅!斯坦福 AI 团队被曝抄袭中国大模型开源成果,推特舆论开始发酵
过去一年,中国大模型一直被贴上「追赶美国」的标签,但近日,推特上却有人曝出:美国斯坦福大学的一个 AI 团队疑似抄袭、「套壳」一家中国大模型公司的开源成果,模型架构与代码完全相同。
AI科技评论
2024/06/03
4880
重磅!斯坦福 AI 团队被曝抄袭中国大模型开源成果,推特舆论开始发酵
WAIC 最具技术想象力成果发布:新架构面壁小钢炮又一次验证并加速了面壁定律
2020 年,1750 亿参数规模的 GPT-3 问世。彼时,完整训练 1750 亿参数的模型需要 3.14E11(TFLOPS)的每秒浮点运算量。如果使用英伟达 80GB A100 GPU(16位浮点算力有 312 TFLOPS,但在分布式环境中很难达到峰值),按照每张显卡 1.5 刀每小时的租赁价格来算,则需要使用一千张 A100 、花费81.6 万刀、用 22 天才能完成整个训练过程。
AI科技评论
2024/07/15
1640
WAIC 最具技术想象力成果发布:新架构面壁小钢炮又一次验证并加速了面壁定律
多模态大模型的多语种文字理解能力还有很长的路要走,字节、华科联合发布MTVQA Bench
近期多模态大模型(MLLM)在视觉文本理解领域取得了显著进展,比如开源模型InternVL 1.5、MiniCPM-Llama3-V 2.5、TextMonkey, 闭源模型GPT-4o、Claude等,甚至在某些方面展现了超越人类的能力。然而,当前的评估主要集中在英文和中文的语言环境中,对于更具挑战的多语种环境,研究还相对缺乏。
CV君
2024/06/27
3870
多模态大模型的多语种文字理解能力还有很长的路要走,字节、华科联合发布MTVQA Bench
OpenAI 终于发布 GPT-4o mini,但比中国大模型晚了半年
美国时间 7 月18 日,OpenAI 正式发布了多模态小模型 GPT-4o mini,在海内外引起了广泛关注。
AI科技评论
2024/07/29
2670
OpenAI 终于发布 GPT-4o mini,但比中国大模型晚了半年
专访面壁曾国洋:踩过 1000 次大模型的坑后 ,造一个性能小钢炮
2月1日,刚成立一年的面壁智能发布了两个在海内外大模型领域「炸裂级」的存在——面壁 MiniCPM 2B 旗舰端侧大模型与面壁OmniLMM多模态大模型。
AI科技评论
2024/02/06
5680
专访面壁曾国洋:踩过 1000 次大模型的坑后 ,造一个性能小钢炮
可信度超越GPT-4V,清华&面壁揭秘「小钢炮」模型背后的高效对齐技术
本文主要作者来自 MiniCPM-V 团队,其中第一作者余天予是清华大学 2021 级硕士研究生,他的主要研究方向是通用多模态基础大模型构建及其对齐方法。
机器之心
2024/06/17
2030
可信度超越GPT-4V,清华&面壁揭秘「小钢炮」模型背后的高效对齐技术
斯坦福爆火Llama3-V竟抄袭国内开源项目,作者火速删库
在 GPT-4o 出世后,Llama3 的风头被狠狠盖过。GPT-4o 在图像识别、语音理解上卓越的性能展现了它强大多模态能力。开源领域的领头羊 Llama3 曾在几乎所有基准测试中都超越了 GPT-3.5,甚至在某些方面超越了 GPT-4。这次就要闷声「吃瘪」了吗?
机器之心
2024/06/04
2440
斯坦福爆火Llama3-V竟抄袭国内开源项目,作者火速删库
仅4B参数!面壁端侧模型MiniCPM 3.0达到GPT-3.5水平
“ 端侧模型正成为一个备受关注的技术前沿。面壁智能发布的MiniCPM 3.0,以其4B参数量在性能上逼近GPT-3.5,更在端侧部署上实现了技术突破。这款小而强大的模型,不仅为移动设备智能化提供了全新可能,也为人工智能的轻量化和普及性开辟了更广阔的想象空间。”
技术人生黄勇
2024/12/09
3110
仅4B参数!面壁端侧模型MiniCPM 3.0达到GPT-3.5水平
端侧大模型浪潮奔涌而至:态势、影响与建议
10月10日,Vivo推出蓝心端侧大模型 3B,其AI能力已覆盖60多个国家和地区,服务超5亿手机用户,大模型token输出量超过3万亿;随后,字节发布首款AI智能体耳机Ola Friend,与豆包深度集成;18日,荣耀同期发布了Magic OS 9.0 ,打造AI OS,其上的YOYO智慧助手已经打通了多款APP,可以实现一句话充值、一句话点外卖等服务。中国信通院与荣耀等企业还共同发布了《终端智能化分级研究报告》,推出了行业首个终端智能化分级体系。
小腾资讯君
2024/10/31
4730
套壳丑闻让斯坦福AI Lab主任怒了!抄袭团队2人甩锅1人失踪、前科经历被扒,网友:重新认识中国开源模型
最新致歉推文,由Siddharth Sharma(悉达多)和Aksh Garg(阿克什)发出。
量子位
2024/06/04
2120
套壳丑闻让斯坦福AI Lab主任怒了!抄袭团队2人甩锅1人失踪、前科经历被扒,网友:重新认识中国开源模型
算法系统协同优化,vivo与港中文推出BlueLM-V-3B,手机秒变多模态AI专家
BlueLM-V-3B 是一款由 vivo AI 研究院与香港中文大学联合研发的端侧多模态模型。该模型现已完成对天玑 9300 和 9400 芯片的初步适配,未来将逐步推出手机端应用,为用户带来更智能、更便捷的体验。
机器之心
2025/02/14
850
算法系统协同优化,vivo与港中文推出BlueLM-V-3B,手机秒变多模态AI专家
惊!1元竟能驱动170万次AI推理?面壁智能MiniCPM 2B大模型:颠覆你的想象,让老手机秒变AI神器!
在科技日新月异的今天,我们似乎习惯了“更新换代”的节奏。但你有没有想过,那些陪伴我们多年的老手机,也能摇身一变成为AI神器?面壁智能的MiniCPM 2B大模型,就给我们带来了这样的惊喜。
Dlimeng
2024/05/24
920
惊!1元竟能驱动170万次AI推理?面壁智能MiniCPM 2B大模型:颠覆你的想象,让老手机秒变AI神器!
从奥运梗图,实测明星产品MiniCPM-V 2.6
这次巴黎奥运会,奥运健儿创造历史的速度太快了,导致每天早上都会有不同的热搜,普通人根本就看不过来。除了关注奥运健儿在赛场上的表现之外,本次巴黎奥运会最出圈的可能就要数各种名场面的出现了。
算法一只狗
2024/08/12
2810
从奥运梗图,实测明星产品MiniCPM-V 2.6
每周AI论文速递(240805-240809)
Medical SAM 2: 利用 Segment Anything Model 2 实现医学图像的视频化分割
叶子的技术碎碎念
2025/04/08
880
每周AI论文速递(240805-240809)
苹果AI手机发布后,端侧AI大模型前景如何?
9月10日凌晨1点,被称为“科技春晚”的苹果发布会拉开序幕。其中苹果介绍了其第一台AI手机:iPhone 16。这是第一台搭载了AI大模型的手机,能够依据用户的输入进行但不限于AI消图、总结文本、邮件回复等等。
算法一只狗
2024/09/26
4140
苹果AI手机发布后,端侧AI大模型前景如何?
推荐阅读
国产「小钢炮」一夜干翻巨无霸GPT-4V、Gemini Pro!稳坐端侧多模态铁王座
1650
手机上的 GPT-4V 级多模态大型语言模型!
1710
中文OCR超越GPT-4V,参数量仅2B,面壁小钢炮拿出了第二弹
2130
斯坦福 AI 团队“套壳”清华系开源大模型被实锤!被揭穿后全网删库跑路
1800
端侧AI的终极形态
4150
重磅!斯坦福 AI 团队被曝抄袭中国大模型开源成果,推特舆论开始发酵
4880
WAIC 最具技术想象力成果发布:新架构面壁小钢炮又一次验证并加速了面壁定律
1640
多模态大模型的多语种文字理解能力还有很长的路要走,字节、华科联合发布MTVQA Bench
3870
OpenAI 终于发布 GPT-4o mini,但比中国大模型晚了半年
2670
专访面壁曾国洋:踩过 1000 次大模型的坑后 ,造一个性能小钢炮
5680
可信度超越GPT-4V,清华&面壁揭秘「小钢炮」模型背后的高效对齐技术
2030
斯坦福爆火Llama3-V竟抄袭国内开源项目,作者火速删库
2440
仅4B参数!面壁端侧模型MiniCPM 3.0达到GPT-3.5水平
3110
端侧大模型浪潮奔涌而至:态势、影响与建议
4730
套壳丑闻让斯坦福AI Lab主任怒了!抄袭团队2人甩锅1人失踪、前科经历被扒,网友:重新认识中国开源模型
2120
算法系统协同优化,vivo与港中文推出BlueLM-V-3B,手机秒变多模态AI专家
850
惊!1元竟能驱动170万次AI推理?面壁智能MiniCPM 2B大模型:颠覆你的想象,让老手机秒变AI神器!
920
从奥运梗图,实测明星产品MiniCPM-V 2.6
2810
每周AI论文速递(240805-240809)
880
苹果AI手机发布后,端侧AI大模型前景如何?
4140
相关推荐
国产「小钢炮」一夜干翻巨无霸GPT-4V、Gemini Pro!稳坐端侧多模态铁王座
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档