9月10日凌晨1点,被称为“科技春晚”的苹果发布会拉开序幕。其中苹果介绍了其第一台AI手机:iPhone 16。这是第一台搭载了AI大模型的手机,能够依据用户的输入进行但不限于AI消图、总结文本、邮件回复等等。
这里面主要的功能,基本都是是围绕着Apple Intelligence进行展开
作为第一款搭载了AI大模型的手机,其部署的端侧大模型有以下几个优点:
其发布会上最惊艳的功能就是“视觉智能”,比如当你看到一家餐厅,你可以通过相机进行拍摄,然后通过AI搜索其具体的评价,菜单等等。
先来看看苹果推出的结合端侧大模型,网上说是与OpenAI合作,部署的是GPT-4o模型。结合之前OpenAI发布的GPT-4o mini来看,很有可能就是部署了这个模型。
GPT-4o mini的特征很符合部署到手机端上,一个是因为他足够的小,这样会加快其推理速度;第二个是效果并不比GPT-4o模型要差。
同时价格比GPT-3.5 Turbo便宜超过60%,定价为每100万个输入token才15美分和每100万个输出token则为60美分(大约相当于一本标准书的2500页)。
从相应速度来看,GPT-4o mini明显比OpenAI其他模型推理速度要快得多。应该是因为其参数量不大,所以速度提升明显。
因此苹果选择与OpenAI合作也无可厚非。发布会中最为惊艳的是其展示的视觉智能搜索。苹果举了一个例子:
当你看到一个餐厅时,只需要通过拍下照片,就可以利用Apple Intelligence参看当前这个餐厅的所有信息,包括菜单或者评分等等。
但问题在于,苹果宣布AI接入中文要等到下一年,而且并不一定国内的用户能够使用。到时候可能接入的是国内百度的文心一言,体验不了最强模型GPT-4的效果。
而回看国内手机厂商品牌,很多手机厂商也开始发布自家搭载了端侧大模型的AI手机。比如最近,荣耀也推出了自己的搭建了端侧大模型的手机。
荣耀Magic 7作为国内首款安卓AI智能体手机,相比于苹果有不一样的地方。
比如可以利用AI帮助你进行“AI人脸反诈骗”检测,可以有效应对AI诈骗。
当然,还有最常用的搜索图片等功能(被称为“一语查图”)。利用模糊的语言在大量的相册中搜索你要的图片。比如,你可以说“盛开的荷花”“去年春节穿红色衣服的照片”等等,便能即刻从海量图片中找到需要的照片。
除了这两家之外,各大厂商也陆续发布自己的端侧大模型,每个厂商最大的参数量也就只有7B左右,而像小米、苹果这种发布的自家端侧大模型,仅有3B以下参数量。这说明7B以下大模型其实是很好的能够衡量推理速度和其效果的,在保持效果不差的情况下,推理速度也不至于过慢。
端侧大模型 | 模型参数 | |
---|---|---|
苹果 | MM1/OpenELM | 450M/3B |
华为 | 盘古 | | |
三星 | Gemini(非自研) | 1.8B/3.25B |
荣耀 | 魔法 | 7B |
OPPO | AndesGPT | 7B |
vivo | BlueLM | 7B |
小米 | MiLM | 1.3B/6.4B |
手机端侧模型最实际的价值应该是把10B模型塞入到手机中,随着手机性能的溢出,这个未来应该是不远。
端侧AI模型是指将AI大模型运行于用户的终端设备上,如手机或计算机,而不是依赖云端服务器。这种技术有几个关键特点和挑战:
目前在市面上已经有多个厂商发布自己的端侧模型,但是端侧模型需要的一个突出点在于参数量不能过大,不然要运行在本地还是有一定的难度。在当前INT4/INT8的量化上,需要保证模型还能够有一定的推理能力。
从近期的一些文章来看,目前的端侧模型效果惊人,已经能够复刻ChatGPT的效果。比如面壁智能近期发布的端侧模型MiniCPM 3.0。它仅仅是一个 4B 参数量的语言模型,相比 MiniCPM1.0/2.0,功能更加全面,综合能力大幅提升,多数评测集上的效果比肩甚至超越众多 7B-9B 模型。
其具有三个突出的优点:
因此可以说,目前的端侧大模型本质上效果已经有了较大的提升。虽然这样的模型模型已经能做到相对不错的内存占用——MiniCPM 3.0 的模型量化后仅需 2GB 内存占用,但是仍然存在适配的挑战:
当App用户量超过100万时,手机配置将极为多样,受限于不同手机的内存读写、能耗等方面,部署端侧模型在现阶段极具挑战性。
为了实现在手机上达到用户感知不到的推理速度,端侧AI大模型需要具备以下几个关键特性:
面壁智能发布的MiniCPM 3.0模型,在端侧上进行量化部署,可以达到18-20 tokens/s;
商汤科技的SenseChat-Lite模型在中端平台上可以达到18.3字每秒,旗舰平台上能达到78.3字每秒,响应时间低于0.4秒。
这些模型展示了在保持较高性能的同时,大幅减少模型参数量和计算复杂度的可能性。一般来说,每秒20tokens以上应该具有较好的用户体验。
这里面优化技术最重要的就是量化技术。
上面论文提出,生成式AI的Transformer大语言模型通过量化至8位(INT8)或4位(INT4)权重,可大幅提升效率。INT4权重量化在训练后量化(PTQ)中同样可行且表现优异,提升效率已超浮点模型。
利用量化感知训练(QAT),许多生成式AI模型可量化至INT4。INT4模型在不损失准确性和性能的情况下,功耗更低,性能提升90%,能效提升60%。
硬件加速方面,可以采取异构计算架构,包括Hexagon NPU、高通Adreno GPU、高通Kryo CPU或高通Oryon CPU。
以第三代骁龙8移动平台为例,Hexagon NPU在性能表现上,比前代产品快98%,同时功耗降低了40%。
通过上述优化技术,端侧AI大模型能够在保持较高性能的同时,大幅减少模型参数量和计算复杂度,从而实现在手机等移动设备上的高效运行。这不仅有助于提升用户体验,还能确保设备的续航能力。
自从2022年以来,ChatGPT的横空出世,大模型给人们带来了太多的震撼和惊喜。但是从目前来看,大部分的大模型效果已经区分不开,实际使用体验来看也没有明显的差异性。
很明显,如果继续卷大模型参数和能力,是有很大的瓶颈的。那么大模型的AI Agent 能力可能是下一个必争之地。这是因为能够发挥大模型的地方,目前最好的平台就是手机,而手机则需要依赖于大模型的AI Agent能力,来帮助用户与环境交互。这种能力能够结合功能调用、工具使用和计划能力,能更精确地理解需求并解决复杂任务。
AI大模型需要重新定义“智能手机”,“智能”不仅是“我能用手机做什么”,还应该包括“手机能帮我做什么”。而目前,大模型的能力都在逐步完善AI Agent能力。
比如之前阿里发布的Qwen2-VL模型,使用了多模态的能力去理解用户输入的多维度信息。首先来看看简单的Demo,让Qwen2-VL模型根据输入的图像,调用插件回到对应的问题。
这个挑战主要是测试Qwen2-VL模型对图像中文字的理解能力,在理解之后根据指令查询信息。用户上传了一张航班信息图片,当用户询问到底时间和目的地天气时,就需要大模型去搜索天气信息。从视频上看,Qwen2-VL对于简单的调用工具还是做得不错。
接下来就是一个更加复杂的场景。左边是AI操作的界面,右边是AI的每个状态步骤。
这时候需要大模型去查询一个San Diego的餐厅。可以看到AI操作谷歌搜索,然后寻找当前用户附近的餐厅。这样就可以找到心仪的餐厅了。
像上面这些例子,都是大模型AI Agent能力的体现,那么可以想象,借助大模型,使用手机将不再是一个需要「学习」的过程,用户只需用自然语言表达自己的需求即可。此外,大模型AI Agent还能帮助我们管理日程、提醒重要事项,甚至在我们忙碌时处理一些简单任务,如购物、订餐等。
总之,借助大模型AI Agent,手机将变得更加人性化,成为我们生活中不可或缺的伙伴。我们可以通过简单的语言与手机互动,让它为我们提供全方位的服务,从而让我们的生活变得更加便捷和高效。
从目前的端侧AI模型现状来看,国内外的很多厂商都聚焦于如何把大模型配置到手机上,并使得手机能够更加的智能。从苹果发布会来看,这只是AI在手机上的一个初步体现。
当然如果仅靠端侧模型去理解用户意图,本质上还会有一定的偏差,需要结合云端大模型共同处理和写作,才能实现更加强大的通用Agent能力。
参考:
1)https://www.zhihu.com/question/666857800/answer/3623127609
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有