苹果的 “多模态炼丹炉” 又升级！MM1.5增强文本密集、多图理解

文章来源：企鹅号 - 爱尚学院

苹果公司最近为其多模态人工智能模型MM1推出了重大更新，将其升级为MM1.5版本。这次升级不仅仅是简单的版本号变更，而是全方位的能力提升，使得模型在各个领域都展现出了更强大的性能。

MM1.5的核心升级在于其创新的数据处理方法。该模型采用了以数据为中心的训练方法，精心筛选和优化了训练数据集。具体而言，MM1.5使用了高清晰度的OCR数据和合成图像描述，以及优化的视觉指令微调数据混合。这些数据的引入使得模型在文字识别、图像理解和执行视觉指令等方面都有了显著提升。

在模型规模方面，MM1.5涵盖了从10亿到300亿参数不等的多个版本，包括密集型和专家混合（MoE）变体。值得注意的是，即使是较小规模的10亿和30亿参数模型，通过精心设计的数据和训练策略，也能达到令人印象深刻的性能水平。

MM1.5的能力提升主要体现在以下几个方面:文本密集型图像理解、视觉指代和定位、多图像推理、视频理解以及移动UI理解。这些能力使得MM1.5可以应用于更广泛的场景，如从音乐会照片中识别表演者和乐器、理解图表数据并回答相关问题、在复杂场景中定位特定物体等。

为了评估MM1.5的性能，研究人员将其与其他先进的多模态模型进行了对比。结果显示，MM1.5-1B在10亿参数规模的模型中表现出色，明显优于同级别的其他模型。MM1.5-3B的表现超越了MiniCPM-V2.0，并与InternVL2和Phi-3-Vision不相上下。此外，研究还发现，无论是密集型模型还是MoE模型，随着规模的扩大，性能都会显著提升。

MM1.5的成功不仅体现了苹果公司在人工智能领域的研发实力，也为多模态模型的未来发展指明了方向。通过优化数据处理方法和模型架构，即使是较小规模的模型也能实现强大的性能，这对于在资源受限的设备上部署高性能AI模型具有重要意义。

发表于: 2024-10-152024-10-15 11:23:51
原文链接：https://page.om.qq.com/page/OQoDxJijw18A4MkS34HMrnnQ0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

苹果的 “多模态炼丹炉” 又升级！MM1.5增强文本密集、多图理解

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐