首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

苹果的 “多模态炼丹炉” 又升级!MM1.5增强文本密集、多图理解

苹果公司最近为其多模态人工智能模型MM1推出了重大更新,将其升级为MM1.5版本。这次升级不仅仅是简单的版本号变更,而是全方位的能力提升,使得模型在各个领域都展现出了更强大的性能。

MM1.5的核心升级在于其创新的数据处理方法。该模型采用了以数据为中心的训练方法,精心筛选和优化了训练数据集。具体而言,MM1.5使用了高清晰度的OCR数据和合成图像描述,以及优化的视觉指令微调数据混合。这些数据的引入使得模型在文字识别、图像理解和执行视觉指令等方面都有了显著提升。

在模型规模方面,MM1.5涵盖了从10亿到300亿参数不等的多个版本,包括密集型和专家混合(MoE)变体。值得注意的是,即使是较小规模的10亿和30亿参数模型,通过精心设计的数据和训练策略,也能达到令人印象深刻的性能水平。

MM1.5的能力提升主要体现在以下几个方面:文本密集型图像理解、视觉指代和定位、多图像推理、视频理解以及移动UI理解。这些能力使得MM1.5可以应用于更广泛的场景,如从音乐会照片中识别表演者和乐器、理解图表数据并回答相关问题、在复杂场景中定位特定物体等。

为了评估MM1.5的性能,研究人员将其与其他先进的多模态模型进行了对比。结果显示,MM1.5-1B在10亿参数规模的模型中表现出色,明显优于同级别的其他模型。MM1.5-3B的表现超越了MiniCPM-V2.0,并与InternVL2和Phi-3-Vision不相上下。此外,研究还发现,无论是密集型模型还是MoE模型,随着规模的扩大,性能都会显著提升。

MM1.5的成功不仅体现了苹果公司在人工智能领域的研发实力,也为多模态模型的未来发展指明了方向。通过优化数据处理方法和模型架构,即使是较小规模的模型也能实现强大的性能,这对于在资源受限的设备上部署高性能AI模型具有重要意义。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OQoDxJijw18A4MkS34HMrnnQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券