首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Apple论文展示Ferret-UI AI能理解App画面内容

Apple先前发布了一篇有关开发“Ferret-UI”AI人工智能的论文,据悉Ferret-UI是一个生成式人工智能系统,能够理解智能手机应用程序屏幕显示的内容。

大家耳熟能详的AI ChatGPT属于大型语言模型 (Large Language Models,LLMs),主要训练素材取材自文本内容,而更先进的多模态大语言模型(Multimodal Large Language Models,MLLMs)旨在扩展AI理解图片、视频、音频等非文本资讯的能力,但是现在大部分MLLM还无法有效理解智能手机上面的应用程序,主要因为以下原因:

Apple因此构思开发名为Ferret-UI的全新MLLM,以解决上述问题。Apple指,Ferret-UI加入了“任意分辨率”,让这个MLLM得以放大画面细节,增强视觉能力。Apple又表示从广泛的基本UI任务里收集了不少训练样本,例如图标志别、寻找文本、小清单等,以提高精确度。

数据源:9to5Mac、arxiv.org、ithome

  • 发表于:
  • 原文链接https://page.om.qq.com/page/Onj3F_wBIkj0L6qpRMNltUVQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券