Apple先前发布了一篇有关开发“Ferret-UI”AI人工智能的论文,据悉Ferret-UI是一个生成式人工智能系统,能够理解智能手机应用程序屏幕显示的内容。
大家耳熟能详的AI ChatGPT属于大型语言模型 (Large Language Models,LLMs),主要训练素材取材自文本内容,而更先进的多模态大语言模型(Multimodal Large Language Models,MLLMs)旨在扩展AI理解图片、视频、音频等非文本资讯的能力,但是现在大部分MLLM还无法有效理解智能手机上面的应用程序,主要因为以下原因:
Apple因此构思开发名为Ferret-UI的全新MLLM,以解决上述问题。Apple指,Ferret-UI加入了“任意分辨率”,让这个MLLM得以放大画面细节,增强视觉能力。Apple又表示从广泛的基本UI任务里收集了不少训练样本,例如图标志别、寻找文本、小清单等,以提高精确度。
数据源:9to5Mac、arxiv.org、ithome
领取专属 10元无门槛券
私享最新 技术干货