前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >为什么 AI 能一句话操作手机和电脑?(GUI Agent 最新综述)

为什么 AI 能一句话操作手机和电脑?(GUI Agent 最新综述)

作者头像
陈宇明
发布于 2025-02-26 07:13:21
发布于 2025-02-26 07:13:21
1150
举报
文章被收录于专栏:设计模式设计模式

来自《Large Language Model-Brained GUI Agents: A Survey》综述总结

这篇文章要解决的问题是如何利用大型语言模型(LLMs)来增强图形用户界面(GUI)自动化代理的能力。具体来说,研究如何通过LLMs的解释复杂GUI元素和基于自然语言指令自主执行动作来实现更智能、更灵活的自动化。

该问题的研究相关工作包括早期的基于脚本或规则的方法、近年来引入的机器学习计算机视觉技术、以及最近的大型语言模型在GUI自动化中的应用。

利用大型语言模型(LLMs)来增强GUI自动化代理的方法:

  1. 架构和流程:一个基本的LLM驱动GUI代理的架构,包括操作环境、提示工程、模型推理、动作执行和内存管理五个主要组件。操作环境负责感知当前环境状态,提示工程构建输入提示以指导LLM进行推理,模型推理生成计划和动作,动作执行模拟用户操作,内存管理用于跟踪多步骤任务的状态。
  2. 平台特定感知:针对不同平台(移动设备、Web、桌面操作系统),代理使用不同的工具和技术来感知环境状态。例如,移动设备使用Accessibility API,Web使用Selenium,桌面操作系统使用Windows UI Automation。
  3. 提示工程:提示工程是关键步骤,涉及将用户请求、环境状态、可用动作等信息整合成一个结构化的输入提示。公式:Prompt=User Request+Agent Instruction+Environment States+Action Documents+Demonstrated Examples+Complementary Information
  4. 模型推理:模型推理部分将结构化提示输入到LLM中,生成计划和动作。LLM可以生成多种类型的输出,包括规划、动作和补充信息。
  5. 动作执行:动作执行部分将推理结果转化为具体的用户界面操作,如点击、输入文本、滚动等。代理还使用各种工具和技术来增强其操作能力,如API调用和AI工具。

关键问题及回答

问题1:LLM-brained GUI代理在架构和流程上有哪些关键组件?它们各自的作用是什么?

LLM-brained GUI代理的架构包括五个主要组件:操作环境、提示工程、模型推理、动作执行和内存管理。

  1. 操作环境:负责感知当前环境状态,包括通过截图、控件属性和UI元素树等方式获取GUI的视觉和结构信息。
  2. 提示工程:将用户指令和环境数据整合成结构化输入,确保LLMs能够理解任务需求并生成合适的动作。提示包括用户指令、环境状态、动作文档、示范示例和补充信息等。
  3. 模型推理:通过LLMs生成计划和动作。推理过程包括规划和动作推断两个主要步骤。规划部分将长期任务分解为可管理的子任务,并使用链式思维(CoT)等方法进行规划;动作推断部分则将规划结果转化为具体的动作序列。
  4. 动作执行:将推理结果转化为实际的动作,这些动作可以是标准的UI操作、原生API调用或AI工具的使用。通过这些动作,代理能够在GUI环境中执行复杂的任务。
  5. 内存管理:对于多步任务的执行至关重要。短期记忆(STM)用于存储当前任务的相关信息,而长期记忆(LTM)则用于存储历史任务数据和策略。通过内存管理,代理能够在多步任务中保持连续性和一致性。

这些组件共同确保LLM-brained GUI代理能够高效、准确地执行复杂的GUI自动化任务。

问题2:LLM-brained GUI代理在数据收集和预处理方面有哪些具体的方法和步骤?

  1. 数据收集:
  • 用户指令:可以通过人工设计、现有数据集或LLM生成。人工设计的指令需要确保覆盖各种实际应用场景,现有数据集可以提供初始的指令样本,而LLM生成则可以扩展指令的多样性和复杂性。
  • 环境感知:包括GUI截图、控件属性和UI元素树等。截图可以通过屏幕捕捉工具获取,控件属性和UI元素树则可以通过专门的工具和库提取。
  • 任务轨迹:需要记录代理执行任务过程中的每一步操作,包括点击、输入、滚动等,以生成完整的任务轨迹。
  1. 数据预处理
  • 数据清洗:去除重复、无效或错误的数据,确保数据的准确性和一致性。
  • 去重:识别并消除数据集中的重复项,避免对模型训练造成干扰。
  • 格式化:将数据转换为适合模型训练的格式,如统一的数据结构和编码方式。
  • 数据增强:通过变换、扩充和裁剪等手段增加数据集的多样性和复杂性,提高模型的泛化能力。

通过这些数据收集和预处理步骤,LLM-brained GUI代理能够获得高质量、多样化的训练数据,从而提升其在复杂GUI环境中的表现。

问题3:LLM-brained GUI代理在模型推理和动作执行方面有哪些创新的技术和方法?

  1. 模型推理:
  • 规划和动作推断:将长期任务分解为可管理的子任务,并使用链式思维(CoT)等方法进行规划。动作推断部分则将规划结果转化为具体的动作序列。
  • 多模态处理:结合文本和图像信息,提升模型对复杂GUI环境的理解能力。例如,使用视觉语言模型(VLM)和视觉变换器(ViT)结合文本和图像数据进行推理。
  • 强化学习:通过强化学习优化代理的动作选择和执行策略,特别是在需要多步操作和长期规划的任务中表现优异。
  1. 动作执行:
  • 标准UI操作:包括点击、输入、滚动等基本的用户界面操作。
  • 原生API调用:利用特定应用的API进行更复杂的任务操作,如文件操作、网络请求等。
  • AI工具的使用:集成OCR、图像生成、数据分析等AI工具,提升代理在复杂任务中的表现。例如,使用DALL·E生成图像,使用ChatGPT进行文本生成和问答。

这些创新的技术和方法使得LLM-brained GUI代理能够在复杂多变的GUI环境中实现高效的自动化任务,提升了代理的适应性和智能化水平。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-11-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 码个蛋 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
引领人机交互革命?微软研究团队发布80页的大模型GUI智能体综述
本论文的主要作者 Chaoyun Zhang、Shilin He、Liqun Li,Si Qin 等均来自 Data, Knowledge, and Intelligence (DKI) 团队,为微软 Windows GUI Agent UFO 的核心开发团队的成员。
机器之心
2025/02/03
830
引领人机交互革命?微软研究团队发布80页的大模型GUI智能体综述
手机「自动驾驶」大揭秘!vivo万字综述探讨大模型手机自动化
你是否想过,手机能像电影钢铁侠中的智能管家贾维斯那般,一句话就能顺畅自如地完成各种复杂任务。
机器之心
2025/02/03
1080
手机「自动驾驶」大揭秘!vivo万字综述探讨大模型手机自动化
大模型应用发展的方向|代理 Agent 的兴起及其未来(上)
“ 介绍了人工智能代理的历史渊源与演进,接着探讨了大型语言模型(LLMs)的发展,以及它们在知识获取、指令理解、泛化、规划和推理等方面所展现出的强大潜力。在此基础上,提出了一个以大型语言模型为核心的智能代理概念框架,该框架包括大脑、感知和行动这三个主要组成部分。”
技术人生黄勇
2024/07/19
5560
大模型应用发展的方向|代理 Agent 的兴起及其未来(上)
斯坦福多模态交互 Agent 综述:Agent AI 集成及其技术挑战
斯坦福大学李飞飞、微软研究院首席研究员等联合撰写的论文,这篇 Agent AI 综述一共80页。
AIGC新知
2025/02/07
4660
斯坦福多模态交互 Agent 综述:Agent AI 集成及其技术挑战
智谱Agent抢跑OpenAI,GLM-PC一句话搞定一切!网友:有AGI那味了
想象这样一个场景:微信上给xxx发送祝福语,再给他发送一个新春图片和一个新春祝贺视频。
新智元
2025/02/15
650
智谱Agent抢跑OpenAI,GLM-PC一句话搞定一切!网友:有AGI那味了
LLM一句话瞬间生成3D世界,未公布代码已获141星!或将引发3D建模行业革命
场景效果和文字的要求几乎分毫不差——「平静如玻璃的湖面,倒映出无云的天空,周围的山和水鸟的倒影呈现在湖中。」
新智元
2023/10/26
2680
LLM一句话瞬间生成3D世界,未公布代码已获141星!或将引发3D建模行业革命
o3 deep research: LLM 驱动的 Agent 综述
大型语言模型(LLM)的崛起在过去几年引发了人工智能领域的飞跃式发展。尤其是 2022 年底 OpenAI 推出的 ChatGPT,短短两个月内月活用户就突破一亿,成为史上用户增长最快的消费者应用 (ChatGPT sets record for fastest-growing user base - analyst note | Reuters)。ChatGPT 所展现的强大自然语言对话和内容生成能力,如一场“核爆”引发全球对于通用人工智能的极大关注,各行各业开始思考如何将这类大模型应用到实际业务中。紧随其后,OpenAI 发布了更先进的 GPT-4 模型,能够理解更复杂的指令,并支持图像等多模态输入。这场由 ChatGPT 引领的LLM浪潮,不仅催生了大量类似产品和开源模型,也让“ AI 更自主地完成复杂任务”成为下一个技术探索热点。在这种背景下,由 LLM 驱动的 Agent(智能代理)概念逐渐兴起,成为 AI 技术爱好者和产业从业者共同关注的前沿方向。
立委
2025/03/08
1980
一句话让Agent自主干活,清华复旦斯坦福等开源的智能体开发框架抢先了OpenAI
近期,OpenAI CEO Sam Altman 宣布,2025 年将推出名为 “Operator” 的虚拟员工计划,AI 代理将能够自主执行任务,如写代码、预订旅行等,成为企业中的 “数字同事”。
机器之心
2025/02/03
1030
一句话让Agent自主干活,清华复旦斯坦福等开源的智能体开发框架抢先了OpenAI
“AI玩手机”原理揭秘:大模型驱动的移动端GUI智能体
在后LLM时代,随着大语言模型和多模态大模型技术的日益成熟,AI技术的实际应用及其社会价值愈发受到重视。AI智能体(AI Agent)技术通过集成行为规划、记忆存储、工具调用等机制,为大模型装上“手脚”,使其能够利用强大的多模态感知交互与推理决策能力,与真实世界进行有效交互,成为连接人类与数字世界的桥梁,并迎来前所未有的发展机遇。(了解更多关于智能体的见解:《在后LLM时代,关于新一代智能体的思考》) 。
澜舟科技
2024/11/22
3170
【论文解读】针对机器人技术的大模型
大型语言模型(LLM)经历了显著的发展,并越来越多地跨各个领域集成。值得注意的是,在机器人任务规划领域,LLM利用其先进的推理和语言理解能力,基于自然语言指令制定精确和高效的行动规划。然而,对于机器人与复杂环境交互的具体化任务,由于与机器人视觉感知缺乏兼容性,纯文本LLM经常面临挑战。本研究提供了一个新兴的LLM和多模态LLM集成到各种机器人任务的全面概述。此外,论文还提出了一个利用多模式GPT-4V,通过结合自然语言指令和机器人视觉感知来增强具身任务规划的框架。基于不同数据集的结果表明,GPT-4V有效地提高了机器人在具体化任务中的性能。对各种机器人任务中的LLM和多模态LLM的广泛调查和评估丰富了对以LLM为中心的具身智能的理解,并为弥合人类-机器人-环境交互中的差距提供了前瞻性的见解。
合合技术团队
2024/06/06
2740
【论文解读】针对机器人技术的大模型
每周AI论文速递(250120-250124)
我们探索了一种进化搜索策略,用于扩展大语言模型中的推理计算时间。我们提出的方法,Mind Evolution,利用语言模型生成、重组和优化候选响应。该方法在解决方案评估器可用时,避免了形式化底层推理问题的需求。在控制推理成本的前提下,我们发现 Mind Evolution 在自然语言规划任务中显著优于其他推理策略,如 Best-of-N 和 Sequential Revision。在 TravelPlanner 和 Natural Plan 基准测试中,Mind Evolution 使用 Gemini 1.5 Pro 解决了超过 98% 的问题实例,且无需使用形式化求解器。
叶子的技术碎碎念
2025/04/08
890
每周AI论文速递(250120-250124)
理解什么是AI Agent,看懂这篇就够了
AI Agent越来越为人们熟知,我们熟悉的那种对话式大模型,正在慢慢淡出视野。但这些Agent所包含的复杂功能,往往需要许多组件模块协同工作。
AIGC新知
2025/03/21
4220
理解什么是AI Agent,看懂这篇就够了
【综述专栏】AI智能体面临的威胁:关键安全挑战与未来路径
在科学研究中,从方法论上来讲,都应“先见森林,再见树木”。当前,人工智能学术研究方兴未艾,技术迅猛发展,可谓万木争荣,日新月异。对于AI从业者来说,在广袤的知识森林中,系统梳理脉络,才能更好地把握趋势。为此,我们精选国内外优秀的综述文章,开辟“综述专栏”,敬请关注。
马上科普尚尚
2024/06/18
1K0
【综述专栏】AI智能体面临的威胁:关键安全挑战与未来路径
【愚公系列】《AI Agent技术、应用与商业》006-Al Agent的架构和组成
在人工智能的快速发展中,智能代理(AI Agent)成为了推动各行各业智能化转型的重要力量。无论是在智能客服、智能推荐,还是在自动化决策系统中,智能代理都扮演着至关重要的角色。然而,很多人对智能代理的内部架构和组成部分仍然感到陌生。它们是如何工作的?又由哪些关键组件构成?
愚公搬代码
2025/03/15
1870
纯视觉方案,精准操控电脑和手机!港大Aria-UI登顶,超越Claude 3.5
然而,如何将用户的自然语言指令精准映射(grounding)到界面元素一直是该领域的核心挑战。
新智元
2025/02/15
550
纯视觉方案,精准操控电脑和手机!港大Aria-UI登顶,超越Claude 3.5
太牛了!RU | 提出大模型Agent操作系统:AIOS,支持多Agent并行,稳定可靠!
随着LLMs在自主Agent领域的应用日益增多,如何高效管理和调度这些Agent成为一项重要挑战。为此,「本文创新性的提出一个基于大模型的操作系统架构:AIOS」,该架构将LLM作为操作系统的“大脑”,优化Agent请求的调度,支持上下文切换,实现并发执行,并提供工具服务和访问控制,结果表明了AIOS在多Agent并行执行时的可靠性,展示了其在改善资源利用和提升Agent性能方面的潜力。
ShuYini
2024/03/29
1K0
太牛了!RU | 提出大模型Agent操作系统:AIOS,支持多Agent并行,稳定可靠!
复旦NLP团队发布80页大模型Agent综述,一文纵览AI智能体的现状与未来
近期,复旦大学自然语言处理团队(FudanNLP)推出 LLM-based Agents 综述论文,全文长达 86 页,共有 600 余篇参考文献!作者们从 AI Agent 的历史出发,全面梳理了基于大型语言模型的智能代理现状,包括:LLM-based Agent 的背景、构成、应用场景、以及备受关注的代理社会。同时,作者们探讨了 Agent 相关的前瞻开放问题,对于相关领域的未来发展趋势具有重要价值。
机器之心
2023/09/19
11.9K0
复旦NLP团队发布80页大模型Agent综述,一文纵览AI智能体的现状与未来
一文详尽之LLM-Based Agent
知乎链接:https://zhuanlan.zhihu.com/p/13905150871
Datawhale
2025/02/05
5740
一文详尽之LLM-Based Agent
【愚公系列】《AI Agent技术、应用与商业》001-AI Agent的概念、特征与定义
在当今科技迅猛发展的时代,人工智能(AI)已经渗透到我们日常生活的方方面面。从智能家居到自动驾驶汽车,AI技术的应用无处不在。而在这一广泛的应用背后,有一个关键的概念——AI Agent,它为这些智能系统的高效运作提供了基础支持。那么,究竟什么是AI Agent?它具备哪些独特的特征?又该如何准确定义这一概念呢?在本文中,我们将深入探讨AI Agent的基本概念、核心特征以及其在实际应用中的重要性。希望通过这篇文章,能够帮助您更好地理解和把握这一前沿科技领域的关键要素。
愚公搬代码
2025/03/10
1730
【愚公系列】《AI Agent技术、应用与商业》005-基于 LLM 的 Al Agent 形态与特点
随着大语言模型(LLM)的迅速发展,基于LLM的智能代理(AI Agent)正在各个领域展现出前所未有的潜力。这些智能代理不仅能够理解和生成自然语言,还能在复杂的对话中进行人机交互,极大地提升了用户体验和工作效率。但究竟,这些基于LLM的智能代理具备哪些独特的形态与特点呢?
愚公搬代码
2025/03/14
1460
推荐阅读
引领人机交互革命?微软研究团队发布80页的大模型GUI智能体综述
830
手机「自动驾驶」大揭秘!vivo万字综述探讨大模型手机自动化
1080
大模型应用发展的方向|代理 Agent 的兴起及其未来(上)
5560
斯坦福多模态交互 Agent 综述:Agent AI 集成及其技术挑战
4660
智谱Agent抢跑OpenAI,GLM-PC一句话搞定一切!网友:有AGI那味了
650
LLM一句话瞬间生成3D世界,未公布代码已获141星!或将引发3D建模行业革命
2680
o3 deep research: LLM 驱动的 Agent 综述
1980
一句话让Agent自主干活,清华复旦斯坦福等开源的智能体开发框架抢先了OpenAI
1030
“AI玩手机”原理揭秘:大模型驱动的移动端GUI智能体
3170
【论文解读】针对机器人技术的大模型
2740
每周AI论文速递(250120-250124)
890
理解什么是AI Agent,看懂这篇就够了
4220
【综述专栏】AI智能体面临的威胁:关键安全挑战与未来路径
1K0
【愚公系列】《AI Agent技术、应用与商业》006-Al Agent的架构和组成
1870
纯视觉方案,精准操控电脑和手机!港大Aria-UI登顶,超越Claude 3.5
550
太牛了!RU | 提出大模型Agent操作系统:AIOS,支持多Agent并行,稳定可靠!
1K0
复旦NLP团队发布80页大模型Agent综述,一文纵览AI智能体的现状与未来
11.9K0
一文详尽之LLM-Based Agent
5740
【愚公系列】《AI Agent技术、应用与商业》001-AI Agent的概念、特征与定义
1730
【愚公系列】《AI Agent技术、应用与商业》005-基于 LLM 的 Al Agent 形态与特点
1460
相关推荐
引领人机交互革命?微软研究团队发布80页的大模型GUI智能体综述
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档