Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >在AI 智能体Agent行业:什么是computer-use和 broswer-use ?

在AI 智能体Agent行业:什么是computer-use和 broswer-use ?

原创
作者头像
猫头虎
发布于 2025-03-07 09:57:45
发布于 2025-03-07 09:57:45
9920
举报

近年来,随着大语言模型(LLM)和自主代理(Agent)技术的迅速发展,越来越多的企业和研发团队开始探索如何利用 AI 自动化日常任务。其中,“computer-use”与“browser-use”作为两种不同的应用模式,正逐渐成为业界关注的焦点。本文将深入解析这两种模式的概念、实现原理、应用场景以及未来的发展趋势。

1. 概念解析

1.1 computer-use:操控整台计算机的 AI 代理

computer-use 模式指的是 AI 代理通过操作操作系统层面的接口和工具,实现对整台计算机的控制。这类代理不仅局限于网页浏览,而是能够调用系统 API、启动应用程序、操作文件系统,甚至直接与桌面应用交互。 例如,近期多家科技公司正致力于开发能够“接管”计算机执行任务的 AI 系统,Google 就在其项目 Jarvis 中探索如何利用下一代 Gemini 大语言模型,通过计算机使用代理完成科研、购物、航班预订等任务 。Anthropic 也展示了 AI 代理控制计算机进行网页搜索、代码编写等操作的能力 。 这种模式的优势在于其功能更为全面,能够打通计算机内各个应用程序之间的操作;同时,操作系统层面的调用也为任务的自动化提供了更大的灵活性。

1.2 browser-use:专注于浏览器交互的 AI 代理

browser-use 模式则是指 AI 代理主要通过模拟用户在浏览器中的操作,实现对网页内容的自动化交互。此类代理一般利用浏览器自动化技术(如 Selenium、Puppeteer 或专用工具库),模仿点击、滚动、输入等行为,从而完成信息提取、数据填报、在线购物等任务。 例如,一些专为大语言模型设计的工具库使 AI 代理能够“像人一样”操作网页,不仅能管理多标签页,还支持视觉识别和内容提取,从而在复杂的网页环境中完成任务。OpenAI 近期推出的 Operator 代理便融合了视觉能力和高级推理,通过自己的浏览器执行任务,并在遇到错误时实现自我修正 。 这种模式的优势在于:其实现相对简单、聚焦于 Web 场景,特别适用于自动化网页任务和在线信息处理。

2. 技术实现与关键技术

2.1 computer-use 代理的实现

实现 computer-use 代理通常需要:

  • 操作系统接口调用:利用操作系统的 API 与底层应用交互,例如启动程序、管理窗口、读写文件等。
  • 多任务调度与反馈机制:代理需要根据环境反馈调整策略,确保任务按预期执行。
  • 安全和权限管理:由于直接控制系统,必须严格防范恶意操作和数据泄露风险。

这类代理的实现挑战在于如何兼容不同操作系统及软件环境,同时保证操作的鲁棒性和安全性。

2.2 browser-use 代理的实现

browser-use 代理主要依靠:

  • 浏览器自动化技术:常见的有 Selenium、Puppeteer 等,用于模拟用户行为。
  • 视觉识别与内容解析:借助 OCR 和 DOM 解析技术,准确获取网页信息。
  • 任务调度和动作复现:能够记录用户的操作流程,并在需要时复现或自动化执行。

相比之下,这类代理主要面临网页动态变化、不同网站的反爬虫策略以及网络延时等问题,但其应用场景较为单一,开发难度也较易控制。

3. 应用场景对比

维度

computer-use 代理

browser-use 代理

适用范围

整台计算机内的多任务处理,跨应用集成

仅限于 Web 环境下的信息采集与交互

开发复杂度

较高,需要考虑操作系统兼容性、安全性及资源管理

较低,主要依赖现有的浏览器自动化工具和网页解析技术

应用案例

系统自动化、桌面流程管理、跨应用数据整合

网页内容提取、在线购物、自动化表单填写、数据采集与监控

安全风险

高,因直接操作操作系统,须防范恶意操作和数据泄露风险

较低,主要关注网页数据的安全和隐私策略

4. 未来发展趋势

随着 AI 代理技术的不断成熟,未来两种模式之间的界限或许会逐渐模糊。许多系统可能同时具备 computer-use 与 browser-use 的能力,实现端到端的自动化操作。例如,开发者可以设计一个混合型代理,在需要进行桌面级操作时调用计算机使用功能,而在处理在线任务时切换至浏览器模式。此外,结合大语言模型的强大推理能力与自主学习机制,未来的 AI 代理将更善于处理复杂场景中的错误、反馈和多模态交互,从而大幅提升工作效率与用户体验。

5. 总结

在 AI Agent 行业中,“computer-use”和“browser-use”代表了两种不同的代理实现路径:前者注重对整个计算机系统的全局控制,后者则专注于在浏览器环境中的任务自动化。两者各有优势与挑战,开发者应根据具体业务需求和应用场景选择合适的实现方案。随着技术不断进步,混合型代理以及更智能的自主决策系统必将推动 AI 自动化进入新的阶段,为各行各业带来前所未有的效率革新。

未来,随着安全性、兼容性和用户隐私等问题的不断完善,这两种模式都将在实际应用中发挥越来越重要的作用,成为推动“智能+自动化”时代的重要力量。


参考资料: • Google 正在开发能接管浏览器的 AI 技术 • Anthropic 推出的控制计算机任务的 AI 代理 • Browser Use——专为大语言模型设计的网页自动化工具 • OpenAI 的 Operator 代理实现了浏览器交互与自我修正

这正是 AI 代理领域的前沿探索,让我们共同期待更多创新应用的诞生!

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
从 Arc,Dia,Fellou之后,一码难求,AI 的风刮到了浏览器?
自manus之后,浏览器(browser-use)重新进入人们的视野,这种新产品的交互模式打开了一种新的思路。
AIGC新知
2025/04/24
4480
从 Arc,Dia,Fellou之后,一码难求,AI 的风刮到了浏览器?
开源项目利用browser-use-webui和DeepSeek把浏览器打造成一个AI Agent智能体!
大家好,我是星哥,之前介绍了几款开源的AI Agent的项目,比如 OpenManus、autoMate 今天继续给大家带来一个开源AI Agent的项目。
星哥玩云
2025/03/27
7760
开源项目利用browser-use-webui和DeepSeek把浏览器打造成一个AI Agent智能体!
推荐一款Python开源的AI自动化工具:Browser Use
在当今数字化时代,自动化技术的发展日新月异,Python 凭借其简洁的语法和丰富的库资源,成为众多开发者实现自动化任务的首选语言。
测试开发技术
2025/01/14
7.3K0
推荐一款Python开源的AI自动化工具:Browser Use
使用 browser-use-webui 进行网页信息填写和录入
在数字化时代,网页信息填写和录入是许多业务流程中的重要环节,例如注册账户、提交在线表单或更新个人信息。这些任务往往耗时且容易出错,而自动化工具的引入可以显著提高效率并减少人为失误。GitHub 上的 browser-use/web-ui 项目为这一需求提供了一个创新且实用的解决方案。
叶子Tenney
2025/03/13
8910
使用 browser-use-webui 进行网页信息填写和录入
一个8000行代码的开源项目,融了1700万美元:两人四天打造的Browser Use是如何闪电崛起的?
本周,初创公司 Browser Use 宣布完成 1700 万美元融资,由 Felicis Ventures 领投,A Capital、Nexus Ventures、Y Combinator、Paul Graham、Liquid2、SV Angel、Pioneer Fund 等跟投。
深度学习与Python
2025/03/31
2150
一个8000行代码的开源项目,融了1700万美元:两人四天打造的Browser Use是如何闪电崛起的?
Browser Use - 让AI能够控制你的浏览器
在科技飞速发展的当下,人工智能(AI)已经渗透到我们生活的方方面面,而AI智能体与浏览器的连接,正逐渐成为互联网发展的全新趋势,引发了大众对上网体验变革的无限期待。这种创新的融合,就像是为传统浏览器插上了智能的翅膀,将为我们带来前所未有的互联网交互感受。
wangmcn
2025/03/18
5551
Browser Use - 让AI能够控制你的浏览器
AI Agent 介绍(1/30)
AI Agent,即人工智能代理,是指能够在一定环境中自主执行任务或者作出决策的智能系统。这些代理可以是软件形式,如聊天机器人、推荐系统、个人助理等,也可以是集成到物理设备中的,如自动驾驶汽车、智能家居设备等。AI Agent的核心在于其自主性,它们能够感知环境变化、处理信息并作出响应,以完成既定目标或任务。
正在走向自律
2024/12/18
6660
AI Agent 介绍(1/30)
一款由字节复刻Manus的开源AI自动化任务处理工具:LangManus,它通过LLM和网络搜索、网页爬取、浏览器控制等各种工具结合来实现任务自动化,可以实现本地部署使用,支持国产AI大模型API
在人工智能和自动化技术不断发展的今天,如何高效地将多个工具和智能体结合在一起,以完成复杂的任务,成为了众多开发者的挑战。LangManus应运而生,它通过集成大语言模型(LLM)、网络搜索、网页爬取和浏览器控制等多种工具,能够自动化处理多步骤复杂的研究任务。本文将详细介绍LangManus的架构、功能、安装和使用方法。
猫头虎
2025/03/23
2K0
一款由字节复刻Manus的开源AI自动化任务处理工具:LangManus,它通过LLM和网络搜索、网页爬取、浏览器控制等各种工具结合来实现任务自动化,可以实现本地部署使用,支持国产AI大模型API
AI Agent框架(LLM Agent):LLM驱动的智能体如何引领行业变革,应用探索与未来展望
有很多人或许会疑惑,Agent 这个东西看起来跟 LLM 也没差得那么远,那为啥最近突然 Agent 那么火,而不称之为 LLM-Application 或者其他的词呢?这就得从 Agent 的来历上说起了,因为 Agent 是个很古老的术语,甚至可以追溯至亚里士多德和休谟等人的言论。从哲学意义上讲,“代理人”是指具有行动能力的实体,而 “代理” 一词则表示这种能力的行使或体现。而从狭义上讲,“代理”通常是指有意行动的表现; 相应地,“代理人” 一词表示拥有欲望、信念、意图和行动能力的实体。需要注意的是,代理人不仅包括人类个体,还包括物理世界和虚拟世界中的其他实体。重要的是,“代理” 的概念涉及个人的自主性,赋予他们行使意志、做出选择和采取行动的能力,而不是被动地对外部刺激做出反应。
汀丶人工智能
2024/07/05
2.8K0
AI Agent框架(LLM Agent):LLM驱动的智能体如何引领行业变革,应用探索与未来展望
【愚公系列】《AI Agent技术、应用与商业》004-Al Agent 的技术基础
在人工智能的广阔世界中,智能代理(AI Agent)作为一种重要的应用形态,发挥着越来越关键的作用。无论是在自动化客服、智能推荐,还是在复杂的决策支持系统中,智能代理都以其强大的功能和灵活的应用赢得了广泛关注。然而,支撑这些智能代理正常运作的技术基础是什么呢?
愚公搬代码
2025/03/14
1550
AI 工具推荐之 Agent TARS:字节跳动开源的多模态AI智能体
在人工智能技术迅猛发展的当下,字节跳动推出了一款名为Agent TARS的开源多模态AI智能体,迅速引起了业界和学术界的广泛关注。作为一款基于UI-TARS模型的创新工具,Agent TARS旨在通过自然语言指令实现对计算机的自动化控制,尤其是在图形用户界面(GUI)交互中表现出色。它的开源性质不仅降低了技术应用的门槛,还为开发者提供了广阔的定制空间,推动了AI技术在自动化、用户体验提升以及多领域融合中的发展。
AI.NET 极客圈
2025/04/11
7830
AI 工具推荐之 Agent TARS:字节跳动开源的多模态AI智能体
Manus爆火的秘密武器Browser Use融资1700万美元!让AI「读懂」网页
AI智能体可能还没有一个大家都认可的定义,但这并不妨碍一大堆创业公司争相打造智能体工具,来自动化处理各种任务。
新智元
2025/03/27
1370
Manus爆火的秘密武器Browser Use融资1700万美元!让AI「读懂」网页
解密Manus:基于Claude Sonnet的下一代AI助手技术架构深度剖析
近期,AI领域出现了一个引人注目的新星——Manus。这款基于Claude Sonnet模型的AI助手迅速走红,成为国内AI圈最热门的话题。从技术爱好者到专业开发者,众多用户被其出色的能力所吸引,纷纷尝试并分享使用体验。那么,是什么让Manus如此特别?它的技术架构有何独到之处?
AIGC新知
2025/03/11
5360
解密Manus:基于Claude Sonnet的下一代AI助手技术架构深度剖析
不只有Manus!免邀请码的 flowith 和三个开源项目:GWL、OpenHands、browser-use
昨天发了一篇文章提到了开源复刻 Manus 的项目:《一文看懂Manus:实测体验+开源复刻方案,无需等待邀请码》,有朋友推荐了另外一个23年已经发布的项目 OWL。
技术人生黄勇
2025/03/10
8140
不只有Manus!免邀请码的 flowith 和三个开源项目:GWL、OpenHands、browser-use
惊!Midscene.js:一款AI 驱动的 UI 自动化测试利器,小白也能秒上手!
在软件开发测试领域,UI自动化测试一直是我们的“心头大患”。传统测试工具依赖繁琐的元素定位(如CSS选择器、XPath),一旦页面结构变化,脚本就可能失效;复杂交互场景(如动态加载、多步骤验证)需要编写大量代码,维护成本高昂;而数据抓取、性能监控等场景更是让测试人员苦不堪言。
测试开发技术
2025/04/18
4160
惊!Midscene.js:一款AI 驱动的 UI 自动化测试利器,小白也能秒上手!
Agent系列教程01-什么是Agent?当今为什么这么重要?
Agent(智能体)是一个能够基于数据自主完成任务或做出决策的程序。它与 AI模型对话,以使用工具和资源执行基于目标的操作。
致Great
2025/04/12
5550
Agent系列教程01-什么是Agent?当今为什么这么重要?
AI Agent:四大核心能力详解与技术演进
在人工智能领域的宏大版图中,智能体(Agent)正以迅猛之势,逐渐攀升至舞台的聚光灯下。当前技术收敛趋势表明,2025年将成为智能体突破「环境感知-自主决策-价值对齐」能力三角的关键里程碑——这不仅是底层技术栈的颠覆性迭代(多模态感知网络、神经符号推理架构、具身智能系统的深度融合),更预示着人机协作范式将进入「认知共生」的新纪元。科技巨头、开源社区与产业资本的竞逐布局(据Gartner预测,2025年全球智能体开发框架投入将突破270亿美元),折射出这场技术变革对全球数字生态的重构势能。当下,2025年被广泛视作智能体发展进程中具有里程碑意义的关键一年,其发展态势备受各界瞩目。
腾讯云开发者
2025/05/09
2380
AI Agent:四大核心能力详解与技术演进
【愚公系列】《AI Agent技术、应用与商业》001-AI Agent的概念、特征与定义
在当今科技迅猛发展的时代,人工智能(AI)已经渗透到我们日常生活的方方面面。从智能家居到自动驾驶汽车,AI技术的应用无处不在。而在这一广泛的应用背后,有一个关键的概念——AI Agent,它为这些智能系统的高效运作提供了基础支持。那么,究竟什么是AI Agent?它具备哪些独特的特征?又该如何准确定义这一概念呢?在本文中,我们将深入探讨AI Agent的基本概念、核心特征以及其在实际应用中的重要性。希望通过这篇文章,能够帮助您更好地理解和把握这一前沿科技领域的关键要素。
愚公搬代码
2025/03/10
2150
AI浏览器自动化实战
短短几个月内,Browser use 已在 GitHub 上获得超过 5 万颗 star:
程序员NEO
2025/04/16
3940
AI浏览器自动化实战
使用 ByteDance 的 UI-TARS Desktop 探索 AI 驱动的 GUI 自动化新前沿
随着人工智能技术的快速发展,AI 正在从单纯的文本生成和图像识别迈向更复杂的交互场景。ByteDance 近期推出的 UI-TARS Desktop(基于其强大的 UI-TARS 视觉-语言模型)为我们展示了一种全新的可能性:通过自然语言控制计算机,实现图形用户界面(GUI)的智能化自动化。本文将围绕 GitHub 上开源的 UI-TARS Desktop 项目,探讨其技术亮点、应用场景以及如何快速上手体验这一前沿工具。
码事漫谈
2025/03/24
1K0
使用 ByteDance 的 UI-TARS Desktop 探索 AI 驱动的 GUI 自动化新前沿
推荐阅读
从 Arc,Dia,Fellou之后,一码难求,AI 的风刮到了浏览器?
4480
开源项目利用browser-use-webui和DeepSeek把浏览器打造成一个AI Agent智能体!
7760
推荐一款Python开源的AI自动化工具:Browser Use
7.3K0
使用 browser-use-webui 进行网页信息填写和录入
8910
一个8000行代码的开源项目,融了1700万美元:两人四天打造的Browser Use是如何闪电崛起的?
2150
Browser Use - 让AI能够控制你的浏览器
5551
AI Agent 介绍(1/30)
6660
一款由字节复刻Manus的开源AI自动化任务处理工具:LangManus,它通过LLM和网络搜索、网页爬取、浏览器控制等各种工具结合来实现任务自动化,可以实现本地部署使用,支持国产AI大模型API
2K0
AI Agent框架(LLM Agent):LLM驱动的智能体如何引领行业变革,应用探索与未来展望
2.8K0
【愚公系列】《AI Agent技术、应用与商业》004-Al Agent 的技术基础
1550
AI 工具推荐之 Agent TARS:字节跳动开源的多模态AI智能体
7830
Manus爆火的秘密武器Browser Use融资1700万美元!让AI「读懂」网页
1370
解密Manus:基于Claude Sonnet的下一代AI助手技术架构深度剖析
5360
不只有Manus!免邀请码的 flowith 和三个开源项目:GWL、OpenHands、browser-use
8140
惊!Midscene.js:一款AI 驱动的 UI 自动化测试利器,小白也能秒上手!
4160
Agent系列教程01-什么是Agent?当今为什么这么重要?
5550
AI Agent:四大核心能力详解与技术演进
2380
【愚公系列】《AI Agent技术、应用与商业》001-AI Agent的概念、特征与定义
2150
AI浏览器自动化实战
3940
使用 ByteDance 的 UI-TARS Desktop 探索 AI 驱动的 GUI 自动化新前沿
1K0
相关推荐
从 Arc,Dia,Fellou之后,一码难求,AI 的风刮到了浏览器?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档