首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >BrowserOS填补了Hermes浏览器自动化的空白

BrowserOS填补了Hermes浏览器自动化的空白

作者头像
用户9773796
发布2026-06-23 20:53:28
发布2026-06-23 20:53:28
530
举报

别人家的 Agent 都有浏览器了,我的Hermes还在终端里裸奔。

每天早上都要干的苦力活

每天到工位第一件事:查昨天线上有没有出问题。

CLS 看日志,Grafana 看监控,企业微信翻消息。三个系统切来切去,信息自己拼。

我想让 Hermes 替我干。

"Hermes,帮我查一下 CLS 里昨天的错误日志,再去 Grafana 看看 PaymentService 的延迟。"

"我无法访问你的 CLS 和 Grafana 界面。你可以把日志内容粘贴给我,我帮你分析。"

得,还是我自己查,它负责看。我成了 Agent 和网页之间的复制粘贴工。

别人家都有浏览器了

Claude Code 一条命令连 Chrome,Codex 有浏览器插件,Kimi最近也出了浏览器插件。

Hermes 呢?写代码、改文件、跑命令都行,搜网页也能凑合。浏览器自动化——也有,browser_navigatebrowser_clickbrowser_snapshot 一整套。

有,但不好用。

六种后端,各有各的别扭

Hermes 浏览器支持 6 种后端:Browserbase、Browser Use、Firecrawl、Camofox、本地 Chrome CDP、本地 Chromium。听着很全,挨个看:

云浏览器——要配 API Key,按会话收钱。而且它是独立的浏览器实例,不带你的登录态。让它在 CLS 里查日志?CLS 要登录,云浏览器里没你的 cookie,登不进去。Grafana 也一样。

Camofox——得先 Docker 起一个 Firefox 服务器。想保持登录状态还得配 managed_persistence: true,挂 volume。我就是查个日志,不想先运维一个浏览器。

本地 Chrome CDP——最接近能用的。/browser connect 连你自己开着的 Chrome,共享登录态。但得先手动起一个带 --remote-debugging-port=9222 的 Chrome,还得 --user-data-dir 隔离,不然端口起不来。WSL2 用户更惨,官方文档直接写了"建议走 MCP,别用 /browser connect"。

每次用之前先搞定基础设施,我就是想查个日志,不想先花 15 分钟配浏览器。

还有个最别扭的:Agent 在云上或后台自己开浏览器,你看不见它在干嘛。CLS 查询条件填对了没、Grafana 时间范围选对了没——不知道。盲盒。

我要的其实很简单

CLS 我登着,Grafana 我开着,企业微信我用着。我不需要一个新的浏览器实例,我需要 Agent 用我已经开着的浏览器。

后来试了 BrowserOS。

BrowserOS

BrowserOS 是个基于 Chromium 的开源浏览器,可以当 Chrome 用。导入书签密码扩展,CLS 登着,Grafana 登着,登录态都是自己的。

不一样的地方是:它内置了一个 MCP 服务器。打开浏览器,Agent 就能操作你的标签页——你能实时看到它在点哪里、填什么。不是盲盒。

Hermes 连上去一条命令:

代码语言:javascript
复制
hermes mcp add browseros --url http://127.0.0.1:9239/mcp

或者写在 ~/.hermes/config.yaml 里:

代码语言:javascript
复制
mcp_servers:
  browseros:
    url: "http://127.0.0.1:9239/mcp"

连上之后 Hermes 就能操作你的浏览器了——导航、点击、截图、提取内容,53 个工具全开。不是盲盒,不是云浏览器,就是你面前这个浏览器。

还有 40 多个应用集成,Gmail、Slack、GitHub、Linear、Notion、Google Calendar 什么的,OAuth 登一次就行。查邮件、写 Notion、发 Slack 通知,一条 prompt 搞定。

现在每天早上怎么干

BrowserOS 里 CLS、Grafana、企业微信都登着。打开 Assistant,说:

"CLS 里查昨天 PaymentService 的错误日志,统计错误类型和频率。然后去 Grafana 看 PaymentService 的 CPU 和 P99 延迟。最后去企业微信群里看看昨天有没有人反馈问题。"

Agent 在 CLS 标签页里填筛选条件,提取结果。切到 Grafana 找到 Dashboard,截图给我看。切到企业微信搜告警消息。

我能看到每一步。筛选条件填错了,直接打断:"时间范围改成最近两天。"不用复制粘贴,不用切窗口。

如果连 Hermes 的话更好——Hermes 的记忆知道 PaymentService 上次出过什么问题,Code Review Graph 知道改了限流层会影响谁,现在还能直接去 CLS 和 Grafana 看现场。

查完了还能直接写报告。BrowserOS 有个 Cowork 功能,给 Agent 一个本地文件夹权限,浏览器里查数据、本地写文件,一趟搞定。

说回来

Hermes 的浏览器工具不是没有——6 种后端,Camofox 反指纹,混合路由,功能该有的都有。问题是它把浏览器当工具,我需要的是把浏览器当工作环境。

CLS、Grafana、企业微信、GitHub、Jira——这些不是访问一下就走的网站,是我每天待着的地方。登录态在那,上下文在那,标签页在那。

BrowserOS 干的事很简单:让 Agent 进入你已有的浏览器,而不是给你一个新浏览器让 Agent 躲在里面。

到工位说一句"帮我看看昨天线上怎么样",去倒咖啡。


BrowserOS:https://browseros.com Hermes Agent:github.com/nousresearch/hermes-agent

- END -

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-05-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 专业造轮子 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 每天早上都要干的苦力活
  • 别人家都有浏览器了
  • 六种后端,各有各的别扭
  • 我要的其实很简单
  • BrowserOS
  • 现在每天早上怎么干
  • 说回来
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档