别人家的 Agent 都有浏览器了,我的Hermes还在终端里裸奔。
每天到工位第一件事:查昨天线上有没有出问题。
CLS 看日志,Grafana 看监控,企业微信翻消息。三个系统切来切去,信息自己拼。
我想让 Hermes 替我干。
"Hermes,帮我查一下 CLS 里昨天的错误日志,再去 Grafana 看看 PaymentService 的延迟。"
"我无法访问你的 CLS 和 Grafana 界面。你可以把日志内容粘贴给我,我帮你分析。"
得,还是我自己查,它负责看。我成了 Agent 和网页之间的复制粘贴工。
Claude Code 一条命令连 Chrome,Codex 有浏览器插件,Kimi最近也出了浏览器插件。
Hermes 呢?写代码、改文件、跑命令都行,搜网页也能凑合。浏览器自动化——也有,browser_navigate、browser_click、browser_snapshot 一整套。
有,但不好用。
Hermes 浏览器支持 6 种后端:Browserbase、Browser Use、Firecrawl、Camofox、本地 Chrome CDP、本地 Chromium。听着很全,挨个看:
云浏览器——要配 API Key,按会话收钱。而且它是独立的浏览器实例,不带你的登录态。让它在 CLS 里查日志?CLS 要登录,云浏览器里没你的 cookie,登不进去。Grafana 也一样。
Camofox——得先 Docker 起一个 Firefox 服务器。想保持登录状态还得配 managed_persistence: true,挂 volume。我就是查个日志,不想先运维一个浏览器。
本地 Chrome CDP——最接近能用的。/browser connect 连你自己开着的 Chrome,共享登录态。但得先手动起一个带 --remote-debugging-port=9222 的 Chrome,还得 --user-data-dir 隔离,不然端口起不来。WSL2 用户更惨,官方文档直接写了"建议走 MCP,别用 /browser connect"。
每次用之前先搞定基础设施,我就是想查个日志,不想先花 15 分钟配浏览器。
还有个最别扭的:Agent 在云上或后台自己开浏览器,你看不见它在干嘛。CLS 查询条件填对了没、Grafana 时间范围选对了没——不知道。盲盒。
CLS 我登着,Grafana 我开着,企业微信我用着。我不需要一个新的浏览器实例,我需要 Agent 用我已经开着的浏览器。
后来试了 BrowserOS。
BrowserOS 是个基于 Chromium 的开源浏览器,可以当 Chrome 用。导入书签密码扩展,CLS 登着,Grafana 登着,登录态都是自己的。
不一样的地方是:它内置了一个 MCP 服务器。打开浏览器,Agent 就能操作你的标签页——你能实时看到它在点哪里、填什么。不是盲盒。
Hermes 连上去一条命令:
hermes mcp add browseros --url http://127.0.0.1:9239/mcp或者写在 ~/.hermes/config.yaml 里:
mcp_servers:
browseros:
url: "http://127.0.0.1:9239/mcp"连上之后 Hermes 就能操作你的浏览器了——导航、点击、截图、提取内容,53 个工具全开。不是盲盒,不是云浏览器,就是你面前这个浏览器。
还有 40 多个应用集成,Gmail、Slack、GitHub、Linear、Notion、Google Calendar 什么的,OAuth 登一次就行。查邮件、写 Notion、发 Slack 通知,一条 prompt 搞定。
BrowserOS 里 CLS、Grafana、企业微信都登着。打开 Assistant,说:
"CLS 里查昨天 PaymentService 的错误日志,统计错误类型和频率。然后去 Grafana 看 PaymentService 的 CPU 和 P99 延迟。最后去企业微信群里看看昨天有没有人反馈问题。"
Agent 在 CLS 标签页里填筛选条件,提取结果。切到 Grafana 找到 Dashboard,截图给我看。切到企业微信搜告警消息。
我能看到每一步。筛选条件填错了,直接打断:"时间范围改成最近两天。"不用复制粘贴,不用切窗口。
如果连 Hermes 的话更好——Hermes 的记忆知道 PaymentService 上次出过什么问题,Code Review Graph 知道改了限流层会影响谁,现在还能直接去 CLS 和 Grafana 看现场。
查完了还能直接写报告。BrowserOS 有个 Cowork 功能,给 Agent 一个本地文件夹权限,浏览器里查数据、本地写文件,一趟搞定。
Hermes 的浏览器工具不是没有——6 种后端,Camofox 反指纹,混合路由,功能该有的都有。问题是它把浏览器当工具,我需要的是把浏览器当工作环境。
CLS、Grafana、企业微信、GitHub、Jira——这些不是访问一下就走的网站,是我每天待着的地方。登录态在那,上下文在那,标签页在那。
BrowserOS 干的事很简单:让 Agent 进入你已有的浏览器,而不是给你一个新浏览器让 Agent 躲在里面。
到工位说一句"帮我看看昨天线上怎么样",去倒咖啡。
BrowserOS:https://browseros.com Hermes Agent:github.com/nousresearch/hermes-agent
- END -