
关键词:Hermes智能体、Android Bridge、AI自动化手机、手机自动化控制、安卓远程操控、AI读屏、无障碍自动化、手机AI助手

最近在研究“让AI真正操作手机”这件事。 不是写脚本,而是让智能体自己看屏幕 → 做决策 → 自动点击执行。
最终验证下来: 用 Hermes + Android Bridge 可以把一台普通安卓手机,变成:
本篇把完整方案整理出来。

这套方案的核心设计思想非常关键:
模块 | 职责 |
|---|---|
Hermes 智能体 | 理解需求、规划步骤、决策 |
Android Bridge | 读取手机UI、执行点击输入、截图等 |
一句话总结:
Hermes只负责“思考”,安卓桥接只负责“执行”。
当用户下达任务:
打开设置 → 截图 → 分析当前页面系统执行流程:
形成完整自动闭环。
安卓控制能力,被封装成一组 Python Tools
典型能力包括:
这些工具全部通过 HTTP调用:
Python Tools → localhost:8766 → 手机Bridge APP → 安卓系统好处:
Android Bridge 不需要修改 Hermes 内核。
接入流程:
告诉模型:
例如:
工具:open_app
参数:package_name
用途:打开指定应用def open_app(package):
requests.post("http://localhost:8766/open_app", json={
"package": package
})Hermes.register_tool(open_app)至此,Hermes即可自动调用手机能力。
用户输入:
打开设置 → 截图 → 总结
Hermes自动拆分为:
这就是智能体自动化的关键。
Bridge APP 基于 安卓无障碍服务。
它能读取当前界面完整 UI 树。
属性 | 示例 |
|---|---|
文本 | 按钮文字 |
描述 | contentDescription |
类名 | Button / TextView |
包名 | app package |
可点击 | true / false |
可编辑 | true / false |
坐标 | 元素边界 |
子节点 | UI层级 |
这些信息会整理成 结构化节点树 回传 Hermes。
因此 Hermes 可以精准知道:
直接点击UI节点。
优点:精准稳定。
通过手势模拟真实点击。
适合场景: 无法识别节点的界面。
依赖系统能力:
必须授权:
完整执行流程如下:
用户指令
↓
Hermes调用安卓工具
↓
HTTP中继服务 (8766)
↓
Bridge APP
↓
安卓系统执行操作
↓
结果回传 Hermes
↓
Hermes决定下一步整个过程无需人工干预。
这就是手机可被AI自主操控的核心。
全部运行在手机内:
组件 | 位置 |
|---|---|
Hermes | Termux |
中继服务 | 本机8766 |
Bridge APP | 安卓系统 |
通信:
localhost:8766优势:
Hermes运行在:
手机只安装 Bridge APP。
通信方式:
WebSocket 长连接
手机主动连接服务器优势:
且无需给手机开公网端口,兼容内网环境。
能力可分为六大类:
分类 | 功能 |
|---|---|
读屏 | 获取UI结构、文本、坐标 |
操作 | 点击、长按、滑动、返回 |
输入 | 填写输入框 |
应用管理 | 打开/切换应用 |
截图录屏 | 获取屏幕内容 |
系统能力 | 通知、剪贴板、定位 |
非常适合:
⚠️ 注意 不建议直接作为企业级自动化测试主平台。 正式测试仍建议:
Hermes + Android Bridge 的真正价值:
把普通安卓手机变成可被AI操控的智能终端。
这意味着:
未来想象空间非常大。