🍹 Insight Daily
Hi,这里是Aitrainee,欢迎阅读本期新文章。
你只需要一行代码,就可以把普通网站变成 AI 可交互的原生应用,不需要截图、OCR 或者复杂扩展工具。
试试这个 Page Agent。完全开源免费,搭载了 阿里开源的 qwen3.5-plus,可以用嘴直接控制任何网页。
你看,我这里直接让它帮我创建自媒体素材库,控制飞书表格。
网址:https://alibaba.github.io/page-agent/

它其实就是通过 CDN 引入一个 JavaScript 包,当这个脚本被加载到网页里以后,它会在页面上创建一个 AI 控制界面,并且让AI 可以读取和操作当前页面的 DOM。DOM 就是网页结构树,例如按钮、输入框、文本等。

上面这个图标就是使用它最直接简单的方式。要获得上图这个JS图标 ——
你直接拖拽这个蓝色的按钮到收藏夹即可。

使用的时候,点击这个 JavaScript 图标,就可以唤出它。

当你在任何网页上点击它时,它会注入一段 JavaScript到当前页面,然后开始解析 DOM,并允许 AI操作这个页面。这就是为什么它可以在“任何网站”上工作。
这种模式和传统的浏览器自动化工具很像,但区别在于它不需要Python、Playwright 或 Selenium,而是完全在浏览器里运行。
Page‑Agent 的 DOM 处理逻辑和 prompt 设计是基于 browser‑use 项目。两者的区别在于运行环境。browser‑use通常是在服务器或者本地电脑上运行,通过浏览器自动化控制网页,而 Page‑Agent 是直接在网页里运行 JavaScript,让 AI 在浏览器里理解和操作页面。
教我怎么用这个飞书多维表格
AI 就开始: - 打开菜单 - 点击按钮 - 创建表格 - 添加字段 - 一步一步操作
同时解释:我现在点击“新增字段”、这里可以设置字段类型、接下来我们创建一个日期字段
这其实就像:一个真人老师在操作电脑给你看
还有我这里点击一个云端的 Openclaw Skill 让它安装,它都执行得很好。
当然这玩意儿,并非无所不能,很多时候还会出错误。但以后你遇到什么陌生软件不知道怎么操作的时候直接让它帮你点按钮、填表单就行了,也许比自己截图或者调用 playwright mcp 效率更高一些。当然,还有一些你可能短时间没法更好给到上下文的场景。
你可以部署/接入自己的模型,当然,官方网站是给了qwen3.5-plus 模型,所以是免费用的。以后碰到有需要的场景,可以让他试试。
以后的以后,AI 可能比我们更擅长用网站、软件这些,那便也很不错。