

题图摄于北京国家体育中心
上周,我让某个 AI 智能体帮我部署一个服务,花了整整一个小时跟它解释服务器配置、依赖版本、项目路径和各种特殊要求。结果这周我让它更新一下,它居然反问我:“什么服务?”
这就是今天很多 AI 智能体最让人崩溃的地方:它会写代码、会调用工具、会搜索资料,甚至能自动完成一串复杂任务,但只要会话结束,就像突然“失忆”了一样。你之前讲过的背景、踩过的坑、跑通的方案,下次往往还要重新解释。
相信每个用过 AI 智能体的人,都多少遇到过这种崩溃:上次说过的服务器配置,这次还要重新讲一遍;踩过的坑、跑通的方案,它完全不记得;每次换一个任务,就像重新培训一个新人。AI 智能体失忆,可能是今天最真实的使用痛点。
先交代一下背景:Hermes Agent 是 Nous Research 推出的开源自我改进型 AI 智能体项目。它不是单纯的聊天机器人,也不是只存在于论文里的概念,而是一个围绕长期记忆、技能沉淀、跨会话检索和学习循环设计的 Agent 框架。官方对它的定位很清楚:一个会随着使用不断积累经验的 self-improving AI agent(自我改进型AI智能体)。
所以我一直觉得,当前 AI 智能体最大的瓶颈,不只是“不够聪明”,而是不会积累经验。Nous Research 的 Hermes Agent 真正有意思的地方就在这里:它不是单纯在堆模型的聊天能力,而是试图让智能体拥有长期记忆、技能沉淀和自我复盘能力。
换句话说,它想让智能体从“一次性工具”,进化成一个会成长的数字助理。
真实工作不是考试,不是每次给一道新题让 AI 临场发挥。一个真正好用的助理,应该知道你常用什么技术栈、服务器怎么配置、文档喜欢什么风格、哪些方案之前已经验证过。如果每次都从零开始,智能体就永远只能是工具,而不是助手。
Hermes Agent 的关键设计,是一套三层记忆体系:会话记忆、持久记忆和技能记忆。这三层记忆体系是理解 Hermes Agent 的核心。
Hermes Agent 的三层记忆体系会话记忆:维持当前任务连续。类比:工作记忆。关键作用:不让当前任务掉线。持久记忆:保存用户偏好和项目事实。类比:长期记忆。关键作用:让 AI 智能体真的开始懂你。技能记忆:沉淀成功经验和工作流。类比:工作手册。关键作用:把一次成功变成下一次的起点。 |
|---|
会话记忆负责保存当前对话的即时上下文,比如任务做到哪一步、刚才执行过什么、下一步应该处理什么。它解决的是长任务里的“不断线”问题。
持久记忆负责跨会话保存长期有用的信息,比如用户偏好、项目配置、服务器规则和常用技术栈。它解决的是“下次不用重新解释”的问题。
技能记忆则更进一步:它会把复杂任务的成功路径总结为 Markdown 技能文档,里面不只是步骤,还包括判断条件和验证逻辑。它解决的是“经验能不能复用”的问题。
这套设计的重点,不是把所有细节都存下来,而是把真正长期有用的信息筛选出来。真正有价值的记忆,从来不是记住一切,而是记住那些会影响下一次工作的经验。
下面这五点,基本说明了传统智能体和 Hermes Agent 的差别。
这个差别,才是真正的本质区别。今天很多 Agent 的问题是,它们每次都在“即兴发挥”。但真正专业的人不是只靠灵感,而是靠流程、经验和检查表。Hermes 的技能记忆,本质上就是在给智能体建立自己的“工作手册”。
这里需要把术语说准确:Hermes Agent 主项目更常用的说法,是 built-in learning loop,也就是内置学习循环。它强调从经验中创建技能、在使用中改进技能、提醒自己保存知识,并从过去对话中检索上下文。
而在Nous Research的相关项目Hermes Agent Self-Evolution中,使用的是DSPy + GEPA 的技术组合。
这里先简单解释一下:DSPy 是一个专门用来自动优化大模型提示词和工具调用的编程框架,它解决了 "手动调 prompt 效率低、效果不稳定" 的行业痛点。而GEPA(Genetic-Pareto Prompt Evolution,进化-帕累托提示词演化)是在 DSPy 基础上开发的、专门针对 AI 智能体的进化算法。它不是重新训练模型权重,而是通过读取执行轨迹、理解失败原因、提出改进版本,来自动优化智能体之后的提示词策略、技能文档和工作流程。
用职场场景来打个比方:传统模型想变强,更像“重新去上学”;而 Hermes 这类学习循环和 GEPA 思路,更像白天干完活,晚上自己坐下来写周报和错题本,复盘今天哪里做对了、哪里踩坑了,明天应该怎样优化沟通话术、检查清单和执行流程。
在我看来,这才是最现实和最有可能大规模落地的路线。未来不是每个 Agent 都能频繁重新训练模型,但它们完全可以通过更新提示词策略、技能文档和工作流程来持续进化。
Hermes 还有一个机制叫 Memory Nudge。它会定期主动问自己:最近的对话里,有没有值得长期保存的用户偏好、项目规则或工作流?
这很像一个“有眼力见儿的实习生”。你不一定每次都说“请记住”,但他会观察你的反复习惯。如果你总是要求文章的文献来源于顶刊、著名学者或者可信来源,他就应该意识到:这不是一次性要求,而是长期偏好。
假设你让 Hermes 帮你配置一套云服务器环境。第一次,它可能需要检查系统版本、安装依赖、配置端口、处理权限、修改环境变量、验证服务是否启动。中间如果踩了坑,比如某个依赖版本冲突,或者某个端口被占用,它会通过工具调用一步步排查。
传统智能体完成任务后,这段经验大概率就没了。但 Hermes 可以把这次成功路径总结成一个技能:什么系统要先检查,哪些依赖版本不要用,出现某类报错先看哪个日志,部署完成后用什么命令验证。下次再遇到类似任务,它就不是从零推理,而是调用已有技能。
这就是效率提升的来源。不是模型突然更聪明了,而是它终于有了经验。
当然,Hermes 这套机制并不完美。首先,技能文档的泛化能力仍然是问题。一次成功经验,不一定适用于所有相似场景,智能体需要判断什么时候复用,什么时候重新推理。
其次,记忆冲突会越来越复杂。用户偏好变了怎么办?项目配置更新了怎么办?旧记忆和新事实冲突时,应该相信谁?未来这类智能体可能需要引入类似 Git 的版本控制机制,让记忆更新有版本、有回滚、有确认。比如当系统检测到你的文章风格偏好发生变化时,它不应该擅自覆盖旧规则,而应该提示:“是否更新长期偏好?”最终决定权仍然要交还给人类。
此外,长期记忆还会带来安全问题。恶意提示词如果被写入持久记忆,就可能污染智能体的“大脑”。所以这类系统必须有安全闸门,去识别提示词注入、异常内容和不可信写入。长期记忆不是简单“存下来”就行,而是要解决可信写入、版本合并和安全边界。
Q:Hermes Agent 现在是什么状态?
A:从官方 GitHub 和项目资料看,它更接近一个开源的自我改进型 AI 智能体项目/框架,而不是单纯一篇论文里的概念。普通用户是否适合直接上手,仍取决于部署能力、成本和具体使用场景。
Q:Hermes Agent 解决的核心问题是什么?
A:它主要解决 AI 智能体“不会长期记忆、不会积累经验”的问题,让 Agent 不再只是一次性工具。
Q:三层记忆体系指什么?
A:主要包括会话记忆、持久记忆和技能记忆,分别对应当前任务连续、长期偏好保存和成功经验复用。
Q:GEPA 和 Hermes Agent 是什么关系?
A:Hermes Agent 主项目强调内置学习循环;GEPA 出现在 Nous Research 相关的 Hermes Agent Self-Evolution 项目中,用于优化技能、工具描述、系统提示词和代码。写作时更稳妥的理解是:它代表提示词和技能层面的优化思路,而不是模型权重训练。
Q:长期记忆会不会无限膨胀?
A:设计上会通过压缩、筛选和文件长度限制来降低膨胀风险,但长期使用仍然需要记忆治理和安全校验。
Q:长期记忆会不会带来风险?
A:会。比如记忆冲突、错误信息沉淀、提示词注入等,所以必须配套安全闸门和记忆更新机制。
不要只看智能体第一天能做什么,要看它陪你工作三个月后,会进化成什么样。
Hermes Agent 给我们展示了一条很清晰的进化路线:会话记忆保证任务连续,持久记忆沉淀用户和项目背景,技能记忆积累可复用经验,再加上内置学习循环、Memory Nudge,以及 GEPA 这类提示词和技能优化方法,智能体才有可能从一次性工具变成长期成长的数字助理。
今天我们是在“使用 AI”,未来我们可能是在“训练自己的 AI 工作伙伴”。
我越来越相信,AI 智能体的下一阶段,不只是拼谁回答得更聪明,而是拼谁能越用越懂你、越用越可靠。
你之前在用 AI 智能体时,最被它的“间歇性失忆”气到过哪次?欢迎在评论区聊聊。
欢迎关注 亨利笔记, 👍 点赞 | ⭐ 收藏 | ↗️ 转发。
近期文章:
零成本为 OpenClaw 装上“耳朵”与“嘴巴”,一步到位的语音交互指南
DeepSeek V4:大模型竞争,正在从“参数竞赛”走向“效率革命”
关注【亨利笔记】,持续跟踪 AI 技术进展、行业动态与前沿观点,稳稳抓住人工智能时代的真正机会。