本篇回答一个问题: 跑完 MumuMall 这个项目,一个传统架构师身上到底长出了什么新能力?这些能力之间的关系是什么?怎么判断自己长到了哪一步?
先回顾一下前六篇——MumuMall 智能客服从零到上线的完整链路:
第1篇 认知:AI 不替代架构师,但重新定义架构师
第2篇 需求:AI 追问 20 个问题 → 结构化需求文档
第3篇 方案:Spec 三层 → AI 生成架构图 → AI 架构评审
第4篇 选型:模型对比 → Token 成本预估 → AI Coding 工具选型
第5篇 验证:Dify 原型验证模型选型、Token 预估、编排边界
第6篇 架构:多 Agent 拆分决策 → 阿里云部署 → 高可用验证跑完 MumuMall,我意识到 AI 架构师的能力增长不是线性的——不是你从 L1 到 L2 到 L3 到 L4 一路升上去。是四个维度的能力在相互拉扯、交替生长。
需求的结构化能力
(说清楚要什么)
│
│
组织的采纳推动能力 ←──┼──→ 方案的概率性设计能力
(让一群人用对AI) │ (设计一个可能出错
│ 但可控的系统)
│
系统的可观测性能力
(证明系统在变好
而不是在变差)四个能力不是四个阶段,是四个同时存在、相互制约的维度。一个维度短板,其他三个维度就会被拖住。一个维度突破,会倒逼其他三个维度升级。
下面逐一展开每个维度——它是什么、怎么长出来的(对应哪篇)、判断标准是什么、最常见的错误是什么。
不是"把需求写清楚"。是把业务意图翻译成 AI 可执行的规格。
传统架构师的需求分析,终点是一份人读的文档。AI 架构师的需求分析,终点是一份人机共读的 Spec——人用它验收,AI 用它执行。
这个能力包含三个子能力:
阶段 | 你在做什么 | 真正的能力增长 |
|---|---|---|
第 2 篇 | 让 AI 追问 20 个问题,输出结构化需求 | 你第一次意识到:好的需求不是写出来的,是被追问出来的 |
第 3 篇 | 写 Spec 三层,让 AI 生成架构图 | 你第一次意识到:Spec的质量直接决定 AI 产出的质量——模糊的输入 = 随机的输出 |
补充篇 A | 判断什么场景不该用 AI | 你第一次意识到:说"不"比说"怎么做"更需要判断力 |
层次 | 标志 | 典型信号 |
|---|---|---|
入门 | 能用 AI 把一句话需求展开成结构化文档 | "AI 帮我整理了这个需求,我审了一下,基本完整" |
熟练 | 能写出让 AI 稳定产出高质量结果的 Spec | "同一个 Spec,换三个模型跑,输出偏差在可控范围内" |
精通 | 能设计 Spec 模板,让团队其他人按模板写,AI 也按模板执行 | "团队 5 个人写的 Spec,AI 执行出来的质量方差很小" |
这是 AI 架构师与传统架构师最根本的区别。
传统架构设计是确定性的:输入 A → 输出 B。如果输出不是 B,那是 bug。
AI 架构设计是概率性的:输入 A → 输出 B 的概率是 85%。问题不是"为什么不是 100%",而是"85% 够不够?不够的话,兜底策略是什么?"
这个能力包含三个子能力:
阶段 | 你在做什么 | 真正的能力增长 |
|---|---|---|
第 4 篇 | 对比模型、预估 Token 成本 | 你第一次意识到:选模型不是在选"最好"的,是在选"错的方式你能接受"的 |
第 5 篇 | Dify 搭原型,用真实数据测试 | 你第一次意识到:经验不可靠,数据才可靠。原型验证不是"证明方案对",是"发现方案哪里错" |
第 6 篇 | 拆单 Agent 为多 Agent、部署上云、停实例验证 | 你第一次意识到:Agent 拆分不是为了性能,是为了控制出错的爆炸半径 |
层次 | 标志 | 典型信号 |
|---|---|---|
入门 | 能对比 2-3 个模型,用 Dify 搭出原型 | "这个场景用 Qwen-Max 比 Qwen-Turbo 准确率高 15%,但成本高 3 倍" |
熟练 | 能设计模型分层路由——简单问题走小模型、复杂问题走大模型 | "70% 的咨询走 Turbo,30% 走 Max,总成本降 40%,整体准确率只降 3%" |
精通 | 能画出一个 Agent 系统的 failure mode 分布图,每种模式有兜底策略 | "这个 Agent 在五种情况下可能出错:三种靠 Prompt 修、一种靠换模型、一种靠转人工" |
不是"加监控"。是设计一套让 Agent 行为可审计、可比较、可拦截的评估体系。
传统 SRE 看三个东西:CPU、内存、错误率。AI 架构师还要看三个东西:检索质量、生成质量、行为一致性。Agent 可能 CPU 很闲、内存很空、没有报错——但回答质量在静默下降。
这个能力包含三个子能力:
阶段 | 你在做什么 | 真正的能力增长 |
|---|---|---|
第 5 篇 | Dify 里手动测试 | 你第一次意识到:"我感觉好用"和"数据证明好用"之间差了十万八千里 |
第 6 篇 | SLS 日志 + ARMS 链路追踪 | 你第一次意识到:可观测性是设计出来的,不是上线后"加个日志"就有的 |
第 7 篇(本篇) | EvalOps 体系设计 | 你需要意识到:评估系统本身也需要评估——谁评估评估工具? |
评估层 | 测什么 | 用什么工具 | 什么时候跑 |
|---|---|---|---|
检索层 | 知识库命中率、MRR | Ragas / 自建脚本 | 每次更新知识库后 |
生成层 | 忠实度、答案相关性 | Ragas / TruLens | 每次改 Prompt、升级模型后 |
Agent 层 | Tool 选择准确率、任务完成率 | SLS 日志 + 自定义看板 | 每天自动跑 |
用户层 | 满意度、转人工率 | SLS + 用户反馈埋点 | 实时监控 |
成本层 | Token 消耗趋势、单次对话成本 | SLS 成本日报 | 每天自动跑,突增 50% 告警 |
不是"写规范、推规范"。是设计一套让 AI 能力在组织中扩散而不失控的约束条件。
一个架构师自己能搭 Agent,这是维度二。让 10 个团队各自搭 Agent、各自不出事、出了问题能快速定位——这才是维度四。
这个能力包含三个子能力:
重新看 POC→MVP→生产,这次不是看"做什么",是看每个阶段的真正决策点:
POC
MVP
生产
层次 | 标志 | 典型信号 |
|---|---|---|
入门 | 自己能稳定地用 AI 提效 | "我的需求文档现在是 AI 出初稿,我审" |
熟练 | 能带一个团队完成 AI 项目 | "团队 3 个人,按我定的 Spec 模板和 Dify 流程,两个月交付了一个客服 Agent" |
精通 | 能设计组织级的 AI 治理机制 | "公司 5 个业务线各自在搭 Agent,但都过我设的门禁:AI 适用性评估 → Spec 评审 → EvalOps 上线检查" |
四个维度必须交替生长。只在一个维度上使劲,长出来的不是 AI 架构师,是四种"偏科":
只卷维度一(需求结构化),不碰维度二(概率性设计)
→ 变成 Spec文档架构师。Spec 写得极其漂亮,三层分明,字段齐全。但从来没在 Dify 上跑过真实数据,不知道自己的 Spec 让 AI 产出了什么。问他"Qwen-Max 和 Qwen-Turbo 在你的场景上差多少",答不上来。
只卷维度二(概率性设计),不碰维度三(可观测性)
→ 变成 调参架构师。Dify 上反复调 Prompt、换模型、改 top_k,每次调完手动测几条,"嗯,感觉好多了"。上线两周后,转人工率翻了倍,不知道从什么时候开始的,也不知道是哪次改动触发的。
只卷维度一二三(技术全能),不碰维度四(组织采纳)
→ 变成 独狼架构师。自己搭的 Agent 跑得飞起,但团队其他人不知道怎么用、不敢改、出了事只能找他。他休假那天,整个公司的 AI 能力跟着休假。
只卷维度四(组织推动),不碰维度一二三(技术落地)
→ 变成 PPT 架构师。给管理层画 AI 转型路线图,给客户讲 POC→MVP→生产,讲完让别人去落地。别人落不下去,他说"是执行力的问题"。
第 1-6 篇里发生了六次思维转变。当时是零散经历的,现在用四维模型重新看它们:
转变 | 表面含义 | 它真正在说什么 |
|---|---|---|
人写机器读 → 人机共写 | 写 Spec 代替写 Word | 维度一的本质:需求不再是沟通的终点,是执行的起点 |
经验驱动 → 数据验证驱动 | 用 Dify 实测代替拍脑袋 | 维度二的本质:判断力从"我觉得"迁移到"数据说" |
确定性思维 → 概率性思维 | Agent 可能出错,设计兜底 | 维度二的深层:架构评审不再问"有没有漏洞",改问"有几种 failure mode、每种的概率和兜底是什么" |
选一个工具 → 组合多工具 | Dify 验证 + LangChain 生产 | 维度二的战术:没有万能工具,只有匹配场景的组合 |
画图交给运维 → 自己验证 | 自己部署、停实例看切换 | 维度三的起点:可观测不是运维的事,是架构师的事 |
写代码 → 写规则 | Spec 定义规则,AI 生成代码 | 维度一+二的交汇:架构师的交付物从"实现"变成了"约束" |
六个转变的底层是一个:执行正在被自动化,判断正在成为真正的稀缺能力。而判断的对象,从"这个设计对不对"变成了"这个系统在什么条件下会出错、概率多大、能不能接受"。
MumuMall 只是一个案例。你手上的项目完全不同——业务不同、规模不同、技术栈不同。但这四个维度是通用的:
四个问题,按顺序问自己。哪个最早让你犹豫,那就是你当前的瓶颈。