暂无搜索历史
很多团队把 LLM eval 当成“上线以后再慢慢补”的事情。这个顺序通常会带来一个问题:等系统已经接入真实用户、真实工具和真实预算以后,再去讨论“什么算失败”...
很多团队接入 LLM 应用时,会先把 prompt 调顺,再补一个“评测脚本”。这个顺序很容易出问题:等到线上开始失败时,大家才发现自己没有定义过什么叫通过、什...
这也是我阅读 Doramagic 的 agent-memory manual 时认为最重要的点:它不应该被理解成“给 Agent 接一个向量库”,而应该被理解成...
很多人第一次评估 Codex CLI 这类终端 AI 编码工具时,会把注意力集中在两个问题上:它生成代码快不快、回答问题准不准。这两个问题当然重要,但一旦准备把...
暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市