评测 agent 不是写普通测试
Agent evaluation 要评估多步行为、工具调用、中间推理和结果质量。它不像普通函数测试,给输入看输出就够了。
EvalAgent 论文先做了一个重要观察:直接提示前沿 coding assistant 自动生成 agent evaluation,效果并不好。没有领域评测知识时,执行成功率只有 30%,还会生成平均超过 12 个指标的过度复杂评测。
这说明强 coding ability 不会自动转化成可靠 eval ability。
Skills 是把评测经验产品化
EvalAgent 的核心做法,是把评测领域知识编码成 evaluation skills:程序化说明、可复用代码、模板,以及动态检索的 API 文档。
这让 agent 不只是“写点测试”,而是沿着 trace-based pipeline 生成 metrics、可执行代码和报告。
这个思路和当前 agent 产品里的 skills 趋势一致。复杂工作不能只靠一次 prompt,必须把经验、模板和工具打包成可复用能力。
Eval@1 是很务实的指标
论文提出 Eval@1,衡量生成的评测代码第一次运行是否既能执行又能产生有意义结果。这个指标很务实,因为评测系统如果自己还需要大量人工修补,自动化价值就会下降。
实验里,EvalAgent 把 Eval@1 从 17.5% 提升到 65%,并获得 79.5% 的人类专家偏好。这个提升说明,给 agent 正确的评测技能,比单纯要求它“更认真”有效得多。
企业内部做 agent eval,也应该从这里学到:先沉淀评测技能,再谈自动化。
评测工程会成为独立岗位
随着 agent 进入生产,团队需要评估的不只是答案对错,而是轨迹、恢复、权限、工具选择、成本和用户体验。
EvalAgent 这类工作说明,评测正在变成一套独立工程体系。它需要测试数据、指标设计、脚本、报告、回归、线上事故反馈和专家判断。
未来成熟团队不会把 agent eval 当成临时脚本,而会像 CI、监控和安全扫描一样持续维护。
还没有评论,你可以写下第一条。