EvalAgent 说明评测本身也需要技能化

返回文章列表

论文精选模型评测 AI Agent

Feature Essay

EvalAgent 说明评测本身也需要技能化

Agent 越复杂，评测越不像写几条单元测试。EvalAgent 的启发是：评测也需要 domain expertise、模板、代码和流程。让 coding agent 自动写评测，必须先教它怎样评测。

2026-06-08 00:55 北京时间 8 分钟难度：进阶 AI 论文精选

1 阅读 0 点赞

快速答案

EvalAgent 研究发现，直接让前沿 coding assistant 自动写 agent evaluation，执行成功率只有 30%，且容易过度设计指标。加入评测技能后，Eval@1 从 17.5% 提升到 65%。

论文显示缺少领域评测知识时，前沿 coding assistant 自动生成评测的执行成功率只有 30%。
EvalAgent 把评测知识编码为 skills，生成 metrics、可执行代码和报告。
加入评测 skills 后，Eval@1 从 17.5% 提升到 65%，人类专家偏好率达到 79.5%。

评测 agent 不是写普通测试

Agent evaluation 要评估多步行为、工具调用、中间推理和结果质量。它不像普通函数测试，给输入看输出就够了。

EvalAgent 论文先做了一个重要观察：直接提示前沿 coding assistant 自动生成 agent evaluation，效果并不好。没有领域评测知识时，执行成功率只有 30%，还会生成平均超过 12 个指标的过度复杂评测。

这说明强 coding ability 不会自动转化成可靠 eval ability。

Skills 是把评测经验产品化

EvalAgent 的核心做法，是把评测领域知识编码成 evaluation skills：程序化说明、可复用代码、模板，以及动态检索的 API 文档。

这让 agent 不只是“写点测试”，而是沿着 trace-based pipeline 生成 metrics、可执行代码和报告。

这个思路和当前 agent 产品里的 skills 趋势一致。复杂工作不能只靠一次 prompt，必须把经验、模板和工具打包成可复用能力。

Eval@1 是很务实的指标

论文提出 Eval@1，衡量生成的评测代码第一次运行是否既能执行又能产生有意义结果。这个指标很务实，因为评测系统如果自己还需要大量人工修补，自动化价值就会下降。

实验里，EvalAgent 把 Eval@1 从 17.5% 提升到 65%，并获得 79.5% 的人类专家偏好。这个提升说明，给 agent 正确的评测技能，比单纯要求它“更认真”有效得多。

企业内部做 agent eval，也应该从这里学到：先沉淀评测技能，再谈自动化。

评测工程会成为独立岗位

随着 agent 进入生产，团队需要评估的不只是答案对错，而是轨迹、恢复、权限、工具选择、成本和用户体验。

EvalAgent 这类工作说明，评测正在变成一套独立工程体系。它需要测试数据、指标设计、脚本、报告、回归、线上事故反馈和专家判断。

未来成熟团队不会把 agent eval 当成临时脚本，而会像 CI、监控和安全扫描一样持续维护。

参考来源

An Empirical Study of Automating Agent Evaluation

还没有评论，你可以写下第一条。

继续阅读

继续读这个系列

这篇属于「AI 论文精选」，优先按系列顺序继续往下读。

2026-04-10 10:25 北京时间 9 分钟同属「AI 论文精选」

01｜论文精选：这一周最值得看的三条判断

这一周最有价值的论文，同时改了三条判断：个人代理依然很脆弱，自动化 QA 还远不到可托付，竞赛编程 agent 的上限又被往上推了一截。

2026-05-18 12:00 北京时间 8 min 同属「AI 论文精选」

02｜AI 论文精选：工具落地评测正在变硬

本周值得读的论文，集中在工具调用的落地评测：不只是看模型能不能调出工具，更要看工具反馈被吸收的方式。

2026-05-24 01:58 北京时间 9 分钟同属「AI 论文精选」

03｜论文精选：Agent 评测和运行时正在变硬

这一周最值得看的论文，都在把 agent 从演示推回工程约束：沙箱回滚、隐藏测试、PR 结果解释、终端真实任务、越权行为和系统级安全。

同主题延伸

如果你想顺着当前问题继续往下挖，这里优先给相近主题的文章。

2026-06-08 01:26 北京时间 11 分钟同主题：论文精选等 3 个标签

Agent 评测正在从榜单走向生产现场

AlphaEval、OccuBench、EvalAgent 和 General Agent Evaluation 等工作说明，Agent 评测正在离开单一模型榜单，转向真实职业任务、生产公司任务、完整产品和自动化评测流程。

2026-06-08 00:52 北京时间 9 分钟同主题：论文精选等 3 个标签

ComplexMCP 把工具调用评测推进复杂沙箱

ComplexMCP 构建 7 个有状态沙箱和 300 多个工具，评测 agent 在动态、互相依赖、带噪声的工具环境中的表现。论文显示顶级模型成功率仍难超过 60%，远低于人类。

2026-06-08 00:49 北京时间 8 分钟同主题：论文精选等 3 个标签

MCP-Persona：个人工具才是 Agent 难题

MCP-Persona 针对 Reddit、小红书、飞书、Slack 等个人化工具构造评测环境，指出 agent 在真实个人账户和本地数据库场景下仍显著吃力。MCP 评测正在从通用工具转向个人上下文。

编辑精选

如果你想从这篇扩出去，这里放最近值得继续看的站内长文。

2026-06-08 02:08 北京时间 9 分钟编辑精选

下一篇 01｜论文精选：这一周最值得看的三条判断

阅读难度

进阶

信息密度适中，适合连续阅读。

专题

AI 论文精选

要点

论文显示缺少领域评测知识时，前沿 coding assistant 自动生成评测的执行成功率只有 30%。
EvalAgent 把评测知识编码为 skills，生成 metrics、可执行代码和报告。
加入评测 skills 后，Eval@1 从 17.5% 提升到 65%，人类专家偏好率达到 79.5%。

RSS

Subscribe to long-form updates through RSS. Feed timestamps use Beijing time.

Open RSS feed

LLMs

This site also exposes llms.txt and sitemap.xml for model-friendly discovery.

Open llms.txt

EvalAgent 说明评测本身也需要技能化

快速答案

评测 agent 不是写普通测试

Skills 是把评测经验产品化

Eval@1 是很务实的指标

评测工程会成为独立岗位

参考来源

评论（0）

继续阅读

继续读这个系列

01｜论文精选：这一周最值得看的三条判断

02｜AI 论文精选：工具落地评测正在变硬

03｜论文精选：Agent 评测和运行时正在变硬

同主题延伸

Agent 评测正在从榜单走向生产现场

ComplexMCP 把工具调用评测推进复杂沙箱

MCP-Persona：个人工具才是 Agent 难题

编辑精选

企业 AI 蔓延治理需要先做资产清单

AI 公司选址会越来越像能源基础设施决策

AI 编程的下一站是辅助交付工作流系统