榜单开始不够用了

模型榜单适合回答一个问题:同一类输入下,哪个模型表现更好。Agent 评测要回答的问题更复杂:一个系统能不能在真实环境里完成任务。

Agent 会分解任务、调用工具、读写文件、查询资料、等待反馈、处理错误。任何一个环节都可能影响最后结果。只看模型能力,会漏掉产品、工具、上下文和运行策略的差异。

这也是 2026 年 Agent 评测论文集中转向真实任务的原因。

AlphaEval 看完整产品

AlphaEval 的重要之处,是把评测对象放到完整 Agent 产品上,包括 Claude Code、Codex 等商业系统。它关注来自公司真实业务的任务,试图捕捉模型级评测看不到的差异。

这类评测更接近企业采购问题。企业不只关心底层模型在 benchmark 上得多少分,更关心某个 Agent 产品能不能在自己的工作流里完成任务,失败模式是什么,成本和时间如何。

这会推动评测从研究指标进入产品比较。

职业任务需要环境

OccuBench 试图覆盖专业职业任务,并用语言世界模型模拟领域环境。它的价值在于承认一个现实:很多职业任务不是孤立问答,而是在特定文档、工具、流程和领域约束中发生。

一个金融表格任务、法律文档任务、医疗行政任务或供应链任务,都有自己的材料、术语和操作路径。Agent 如果只会泛泛回答,很难完成。

评测需要把环境也纳入进来。

评测会成为基础设施

EvalAgent 和 General Agent Evaluation 代表另一条线:评测本身也要被自动化、协议化和复用。随着 Agent 形态越来越多,手工写测试场景和人工判分会变得太慢。

未来成熟团队会像做 CI 一样做 Agent eval:任务集、环境、工具、日志、判分、回归测试和成本统计。评测不再是发布前的一次论文式比较,而是持续运行的质量系统。

Agent 产品的竞争,最后会落到谁能证明自己在真实任务里稳定。