榜单开始不够用了
模型榜单适合回答一个问题:同一类输入下,哪个模型表现更好。Agent 评测要回答的问题更复杂:一个系统能不能在真实环境里完成任务。
Agent 会分解任务、调用工具、读写文件、查询资料、等待反馈、处理错误。任何一个环节都可能影响最后结果。只看模型能力,会漏掉产品、工具、上下文和运行策略的差异。
这也是 2026 年 Agent 评测论文集中转向真实任务的原因。
AlphaEval 看完整产品
AlphaEval 的重要之处,是把评测对象放到完整 Agent 产品上,包括 Claude Code、Codex 等商业系统。它关注来自公司真实业务的任务,试图捕捉模型级评测看不到的差异。
这类评测更接近企业采购问题。企业不只关心底层模型在 benchmark 上得多少分,更关心某个 Agent 产品能不能在自己的工作流里完成任务,失败模式是什么,成本和时间如何。
这会推动评测从研究指标进入产品比较。
职业任务需要环境
OccuBench 试图覆盖专业职业任务,并用语言世界模型模拟领域环境。它的价值在于承认一个现实:很多职业任务不是孤立问答,而是在特定文档、工具、流程和领域约束中发生。
一个金融表格任务、法律文档任务、医疗行政任务或供应链任务,都有自己的材料、术语和操作路径。Agent 如果只会泛泛回答,很难完成。
评测需要把环境也纳入进来。
评测会成为基础设施
EvalAgent 和 General Agent Evaluation 代表另一条线:评测本身也要被自动化、协议化和复用。随着 Agent 形态越来越多,手工写测试场景和人工判分会变得太慢。
未来成熟团队会像做 CI 一样做 Agent eval:任务集、环境、工具、日志、判分、回归测试和成本统计。评测不再是发布前的一次论文式比较,而是持续运行的质量系统。
Agent 产品的竞争,最后会落到谁能证明自己在真实任务里稳定。
还没有评论,你可以写下第一条。