本周排名变化的方向

过去半年的 GitHub AI 趋势榜里,新框架长期排在前面:编排框架、agent loop、记忆模块。

本周的变化是这些位置开始往后退,而 eval、observability 和 trace 重放工具集体往前。

为什么是评估栈,而不是模型

原因和这两个月的生产事故频率有关。Agent 类产品上线后的故障,越来越多落在以下几类。

  • 工具调用参数被新版本提示词改写,导致下游系统拿到错误参数
  • RAG 在文档增量更新后召回退化,但回答仍然流畅,肉眼难发现
  • 长任务在错误恢复路径上死循环,模型自信地汇报失败原因,但实际原因不一样

这些都不是模型本身的问题,是工程闭环里的问题。靠人工抽查不够,需要可持续跑的 eval。

好用的 eval 仓库长什么样

本周排名靠前的 eval 仓库有几个共同特征。

  • 把任务、工具调用、模型响应、最终结果都存成可重放的 trace
  • 支持按 commit 或 prompt 版本批量回归,差分输出而不是只给总分
  • 可以本地一行命令重放线上 trace,不需要先复刻整个生产环境
  • 把人工标注当成一类工具,而不是另起一套系统

其中能在本地一行命令重放线上 trace 这一项,是最强的差异化。它意味着 eval 不再是离线静态数据集,而是真正贴着生产数据。

对工程团队的提示

如果还没把 eval 抽成单独的栈,可以先做一件事:把过去 30 天里收到的真实 bug 报告整理成 eval case。

这一步不需要做任何新工具,但能让团队第一次看到 eval 的回报:每发现一个新事故,就多一个能挡住相同事故的 case。