工具调用的评测进入第二阶段
过去两年,工具调用类的论文重点在能不能调通:函数签名能不能识别、参数能不能填对、能不能在多个工具间选对。
本周值得读的几篇论文都把焦点往后挪了一步:调通之后呢?工具返回的结果模型有没有真用上?多轮里参数会不会无故漂移?错误回收路径会不会再误判?
三个被反复提到的指标
新一波论文开始把以下指标列为基础项。
- 参数稳定性:在等价前提下,多次调用同一工具的参数是否一致
- 结果吸收度:工具返回的结构化结果,是否真的进入了模型下一轮的判断
- 错误回收率:工具调用失败后,模型能否选择换工具或停止,而不是反复重试
之所以集中到这几项,是因为线上事故里 80% 都落在这里。
为什么模型 oracle 不再可信
早期 tool use 评测大量使用模型当 judge:让 GPT-4 判断 agent 调用是否合理。这套办法在 2024 年还能跑,现在已经被几篇论文连续指出问题。
核心矛盾很简单:工具结果是不是对,本质上是事实问题,不是写得通顺的问题。需要把外部真实数据作为 ground truth,而不是再让另一个模型当裁判。
tool grounding 的实践含义
对工程团队来说,这一波论文的实际含义不抽象:
- 工具结果的成功 / 失败需要明确字段,不要靠自由文本判断
- 对外部系统调用,要保留一个独立的真实性来源(数据库快照、日志、监控)
- 回归测试要把工具结果的事实性也跑一遍,不只是回答语气是否合理
这件事再不做,agent 在生产里能跑多久就要靠运气。
下一步可能往哪走
如果这条路线继续走下去,下一阶段的论文很可能开始做 tool grounding 的训练,而不只是评测:把工具反馈直接接入训练 loop。
训练数据里会更多出现真实 API 而不是模拟接口,loss 设计也会显式奖励错误回收和参数稳定性。
还没有评论,你可以写下第一条。