真实工具环境不是函数列表

很多工具调用评测把工具当作独立函数。输入清楚,输出稳定,失败少见。真实商业软件不是这样。

ComplexMCP 把问题推进一步:工具是有状态的,彼此依赖,环境会变化,还可能出现噪声和 API 失败。它构建了 7 个 stateful sandboxes,覆盖办公套件到金融系统,包含 300 多个工具。

这更接近企业 agent 会遇到的“最后一公里”:不是会不会调用一个 API,而是在一堆互相影响的系统里能否完成任务。

60% 成功率说明差距仍然很大

论文报告,即使顶级模型也难以超过 60% 成功率,而人类表现约 90%。这个差距很有现实意义。

如果一个 agent 在复杂工具沙箱里每十次失败四次,它就很难被企业直接放进核心流程。尤其当任务涉及金融、审批、客户数据或生产系统时,失败不是“再试一次”这么简单。

这类结果也提醒产品宣传要克制。会用工具和能可靠完成互相依赖的工作流,是两件不同的事。

三个瓶颈都很工程化

论文指出的三类瓶颈很具体。第一是 tool retrieval saturation:工具规模一大,agent 找对工具就变难。第二是 over-confidence:agent 跳过必要的环境验证。第三是 strategic defeatism:遇到失败后倾向于解释失败,而不是恢复。

这三个问题都不是单纯换更大模型就一定解决。工具检索需要更好的工具目录和上下文压缩,环境验证需要强制检查点,失败恢复需要工作流和策略设计。

换句话说,agent 可靠性是模型、工具系统和运行时共同的问题。

对 MCP 生态的启发

MCP 让工具接入更标准,但标准化协议不等于标准化可靠性。工具描述质量、权限设计、错误返回、状态同步和 observability 都会影响 agent 表现。

ComplexMCP 的价值,是把评测压力放到工具生态本身。未来平台不能只统计接了多少 MCP server,还要看 agent 在这些 server 上能否稳定完成多步任务。

真正成熟的 MCP 工具链,应该内置测试、模拟环境、失败注入和轨迹审计。否则工具越多,agent 可能越容易迷路。