ComplexMCP 把工具调用评测推进复杂沙箱

返回文章列表

论文精选 AI Agent 模型评测

Feature Essay

ComplexMCP 把工具调用评测推进复杂沙箱

很多 agent 演示只调用一两个清楚工具，真实商业软件不是这样。工具会互相依赖，环境会变化，API 会失败，状态会累积。ComplexMCP 让评测更接近这个混乱现实。

2026-06-08 00:52 北京时间 9 分钟难度：进阶 AI 论文精选

1 阅读 0 点赞

快速答案

ComplexMCP 构建 7 个有状态沙箱和 300 多个工具，评测 agent 在动态、互相依赖、带噪声的工具环境中的表现。论文显示顶级模型成功率仍难超过 60%，远低于人类。

ComplexMCP 基于 MCP 构建 7 个 stateful sandboxes 和 300 多个经过测试的工具。
顶级模型在该评测中仍难超过 60% 成功率，人类表现约 90%。
论文指出工具检索饱和、过度自信和战略性放弃是 agent 的三类核心瓶颈。

真实工具环境不是函数列表

很多工具调用评测把工具当作独立函数。输入清楚，输出稳定，失败少见。真实商业软件不是这样。

ComplexMCP 把问题推进一步：工具是有状态的，彼此依赖，环境会变化，还可能出现噪声和 API 失败。它构建了 7 个 stateful sandboxes，覆盖办公套件到金融系统，包含 300 多个工具。

这更接近企业 agent 会遇到的“最后一公里”：不是会不会调用一个 API，而是在一堆互相影响的系统里能否完成任务。

60% 成功率说明差距仍然很大

论文报告，即使顶级模型也难以超过 60% 成功率，而人类表现约 90%。这个差距很有现实意义。

如果一个 agent 在复杂工具沙箱里每十次失败四次，它就很难被企业直接放进核心流程。尤其当任务涉及金融、审批、客户数据或生产系统时，失败不是“再试一次”这么简单。

这类结果也提醒产品宣传要克制。会用工具和能可靠完成互相依赖的工作流，是两件不同的事。

三个瓶颈都很工程化

论文指出的三类瓶颈很具体。第一是 tool retrieval saturation：工具规模一大，agent 找对工具就变难。第二是 over-confidence：agent 跳过必要的环境验证。第三是 strategic defeatism：遇到失败后倾向于解释失败，而不是恢复。

这三个问题都不是单纯换更大模型就一定解决。工具检索需要更好的工具目录和上下文压缩，环境验证需要强制检查点，失败恢复需要工作流和策略设计。

换句话说，agent 可靠性是模型、工具系统和运行时共同的问题。

对 MCP 生态的启发

MCP 让工具接入更标准，但标准化协议不等于标准化可靠性。工具描述质量、权限设计、错误返回、状态同步和 observability 都会影响 agent 表现。

ComplexMCP 的价值，是把评测压力放到工具生态本身。未来平台不能只统计接了多少 MCP server，还要看 agent 在这些 server 上能否稳定完成多步任务。

真正成熟的 MCP 工具链，应该内置测试、模拟环境、失败注入和轨迹审计。否则工具越多，agent 可能越容易迷路。

参考来源

ComplexMCP: Evaluation of LLM Agents in Dynamic, Interdependent, and Large-Scale Tool Sandbox

还没有评论，你可以写下第一条。

继续阅读

继续读这个系列

这篇属于「AI 论文精选」，优先按系列顺序继续往下读。

2026-06-08 00:55 北京时间 8 分钟同属「AI 论文精选」

EvalAgent 说明评测本身也需要技能化

EvalAgent 研究发现，直接让前沿 coding assistant 自动写 agent evaluation，执行成功率只有 30%，且容易过度设计指标。加入评测技能后，Eval@1 从 17.5% 提升到 65%。

2026-04-10 10:25 北京时间 9 分钟同属「AI 论文精选」

01｜论文精选：这一周最值得看的三条判断

这一周最有价值的论文，同时改了三条判断：个人代理依然很脆弱，自动化 QA 还远不到可托付，竞赛编程 agent 的上限又被往上推了一截。

2026-05-18 12:00 北京时间 8 min 同属「AI 论文精选」

02｜AI 论文精选：工具落地评测正在变硬

本周值得读的论文，集中在工具调用的落地评测：不只是看模型能不能调出工具，更要看工具反馈被吸收的方式。

同主题延伸

如果你想顺着当前问题继续往下挖，这里优先给相近主题的文章。

2026-06-08 00:49 北京时间 8 分钟同主题：论文精选等 3 个标签

MCP-Persona：个人工具才是 Agent 难题

MCP-Persona 针对 Reddit、小红书、飞书、Slack 等个人化工具构造评测环境，指出 agent 在真实个人账户和本地数据库场景下仍显著吃力。MCP 评测正在从通用工具转向个人上下文。

2026-06-08 01:26 北京时间 11 分钟同主题：论文精选等 3 个标签

Agent 评测正在从榜单走向生产现场

AlphaEval、OccuBench、EvalAgent 和 General Agent Evaluation 等工作说明，Agent 评测正在离开单一模型榜单，转向真实职业任务、生产公司任务、完整产品和自动化评测流程。

2026-05-24 01:58 北京时间 9 分钟同主题：论文精选等 2 个标签

03｜论文精选：Agent 评测和运行时正在变硬

这一周最值得看的论文，都在把 agent 从演示推回工程约束：沙箱回滚、隐藏测试、PR 结果解释、终端真实任务、越权行为和系统级安全。

编辑精选

如果你想从这篇扩出去，这里放最近值得继续看的站内长文。

2026-06-08 02:08 北京时间 9 分钟编辑精选

下一篇 EvalAgent 说明评测本身也需要技能化

阅读难度

进阶

信息密度适中，适合连续阅读。

专题

AI 论文精选

要点

ComplexMCP 基于 MCP 构建 7 个 stateful sandboxes 和 300 多个经过测试的工具。
顶级模型在该评测中仍难超过 60% 成功率，人类表现约 90%。
论文指出工具检索饱和、过度自信和战略性放弃是 agent 的三类核心瓶颈。

RSS

Subscribe to long-form updates through RSS. Feed timestamps use Beijing time.

Open RSS feed

LLMs

This site also exposes llms.txt and sitemap.xml for model-friendly discovery.

Open llms.txt

ComplexMCP 把工具调用评测推进复杂沙箱

快速答案

真实工具环境不是函数列表

60% 成功率说明差距仍然很大

三个瓶颈都很工程化

对 MCP 生态的启发

参考来源

评论（0）

继续阅读

继续读这个系列

EvalAgent 说明评测本身也需要技能化

01｜论文精选：这一周最值得看的三条判断

02｜AI 论文精选：工具落地评测正在变硬

同主题延伸

MCP-Persona：个人工具才是 Agent 难题

Agent 评测正在从榜单走向生产现场

03｜论文精选：Agent 评测和运行时正在变硬

编辑精选

企业 AI 蔓延治理需要先做资产清单

AI 公司选址会越来越像能源基础设施决策

AI 编程的下一站是辅助交付工作流系统