TerminalWorld:终端 Agent 评测不能只靠人造题
TerminalWorld 从真实终端录屏反向构造任务,得到 1530 个验证任务和 200 个人工复核子集。它说明终端 Agent 的真实难度,比专家手写 benchmark 更杂、更长、更贴近日常开发。
- 论文处理 80870 条真实终端录屏,生成 1530 个验证任务,覆盖 18 类真实任务和 1280 个唯一命令。
技术、行业、人物与 Agent 系统观察。
只看最近 7 天真正会改变工程或产品判断顺序的 AI 论文,不做摘要搬运。
Reading Path
先读 00 看筛选口径,之后只沿最近 7 天窗口滚动更新。Latest Archive
论文精选 时间线。
TerminalWorld 从真实终端录屏反向构造任务,得到 1530 个验证任务和 200 个人工复核子集。它说明终端 Agent 的真实难度,比专家手写 benchmark 更杂、更长、更贴近日常开发。
Agentic CLEAR 位于 observability layer 之上,试图从系统、trace 和 node 三个层级自动生成行为判断。它解决的「日志能不能变成可行动的评测」。
Contractual Skills 把 SKILL.md 从提示材料升级为可检查的任务合同:目标、输入边界、权限、证据、验收标准、审批点和交接规则都要写清楚。
Spreadsheet-RL 用强化学习训练专门的表格 Agent,并在 SpreadsheetBench 和领域表格任务上提升 Pass@1。它说明办公自动化不一定靠通用模型提示就能解决。
Boiling the Frog 把安全评测从单轮有害回答,转向企业办公环境里的多轮渐进攻击。它提醒我们,Agent 风险往往是在状态被慢慢改坏后出现。
Claw AI Lab 把自动科研从隐藏的 prompt-to-paper 流水线,改造成可交互、可监控、可回滚的多 Agent 实验室。它的让研究过程更可控。
WorkstreamBench 把 Agent 评测放进端到端金融表格任务,而不是只看孤立公式或单步操作。它提醒我们,企业 Agent 的难点往往在流程、文件状态和业务语境。
HarnessAPI 把 typed skill folder 作为单一真源,同时生成流式 HTTP endpoint、OpenAPI 页面和 MCP tool。它真正指出的问题是:Agent 工具层如果继续手工复制,很快会漂移。
DeltaBox 把 Agent 沙箱从「隔离环境」推进到「可快速试错的执行底座」。它讨论的 checkpoint 和 rollback,决定长程 Agent 能不能安全探索多条路径。
LCGuard 关注一个容易被忽略的通道:多 Agent 系统不只会通过自然语言泄密,也可能通过共享 KV cache 泄漏上下文、推理状态和角色私有信息。
MOSS 把自我进化从 prompt、技能文件和工作流配置推进到源码层。它值得讨论的重点是失败证据、回放验证、用户同意和回滚机制能否形成生产完整流程。
最近几篇 Agent memory 论文给出的共同判断很清楚:长期记忆不能只是把历史塞进向量库,而要管理写入、检索、更新、遗忘、调度和成本。
这一周最值得看的论文,都在把 agent 从演示推回工程约束:沙箱回滚、隐藏测试、PR 结果解释、终端真实任务、越权行为和系统级安全。
本周值得读的论文,集中在工具调用的落地评测:不只是看模型能不能调出工具,更要看工具反馈被吸收的方式。
这一周最有价值的论文,同时改了三条判断:个人代理依然很脆弱,自动化 QA 还远不到可托付,竞赛编程 agent 的上限又被往上推了一截。
这条线只看最近 7 天值得工程和产品层继续跟进的 AI 论文,重点判断问题定义、证据强度和落地价值,不做摘要搬运,也不追每天的热点论文名单。