论文精选

长文库

技术、行业、人物与 Agent 系统观察。

AI 论文精选

只看最近 7 天真正会改变工程或产品判断顺序的 AI 论文，不做摘要搬运。

导读 + 3 篇正片建议顺序：先读 00 看筛选口径，之后只沿最近 7 天窗口滚动更新。最近更新：03｜论文精选：Agent 评测和运行时正在变硬

先看导读

Reading Path

先读 00 看筛选口径，之后只沿最近 7 天窗口滚动更新。

00 从导读进入：00｜论文精选：最近 7 天的新论文该怎么挑 6 分钟 01 01｜论文精选：这一周最值得看的三条判断 9 分钟 02 02｜AI 论文精选：工具落地评测正在变硬 8 min 03 03｜论文精选：Agent 评测和运行时正在变硬 9 分钟

Latest Archive

论文精选时间线。

论文精选 AI Agent 研究文章

2026-05-25 00:50 北京时间 9 分钟阅读难度：进阶

TerminalWorld：终端 Agent 评测不能只靠人造题

TerminalWorld 从真实终端录屏反向构造任务，得到 1530 个验证任务和 200 个人工复核子集。它说明终端 Agent 的真实难度，比专家手写 benchmark 更杂、更长、更贴近日常开发。

论文处理 80870 条真实终端录屏，生成 1530 个验证任务，覆盖 18 类真实任务和 1280 个唯一命令。

阅读全文

论文精选 AI Agent 研究文章

2026-05-25 00:49 北京时间 8 分钟阅读难度：进阶

Agentic CLEAR：只做可观测还不够，Agent 需要解释型评测

Agentic CLEAR 位于 observability layer 之上，试图从系统、trace 和 node 三个层级自动生成行为判断。它解决的「日志能不能变成可行动的评测」。

论文提出系统、trace、node 三层粒度的自动评测反馈，目标是让错误分析适配不同领域。

阅读全文

论文精选 AI Agent 研究文章

2026-05-25 00:47 北京时间 9 分钟阅读难度：入门

Contractual Skills：企业 Agent 的技能文件该像合同

Contractual Skills 把 SKILL.md 从提示材料升级为可检查的任务合同：目标、输入边界、权限、证据、验收标准、审批点和交接规则都要写清楚。

论文提出 GovernSpec-inspired 框架，把技能组织成目标、权限、证据、输出合同和验证步骤。

阅读全文

论文精选 AI Agent 研究文章

2026-05-25 00:45 北京时间 8 分钟阅读难度：入门

Spreadsheet-RL：办公 Agent 可能需要专门训练

Spreadsheet-RL 用强化学习训练专门的表格 Agent，并在 SpreadsheetBench 和领域表格任务上提升 Pass@1。它说明办公自动化不一定靠通用模型提示就能解决。

论文构建 Spreadsheet Gym，在 Microsoft Excel 环境中通过 Python sandbox 暴露大量表格功能。

阅读全文

论文精选 AI Agent 研究文章

2026-05-25 00:43 北京时间 8 分钟阅读难度：进阶

Boiling the Frog：Agent 安全要看多轮动作

Boiling the Frog 把安全评测从单轮有害回答，转向企业办公环境里的多轮渐进攻击。它提醒我们，Agent 风险往往是在状态被慢慢改坏后出现。

论文用 stateful multi-turn evaluation 检查工具型模型是否会在渐进请求中产生不安全 artifact。

阅读全文

论文精选 AI Agent 研究文章

2026-05-25 00:41 北京时间 9 分钟阅读难度：进阶

Claw AI Lab：自动科研需要实验室而不是流水线

Claw AI Lab 把自动科研从隐藏的 prompt-to-paper 流水线，改造成可交互、可监控、可回滚的多 Agent 实验室。它的让研究过程更可控。

论文允许用户从一个 prompt 实例化研究团队，并支持角色定制、实时监控和 artifact inspection。

阅读全文

论文精选 AI Agent 研究文章

2026-05-25 00:39 北京时间 8 分钟阅读难度：进阶

WorkstreamBench：金融表格 Agent 评测开始贴近真实流程

WorkstreamBench 把 Agent 评测放进端到端金融表格任务，而不是只看孤立公式或单步操作。它提醒我们，企业 Agent 的难点往往在流程、文件状态和业务语境。

WorkstreamBench 关注金融场景里的端到端 spreadsheet tasks，问题比单点 Excel 操作更接近企业工作。

阅读全文

论文精选 AI Agent 研究文章

2026-05-25 00:37 北京时间 8 分钟阅读难度：入门

HarnessAPI：MCP 工具不该和 HTTP 接口各写一遍

HarnessAPI 把 typed skill folder 作为单一真源，同时生成流式 HTTP endpoint、OpenAPI 页面和 MCP tool。它真正指出的问题是：Agent 工具层如果继续手工复制，很快会漂移。

HarnessAPI 从一个 handler.py 和 Pydantic schema 派生 HTTP、Swagger UI 和 MCP tool。

阅读全文

论文精选 AI Agent 研究文章

2026-05-25 00:35 北京时间 9 分钟阅读难度：进阶

DeltaBox：长程 Agent 需要毫秒级回滚

DeltaBox 把 Agent 沙箱从「隔离环境」推进到「可快速试错的执行底座」。它讨论的 checkpoint 和 rollback，决定长程 Agent 能不能安全探索多条路径。

DeltaBox 针对有状态 Agent 提供 sandbox checkpoint 和 rollback，目标是支持低成本试错。

阅读全文

论文精选 AI Agent 研究文章

2026-05-25 00:33 北京时间 8 分钟阅读难度：进阶

LCGuard：多 Agent 共享 KV 缓存的隐私边界

LCGuard 关注一个容易被忽略的通道：多 Agent 系统不只会通过自然语言泄密，也可能通过共享 KV cache 泄漏上下文、推理状态和角色私有信息。

论文把共享 KV cache 视作 latent working memory，并用可重构敏感输入来定义泄漏风险。

阅读全文

论文精选 AI Agent 研究文章

2026-05-25 00:31 北京时间 9 分钟阅读难度：进阶

MOSS：Agent 自我进化不能只改提示词

MOSS 把自我进化从 prompt、技能文件和工作流配置推进到源码层。它值得讨论的重点是失败证据、回放验证、用户同意和回滚机制能否形成生产完整流程。

MOSS 认为源码级改写是 prompt、技能文件和工作流图的严格超集，可以覆盖结构性失败。

阅读全文

AI Agent 系统架构论文精选

2026-05-24 12:33 北京时间 10 分钟阅读难度：入门

Agent 记忆重点是生命周期管理

最近几篇 Agent memory 论文给出的共同判断很清楚：长期记忆不能只是把历史塞进向量库，而要管理写入、检索、更新、遗忘、调度和成本。

Goal-Mem 把检索从相似度搜索推进到目标分解，说明记忆 retrieval 必须服务于推理目标。

阅读全文

论文精选 AI Agent AI 编程

2026-05-24 01:58 北京时间 9 分钟阅读难度：进阶

03｜论文精选：Agent 评测和运行时正在变硬

这一周最值得看的论文，都在把 agent 从演示推回工程约束：沙箱回滚、隐藏测试、PR 结果解释、终端真实任务、越权行为和系统级安全。

DeltaBox 把有状态 agent 的 checkpoint 和 rollback 做到毫秒级，说明沙箱已经是长程 agent 基础设施。

阅读全文

AI Agent 论文精选技术沉思

2026-05-18 12:00 北京时间 8 min 阅读难度：入门

02｜AI 论文精选：工具落地评测正在变硬

本周值得读的论文，集中在工具调用的落地评测：不只是看模型能不能调出工具，更要看工具反馈被吸收的方式。

工具调用评测从单步成功率，转向多轮稳定性和错误回收能力。

阅读全文

论文精选 AI 编程 AI Agent

2026-04-10 10:25 北京时间 9 分钟阅读难度：进阶

01｜论文精选：这一周最值得看的三条判断

这一周最有价值的论文，同时改了三条判断：个人代理依然很脆弱，自动化 QA 还远不到可托付，竞赛编程 agent 的上限又被往上推了一截。

OpenClaw 与 CIK-Bench 给出一个刺眼结果：面对真实网页里的对抗内容，个人 AI 代理的提示注入攻击成功率达到 73.7%。

阅读全文

论文精选 AI 编程 AI Agent

2026-04-09 08:30 北京时间 6 分钟阅读难度：进阶

00｜论文精选：最近 7 天的新论文该怎么挑

这条线只看最近 7 天值得工程和产品层继续跟进的 AI 论文，重点判断问题定义、证据强度和落地价值，不做摘要搬运，也不追每天的热点论文名单。

默认只看最近 7 天公开的新论文或重要新版本，不靠旧论文翻红撑版面。

阅读全文