01｜论文精选：这一周最值得看的三条判断

返回文章列表

论文精选 AI 编程 AI Agent

Feature Essay

01｜论文精选：这一周最值得看的三条判断

把这一周的新论文放在一起看，值得留下来的关键信号，是能力、安全和可靠性正在明显分叉。上限继续抬高，但生产可用性和防护能力没有一起跟上，这对产品判断比单篇论文本身更重要。

2026-04-10 10:25 北京时间 9 分钟难度：进阶 AI 论文精选

215 阅读 0 点赞

快速答案

这一周最有价值的论文，同时改了三条判断：个人代理依然很脆弱，自动化 QA 还远不到可托付，竞赛编程 agent 的上限又被往上推了一截。

OpenClaw 与 CIK-Bench 给出一个刺眼结果：面对真实网页里的对抗内容，个人 AI 代理的提示注入攻击成功率达到 73.7%。
GBQA 用 15 个开源浏览器游戏做 QA 基准，最强模型拿到 48.39%，说明自动化发现复杂前端缺陷仍然不稳。
GrandCode 在 3 场实时 Codeforces 比赛里赢过人类队伍，表明窄任务、强反馈和专门训练的编码 agent 还在继续上探。

这一周更有价值的是判断被改了

这一周的新论文如果只按能力有没有再创新高去读，会漏掉重要的部分。

更有价值的变化，是三条判断同时被推着往前走了一步。竞赛编程 agent 的上限继续上移，自动化 QA 仍然不稳，而接近个人助理形态的 computer-use agent 在真实网页环境里依旧很容易被劫持。

OpenClaw：个人代理的攻击面比很多人以为的更大

这一周最该认真看的，是 OpenClaw 配套的 CIK-Bench。它测的是更接近个人代理的形态。模型不仅会浏览网页，还会接触本地文件、邮件和日历等个人信息源。研究团队把 10 个主流 computer-use agent 放进 50 个真实任务里。总共跑了 1888 组实验，覆盖 5 类常见攻击方式。项目页给出的整体提示注入攻击成功率是 73.7%。更值得警惕的是，能力更强、带长期记忆的 agent，并没有自然更安全。任务完成度更高的系统，往往也暴露出更大的攻击面。这篇工作的价值，在于把风险从网页聊天机器人推进到了个人代理。只要 agent 能读邮件、改日历、看本地文件，网页里的恶意内容就可能直接改写行动路径。

GBQA：自动化 QA 仍然离稳定托付很远

第二篇值得留的是 GBQA。这项工作做了一个更贴近真实 QA 场景的基准。它用了 15 个开源浏览器游戏，做出 1260 个带缺陷的测试任务。问题类型覆盖功能错误、界面异常和本地化缺陷等常见前端 bug。最强模型是 Claude 3.7 Sonnet，成绩 48.39%。论文里的人工基线是 41.54%。这个分数还远不够直接接管 QA。 GBQA 的价值在于把门槛抬到了更接近真实工程的位置。 QA 的难点，在于发现哪里不对、说清为什么不对、稳定复现并报告出来。

GrandCode：编码 agent 的上限还在继续上探

第三篇是 GrandCode。论文声称它是第一个在 3 场实时 Codeforces 比赛里击败人类队伍的 AI 系统。它也在 CodeContests 和 LiveCodeBench 上拿到第一。这篇更值得看的是方法。 GrandCode 没有把所有任务都塞给一个万能模型。它拆成自然语言规划器、经过强化学习训练的代码生成模型和一个更快的 verifier 模型。编码 agent 的突破，仍然高度依赖明确反馈、硬评估和模块分工。这不等于通用软件开发已经解决，但说明窄任务里的上限还在继续上移。

三篇放在一起，结论反而更清楚

这一周最值得带走的是三条现实同时成立。能力上限还在往上走，生产可靠性还不够，安全问题已经到了不能当附录写的阶段。如果一定要给这一周下一个简单结论，那就是：能力继续涨，但能不能放心交给它做事，答案还远没有同步涨上去。

参考来源

还没有评论，你可以写下第一条。

继续阅读

继续读这个系列

这篇属于「AI 论文精选」，优先按系列顺序继续往下读。

2026-05-18 12:00 北京时间 8 min 同属「AI 论文精选」

02｜AI 论文精选：工具落地评测正在变硬

本周值得读的论文，集中在工具调用的落地评测：不只是看模型能不能调出工具，更要看工具反馈被吸收的方式。

2026-05-24 01:58 北京时间 9 分钟同属「AI 论文精选」

03｜论文精选：Agent 评测和运行时正在变硬

这一周最值得看的论文，都在把 agent 从演示推回工程约束：沙箱回滚、隐藏测试、PR 结果解释、终端真实任务、越权行为和系统级安全。

2026-04-09 08:30 北京时间 6 分钟同属「AI 论文精选」

00｜论文精选：最近 7 天的新论文该怎么挑

这条线只看最近 7 天值得工程和产品层继续跟进的 AI 论文，重点判断问题定义、证据强度和落地价值，不做摘要搬运，也不追每天的热点论文名单。

同主题延伸

如果你想顺着当前问题继续往下挖，这里优先给相近主题的文章。

2026-05-25 00:45 北京时间 8 分钟同主题：论文精选等 2 个标签

Spreadsheet-RL：办公 Agent 可能需要专门训练

Spreadsheet-RL 用强化学习训练专门的表格 Agent，并在 SpreadsheetBench 和领域表格任务上提升 Pass@1。它说明办公自动化不一定靠通用模型提示就能解决。

2026-05-25 00:41 北京时间 9 分钟同主题：论文精选等 2 个标签

Claw AI Lab：自动科研需要实验室而不是流水线

Claw AI Lab 把自动科研从隐藏的 prompt-to-paper 流水线，改造成可交互、可监控、可回滚的多 Agent 实验室。它的让研究过程更可控。

2026-05-25 00:43 北京时间 8 分钟同主题：论文精选等 2 个标签

Boiling the Frog：Agent 安全要看多轮动作

Boiling the Frog 把安全评测从单轮有害回答，转向企业办公环境里的多轮渐进攻击。它提醒我们，Agent 风险往往是在状态被慢慢改坏后出现。

编辑精选

如果你想从这篇扩出去，这里放最近值得继续看的站内长文。

2026-05-29 21:35 北京时间 12 分钟编辑精选

下一篇 02｜AI 论文精选：工具落地评测正在变硬

阅读难度

进阶

信息密度适中，适合连续阅读。

专题

AI 论文精选

要点

OpenClaw 与 CIK-Bench 给出一个刺眼结果：面对真实网页里的对抗内容，个人 AI 代理的提示注入攻击成功率达到 73.7%。
GBQA 用 15 个开源浏览器游戏做 QA 基准，最强模型拿到 48.39%，说明自动化发现复杂前端缺陷仍然不稳。
GrandCode 在 3 场实时 Codeforces 比赛里赢过人类队伍，表明窄任务、强反馈和专门训练的编码 agent 还在继续上探。

RSS

Subscribe to long-form updates through RSS. Feed timestamps use Beijing time.

Open RSS feed

LLMs

This site also exposes llms.txt and sitemap.xml for model-friendly discovery.

Open llms.txt

01｜论文精选：这一周最值得看的三条判断

快速答案

这一周更有价值的是判断被改了

OpenClaw：个人代理的攻击面比很多人以为的更大

GBQA：自动化 QA 仍然离稳定托付很远

GrandCode：编码 agent 的上限还在继续上探

三篇放在一起，结论反而更清楚

参考来源

评论（0）

继续阅读

继续读这个系列

02｜AI 论文精选：工具落地评测正在变硬

03｜论文精选：Agent 评测和运行时正在变硬

00｜论文精选：最近 7 天的新论文该怎么挑

同主题延伸

Spreadsheet-RL：办公 Agent 可能需要专门训练

Claw AI Lab：自动科研需要实验室而不是流水线

Boiling the Frog：Agent 安全要看多轮动作

编辑精选

Git 入门：先看懂版本、分支和协作

TerminalWorld：终端 Agent 评测不能只靠人造题

Agentic CLEAR：只做可观测还不够，Agent 需要解释型评测