快速答案
这一周最有价值的论文,同时改了三条判断:个人代理依然很脆弱,自动化 QA 还远不到可托付,竞赛编程 agent 的上限又被往上推了一截。
- OpenClaw 与 CIK-Bench 给出一个刺眼结果:面对真实网页里的对抗内容,个人 AI 代理的提示注入攻击成功率达到 73.7%。
- GBQA 用 15 个开源浏览器游戏做 QA 基准,最强模型拿到 48.39%,说明自动化发现复杂前端缺陷仍然不稳。
- GrandCode 在 3 场实时 Codeforces 比赛里赢过人类队伍,表明窄任务、强反馈和专门训练的编码 agent 还在继续上探。
这一周更有价值的是判断被改了
这一周的新论文如果只按能力有没有再创新高去读,会漏掉真正重要的部分。
更有价值的变化,是三条判断同时被推着往前走了一步。
竞赛编程 agent 的上限继续上移,自动化 QA 仍然不稳,而接近个人助理形态的 computer-use agent 在真实网页环境里依旧很容易被劫持。
OpenClaw:个人代理的攻击面比很多人以为的更大
这一周最该认真看的,是 OpenClaw 配套的 CIK-Bench。
它测的是更接近个人代理的形态。
模型不仅会浏览网页,还会接触本地文件、邮件和日历等个人信息源。
研究团队把 10 个主流 computer-use agent 放进 50 个真实任务里。
总共跑了 1888 组实验,覆盖 5 类常见攻击方式。
项目页给出的整体提示注入攻击成功率是 73.7%。
更值得警惕的是,能力更强、带长期记忆的 agent,并没有自然更安全。
任务完成度更高的系统,往往也暴露出更大的攻击面。
这篇工作的价值,在于把风险从网页聊天机器人推进到了个人代理。
只要 agent 能读邮件、改日历、看本地文件,网页里的恶意内容就可能直接改写行动路径。
GBQA:自动化 QA 仍然离稳定托付很远
第二篇值得留的是 GBQA。
这项工作做了一个更贴近真实 QA 场景的基准。
它用了 15 个开源浏览器游戏,做出 1260 个带缺陷的测试任务。
问题类型覆盖功能错误、界面异常和本地化缺陷等常见前端 bug。
最强模型是 Claude 3.7 Sonnet,成绩 48.39%。
论文里的人工基线是 41.54%。
这个分数还远不够直接接管 QA。
GBQA 的价值在于把门槛抬到了更接近真实工程的位置。
QA 的难点,在于发现哪里不对、说清为什么不对、稳定复现并报告出来。
GrandCode:编码 agent 的上限还在继续上探
第三篇是 GrandCode。
论文声称它是第一个在 3 场实时 Codeforces 比赛里击败人类队伍的 AI 系统。
它也在 CodeContests 和 LiveCodeBench 上拿到第一。
这篇更值得看的是方法。
GrandCode 没有把所有任务都塞给一个万能模型。
它拆成自然语言规划器、经过强化学习训练的代码生成模型和一个更快的 verifier 模型。
这说明编码 agent 的突破,仍然高度依赖明确反馈、硬评估和模块分工。
这不等于通用软件开发已经解决,但说明窄任务里的上限还在继续上移。
三篇放在一起,结论反而更清楚
这一周最值得带走的是三条现实同时成立。
能力上限还在往上走,生产可靠性还不够,安全问题已经到了不能当附录写的阶段。
如果一定要给这一周下一个简单结论,那就是:能力继续涨,但能不能放心交给它做事,答案还远没有同步涨上去。
继续阅读
别把这篇当成终点。这里优先给你系列内延续、同主题扩展和站内值得继续看的文章。
继续读这个系列
这篇属于「AI 论文精选」,优先按系列顺序继续往下读。
2026-04-09 08:30 北京时间
6 分钟
同属「AI 论文精选」
这条线只看最近 7 天真正值得工程和产品层继续跟进的 AI 论文,重点判断问题定义、证据强度和落地价值,不做摘要搬运,也不追热点论文名单本身。
同主题延伸
如果你想顺着当前问题继续往下挖,这里优先给相近主题的文章。
2026-04-10 10:20 北京时间
8 分钟
同主题:AI 编程 等 2 个标签
这一周 GitHub 上真正有分量的上涨,集中在三类更靠近产品底层的仓库:agent 运行层、端侧推理运行时和全双工语音代理。
2026-04-09 08:30 北京时间
6 分钟
同主题:AI 编程 等 2 个标签
这条线只跟最近 7 天蹿升很快的 AI 仓库,重点判断它们背后到底是新工作流、新工具链还是短期热度,并用文档、活跃度和可复现入口先筛掉噪音。
2026-04-07 21:22 北京时间
17 分钟
同主题:AI 编程 等 2 个标签
GSD2 在管项目,OMX 在管 Codex。两边都能做长任务,但不在同一层:一个更像执行内核,一个更像编排外挂。把它们看成同一层工具,后面基本都会用错。
编辑精选
如果你想从这篇扩出去,这里放最近值得继续看的站内长文。
2026-04-09 19:35 北京时间
14 分钟
编辑精选
Claude Managed Agents 不是一个孤立功能,而是 Anthropic 把 Agent 从模型接口推进到官方运行时平台的一步。真正重要的变化,不是多了几个工具,而是 Anthropic 开始接管 session、memory、vault、observability 和 prompt versioning 这一层基础设施。
2026-04-09 19:20 北京时间
15 分钟
编辑精选
Anthropic 这次公开的不是一个单纯的 agent demo,而是一套正式的运行时抽象。Agent、Environment、Session、Events 这四层一起定义了 Claude Managed Agents 的架构边界,也决定了它更适合长任务、异步执行和托管式运行,而不是完全自定义的 prompt loop。
2026-04-09 00:27 北京时间
13 分钟
编辑精选
罗福莉批评 OpenClaw,核心是第三方 Agent 框架终于要自己承担长期运行的成本。把官方计费规则、API 价格和 OpenClaw 近期调整放在一起看,她对单位经济的批评基本成立。
还没有评论,你可以写下第一条。