这一周更有价值的是判断被改了

这一周的新论文如果只按能力有没有再创新高去读,会漏掉真正重要的部分。

更有价值的变化,是三条判断同时被推着往前走了一步。 竞赛编程 agent 的上限继续上移,自动化 QA 仍然不稳,而接近个人助理形态的 computer-use agent 在真实网页环境里依旧很容易被劫持。

OpenClaw:个人代理的攻击面比很多人以为的更大

这一周最该认真看的,是 OpenClaw 配套的 CIK-Bench。 它测的是更接近个人代理的形态。 模型不仅会浏览网页,还会接触本地文件、邮件和日历等个人信息源。 研究团队把 10 个主流 computer-use agent 放进 50 个真实任务里。 总共跑了 1888 组实验,覆盖 5 类常见攻击方式。 项目页给出的整体提示注入攻击成功率是 73.7%。 更值得警惕的是,能力更强、带长期记忆的 agent,并没有自然更安全。 任务完成度更高的系统,往往也暴露出更大的攻击面。 这篇工作的价值,在于把风险从网页聊天机器人推进到了个人代理。 只要 agent 能读邮件、改日历、看本地文件,网页里的恶意内容就可能直接改写行动路径。

GBQA:自动化 QA 仍然离稳定托付很远

第二篇值得留的是 GBQA。 这项工作做了一个更贴近真实 QA 场景的基准。 它用了 15 个开源浏览器游戏,做出 1260 个带缺陷的测试任务。 问题类型覆盖功能错误、界面异常和本地化缺陷等常见前端 bug。 最强模型是 Claude 3.7 Sonnet,成绩 48.39%。 论文里的人工基线是 41.54%。 这个分数还远不够直接接管 QA。 GBQA 的价值在于把门槛抬到了更接近真实工程的位置。 QA 的难点,在于发现哪里不对、说清为什么不对、稳定复现并报告出来。

GrandCode:编码 agent 的上限还在继续上探

第三篇是 GrandCode。 论文声称它是第一个在 3 场实时 Codeforces 比赛里击败人类队伍的 AI 系统。 它也在 CodeContests 和 LiveCodeBench 上拿到第一。 这篇更值得看的是方法。 GrandCode 没有把所有任务都塞给一个万能模型。 它拆成自然语言规划器、经过强化学习训练的代码生成模型和一个更快的 verifier 模型。 这说明编码 agent 的突破,仍然高度依赖明确反馈、硬评估和模块分工。 这不等于通用软件开发已经解决,但说明窄任务里的上限还在继续上移。

三篇放在一起,结论反而更清楚

这一周最值得带走的是三条现实同时成立。 能力上限还在往上走,生产可靠性还不够,安全问题已经到了不能当附录写的阶段。 如果一定要给这一周下一个简单结论,那就是:能力继续涨,但能不能放心交给它做事,答案还远没有同步涨上去。