Agent 不会永远待在聊天框里

这一轮 GUI Agent 的热度,表面上像是模型终于学会了看屏幕、点按钮、填表单。这个说法太轻了。变化是:浏览器、搜索框、桌面应用和手机系统,正在被重新定义成 Agent 的工作环境。

过去的 AI 产品多半把用户留在一个对话窗口里。用户问,模型答;用户复制,自己去网页、Excel、VS Code 或后台系统里执行。GUI Agent 改的是后半段。它是在直接进入用户原本工作的界面,把网页、表格、邮件、购物车、代码编辑器和内部系统当成可操作对象。

这件事重要,是因为大多数真实工作并不发生在 API 文档里,而发生在一堆已有软件中。企业不会为了一个新 Agent 重写所有后台。个人用户也不会把所有任务迁到一个全新工作台。谁能可靠地操作现有界面,谁就能先穿过软件迁移成本。

Google 把入口问题说得很直接

Google I/O 2026 的信号很集中。AI Mode 接进 Search,Search agents 可以在搜索里创建、定制、管理多个后台信息代理;Universal Cart 横跨 Search、Gemini、YouTube 和 Gmail;Gemini Spark 则被描述为可以在手机或电脑上后台运行、在用户指令下采取行动的个人 Agent。

这些发布放在一起,不是在讲一个更聪明的聊天机器人。Google 想保住的是入口。搜索框、购物路径、Gmail、日历、Chrome、Android,本来就是用户每天最常使用的软件表面。Agent 如果进入这些表面,就不只是「回答得更好」,而是会改变用户从发现信息到完成动作的路径。

这里的边界也很清楚。Google 对 Spark 的表述里强调用户开启、用户指挥、重大动作前确认。这不是装饰语。只要 Agent 能买东西、发邮件、改文件、操作账号,产品就必须把确认、授权、预算、数据访问和撤销机制做进运行时。

开源栈在补真实界面的工程细节

开源侧的 UI-TARS-desktop 也值得看。它把自己放在「多模态 AI Agent stack」的位置,目标是把 GUI Agent 和视觉能力接入 terminal、computer、browser 和 product。README 里的示例重点是打开 VS Code 设置、检查 GitHub issue、操作本地或远程浏览器。

GUI Agent 已经不只是「浏览器自动化」的新皮肤。它需要视觉模型理解屏幕,需要 browser-use 和 computer-use 执行动作,需要 MCP 或本地工具接外部系统,还需要一套能承接失败、重试和权限控制的执行框架。

这类工具真正难的地方,也不是让模型偶尔点对一次按钮。难点在于界面会变、弹窗会出现、登录会过期、按钮文案会改、网络会慢、模型会误读屏幕。没有状态记忆和失败恢复,GUI Agent 会在小任务里显得神奇,在长任务里变得脆弱。

GUI Agent 的成本问题已经暴露

Microsoft Research 的 ActionEngine 把这个问题说得更具体。传统 GUI Agent 常见做法是:截图、让视觉语言模型推理下一步、执行、再截图、再推理。任务越长,调用次数、延迟和成本越高;没有对已访问页面的持久记忆,准确率也容易掉。

ActionEngine 的思路是先让一个 Crawling Agent 离线探索界面,构建可更新的状态机记忆;执行时再让 Execution Agent 基于这份记忆生成可执行程序。论文页面给出的结果很直接:在 WebArena 的 Reddit 任务上,它用平均一次 LLM 调用达到 95% 任务成功率,高于强视觉基线的 66%,并把成本降到约 1/11.8、端到端延迟降到约一半。

这组数字不等于 GUI Agent 已经成熟,但它指出了正确方向。下一阶段把界面探索、状态记忆、动作模板、局部修复做成工程层。人类用软件也不是每次从零理解页面。Agent 如果想长期工作,也需要类似的工作记忆。

浏览器会变成 Agent 的第一层操作系统

为什么先是浏览器?因为浏览器同时具备三个条件:足够通用,足够接近真实任务,又比完整操作系统更容易约束。电商、后台管理、CRM、财务系统、文档、邮件和代码托管平台,大量工作都在浏览器里完成。

OpenAI 的 Computer-Using Agent、Google 的 Search agents 和 Spark、UI-TARS 这类开源栈,都在围绕同一个事实展开:Web 和桌面 GUI 是今天最现成的通用接口。API 适合机器,GUI 适合已有软件生态。Agent 要穿过现实世界的软件碎片,短期内不可能绕开 GUI。

这也意味着浏览器会承担更多操作系统角色。它要处理身份、权限、会话、下载、文件上传、剪贴板、支付、弹窗、隔离环境和审计记录。Agent 会把浏览器推向更像运行时的方向。

竞争点是可靠操作,不是会不会点鼠标

GUI Agent 最容易被误读成演示技术:看,它能打开网页,能填表,能点按钮。这样的 demo 很快会失去新鲜感。用户真正关心的是另一组问题:它能不能跑完整个流程,失败时能不能停在可恢复的位置,能不能解释自己做了什么,能不能在付款、发信、删文件前让人确认。

所以 GUI Agent 的竞争不会只落在模型视觉能力上。它会落在五个更硬的层面:

  • 状态记忆:界面结构、已访问页面、可复用动作不能每次重算。
  • 运行隔离:高权限操作要和普通浏览分开,敏感动作要确认。
  • 失败修复:弹窗、改版、网络异常不能让任务直接失控。
  • 成本控制:长任务不能靠几十上百次大模型截图推理硬跑。
  • 审计记录:用户和企业必须知道 Agent 做过什么、为什么做。

聊天框不会消失,但它会降级成一个入口。 Agent 产品会把对话、屏幕、浏览器、文件和企业系统接成同一条执行链。接下来值得看的,重点是谁能把这条执行链做得足够稳。