Agent 的下一块战场是屏幕和浏览器

AI Agent 用户界面行业观察

Feature Essay

Agent 的下一块战场是屏幕和浏览器

Google I/O 把 Search agents、Universal Cart 和 Gemini Spark 放到同一套产品叙事里，开源侧的 UI-TARS-desktop 继续把视觉、浏览器和本地操作接在一起。Agent 正在离开聊天框，进入真实软件界面。

2026-05-24 11:19 北京时间 9 分钟难度：进阶

25 阅读 0 点赞

快速答案

GUI Agent 的关键变化，重点是浏览器、搜索、桌面和手机正在被重新做成 Agent 的执行环境。

Google 在 I/O 2026 把 Search agents、Universal Cart 和 Gemini Spark 连在一起，说明入口竞争已经从回答问题延伸到持续执行任务。
UI-TARS-desktop 这类开源栈把视觉模型、浏览器操作、本地桌面和 MCP 放进同一套工具链，GUI Agent 不再只是单个 demo。
Microsoft Research 的 ActionEngine 用状态机记忆降低 GUI 操作成本，提示下一阶段竞争点会落在记忆、计划和失败修复。

Agent 不会永远待在聊天框里

这一轮 GUI Agent 的热度，表面上像是模型终于学会了看屏幕、点按钮、填表单。这个说法太轻了。变化是：浏览器、搜索框、桌面应用和手机系统，正在被重新定义成 Agent 的工作环境。

过去的 AI 产品多半把用户留在一个对话窗口里。用户问，模型答；用户复制，自己去网页、Excel、VS Code 或后台系统里执行。GUI Agent 改的是后半段。它是在直接进入用户原本工作的界面，把网页、表格、邮件、购物车、代码编辑器和内部系统当成可操作对象。

这件事重要，是因为大多数真实工作并不发生在 API 文档里，而发生在一堆已有软件中。企业不会为了一个新 Agent 重写所有后台。个人用户也不会把所有任务迁到一个全新工作台。谁能可靠地操作现有界面，谁就能先穿过软件迁移成本。

Google 把入口问题说得很直接

Google I/O 2026 的信号很集中。AI Mode 接进 Search，Search agents 可以在搜索里创建、定制、管理多个后台信息代理；Universal Cart 横跨 Search、Gemini、YouTube 和 Gmail；Gemini Spark 则被描述为可以在手机或电脑上后台运行、在用户指令下采取行动的个人 Agent。

这些发布放在一起，不是在讲一个更聪明的聊天机器人。Google 想保住的是入口。搜索框、购物路径、Gmail、日历、Chrome、Android，本来就是用户每天最常使用的软件表面。Agent 如果进入这些表面，就不只是「回答得更好」，而是会改变用户从发现信息到完成动作的路径。

这里的边界也很清楚。Google 对 Spark 的表述里强调用户开启、用户指挥、重大动作前确认。这不是装饰语。只要 Agent 能买东西、发邮件、改文件、操作账号，产品就必须把确认、授权、预算、数据访问和撤销机制做进运行时。

开源栈在补真实界面的工程细节

开源侧的 UI-TARS-desktop 也值得看。它把自己放在「多模态 AI Agent stack」的位置，目标是把 GUI Agent 和视觉能力接入 terminal、computer、browser 和 product。README 里的示例重点是打开 VS Code 设置、检查 GitHub issue、操作本地或远程浏览器。

GUI Agent 已经不只是「浏览器自动化」的新皮肤。它需要视觉模型理解屏幕，需要 browser-use 和 computer-use 执行动作，需要 MCP 或本地工具接外部系统，还需要一套能承接失败、重试和权限控制的执行框架。

这类工具真正难的地方，也不是让模型偶尔点对一次按钮。难点在于界面会变、弹窗会出现、登录会过期、按钮文案会改、网络会慢、模型会误读屏幕。没有状态记忆和失败恢复，GUI Agent 会在小任务里显得神奇，在长任务里变得脆弱。

GUI Agent 的成本问题已经暴露

Microsoft Research 的 ActionEngine 把这个问题说得更具体。传统 GUI Agent 常见做法是：截图、让视觉语言模型推理下一步、执行、再截图、再推理。任务越长，调用次数、延迟和成本越高；没有对已访问页面的持久记忆，准确率也容易掉。

ActionEngine 的思路是先让一个 Crawling Agent 离线探索界面，构建可更新的状态机记忆；执行时再让 Execution Agent 基于这份记忆生成可执行程序。论文页面给出的结果很直接：在 WebArena 的 Reddit 任务上，它用平均一次 LLM 调用达到 95% 任务成功率，高于强视觉基线的 66%，并把成本降到约 1/11.8、端到端延迟降到约一半。

这组数字不等于 GUI Agent 已经成熟，但它指出了正确方向。下一阶段把界面探索、状态记忆、动作模板、局部修复做成工程层。人类用软件也不是每次从零理解页面。Agent 如果想长期工作，也需要类似的工作记忆。

浏览器会变成 Agent 的第一层操作系统

为什么先是浏览器？因为浏览器同时具备三个条件：足够通用，足够接近真实任务，又比完整操作系统更容易约束。电商、后台管理、CRM、财务系统、文档、邮件和代码托管平台，大量工作都在浏览器里完成。

OpenAI 的 Computer-Using Agent、Google 的 Search agents 和 Spark、UI-TARS 这类开源栈，都在围绕同一个事实展开：Web 和桌面 GUI 是今天最现成的通用接口。API 适合机器，GUI 适合已有软件生态。Agent 要穿过现实世界的软件碎片，短期内不可能绕开 GUI。

这也意味着浏览器会承担更多操作系统角色。它要处理身份、权限、会话、下载、文件上传、剪贴板、支付、弹窗、隔离环境和审计记录。Agent 会把浏览器推向更像运行时的方向。

竞争点是可靠操作，不是会不会点鼠标

GUI Agent 最容易被误读成演示技术：看，它能打开网页，能填表，能点按钮。这样的 demo 很快会失去新鲜感。用户真正关心的是另一组问题：它能不能跑完整个流程，失败时能不能停在可恢复的位置，能不能解释自己做了什么，能不能在付款、发信、删文件前让人确认。

所以 GUI Agent 的竞争不会只落在模型视觉能力上。它会落在五个更硬的层面：

状态记忆：界面结构、已访问页面、可复用动作不能每次重算。
运行隔离：高权限操作要和普通浏览分开，敏感动作要确认。
失败修复：弹窗、改版、网络异常不能让任务直接失控。
成本控制：长任务不能靠几十上百次大模型截图推理硬跑。
审计记录：用户和企业必须知道 Agent 做过什么、为什么做。

聊天框不会消失，但它会降级成一个入口。 Agent 产品会把对话、屏幕、浏览器、文件和企业系统接成同一条执行链。接下来值得看的，重点是谁能把这条执行链做得足够稳。

参考来源

还没有评论，你可以写下第一条。

继续阅读

同主题延伸

如果你想顺着当前问题继续往下挖，这里优先给相近主题的文章。

2026-05-25 00:15 北京时间 14 分钟同主题：AI Agent 等 2 个标签

垂类 Agent 的现实主义，Lovart 复盘说明了什么

晚点聊与 Lovart 创始人陈冕的复盘，适合用来理解垂类 Agent。垂类重点是围绕一个专业场景持续接模型、改交互、建上下文和抢用户心智。

2026-05-25 00:15 北京时间 14 分钟同主题：AI Agent 等 2 个标签

年末 AI 回顾里，Agent 最该留下哪几条判断

晚点聊年末 AI 回顾不只是盘点热闹，它把模型、应用、巨头、创业公司和硬件放到同一张图里。对 Agent 来说，最该留下的是：Coding 是样板，垂类是落点，工具链是杠杆。

2026-05-25 00:15 北京时间 14 分钟同主题：AI Agent 等 2 个标签

从模型竞争到系统竞争，Agent 季报该看什么

晚点聊 26Q1 AI 季报把 OpenClaw、Claude Code、OpenAI 和 Anthropic 放在同一张季度图里看。它提醒我们：Agent 的竞争已经不只是模型强弱，而是系统完成任务的能力。

编辑精选

如果你想从这篇扩出去，这里放最近值得继续看的站内长文。

2026-05-29 21:35 北京时间 12 分钟编辑精选

下一篇 Agent 走向生产后，真正缺的是运行层

阅读难度

进阶

信息密度适中，适合连续阅读。

要点

Google 在 I/O 2026 把 Search agents、Universal Cart 和 Gemini Spark 连在一起，说明入口竞争已经从回答问题延伸到持续执行任务。
UI-TARS-desktop 这类开源栈把视觉模型、浏览器操作、本地桌面和 MCP 放进同一套工具链，GUI Agent 不再只是单个 demo。
Microsoft Research 的 ActionEngine 用状态机记忆降低 GUI 操作成本，提示下一阶段竞争点会落在记忆、计划和失败修复。

RSS

Subscribe to long-form updates through RSS. Feed timestamps use Beijing time.

Open RSS feed

LLMs

This site also exposes llms.txt and sitemap.xml for model-friendly discovery.

Open llms.txt

Agent 的下一块战场是屏幕和浏览器

快速答案

Agent 不会永远待在聊天框里

Google 把入口问题说得很直接

开源栈在补真实界面的工程细节

GUI Agent 的成本问题已经暴露

浏览器会变成 Agent 的第一层操作系统

竞争点是可靠操作，不是会不会点鼠标

参考来源

评论（0）

继续阅读

同主题延伸

垂类 Agent 的现实主义，Lovart 复盘说明了什么

年末 AI 回顾里，Agent 最该留下哪几条判断

从模型竞争到系统竞争，Agent 季报该看什么

编辑精选

Git 入门：先看懂版本、分支和协作

TerminalWorld：终端 Agent 评测不能只靠人造题

Agentic CLEAR：只做可观测还不够，Agent 需要解释型评测