Agentic Web：当 AI 代理开始替人上网

技术沉思 AI Agent 互联网

Feature Essay

Agentic Web：当 AI 代理开始替人上网

图中整理的 Karpathy 观点，真正刺中的是一个更大的结构变化：当机器开始代表人行动，今天面向眼睛和手指设计的网页、广告、订阅和权限体系都会变得不够用。浏览器型代理只是过渡层，长期更重要的是机器可读接口、按任务和数据结算的新交易方式，以及能控制风险的身份与安全协议。

2026-03-23 00:52 北京时间 18 分钟难度：硬核

83 阅读 0 点赞

快速答案

如果主要上网「客户端」逐步从人变成 AI 代理，互联网真正要重写的就不只是搜索入口，还包括接口层、支付层、身份层和预算层。Agentic Web 的核心，正在变成一张机器之间可调用、可结算、可审计的执行网络。

浏览器型代理证明了 AI 已能替人操作网页，但它更像过渡性的义肢，而不是最终形态。
未来网站的竞争力会从页面设计，延伸到机器可读接口、可支付数据和可验证执行能力。
Agentic Web 稀缺的重点是身份、预算、结算与安全边界能否同时成立。

先看判断：Agentic Web 更像互联网在更换默认客户端

如果把图中整理的 Karpathy 观点压成一句话，我会写成这样：未来互联网里最重要的「客户端」，不再主要是人，而是代表人行动的 AI 代理。人给目标、预算和边界，代理去调用工具、抓取信息、下单、协调服务，最后把结果交回来。

这件事听起来像产品形态变化，实际上更接近协议层变化。过去二十多年，网页、App、广告、搜索排序、支付、验证码和权限系统，本质上都建立在一个默认前提上：读页面的是人，点按钮的是人，比较价格的是人，承担风险的也是人。只要这个前提开始松动，原有的许多设计就会同时失去效率。

所以我不把 Agentic Web 理解成「聊天框能不能替代 App」。更准确的说法是，互联网正在从「面向人眼和手指的界面网络」，慢慢转向「面向机器调用与机器结算的执行网络」。这也是为什么图里那些看起来跨度很大的问题，比如 API、付费、信息市场、训练数据、算力，实际上会在同一个阶段同时冒出来。

第一层变化已经发生了：AI 代理开始学会替人使用今天的网页

最直观的变化，是代理已经不再停留在「回答问题」，而是开始直接操作现有软件。OpenAI 的 Operator 系统卡把它定义为一种 computer-using agent，可以通过截图理解界面，再通过点击、滚动和输入文本去完成网页任务。Anthropic 的 computer use 工具也给了几乎同样的能力边界：看屏幕、控制鼠标、输入键盘、驱动桌面应用。

两件事。第一，Agentic Web 并不是遥远设想，过渡层已经出现。第二，今天的网页和桌面软件虽然不是为代理设计的，但已经可以被代理「勉强使用」。

可这条路本身也暴露出局限。OpenAI 在 Operator system card 里明确写到，computer-use-preview 在 OSWorld 这类真实操作系统任务上的成绩只有 38.1%，并且反复强调仍然需要开发者监督。Anthropic 也把 computer use 放在 beta 状态，并且特别强调虚拟机、最小权限、敏感信息隔离等安全前提。浏览器型代理和桌面型代理证明了方向，却也同时证明了今天这层交互仍然很脆。

这恰好支撑了图里的一个关键判断：浏览器自动化还不是 Agentic Web 的终局，它更像一座过桥方案。它像义肢，让代理先进入旧世界；但如果未来的主要访问者真的变成代理，网站和服务不可能长期要求机器继续用像素、按钮和表单去猜测真实意图。

真正会被重写的，是接口层：网页不只要能看，还要能被代理稳定调用

一旦接受「默认客户端在迁移」这个前提，很多产品判断会马上反过来。过去我们最在意的是页面是否清楚、转化路径是否顺畅、按钮是否好点；未来这些问题仍然重要，但它们不再是全部。一个服务还要回答另一组问题：代理能不能发现我提供哪些能力，能不能稳定调用，能不能知道执行前提、失败条件、价格和权限范围。

MCP，也就是 Model Context Protocol，现在之所以重要，在于它把「让代理接外部系统」这件事显式标准化了。官方文档把 MCP 定义成连接 AI 应用与外部系统的开放标准，并把它类比为 AI 应用的 USB-C。这个比喻很到位，因为它说的重点是统一插口。

学术界最近也在往同一个方向收敛。Web Verbs 这篇 2026 年论文直接指出，今天很多 web agent 仍然停留在 click、type、scroll 这类低层动作上，导致流程脆弱、效率低、可验证性差；他们提出更接近「语义动作」的 typed abstractions，让代理调用的是「查库存」「创建订单」「提交申请」这样的动作，避免把一次任务拆成几十次离散点击。另一篇 Collaborative Agentic AI Needs Interoperability Across Ecosystems 则更进一步提醒，如果没有最小互操作标准，Agentic Web 很快就会变成一堆彼此不兼容的封闭生态。

这也是我对未来产品接口的第一个预测：未来 2 到 3 年里，优秀网站会逐步形成「双层接口」。上层仍服务人类用户，保留页面、品牌和转化设计；下层则逐步提供面向代理的机器可读能力，包括结构化检索、任务动词、预算提示、权限说明、失败回执和审计日志。谁只优化上层，谁就会慢慢失去被代理优先调用的机会。

第二个被改写的是内容经济：当抓取与回流失衡，免费索取的数据关系就会瓦解

图里最有启发性的部分，不在「代理会买数据」这句话本身，而在于它抓住了互联网内容经济正在出现的裂缝。过去网站愿意被搜索引擎抓取，是因为抓取虽然先拿走内容，但会把用户和流量带回来，这是一种交换。

Cloudflare 2025 年对 AI crawler 的连续分析表明，这个交换关系正在快速变形。它在 7 月 1 日的文章里写得很直白：搜索 crawler 和内容站点之间曾经是共生关系，但训练型 AI crawler 往往直接把内容消化进自己的产品里，送回给站点的流量却很少。到 2025 年 6 月，OpenAI 的 crawl-to-referral ratio 大约是 1,700:1，Anthropic 高达 73,000:1。到了 8 月的新一轮分析，Cloudflare 继续指出训练型抓取已占 AI bot 活动的接近 80%，Anthropic 虽然带回流量有所改善，但 7 月仍是 38,000 次抓取只换回 1 次访问。

这组数据的含义很重。它说明的重点是旧的免费抓取契约正在失效。只要回流弱到一定程度，内容方就一定会要求新的定价方式，因为原来的广告、订阅和 SEO 体系无法覆盖被代理读取、总结和再分发后的价值流失。

所以 Cloudflare 推出 pay per crawl 很关键。它不是一个边角功能，更像是 Agentic Web 支付层的早期原型。Cloudflare 让内容方可以对 crawler 选择 Allow、Charge 或 Block；如果 crawler 想读内容，要么带着支付意图头访问成功，要么收到 402 Payment Required 和价格。这件事重要的地方，在于它第一次把「机器访问网页内容」明确写进了支付协议。

这和图里的「信息市场」想法是同一条线。未来最先成型的，未必是一个统一的大市场，而更可能是许多细粒度、半自动的结算机制：按抓取付费、按摘要付费、按单次调用付费、按特定数据字段付费、按成功完成任务付费。内容从「给人读的页面」逐步变成「可授权、可计量、可结算的数据资产」。

第三个变化是交易单位：很多服务会从卖订阅，转向卖任务成功率和预算控制

一旦代理开始代替人完成任务，互联网商业模式也会跟着改写。今天大量 SaaS 的默认收费方式，仍然是按席位、按月订阅、按页面浏览或按人工工单量来收。这个前提默认「使用者是人」。可一旦使用者变成代理，许多计费单位就会显得很别扭。

对代理来说，重要的并非「你给了我几个座位」，而是「我能不能在预算内稳定完成任务」。这会把大量软件从 seat-based pricing 推向 task-based pricing 和 outcome-based pricing。未来更有竞争力的服务，不会只说「每月 99 美元」，而会说「每成功处理一份报销、每完成一单采购、每核验一份材料、每拿回一条可验证数据，收多少钱」。

这并不是空想。OpenAI 和 Anthropic 的浏览器/桌面代理能力，本身就在逼着软件厂商重新思考「什么才算一次调用」。Web Verbs 这类研究也在推动网站把复杂流程压缩成稳定、带约束的动作接口。只要动作接口可枚举、结果可验证、日志可追踪，任务定价就会比今天的订阅制更自然。

这也是我对图里「物理世界任务明码标价」的理解。它不意味着所有现实世界任务都会立刻变成 API，而是意味着越来越多任务会先被拆成机器可委托的子任务，再逐步形成报价。有人负责提供现场数据，有人负责身份校验，有人负责履约执行，有人负责仲裁和保险。代理像总包，平台像清算层。

第四个变化不会是效率，而是治理：代理越能干，身份和安全越先成为瓶颈

Agentic Web 之所以不会简单线性推进，关键就在这里。只要代理真的能读私有数据、接触不可信内容并向外执行动作，它就会天然暴露在新的攻击面里。

Simon Willison 在 2025 年提出的「lethal trifecta」很值得当成 Agentic Web 的基础常识：如果一个 AI agent 同时具备私有数据访问能力、接触不可信内容的能力、以及对外通信能力，那么攻击者就可能诱导它泄露数据。这个判断之所以重要，是因为它把许多人对「代理风险」的模糊不安，压缩成了一个很具体的工程条件组合。

OpenAI 和 Anthropic 在各自的代理文档里，都在用不同语言承认同一件事。OpenAI 在 Operator system card 里反复强调 prompt injection、敏感领域确认、容器化隔离和开发者监督。Anthropic 在 computer use 文档里则明确建议使用独立虚拟机、最小权限、避免暴露登录信息。Cloudflare 在 pay per crawl 的技术设计里，进一步把另一个问题点了出来：如果没有稳定的 bot identity，支付和授权体系会被伪装请求轻易击穿，所以它把 Web Bot Auth、Ed25519 密钥和可校验身份放进了支付流程。

因此，未来真正稀缺的能力，不会只是「让代理多调用两个工具」，而是同时回答五个问题：这个代理代表谁，它被授权做到什么程度，它能花多少钱，它的每一步能否审计，出了错由谁承担后果。只要这五个问题答不上来，代理就很难从 demo 进入高价值流程。

「算力会不会变成新货币」这个问题，应该换个问法

图里最容易被误解的一点，是 FLOPs 会不会成为未来的新货币。我的判断是，算力在未来很可能越来越像一种显性预算单位、配额单位和战略资源，但短期内不太会替代法币成为面向大众的通用货币。

原因不复杂。货币不仅要能计价，还要能储值、清算、纳税和穿透不同法律辖区；而算力更像一种随技术进步快速贬值、受硬件与供给链影响、并且高度依赖平台结算的生产资料。把它直接理解成货币，容易说过头。

但如果把问题改成「算力会不会越来越像互联网里的基础记账单位」，答案就很可能是会。Stanford HAI 的 2025 AI Index 给了两个足够强的背景数据：一方面，2024 年全球生成式 AI 私人投资达到 339 亿美元，较 2023 年增长 18.7%；另一方面，硬件价格性能还在持续改善，报告引用 Epoch AI 的估计指出，固定性能水平的硬件成本每年下降约 30%。资本持续涌入、硬件持续提效，意味着越来越多软件能力会被重新表述为一组计算预算问题。

今天这种变化已经开始了，只是大家还没有把它叫成「新货币」。无论是 token 计费、GPU 小时、推理配额、reserved capacity，还是企业内部的模型调用预算，本质上都在把软件消费的一部分翻译成计算消费。未来组织最常见的说法，可能是「这个团队拿到了多少推理预算和自动化额度」。

所以更稳妥的预测是：算力不会先变成大家钱包里的钱，但会先变成企业内部的预算语言、代理系统的路由依据，以及跨服务结算时越来越显性的成本单位。

未来几年最合理的演进路径，是三段式迁移

如果把 Agentic Web 的未来压成一个过于整齐的乌托邦，它大概率不会实现。更现实的路径，是下面这三段。

第一阶段是「代理借壳旧网页」。也就是我们现在看到的样子：代理先学会用浏览器、桌面和现有 App，像人一样点按钮，但可靠性不高、速度不快、需要监督。
第二阶段是「网站补出代理接口层」。这时越来越多服务会同时保留 GUI 和 machine-readable actions，用 MCP、专有 API、结构化 schema 或更像 Web Verbs 的动作接口去接代理。
第三阶段是「任务、数据和预算形成新结算层」。这时最有价值的重点是接口的可调用性、数据的授权方式、身份的可验证性、以及执行结果的责任归属。

这三段不会严格按年切开，但节奏大概率如此。因为每往前走一步，都不能只靠单个模型更强，而要让产品、协议、支付、安全和治理一起配套。

我对 2026 到 2030 年的五个具体预测

先说明，这一节是作者判断，不是已经发生的事实。

到 2026 年底，浏览器型代理仍会很重要，但它们更多承担「兼容旧系统」的角色。凡是高频、可验证、强价值的流程，都会优先寻找 API、MCP 或专门的 agent interface 来替代纯浏览器操作。
到 2027 年，更多网站会把「是否方便代理调用」当成产品指标，就像今天看 SEO、转化率和页面性能一样。能够被代理稳定发现、调用和回执，将成为新的分发优势。
到 2027 到 2028 年，围绕内容和数据的收费会显著细分。订阅仍然存在，但会被「按抓取、按摘要、按字段、按任务完成、按成功验证」这些更细粒度的结算方式分走一部分。
到 2028 年前后，代理身份与授权管理会成为企业采购的硬门槛。没有稳定身份、最小权限和审计日志的 agent system，会越来越难进核心流程。
到 2030 年前后，最有权力的平台不一定是页面入口最多的平台，而更可能是同时控制代理身份、调用协议、支付清算和预算分发的平台。下一轮平台权力会比今天更深地嵌在执行链路里。

最后回到 Karpathy 的问题：谁会先适应这个世界

讲轮廓已经很清楚了。Agentic Web 的本质，并不是网页突然消失，也不是所有人类都退出操作环节。更接近的现实，是互联网开始出现第二套同样重要的秩序：一套给人看，一套给代理跑。

图里那些看似发散的判断之所以能放在一起，正因为它们都指向同一个变化。客户端一旦迁移，接口要重写；接口一旦重写，支付和数据授权要跟着重写；支付一旦进入机器访问，身份、反欺诈和审计就会被抬到前台；而一旦大量工作被翻译成预算和调用次数，算力就会从后台资源变成前台约束。

所以值得追问的，不必再是「Agentic Web 会不会来」，而是谁会先学会用代理可读、可结算、可审计的方式重新设计自己的服务。未来被保留下来的，也不会只是最会做页面的公司，而是最早把页面背后的能力，重写成代理也能稳定理解和交易的公司。

参考来源

还没有评论，你可以写下第一条。

继续阅读

同主题延伸

如果你想顺着当前问题继续往下挖，这里优先给相近主题的文章。

2026-05-18 12:00 北京时间 8 min 同主题：AI Agent 等 2 个标签

02｜AI 论文精选：工具落地评测正在变硬

本周值得读的论文，集中在工具调用的落地评测：不只是看模型能不能调出工具，更要看工具反馈被吸收的方式。

2026-04-07 10:30 北京时间 15 分钟同主题：技术沉思等 2 个标签

Karpathy 的 LLM Wiki 火了，普通人该怎么用

Karpathy 的 LLM Wiki 之所以引发共鸣，在于它把大模型往「持续整理、持续改写、持续积累」的方向推了一步，也提醒普通人别把知识管理做成新的体力活。

2026-04-02 22:16 北京时间更新：2026-04-03 14:13 北京时间 14 分钟同主题：AI Agent 等 2 个标签

AI 一周办成 700 人大会？一个案例能证明什么，不能证明什么

一篇「用 AI 一周办成 700 人大会」的文章之所以好看，是因为它说对了一半。AI 的确能显著压缩策划、写作、整理和沟通型工作，但一个成功案例还远远不够证明「经验已经失效」或「AI 是主要因」。

编辑精选

如果你想从这篇扩出去，这里放最近值得继续看的站内长文。

2026-05-29 21:35 北京时间 12 分钟编辑精选

下一篇 WordPress 和 Hexo 之外，独立博主还需要什么

Agentic Web：当 AI 代理开始替人上网

快速答案

先看判断：Agentic Web 更像互联网在更换默认客户端

第一层变化已经发生了：AI 代理开始学会替人使用今天的网页

真正会被重写的，是接口层：网页不只要能看，还要能被代理稳定调用

第二个被改写的是内容经济：当抓取与回流失衡，免费索取的数据关系就会瓦解

第三个变化是交易单位：很多服务会从卖订阅，转向卖任务成功率和预算控制

第四个变化不会是效率，而是治理：代理越能干，身份和安全越先成为瓶颈

「算力会不会变成新货币」这个问题，应该换个问法

未来几年最合理的演进路径，是三段式迁移

我对 2026 到 2030 年的五个具体预测

最后回到 Karpathy 的问题：谁会先适应这个世界

参考来源

评论（0）

继续阅读

同主题延伸

02｜AI 论文精选：工具落地评测正在变硬

Karpathy 的 LLM Wiki 火了，普通人该怎么用

AI 一周办成 700 人大会？一个案例能证明什么，不能证明什么

编辑精选

Git 入门：先看懂版本、分支和协作

TerminalWorld：终端 Agent 评测不能只靠人造题

Agentic CLEAR：只做可观测还不够，Agent 需要解释型评测