先看判断:Agentic Web 更像互联网在更换默认客户端
如果把图中整理的 Karpathy 观点压成一句话,我会写成这样:未来互联网里最重要的“客户端”,不再主要是人,而是代表人行动的 AI 代理。人给目标、预算和边界,代理去调用工具、抓取信息、下单、协调服务,最后把结果交回来。
这件事听起来像产品形态变化,实际上更接近协议层变化。过去二十多年,网页、App、广告、搜索排序、支付、验证码和权限系统,本质上都建立在一个默认前提上:读页面的是人,点按钮的是人,比较价格的是人,承担风险的也是人。只要这个前提开始松动,原有的许多设计就会同时失去效率。
所以我不把 Agentic Web 理解成“聊天框能不能替代 App”。更准确的说法是,互联网正在从“面向人眼和手指的界面网络”,慢慢转向“面向机器调用与机器结算的执行网络”。这也是为什么图里那些看起来跨度很大的问题,比如 API、付费、信息市场、训练数据、算力,实际上会在同一个阶段同时冒出来。
第一层变化已经发生了:AI 代理开始学会替人使用今天的网页
最直观的变化,是代理已经不再停留在“回答问题”,而是开始直接操作现有软件。OpenAI 的 Operator 系统卡把它定义为一种 computer-using agent,可以通过截图理解界面,再通过点击、滚动和输入文本去完成网页任务。Anthropic 的 computer use 工具也给了几乎同样的能力边界:看屏幕、控制鼠标、输入键盘、驱动桌面应用。
这说明两件事。第一,Agentic Web 并不是遥远设想,过渡层已经出现。第二,今天的网页和桌面软件虽然不是为代理设计的,但已经可以被代理“勉强使用”。
可这条路本身也暴露出局限。OpenAI 在 Operator system card 里明确写到,computer-use-preview 在 OSWorld 这类真实操作系统任务上的成绩只有 38.1%,并且反复强调仍然需要开发者监督。Anthropic 也把 computer use 放在 beta 状态,并且特别强调虚拟机、最小权限、敏感信息隔离等安全前提。换句话说,浏览器型代理和桌面型代理证明了方向,却也同时证明了今天这层交互仍然很脆。
这恰好支撑了图里的一个关键判断:浏览器自动化还不是 Agentic Web 的终局,它更像一座过桥方案。它像义肢,让代理先进入旧世界;但如果未来的主要访问者真的变成代理,网站和服务不可能长期要求机器继续用像素、按钮和表单去猜测真实意图。
真正会被重写的,是接口层:网页不只要能看,还要能被代理稳定调用
一旦接受“默认客户端在迁移”这个前提,很多产品判断会马上反过来。过去我们最在意的是页面是否清楚、转化路径是否顺畅、按钮是否好点;未来这些问题仍然重要,但它们不再是全部。一个服务还要回答另一组问题:代理能不能发现我提供哪些能力,能不能稳定调用,能不能知道执行前提、失败条件、价格和权限范围。
MCP,也就是 Model Context Protocol,现在之所以重要,不在于它已经统一了全行业,而在于它把“让代理接外部系统”这件事显式标准化了。官方文档把 MCP 定义成连接 AI 应用与外部系统的开放标准,并把它类比为 AI 应用的 USB-C。这个比喻很到位,因为它说的不是某个单点 API,而是统一插口。
学术界最近也在往同一个方向收敛。Web Verbs 这篇 2026 年论文直接指出,今天很多 web agent 仍然停留在 click、type、scroll 这类低层动作上,导致流程脆弱、效率低、可验证性差;他们提出更接近“语义动作”的 typed abstractions,让代理调用的是“查库存”“创建订单”“提交申请”这样的动作,避免把一次任务拆成几十次离散点击。另一篇 Collaborative Agentic AI Needs Interoperability Across Ecosystems 则更进一步提醒,如果没有最小互操作标准,Agentic Web 很快就会变成一堆彼此不兼容的封闭生态。
这也是我对未来产品接口的第一个预测:未来 2 到 3 年里,优秀网站会逐步形成“双层接口”。上层仍服务人类用户,保留页面、品牌和转化设计;下层则逐步提供面向代理的机器可读能力,包括结构化检索、任务动词、预算提示、权限说明、失败回执和审计日志。谁只优化上层,谁就会慢慢失去被代理优先调用的机会。
第二个被改写的是内容经济:当抓取与回流失衡,免费索取的数据关系就会瓦解
图里最有启发性的部分,不在“代理会买数据”这句话本身,而在于它抓住了互联网内容经济正在出现的裂缝。过去网站愿意被搜索引擎抓取,是因为抓取虽然先拿走内容,但会把用户和流量带回来,这是一种交换。
Cloudflare 2025 年对 AI crawler 的连续分析表明,这个交换关系正在快速变形。它在 7 月 1 日的文章里写得很直白:搜索 crawler 和内容站点之间曾经是共生关系,但训练型 AI crawler 往往直接把内容消化进自己的产品里,送回给站点的流量却很少。到 2025 年 6 月,OpenAI 的 crawl-to-referral ratio 大约是 1,700:1,Anthropic 高达 73,000:1。到了 8 月的新一轮分析,Cloudflare 继续指出训练型抓取已占 AI bot 活动的接近 80%,Anthropic 虽然带回流量有所改善,但 7 月仍是 38,000 次抓取只换回 1 次访问。
这组数据的含义很重。它说明的不是“AI 公司坏”,而是旧的免费抓取契约正在失效。只要回流弱到一定程度,内容方就一定会要求新的定价方式,因为原来的广告、订阅和 SEO 体系无法覆盖被代理读取、总结和再分发后的价值流失。
所以 Cloudflare 推出 pay per crawl 很关键。它不是一个边角功能,更像是 Agentic Web 支付层的早期原型。Cloudflare 让内容方可以对 crawler 选择 Allow、Charge 或 Block;如果 crawler 想读内容,要么带着支付意图头访问成功,要么收到 402 Payment Required 和价格。这件事重要的地方,不在于今天规模多大,而在于它第一次把“机器访问网页内容”明确写进了支付协议。
这和图里的“信息市场”想法其实是同一条线。未来最先成型的,未必是一个统一的大市场,而更可能是许多细粒度、半自动的结算机制:按抓取付费、按摘要付费、按单次调用付费、按特定数据字段付费、按成功完成任务付费。也就是说,内容从“给人读的页面”逐步变成“可授权、可计量、可结算的数据资产”。
第三个变化是交易单位:很多服务会从卖订阅,转向卖任务成功率和预算控制
一旦代理开始代替人完成任务,互联网商业模式也会跟着改写。今天大量 SaaS 的默认收费方式,仍然是按席位、按月订阅、按页面浏览或按人工工单量来收。这个前提默认“使用者是人”。可一旦使用者变成代理,许多计费单位就会显得很别扭。
对代理来说,真正重要的并非“你给了我几个座位”,而是“我能不能在预算内稳定完成任务”。这会把大量软件从 seat-based pricing 推向 task-based pricing 和 outcome-based pricing。未来更有竞争力的服务,不会只说“每月 99 美元”,而会说“每成功处理一份报销、每完成一单采购、每核验一份材料、每拿回一条可验证数据,收多少钱”。
这并不是空想。OpenAI 和 Anthropic 的浏览器/桌面代理能力,本身就在逼着软件厂商重新思考“什么才算一次调用”。Web Verbs 这类研究也在推动网站把复杂流程压缩成稳定、带约束的动作接口。只要动作接口可枚举、结果可验证、日志可追踪,任务定价就会比今天的订阅制更自然。
这也是我对图里“物理世界任务明码标价”的理解。它不意味着所有现实世界任务都会立刻变成 API,而是意味着越来越多任务会先被拆成机器可委托的子任务,再逐步形成报价。有人负责提供现场数据,有人负责身份校验,有人负责履约执行,有人负责仲裁和保险。代理像总包,平台像清算层。
第四个变化不会是效率,而是治理:代理越能干,身份和安全越先成为瓶颈
Agentic Web 之所以不会简单线性推进,关键就在这里。只要代理真的能读私有数据、接触不可信内容并向外执行动作,它就会天然暴露在新的攻击面里。
Simon Willison 在 2025 年提出的 “lethal trifecta” 很值得当成 Agentic Web 的基础常识:如果一个 AI agent 同时具备私有数据访问能力、接触不可信内容的能力、以及对外通信能力,那么攻击者就可能诱导它泄露数据。这个判断之所以重要,是因为它把许多人对“代理风险”的模糊不安,压缩成了一个非常具体的工程条件组合。
OpenAI 和 Anthropic 在各自的代理文档里,其实都在用不同语言承认同一件事。OpenAI 在 Operator system card 里反复强调 prompt injection、敏感领域确认、容器化隔离和开发者监督。Anthropic 在 computer use 文档里则明确建议使用独立虚拟机、最小权限、避免暴露登录信息。Cloudflare 在 pay per crawl 的技术设计里,进一步把另一个问题点了出来:如果没有稳定的 bot identity,支付和授权体系会被伪装请求轻易击穿,所以它把 Web Bot Auth、Ed25519 密钥和可校验身份放进了支付流程。
因此,未来真正稀缺的能力,不会只是“让代理多调用两个工具”,而是同时回答五个问题:这个代理代表谁,它被授权做到什么程度,它能花多少钱,它的每一步能否审计,出了错由谁承担后果。只要这五个问题答不上来,代理就很难从 demo 进入高价值流程。
“算力会不会变成新货币”这个问题,应该换个问法
图里最容易被误解的一点,是 FLOPs 会不会成为未来的新货币。我的判断是,算力在未来很可能越来越像一种显性预算单位、配额单位和战略资源,但短期内不太会替代法币成为面向大众的通用货币。
原因不复杂。货币不仅要能计价,还要能储值、清算、纳税和穿透不同法律辖区;而算力更像一种随技术进步快速贬值、受硬件与供给链影响、并且高度依赖平台结算的生产资料。把它直接理解成货币,容易说过头。
但如果把问题改成“算力会不会越来越像互联网里的基础记账单位”,答案就很可能是会。Stanford HAI 的 2025 AI Index 给了两个足够强的背景数据:一方面,2024 年全球生成式 AI 私人投资达到 339 亿美元,较 2023 年增长 18.7%;另一方面,硬件价格性能还在持续改善,报告引用 Epoch AI 的估计指出,固定性能水平的硬件成本每年下降约 30%。资本持续涌入、硬件持续提效,意味着越来越多软件能力会被重新表述为一组计算预算问题。
今天这种变化其实已经开始了,只是大家还没有把它叫成“新货币”。无论是 token 计费、GPU 小时、推理配额、reserved capacity,还是企业内部的模型调用预算,本质上都在把软件消费的一部分翻译成计算消费。未来组织最常见的说法,可能不是“这个团队买了多少软件”,而是“这个团队拿到了多少推理预算和自动化额度”。
所以更稳妥的预测是:算力不会先变成大家钱包里的钱,但会先变成企业内部的预算语言、代理系统的路由依据,以及跨服务结算时越来越显性的成本单位。
未来几年最合理的演进路径,不是一步到位,而是三段式迁移
如果把 Agentic Web 的未来压成一个过于整齐的乌托邦,它大概率不会实现。更现实的路径,是下面这三段。
- 第一阶段是“代理借壳旧网页”。也就是我们现在看到的样子:代理先学会用浏览器、桌面和现有 App,像人一样点按钮,但可靠性不高、速度不快、需要监督。
- 第二阶段是“网站补出代理接口层”。这时越来越多服务会同时保留 GUI 和 machine-readable actions,用 MCP、专有 API、结构化 schema 或更像
Web Verbs的动作接口去接代理。 - 第三阶段是“任务、数据和预算形成新结算层”。这时最有价值的不是页面本身,而是接口的可调用性、数据的授权方式、身份的可验证性、以及执行结果的责任归属。
这三段不会严格按年切开,但节奏大概率如此。因为每往前走一步,都不能只靠单个模型更强,而要让产品、协议、支付、安全和治理一起配套。
我对 2026 到 2030 年的五个具体预测
先说明,这一节是作者判断,不是已经发生的事实。
- 到 2026 年底,浏览器型代理仍会很重要,但它们更多承担“兼容旧系统”的角色。凡是高频、可验证、强价值的流程,都会优先寻找 API、MCP 或专门的 agent interface 来替代纯浏览器操作。
- 到 2027 年,更多网站会把“是否方便代理调用”当成产品指标,就像今天看 SEO、转化率和页面性能一样。能够被代理稳定发现、调用和回执,将成为新的分发优势。
- 到 2027 到 2028 年,围绕内容和数据的收费会显著细分。订阅仍然存在,但会被“按抓取、按摘要、按字段、按任务完成、按成功验证”这些更细粒度的结算方式分走一部分。
- 到 2028 年前后,代理身份与授权管理会成为企业采购的硬门槛。没有稳定身份、最小权限和审计日志的 agent system,会越来越难进核心流程。
- 到 2030 年前后,最有权力的平台不一定是页面入口最多的平台,而更可能是同时控制代理身份、调用协议、支付清算和预算分发的平台。也就是说,下一轮平台权力会比今天更深地嵌在执行链路里。
最后回到 Karpathy 的问题:谁会先适应这个世界
讲到这里,轮廓已经很清楚了。Agentic Web 的本质,并不是网页突然消失,也不是所有人类都退出操作环节。更接近的现实,是互联网开始出现第二套同样重要的秩序:一套给人看,一套给代理跑。
图里那些看似发散的判断之所以能放在一起,正因为它们都指向同一个变化。客户端一旦迁移,接口要重写;接口一旦重写,支付和数据授权要跟着重写;支付一旦进入机器访问,身份、反欺诈和审计就会被抬到前台;而一旦大量工作被翻译成预算和调用次数,算力就会从后台资源变成前台约束。
所以真正值得追问的,不必再是“Agentic Web 会不会来”,而是谁会先学会用代理可读、可结算、可审计的方式重新设计自己的服务。未来被保留下来的,也不会只是最会做页面的公司,而是最早把页面背后的能力,重写成代理也能稳定理解和交易的公司。
还没有评论,你可以写下第一条。