便宜劳动力这个比喻误导了很多团队
AI 编程工具刚流行时,最常见的想象是「多了一个很便宜的同事」。每月付一笔订阅费,它帮你写代码、查文档、改 bug、跑任务。这个比喻听起来顺手,但现在越来越不准确。
更准确的比喻是:团队多了一组会消耗计算资源的自动化工作流。
差别很大。便宜同事的成本看起来固定,自动化工作流的成本会随着任务长度、上下文规模、模型选择、重试次数、工具调用、CI 验证和并发量变化。前者让人关心 seat price,后者要求团队管理预算、限流、队列、缓存和可观测性。
过去几周的信号已经很清楚。GitHub 宣布 Copilot 转向 usage-based billing,2026-06-01 起用 GitHub AI Credits 计量;Copilot code review 同日开始在私有仓库消耗 GitHub Actions minutes;OpenAI Status 在 2026-05-22 记录了 Codex 用户 hitting rate limits 的事件;开发者开始做 ccost 这类本地会话成本查看工具。
这些不是孤立新闻。它们共同说明一件事:AI 编程的包月幻觉正在结束。
GitHub 的调整把问题说穿了
GitHub 的官方公告里有一句很关键:一个快速聊天问题和一次多小时 autonomous coding session,过去可能让用户付出同样成本,但平台吸收了背后不断上升的推理成本,这个 premium request 模型已经不可持续。
这句话几乎就是整个行业的成本拐点。
短问答、代码补全、一次简单解释,和一个长程 coding agent 任务,资源消耗不是一个数量级。后者会读仓库、整理上下文、生成计划、调用工具、修改文件、跑测试、根据失败结果重试、再生成解释。把它们都塞进「每月订阅」或「一个请求」里,只能在早期补贴阶段成立。
GitHub 的新模型把 Copilot 使用转向 AI Credits,并按 token 消耗计算,包括 input、output 和 cached tokens。这个口径比 premium request 更接近真实资源消耗。它也会迫使团队重新理解「用一次 AI 编程工具」到底是什么意思。
以后工程负责人不能只问「这个 seat 多少钱」。更该问:
- 一类任务平均消耗多少输入和输出 token。
- 哪些模型被频繁用于简单任务。
- 哪些仓库任务总是在反复读无关文件。
- 哪些团队把 Agent 当脚本用,哪些团队把它当无限实习生用。
- 哪些流程需要预算上限,哪些流程需要降级模型或排队。
这不是财务部门的小题大做。没有成本可见性,Agent 很容易从生产力工具变成隐形云账单。
代码审查开始消耗 Actions minutes,意义更大
Copilot code review 从 2026-06-01 起除了消耗 AI Credits,在私有仓库还会消耗 GitHub Actions minutes。这个变化很有代表性,因为它把 AI 编程成本和工程基础设施成本绑在了一起。
代码审查不是纯文本生成。GitHub 在 changelog 里解释,Copilot code review 运行在 agentic tool-calling architecture 上,会拉取更广的 repository context,并在 GitHub-hosted runners 上运行。它不仅在花模型 token,也在花 runner 时间。
这会改变团队的使用方式。
以前大家可能会想:让 Copilot 多审几遍 PR 也没关系,反正是订阅功能。之后要算得更细:私有仓库每次 review 消耗多少 AI Credits,是否触发 Actions minutes,是否和已有 CI 争用预算,是否需要只对高风险目录或大 PR 启用,是否需要对自动触发设置阈值。
这不是 GitHub 一家的问题。任何把 Agent 接进 CI、review、测试、部署、数据处理的产品,最后都会遇到同样的成本结构:模型只是账单的一部分,执行环境、工具调用、缓存、日志和验证也会计费。
Agent 越像真实工程流程,成本越不像聊天订阅。
限流是资源治理信号
OpenAI Status 在 2026-05-22 记录了 Codex 用户触发 rate limits 的事件,并在 2026-05-23 标记恢复。单看这件事,它只是一次服务状态波动。放到 Copilot 计费调整旁边看,意义更具体:当编码 Agent 进入高频使用,限流会成为产品体验的一部分,而不是偶发异常。
长程任务天然容易撞上限制。它是在连续调用模型、读取上下文、执行工具、等待结果、再调用模型。一个开发者同时开多个任务,一个团队同时跑几十个 PR review,一个组织把 Agent 接入自动化队列,都会把请求峰值推高。
所以企业不能只准备「更多账号」。它要准备的是运行时治理:
- 任务队列,避免所有 Agent 同时冲进模型服务。
- 预算阈值,避免一个任务无限重试。
- 模型路由,简单任务不要默认用最贵模型。
- 上下文缓存,避免每次从头读仓库。
- 失败熔断,连续失败时停止消耗。
- 任务分级,高价值任务优先拿到资源。
这些听起来像云平台管理,原因很简单:Agentic coding 正在变成云资源使用问题。
ccost 说明成本已经回到本地工作流
ccost 是一个很小但有代表性的项目。它的定位是浏览本地 Codex 和 Claude Code 会话日志,搜索历史聊天,并估算 API-equivalent cost。
这类工具出现,说明开发者已经不满足于知道「我买了一个套餐」。他们想知道具体哪次会话花了多少,哪个任务反复消耗上下文,哪类 prompt 触发了昂贵模型,哪些自动化跑出来的价值不配它的成本。
这也是 Agent 工具成熟的标志。早期工具强调「能做什么」,成熟期工具会追问「做这件事花了多少、为什么花这么多、下次能不能少花一点」。
本地成本观测还有一个现实价值:很多浪费不是平台账单页面能直接告诉你的。平台能告诉你总量,未必告诉你某次任务为什么失控。只有把会话、文件访问、工具调用、模型选择和最终结果放在一起看,开发者才知道钱到底花在了有效推理,还是花在了重复搜索和无效重试。
写长文不能写成涨价抱怨
这个题最容易写歪。把它写成「厂商涨价了」「AI 编程没那么便宜」都太浅。
值得写的判断是:AI 编程正在从个人订阅工具进入组织级资源治理。订阅价格只是入口,真实成本发生在任务运行时。谁能看见、限制、解释和优化这些成本,谁才有可能把 Agent 放进生产流程。
对团队来说,接下来应该补的重点是几张表和几条规则。
第一张表是任务成本表。修小 bug、解释代码、生成测试、review PR、迁移接口、重构模块,这些任务要分别统计平均 token、平均时长、平均重试和人工 review 时间。
第二张表是模型路由表。哪些任务可以用快模型,哪些任务需要强模型,哪些任务应该先跑检索或静态分析,哪些任务不该交给 Agent。
第三张表是失败成本表。任务失败时,到底是模型误解、上下文不足、工具失败、测试慢、权限不够,还是需求本身没说清。否则团队只会把所有问题都归咎于「模型不稳定」。
规则也很朴素:长程任务要有预算上限;自动 review 要有触发条件;高成本模型要有适用场景;重复失败要停机;成本异常要能追到任务和人。
这些动作不性感,但它们决定 Agent 能不能从个人效率工具变成工程系统。
成本会改变产品竞争
当 AI 编程开始按资源计量,产品竞争也会变。
过去大家比的是谁补全更聪明,谁生成代码更快,谁聊天体验更顺。接下来还要比谁更会省上下文,谁的任务拆解更少重试,谁能自动选择合适模型,谁能把成本归因到 PR、issue、仓库和团队,谁能在预算耗尽前优雅降级。
这对开发者不是坏事。包月幻觉虽然舒服,但会掩盖真实效率。一个 Agent 如果每次都读半个仓库、跑五轮无效测试、生成一堆计划文档,最后才改三行代码,它未必便宜。反过来,一个工具如果能精准定位、少读文件、少调用强模型、少打扰人工 review,即使单次调用价格更高,也可能更划算。
所以这篇文章的结论可以很克制:AI 编程没有变得不值得用,它只是不能再被当成无限量套餐。未来团队要买的是一套可计量、可限流、可审计、可优化的 Agent 运行层。
包月时代让大家敢试。计量时代会逼大家认真用。
还没有评论,你可以写下第一条。