问题口径

“AI 会不会替代软件工程师”这个问法太粗。软件工程不是一个动作,而是一组动作:实现、设计、协作、验收、上线、维护。AI 可以在其中某一层推进很快,在另一层几乎不动。

眼下更值得看的不是一个总判断,而是四层证据:模型与 agent 的任务能力、企业的真实采用、开发者自己的使用反馈,以及劳动市场里已经出现的岗位变化。四层一起看,结论会稳很多。

第一层:从任务能力看,替代已经推进得很深

单看任务能力,软件工程已经是大模型和 agent 进展最快的前线之一。

Anthropic 在 2025-04-28 发布的软件开发影响研究里发现,Claude 的经济指数数据中,软件开发相关工作占比很高,常见任务已经不只包括补全代码,也包括界面组件开发、Web 与移动应用开发、调试、性能优化以及架构设计讨论。AI 进入的不是一个很窄的角落,而是一整片日常工程工作带。

同样来自 Anthropic 的 2026-03-05 劳动市场研究又给了一个更具体的指标:按他们基于真实使用数据构造的 observed exposure 口径,计算机程序员是暴露度最高的职业之一,覆盖率达到 75%;而整个 Computer & Math 大类的当前实际覆盖率大约是 33%。软件相关任务显然已经是 AI 的高暴露区,但“高暴露”不等于“已经全覆盖”。

Stanford HAI 的 2025 AI Index 也给了能力层面的另一组证据。它记录到 SWE-bench 的成绩在一年内从 4.4% 跳到 71.7%。这类 benchmark 很难直接推断岗位替代,但至少说明了一点:在可评分、边界清楚、反馈结构明确的代码问题上,模型能力上升得非常快。

第二层:从真实采用看,扩散速度没有传言里那么整齐

但任务能力和组织采用不是一回事。

Indeed Hiring Lab 在 2026-01-16 的报告里写得很直接:截至 2025 年末,美国只有大约 5.7% 的公司至少发布过一条提到 AI 的职位,而将近 90% 的 AI 相关招聘都集中在仅 1% 的招聘公司手里。AI 的采用并不是均匀扩散,而是先在最有资源、最能承担试错成本的一小批公司里聚集。

同月 2026-01-22 的 Indeed 报告进一步指出,总体招聘仍然偏弱,但带有 AI 关键词的岗位在增长。软件开发、IT systems、数据分析这些知识工作岗位确实更快被 AI 改写,但这仍然是一种“局部抬升”,不是整个劳动力市场已经同步切换。

开发者自己的调查也没有支持“AI agent 已经成为默认基础设施”的说法。Stack Overflow 2025 调查显示,84% 的受访者已经使用或计划使用 AI 工具,这说明 AI 写代码几乎已经成为主流能力;但到 agent 这一层,情况立刻分化了。52% 的开发者要么不用 agent,要么只停留在更简单的 AI 工具;38% 明确表示没有采用 agent 的计划。AI 工具普及了,不等于 agent 工作流已经普及。

第三层:从开发者体验看,提效和减速同时存在

再往下看,比“用了没用”更棘手的问题,是“在哪种场景下到底有没有净提效”。

METR 在 2025-07-10 发布的随机对照实验,是目前这一问题上最不该被跳过的一份研究。它研究的是熟悉自己仓库、熟悉自己项目的资深开源开发者,结果不是提速,而是平均慢了 19%。更刺耳的是,参与者在实验前普遍以为 AI 会让自己快 24%,实验后仍然主观感觉自己快了 20%

但这份研究自己也非常谨慎。METR 明确说,这不构成“AI 不会让大多数开发者提速”的证据,只说明在一个高标准、强上下文、隐性约束很多的真实环境里,早 2025 的 AI 工具并没有自动转化成净效率。

2026-02-24,METR 又更新了实验设计。他们发现,随着 2025 年 agent 工具更广泛扩散,越来越多开发者甚至不愿意在研究里做“不允许使用 AI”的那一半任务了。即使研究还没给出统一结论,工作流层面的依赖已经出现。

Stack Overflow 的调查把这种矛盾又往前推了一步。一方面,agent 使用者里大约 70% 认为它减少了某些具体开发任务的耗时,69% 认为提高了个人生产率;另一方面,开发者对 AI 输出准确性的信任并不高,46% 更倾向于不信任,只有 3% 表示“高度信任”。这说明“在用”和“信任”是两件不同的事。

第四层:从劳动市场看,最先承压的是入门层和高暴露职业

到了岗位层面,信号就更加不均匀了。

Stanford Digital Economy Lab 的工作论文《Canaries in the Coal Mine?》使用 ADP 的高频工资数据,发现自生成式 AI 普及以来,高 AI 暴露职业中的 22-25 岁早期职业群体,经历了大约 16% 的相对就业下降。研究者还指出,这种下降更多发生在就业人数而不是薪酬层面,而且更集中在那些 AI 更偏向自动化而不是增强的岗位。

Anthropic 2026-03-05 的劳动市场研究则给出了一组更克制但方向相近的结果。它没有发现高暴露职业在失业率上出现系统性抬升,但发现年轻工人在高暴露职业中的 job finding rate 相比 2022 下降了大约 14%,只是统计显著性边缘。两份研究口径不同、数据源不同,结论也不完全一样,但都把压力首先指向入口层、低经验层和高暴露任务层。

这也解释了为什么很多资深工程师的体感是“我还没被替代,反而更忙了”,而许多新人和准备入行的人感受到的却是“练手机会变少了、岗位门槛变高了”。两种体感可能同时为真。

为什么同一时间会出现“替代很快”和“变化没那么快”

把上面四层放在一起看,矛盾感其实来自几个不同变量同时运动。

  • 模型能力在快进,尤其是在局部、可评分、可验证的任务上。
  • 企业采用在扩散,但扩散高度集中在少数大公司和少数高技术组织。
  • 开发者的主观提效感很强,但客观提效并不在所有情境里都稳定成立。
  • 劳动市场的总量冲击还不够清晰,但入口层已经出现领先指标。

因此今天会出现两种极端叙事。一种人盯着 benchmark、Claude Code 和内部提效,得出“替代已经发生”;另一种人盯着总体失业率、企业保守采用和复杂系统现实,得出“这还远着呢”。他们看的不是同一层数据。

接下来该追哪些变量

下一阶段更值得追踪的是下面几类变化。

  • 年轻工程师和转行人群进入软件行业的难度,会不会继续上升。
  • 企业里的 AI 使用会不会从局部高频实验,变成默认流程和预算项。
  • agent 的提效会不会从个人效率,进一步扩展到团队协作和组织吞吐。
  • 高暴露任务被自动化之后,新的工程分工到底是“岗位减少”还是“岗位重组”。

这些问题现在都还没有统一答案,但它们比“会不会整体替代软件工程师”更接近变化真正发生的位置。