AI 改写了编码，为什么软件复杂性还在

返回文章列表

技术沉淀 AI 编程软件工程

Feature Essay

AI 改写了编码，为什么软件复杂性还在

SWE-bench、企业采用数据和真实开发实验都在说明同一件事：AI 正在重写编码环节，但还没有接住整个软件系统。这篇文章把证据拆成实现层、系统层、组织层和演化层来看，也解释为什么编码效率上去了，系统层难题却没有同步消失。

2026-03-30 22:19 北京时间 19 分钟难度：进阶

132 阅读 1 点赞

快速答案

AI 已经改写了编码、测试和局部修复这些实现层工作，很多团队也真实感受到了提速，但软件复杂性没有一起消失。系统边界、组织协作和长期演化，仍然决定大多数难题。

编码这一层已经被明显改写，AI 正在接管一段连续的软件工程工作流。
系统真正卡人的地方，仍然是边界划分、跨团队协作和长期演化。
AI 会先在约束清晰、规则稳定的环境里吃掉复杂性，但离整体清空软件复杂性还很远。

AI 已经改写了一大块编码工作

正方证据先摆在这里。过去一年，AI 已经不只是帮工程师补几行代码，而是开始进入软件工程里一段连续的工作流。

证据主要有四类。

Benchmark 在跳。2025 AI Index 里，SWE-bench 的最好成绩一年内从 4.4% 涨到 71.7%。只看这张图，结论会是「机器已经冲进软件工程腹地」。
现场实验在给出正结果。Microsoft 汇总 Microsoft、Accenture 与一家匿名《财富》100 强公司的三组随机现场实验，在 4,867 名开发者样本上观察到，AI 工具让已完成任务数平均增加 26.08%。
受控实验不只显示更快，也显示局部质量在变好。GitHub 对 202 名有至少五年经验的开发者做随机实验，结果是 Copilot 组通过全部单测的概率更高，代码可读性、可靠性、可维护性和批准率也更高。更早一轮经典实验里，Copilot 组在标准化任务上快了 55.8%。
一线产品遥测早已超过「偶尔写点补全」的阶段。Anthropic 2026-02-18 的实测显示，Claude Code 最长会话的自主运行时长三个月内从不到 25 分钟拉到超过 45 分钟；新用户全自动批准约 20%，经验用户超过 40%；公共 API 的 agentic tool calls 里，软件工程接近 50%。

中国企业的一手材料也在指向同一件事。

百度在 2025-06-23 披露，内部每天新增代码中，文心快码生成代码占比已超过 43%。
百度在 2025-09-10 进一步披露，内部整体新增代码中 45% 已由 AI 生成，而前 10% 的 Agent 重度用户里，AI 完成部分甚至超过 75%。
阿里云在 2024-11-26 披露，通义灵码累计生成代码超过 10 亿行，服务上万家企业。
蔚来在 2025-07-29 的案例里，近 1000 名工程师常态化使用通义灵码，AI 生成代码占比超过 30%，在「天探」系统中业务增量代码最高超过 70%。
中华财险在 500+ 人研发团队里，近 60% 研发人员使用通义灵码，生成并采纳代码约 20%。

这些证据共同指向一件事：AI 已经开始改写软件工程。它改写得最深的，首先还是实现层。

会写代码，不等于会接住整个系统

分歧也在这里。实现层被改写，不等于整个软件系统已经被改写。

反方证据也主要有四类。

Benchmark 和真实工程是两回事。AI Index 同一章里，更难的 BigCodeBench 上，顶级系统只有 35.5%，远低于人类的 97%。前沿系统确实进步很快，但 benchmark 高分和真正做系统之间还有明显距离。
旧 benchmark 本身也开始失去解释力。OpenAI 在 2026-02-23 公开表示，不再用 SWE-bench Verified 衡量前沿编码能力，因为污染和题目缺陷已经开始扭曲结果。
更贴近真实市场任务的评估没有给出「多数任务已被拿下」的结论。SWE-Lancer 基于 1,400+ 个真实自由职业软件工程任务，总价值约 100 万美元，OpenAI 的结论是前沿模型仍无法解决多数任务。
最直接的现实摩擦来自 METR。它在 16 位熟悉自己仓库的资深开源开发者、246 个真实 issue 上做随机对照实验，结果并没有更快，平均反而慢了 19%。更刺耳的是，很多参与者主观上还以为自己更快了。

这些反差说明，AI 正在重写「编码」这件事，但还没有证明自己已经重写「软件系统」。

不过，连这个反证本身也要谨慎用。METR 在 2026-02-24 的后续更新里又说，随着 2025 年底到 2026 年初 Agent 工作流扩散，后续更大样本实验已经出现严重选择偏差，研究团队认为 2026 年初 AI 很可能比 2025 年初更能提速，但新数据又不足以给出可靠点估计。它没有推翻旧结果，却清楚地告诉我们：今天这个问题已经不能只靠一组旧数据定输赢。

更值得问的是：AI 已经改写了哪一层复杂性，还卡在哪一层。

第一层：实现复杂性先被压缩

Brooks 把复杂性分成两类：本质复杂性和偶然复杂性。放到今天，先被削薄的是后者。

样板代码、API 封装、脚手架、单元测试、局部修复、文档补齐、跨语言改写、简单迁移，这些过去非常耗时但结构相对清晰的工作，现在几乎都已经被 AI 明显改写。Microsoft 的现场实验、GitHub 的受控实验、Anthropic 的产品遥测，以及百度和阿里的内部数据，指向的是同一个事实：实现层软件工程的生产函数已经变了。

一个更具体的变化：原本分散在人手里的不少实现工作，已经可以先交给模型起草、展开和回填，再由人来判断、验收和收口。

但实现复杂性被压缩，并不自动推出系统复杂性也被一并压缩。

第二层：系统复杂性还没有被接住

Parnas 讨论的是变化会沿着边界扩散。边界一旦划错，后面的每次变化都会放大代价。

AI 现在已经能把补丁写出来，但还没有被证明能替团队稳定地划对边界。

在一个成熟系统里，麻烦的部分从来不只是「有没有人能把功能写出来」，还包括：

这个需求到底属于哪个上下文。
这次修改会不会把另一个模块的隐含假设打穿。
哪些约束写在文档里，哪些约束只活在资深工程师脑子里。
哪些地方必须一致，哪些地方允许局部最优。
当性能、安全、可维护性、上线时间冲突时，应该牺牲什么。

这些问题可以被 AI 辅助，但还很少被 AI 彻底解决。

SWE-Lancer 和 METR 一起看，结论会更清楚。前者说明，当任务被拉回真实世界，前沿模型还拿不下大多数真实软件工作；后者说明，在熟悉仓库、强约束、高上下文的环境里，AI 甚至可能先把速度拉低。合在一起，结论就是：实现层跃迁是真的，系统层通关还没有被证明。

第三层：组织复杂性变化更慢

Conway 说，软件系统会映射组织的沟通结构。到了 Agent 时代，这条规律还在起作用。

很多复杂性根本不长在代码里，而长在协作关系里。支付、金融、医疗、车机、政企系统之所以难，往往不在某个函数没人会写，而在产品、研发、合规、安全、运营、法务和外部接口方之间本来就存在不同目标、不同责任和不同节奏。

AI 能帮助团队更快生成局部实现，也能把 review、测试、问答、排障中的一部分工作前移或自动化，但它并不会自动消灭下面这些问题：

谁有权定义系统边界。
谁承担错误的最终责任。
哪些规则可以形式化，哪些规则必须保留人为裁量。
跨团队目标冲突由谁拍板。
出现事故后，追责链路如何完整流程。

也因为这些问题还在，中国信通院会在 2025 年联合工商银行、农业银行、邮储银行、百度、腾讯、阿里、华为等二十多家机构发布 AIIA/T 0219-2025《面向软件工程智能体的技术和应用要求第 1 部分：开发智能体》。如果复杂性已经被直接吃掉，行业不会这么快转向「能力建设、服务能力、全流程智能体、安全合规和协同机制」的标准化。

这类标准本身就在说明：企业想要的，已经不只是一个会写代码的模型，而是能被放进真实组织的 Agent。

第四层：演化复杂性可能继续放大

Lehman 的软件演化定律今天仍然成立。系统不会停在原地，它会随着环境、需求、组织、接口和历史包袱持续变化。

AI 让修改更便宜，不一定让系统更简单；它也可能让系统更快积累演化债。

功能更容易加，原型更容易搭，局部重构更容易做，团队就更可能用更高频率持续改系统。短期看，这是生产力；中期看，如果边界、规范、评审和回归能力没有同步升级，它也会成为更快的复杂性生产机。

DORA 的 2024 预览数据能说明这一点。AI 已经广泛进入 IDE 和内部工作流，但只有 24% 的受访者对 AI 生成代码「高度信任」，而 39% 的受访者对其信任程度只有「一点」或「完全不信任」。采用率和系统吸收能力不是同一个指标。

团队、行业和工具组合决定体感差异

体感差异不是错觉，变量本来就很多。

不同组织的结果会不同。

初创团队、工具链轻、决策链短、历史包袱少，更容易把 AI 变成真实产出，尤其在新产品原型和 greenfield 开发里。
大公司平台团队，如果有清晰规范、完整测试、可复用组件和内部知识库，也能把 AI 的收益放大。
大型传统企业、跨部门流程长、审批重、遗留系统深的组织，AI 常常先重写局部实现，再卡在系统边界和上线流程。

不同行业的结果也会不同。

互联网产品、内部效率工具、运营支撑系统，往往先吃到 AI 的红利。
汽车、制造业只要子系统边界清晰，也能在特定模块里把 AI 用得很深，蔚来案例就是这样。
金融、保险、医疗、政企等高合规行业，经常会看到「采用不慢、上线更慢」。中华财险近 60% 研发人员使用通义灵码、采纳代码约 20%，说明工具进入组织不难，把组织全链条一起改掉更难。

工具组合不同，结果也会继续分化。

IDE 补全和问答，主要放大的是单兵实现效率。
Repo-aware Agent、CLI Agent、测试 Agent、Code Review Agent，开始触碰系统层工作。
当 Agent 与内部知识库、规则库、MCP、CI/CD、测试覆盖、回归验证、审计日志连起来时，它才会进入更深一层的复杂性。

问题已经从「AI 工具有没有用」转成了「你把它接到了哪一层系统里」。

AI 会吃掉一部分复杂性，但不是全部

如果「彻底解决」指在任何组织、任何行业、任何系统里都把复杂性压到接近零，今天还没有足够证据支持这个判断。

把问题改成「AI 是否会在一部分环境里吃掉越来越多原本由人承担的系统复杂性」，答案是：会，而且已经开始发生。

先被吃掉的，是下面这些环境：

需求边界清晰，例外情况有限。
规则可以结构化写进知识库、测试和流程里。
系统有稳定接口、强可观测性和完整回归机制。
团队已经把规范、规则、经验变成机器可调用的上下文。
错误成本可逆，允许高频试错。

更难解决的，是这些环境：

需求本身持续变化，甚至彼此冲突。
业务逻辑和组织权责强耦合。
系统深嵌物理世界、监管体系或多方博弈。
历史包袱重，隐性约束多，很多知识无法显式化。
正确性标准不只是单一的「测试通过」，更是多目标平衡。

Brooks、Parnas、Conway、Lehman 放回今天，并没有变成「AI 不会进步」的证据。它们更像一组边界条件：AI 可以大幅削薄实现复杂性，也可能逐步吞掉一部分系统复杂性，但只要软件还是现实世界、组织结构和持续演化的产物，复杂性就不会像样板代码那样被一次性清掉。

更常见的误判，是把「编码已经被重写」直接翻译成「软件系统已经被重写」。前一句今天已经基本成立，后一句截至 2026 年春天还没有被证明。

更新附注

v1.1｜2026-03-31：补充「AI Index / SWE-bench 与 METR 反差」一节后的注释，说明 benchmark、真实开发实验和 2026 年初后续口径变化之间的差异，避免把编码基准高分误读为软件系统复杂性已被改写。
v1.2｜2026-03-31：重写正文论证骨架，补入 Microsoft、GitHub、Anthropic、OpenAI、DORA 与百度、阿里、蔚来、中华财险等近期证据，把问题拆成实现层、系统层、组织层和演化层，并增加不同组织、行业、工具组合下的差异化判断。
v1.3｜2026-03-31：改成更适合公众号发布的标题、导语和小标题，收紧文风，让文章更温和、可读，同时保留原有论证与证据结构。
v1.4｜2026-04-01：继续收紧全文语气，重写正反方起手段、后半段过渡句与首屏 summary / abstract / highlights，减少姿态句和解释腔，让证据与判断直接落到正文上。
v1.5｜2026-04-01：继续收紧标题与小标题，去掉解释腔和提问腔，把各段标题改成更直接的判断句，统一首屏与正文语气。
v1.6｜2026-04-01：继续清理正文里的软化词和解释词，压缩「先看 / 至少 / 很容易 / 原因很简单 / 通常」等句式，让论证更直接。

参考来源

还没有评论，你可以写下第一条。

继续阅读

同主题延伸

如果你想顺着当前问题继续往下挖，这里优先给相近主题的文章。

2026-03-26 00:05 北京时间更新：2026-03-31 00:19 北京时间 18 分钟同主题：技术沉淀等 3 个标签

当顶级程序员开始少写代码，软件工程的重心移到了哪里

Karpathy、Yegge 与 Peter Steinberger 指向的，是软件工程分工的上移：代码生成更便宜后，规格、验证、门禁、回滚和长期维护变成更稀缺的环节。变化的核心是责任位置重排。

2026-03-19 21:20 北京时间 11 分钟同主题：技术沉淀等 3 个标签

02｜别把 AI 写代码，最后写成一地鸡毛

AI 可以让写代码更快，但如果你把「更快」理解成「我可以不理解」，最后只会把自己带进更脆弱的软件和更浅的能力。Jeremy Howard 这篇最值得翻成中文的地方，是把「用 AI 还要不要讲基本功」说得很具体。

2026-04-12 10:20 北京时间 12 分钟同主题：技术沉淀等 3 个标签

在原生 Windows 上，重搭 AI 编程命令行栈

一次原生 Windows 命令行整治记录：把 PowerShell、PATH 和 UTF-8 的反复故障，收敛成 Git Bash、rg、sd、jq、yq 与 ast-grep 这一套稳定工具链。

编辑精选

如果你想从这篇扩出去，这里放最近值得继续看的站内长文。

2026-05-29 21:35 北京时间 12 分钟编辑精选

下一篇 AI Agent 对软件工程的替代，究竟推进到了哪一步

阅读难度

进阶

信息密度适中，适合连续阅读。

1. AI 已经改写了一大块编码工作
2. 会写代码，不等于会接住整个系统
3. 第一层：实现复杂性先被压缩
4. 第二层：系统复杂性还没有被接住
5. 第三层：组织复杂性变化更慢
6. 第四层：演化复杂性可能继续放大
7. 团队、行业和工具组合决定体感差异
8. AI 会吃掉一部分复杂性，但不是全部
9. 更新附注

要点

编码这一层已经被明显改写，AI 正在接管一段连续的软件工程工作流。
系统真正卡人的地方，仍然是边界划分、跨团队协作和长期演化。
AI 会先在约束清晰、规则稳定的环境里吃掉复杂性，但离整体清空软件复杂性还很远。

RSS

Subscribe to long-form updates through RSS. Feed timestamps use Beijing time.

Open RSS feed

LLMs

This site also exposes llms.txt and sitemap.xml for model-friendly discovery.

Open llms.txt

AI 改写了编码，为什么软件复杂性还在

快速答案

AI 已经改写了一大块编码工作

会写代码，不等于会接住整个系统

第一层：实现复杂性先被压缩

第二层：系统复杂性还没有被接住

第三层：组织复杂性变化更慢

第四层：演化复杂性可能继续放大

团队、行业和工具组合决定体感差异

AI 会吃掉一部分复杂性，但不是全部

更新附注

参考来源

评论（0）

继续阅读

同主题延伸

当顶级程序员开始少写代码，软件工程的重心移到了哪里

02｜别把 AI 写代码，最后写成一地鸡毛

在原生 Windows 上，重搭 AI 编程命令行栈

编辑精选

Git 入门：先看懂版本、分支和协作

TerminalWorld：终端 Agent 评测不能只靠人造题

Agentic CLEAR：只做可观测还不够，Agent 需要解释型评测