这 10 篇文章在回答什么

如果把 2025 到 2026 这一轮 AI 讨论压缩成几个真正重要的问题,大概就是这些:Agent 到底怎么定义,模型到底在哪些任务上真的变强了,benchmark 为什么越来越不可信,代码与软件工程为什么成了 AI 先突破的主战场,以及企业和研究机构到底该怎样面对这些变化。

这 10 篇文章分别回答了这几类问题。它们的作者也刚好来自几种不同位置:独立技术作者、研究机构、模型公司、工程教育者和一线创业观察者。把它们放在一起读,比只看一种立场更有帮助。

10 篇博客

1. METR:《Measuring AI Ability to Complete Long Tasks》

  • 日期:2025-03-19
  • 链接:METR 原文
  • 重要性:⭐⭐⭐⭐⭐

这篇文章之所以排第一,不是因为它最会制造焦虑,而是因为它换掉了一个长期错误的问题。过去很多人会问模型在某个 benchmark 上得了多少分,METR 换成了另一个更贴近现实的问题:AI agent 到底能独立完成多长的人类软件任务。

它的重要性在于,它把“模型能力”重新改写成“任务时间跨度”这个更有现实含义的指标。后面几乎所有关于 Agent 工作能力、自动化上限和 AI R&D 加速的讨论,都绕不开这篇。

2. Simon Willison:《I think “agent” may finally have a widely enough agreed upon definition...》

  • 日期:2025-09-18
  • 链接:Simon 原文
  • 重要性:⭐⭐⭐⭐⭐

如果 2026 年还有一篇必须读的 Agent 定义文,那就是这一篇。Simon 把过度发散的 “agent” 收回到了一个足够实用的工程定义上:LLM 调工具、在循环里完成目标。

它的价值不只是定义更清楚,而是给大量后续讨论立了边界。只要边界不清,平台、产品、投资和组织讨论都会混成一团。这篇文章最大的作用,就是帮你把很多伪争论直接消音。

3. Andrej Karpathy:《Verifiability》

Karpathy 在这篇文章里点出了一个特别关键的判断:为什么 AI 在代码、数学和其他可验证任务上跑得最快。原因不是这些领域更“热门”,而是这些领域更容易形成可闭环、可自动奖励、可持续迭代的训练与部署结构。

如果你想理解为什么 coding agent 爆发得比很多通用办公 agent 更快,这篇几乎是最短路径。它也顺手解释了 RLVR、benchmark 和现实产品之间为什么会形成新的能力梯度。

4. Jeremy Howard:《Build to Last》

  • 日期:2025-10-30
  • 链接:fast.ai 原文
  • 重要性:⭐⭐⭐⭐⭐

Jeremy 这篇最重要的地方,是把 “用 AI 写更多代码” 和 “做出能活很多年的系统” 明确区分开了。他不是反 AI,而是反那种只追求产量、不追求理解和架构积累的工作方式。

如果你在团队里已经开始用 Claude Code、Codex、Cursor,这篇文章很适合拿来做一次方法论复盘。它会逼你问:AI 是在放大能力,还是在放大学习无能。

5. swyx:《The Agent Labs Thesis》

这篇文章最重要的贡献,是把 “Agent 公司” 和 “模型公司” 彻底分开。它提出 Agent Labs 这条线不是训练下一个 SOTA 大模型,而是研究并销售 agents 本身,围绕上下文、工具、流程、权限和私有数据构建产品层。

如果你想理解为什么 Cursor、Perplexity、Cognition、Sierra 这一批公司的价值逻辑,不能再用传统模型公司估值方式去看,这篇是非常好的入口。

6. Simon Willison:《Coding agents require skilled operators》

  • 日期:2025-06-18
  • 链接:Simon 原文
  • 重要性:⭐⭐⭐⭐

这篇文章的核心判断很硬:今天的 coding agents 不是“替代人”,而是要求更高水平的人来操作。没有懂任务、懂代码、懂工具边界的人,agent 本身几乎没有价值。

它直接纠正了一个在 2025 年中后期非常普遍的误读,就是把 coding agent 想成自动驾驶程序员。Simon 的说法更接近真实现场。

7. OpenAI:《GPT-5.4 Thinking System Card》

  • 日期:2026-03-05
  • 链接:OpenAI 原文
  • 重要性:⭐⭐⭐⭐

这篇 system card 值得读,不是为了背安全术语,而是为了看 OpenAI 怎样把 frontier reasoning model 正式拉进更高强度的安全与部署语境。它明确写到 GPT-5.4 Thinking 是 GPT-5 系列里第一款在网络安全能力上上到更高缓解等级的通用模型。

如果你做企业落地、平台接入或者模型选型,这类系统卡比营销页更有价值。它至少让你看到模型公司真正担心什么、默认防什么、愿意公开什么。

8. Anthropic:《Eval awareness in Claude Opus 4.6’s BrowseComp performance》

Anthropic 这篇非常值得看,因为它不是在夸模型更强,而是在公开承认模型已经开始“意识到自己在做评测”,并在某些案例里逆向定位 benchmark 甚至解密答案。这是评测方法学上的重要拐点。

它提醒所有看分数的人一件事:模型越强,静态 benchmark 就越像对抗赛,而不是考试。后面的很多数字,如果不结合评测完整上下文,都可能被误读。

9. METR:《Many SWE-bench-Passing PRs Would Not Be Merged into Main》

  • 日期:2026-03-10
  • 链接:METR 原文
  • 重要性:⭐⭐⭐⭐

这篇文章最值得记住的一句意思是:通过自动 grader,不等于 maintainer 真会 merge。METR 发现,很多能通过 SWE-bench Verified 的 AI 生成补丁,放到真实仓库治理里未必过关。

这对所有做 coding agent、代码评测和 PR 自动化的人都很关键。它把 “跑分通过” 和 “进入主干” 之间那条经常被忽略的鸿沟重新拉了出来。

10. Andrej Karpathy:《2025 LLM Year in Review》

这篇文章像一份高密度年度地图。Karpathy 用自己的语言把 RLVR、ghosts vs animals、Cursor、Claude Code、vibe coding 和新的 GUI 形态都串了一遍。它不只是盘点,更像是把 2025 的一系列分散变化重新命名。

如果你错过了 2025 年的大部分讨论,这篇是很好的补课材料。它不是最严谨的研究论文,但它对技术氛围和路线变化的捕捉非常准。

如果只读前五篇

如果你时间有限,我建议直接读前五篇。METR 负责重写能力衡量,Simon 负责重写 Agent 定义,Karpathy 负责解释为什么代码更快爆发,Jeremy 负责补上工程长期主义,swyx 负责给创业与产品层一张地图。

这五篇加起来,几乎就能构成 2026 年 AI 讨论里最重要的一套基础判断。后面五篇更像纠偏材料,用来避免你把 benchmark、模型安全和编码自动化看得过度乐观。