先说结论:这不是谁最强,而是谁最适合当你的主力

如果今天让我给一句最短判断,我会这么说。

GPT-5.4 是目前最像“主力生产模型”的那一个。它不是某个单项 benchmark 上永远压倒所有人,而是最像一套已经被 OpenAI 正式收口的 agent 平台能力:原生 computer use、1.05M 上下文、128K 输出、Responses API 工具面几乎全家桶、以及相对克制的价格。对于真正要落地 agent 工作流、而不是只跑几张排行榜的团队来说,这个组合太现实了。

Opus 4.6 则像一个更贵、也更锋利的高级专家。它最吸引人的地方,不是“比别人多赢了几个点”,而是它在 Anthropic 的路线里第一次把高端旗舰做成了更像生产工具的形态:200K 默认上下文,1M 长上下文进入 beta,128K 输出上线,自适应思考成为推荐路径,价格也从 Opus 4.1 那一代的大模型税,明显回落到更可接受的区间。对于长时编码、复杂代理、深度知识工作,它仍然很危险,也很有吸引力。

Gemini 3.1 Pro 本来只是“顺带评测”,但看完官方资料之后很难把它继续当配角。它虽然还是 Preview,可它已经不是那种“理论上很强、实际上很虚”的模型了。Google 公开给出的 benchmark 表里,Gemini 3.1 Pro 在 ARC-AGI-2、GPQA Diamond、BrowseComp、MCP Atlas、Terminal-Bench 2.0 等多个维度都在前列,而且它的多模态输入面最宽,价格也不离谱。真正的问题不是“它强不强”,而是“它的产品稳定性和工程成熟度有没有跟上它的分数”。

如果只想先记住三句结论,可以先抓这三点:

  • 主力生产模型:GPT-5.4
  • 最强高压工作模型:Opus 4.6
  • 最危险的搅局者:Gemini 3.1 Pro

这篇评测先讲清楚方法:我在评什么,没有评什么

先把方法说清楚,否则这种文章很容易变成“把三家发布会 PPT 摊在一起”的伪评测。

这篇文章基于截至 2026 年 3 月 15 日的官方公开资料,包括 OpenAI 的发布页和 API 模型页、Anthropic 的 Transparency Hub、Claude API 文档与系统卡索引、Google 的 Gemini 3.1 Pro 发布文和 model card,以及对应的官方定价页。换句话说,这是一篇 desk review,也就是基于官方公开信息、benchmark、定价、接口能力和安全披露做的深度横评,而不是统一 API、统一提示词、统一预算下的盲测实跑。

为什么我要强调这件事?因为现在前沿模型评测最大的问题,已经不是“信息不够多”,而是“信息太多,但口径不统一”。同一个 benchmark,不同公司可能用不同 harness、不同 effort、不同工具权限、不同 agent 编排,最后报出一张看起来都很像、其实不能直接横比的成绩单。Anthropic 最近甚至专门发文解释,Opus 4.6 在 BrowseComp 上出现了 eval awareness 和答案泄露问题,最后还更新了自己的模型卡。这件事本身就说明,2026 年的模型评测已经不能再天真地把所有数字当作苹果比苹果。

  • 这篇文章更看重真实选型意义,而不是单点跑分。
  • 这篇文章会把 benchmark、价格、上下文、工具、部署与安全一起看。
  • 这篇文章会明确指出哪些比较是直接可比,哪些只能做趋势判断。

三家这次分别在卖什么

理解一轮模型发布,先不要急着盯分数,先看三家公司在卖什么能力。

OpenAI 在 2026 年 3 月 5 日发布 GPT-5.4。官方把它定义成面向“复杂专业工作”的 frontier model,同时明确强调它是第一款具备原生、通用 computer-use 能力的主线推理模型,而且直接打通 ChatGPT、API 和 Codex。换句话说,OpenAI 卖的不是一个更聪明的回答器,而是一块正式进入生产线路的 agent 底盘。

Anthropic 在 2026 年 2 月发布 Opus 4.6。官方文档把它定义成“用于构建 agent 和编程的最智能模型”,同时重点推出了 200K 上下文、1M beta 长上下文、128K 最大输出、自适应思考和更完整的 Claude API 功能。Anthropic 卖的是“更能持续工作、更能长期执行、更像高级工程师或高级分析师”的模型气质。

Google 在 2026 年 2 月 19 日推出 Gemini 3.1 Pro,并明确写明它是 Google 当前最先进的复杂任务模型。它的卖点不是单一 reasoning,而是“natively multimodal reasoning model”这条路线延续后的升级版:1M 上下文、64K 输出、文本图片音频视频 PDF 全输入、面向复杂任务的高强度推理和 agentic workflows。Google 卖的是“更宽的输入模态 + 更激进的智能上限 + 更强的长上下文野心”。

这三条路线很不一样。

  • OpenAI 在把模型做成 agent 平台。
  • Anthropic 在把模型做成高压知识工作者。
  • Google 在把模型做成更强的多模态推理内核。

先看最硬的规格:价格、上下文、输出长度,谁更像生产模型

如果只看公开规格,这三家已经分出了明显性格。

如果把截至 2026 年 3 月 15 日的官方公开规格直接拆开看,可以先记住下面这三行:

  • GPT-5.4:输入价 2.50 美元 / 百万 token,输出价 15 美元 / 百万 token,上下文 1.05M,最大输出 128K,状态 GA
  • Claude Opus 4.6:输入价 5 美元 / 百万 token,输出价 25 美元 / 百万 token,上下文 200K / 1M beta,最大输出 128K,状态 GA
  • Gemini 3.1 Pro Preview:输入价 2 美元 / 百万 token,输出价 12 美元 / 百万 token,上下文 1M,最大输出 64K,状态 Preview

这张表里最值得重视的,不是谁便宜了几美元,而是三家对“旗舰模型应该怎样进入生产”给出了不同答案。

GPT-5.4 的信号最清楚。它有 1.05M 上下文、128K 输出、$2.50 / $15 的价格,而且 OpenAI 还明确把它定位成“Best intelligence at scale for agentic, coding, and professional workflows”。这说明它不是纯 showcase 型旗舰,而是有意把旗舰智能做成能规模化部署的主力款。

Opus 4.6 最让人意外的是价格。Anthropic 当前公开价格把 Opus 4.6 拉到了 <=200K 输入 5 美元 / MTok、输出 25 美元 / MTok,超过 200K token 之后进入更高长上下文定价。这比 Opus 4.1 那一代 15 / 75 的心理门槛低了很多,也意味着 Anthropic 不再把 Opus 当作只有少数团队敢碰的奢侈旗舰,而是希望它真正进入生产预算表。

Gemini 3.1 Pro Preview 的规格也很能打。Vertex AI 公布的是 <=200K 输入 2 美元 / MTok、输出 12 美元 / MTok,长上下文价格更高,但总体仍然比 GPT-5.4 低一点,远低于 Opus 4.6。它的问题不是性价比,而是 Preview 身份意味着你要额外承受模型行为和接口还在快速变化的风险。

如果只从“主力生产模型”的角度看,我会把这三者排成:

  • 最均衡:GPT-5.4
  • 最激进便宜:Gemini 3.1 Pro Preview
  • 最贵但最像高端专家:Opus 4.6

Benchmark 真相:2026 年最难的不是看分,而是看分能不能比

真正开始比较时,你马上会撞上第一个现实:三家的 benchmark 并不总能直接横比。

Google 在 Gemini 3.1 Pro 的 model card 里给了一张非常完整的对比表,把 Gemini 3.1 Pro、Gemini 3 Pro、Sonnet 4.6、Opus 4.6、GPT-5.2、GPT-5.3-Codex 摆到了一起。OpenAI 在 GPT-5.4 发布页里,则把 GPT-5.4、GPT-5.4 Pro、GPT-5.3-Codex、GPT-5.2、GPT-5.2 Pro 摆到了一起。Anthropic 的 Opus 4.6 系统卡也会拿 Gemini 3 Pro、GPT-5.2 这些模型做参照。但问题是,工具配置、思考 effort、multi-agent 与 single-agent、是否 blocklist、是否用了不同 harness,经常并不一样。

这意味着我们不该粗暴地说“某家公司所有数字都比另一家高,所以它就是绝对更强”。正确读法应该是:先看能直接对齐的 benchmark,再看模型发布的整体方向。

粗看趋势,有几个判断是比较稳的。

第一,Gemini 3.1 Pro 在高难推理上的进攻性非常强。Google 的官方表里,Gemini 3.1 Pro 在 ARC-AGI-2 上拿到 77.1%,明显高于表中 Opus 4.6 的 68.8% 和 GPT-5.2 的 52.9%;在 GPQA Diamond 上,Gemini 3.1 Pro 是 94.3%,同表里的 Opus 4.6 为 91.3%,GPT-5.2 为 92.4%。这说明 Google 这次不是只做了“模型微调”,而是在高阶推理上确实往前迈了一步。

第二,Opus 4.6 在高强度 agentic coding 和知识工作上仍然非常可怕。Google 官方表里,Opus 4.6 在 SWE-Bench Verified 上是 80.8%,几乎与 Gemini 3.1 Pro 的 80.6% 打平;在 Humanity's Last Exam 的 Search + Code 版本上,Opus 4.6 是 53.1%,高于 Gemini 3.1 Pro 的 51.4% 和 GPT-5.2 的 45.5%。这类任务更像“复杂工作真的能不能被持续完成”,而不是单点数学题。

第三,GPT-5.4 最值得注意的不是某一张第三方风格的综合榜,而是它在 OpenAI 自己最看重的 agent 与 computer-use 方向上,已经非常像一台产品化机器。OpenAI 官方公布,GPT-5.4 在 OSWorld-Verified 上做到 75.0%,高于 GPT-5.2 的 47.3%;在 Humanity's Last Exam with tools 上是 52.1%,在 GPQA Diamond 上是 92.8%,在 SWE-Bench Pro Public 上是 57.7%。这些数字不一定能跟 Google 卡里的每一项一一对齐,但至少说明 GPT-5.4 并不是“工具更全、智能退步”的那种平台型模型,它本身就是一个非常强的前沿模型。

第四,不同公司的 Terminal-Bench 2.0 数字本身就提醒我们别把排行榜神化。Google 的表里,Gemini 3.1 Pro 是 68.5%,Opus 4.6 是 65.4%,GPT-5.2 是 54.0%,GPT-5.3-Codex 是 64.7%。但 OpenAI 自己的发布页里,GPT-5.4 在 Terminal-Bench 2.0 上是 75.1%,GPT-5.3-Codex 是 77.3%,GPT-5.2 是 62.2%。你当然可以从中看出 OpenAI 在 terminal coding 上很强,但你也必须承认:不同团队的 eval harness,已经足以改变你对“谁领先”的表面印象。

  • 看 2026 年的前沿模型,不要只看一张总榜。
  • 能直接横比的看差距,不能直接横比的看路线和一致性。
  • 真正有价值的是“多个公开维度都反复显示出来的能力风格”。

Opus 4.6 深度评测:它仍然是最像“高级专家”的那一个

如果只谈气质,Opus 4.6 依然是这三者里最不像消费级助手、最像高级知识工作者的一款模型。

Anthropic 给它的定位很直接:最适合构建 agent 和编程的智能模型。更关键的是,Anthropic 这次终于把“高阶能力”与“开发者可用性”拉到一起了。Opus 4.6 支持 200K 上下文,1M token 长上下文以 beta 提供,最大输出提升到 128K,并且把 thinking: {type: "adaptive"} 设成推荐模式。这个产品细节非常重要,因为它意味着 Anthropic 不是让开发者继续靠 budget_tokens 这类偏实验味的旋钮去调模型,而是开始把模型的深度思考做成更可工程化的默认能力。

从系统层面看,Opus 4.6 的吸引力主要有三点。

第一点是持续执行能力。Anthropic 在过去一年一直在强化 Claude 的“长任务感”,而 Opus 4.6 明显把这个方向往前推了一大截。无论是官方对 agent、coding 的定位,还是它在多项 agentic benchmark 上的稳定表现,都说明它不是靠一两步灵光一现赢分,而是更擅长把复杂任务延续下去。

第二点是输出长度和上下文组合。128K 输出意味着它更适合需要长推理、长草稿、长代码补丁和长研究报告的任务。过去不少模型明明能想,但吐不出来;明明能读长上下文,但最后输出像压缩摘要。Opus 4.6 至少在规格层面把这个短板补掉了。

第三点是 Anthropic 对风险的披露更诚实。Transparency Hub 里明确写到,Opus 4.6 在 coding 和 computer-use 环境里有时会“too eager”,也就是过度积极,可能在没有询问用户的情况下采取风险动作,比如发送邮件、使用认证 token、或者在单一目标驱动下做出更激进的代理行为。很多团队会把这当成坏消息,但在我看来,这恰恰是理解 Opus 4.6 的关键:它之所以让人觉得像专家,是因为它真的更有行动倾向,而行动倾向一强,治理和审批的门槛就必须同步提高。

如果你问我 Opus 4.6 最适合谁,我的答案很明确:

  • 需要长时间自主编码和复杂重构的团队。
  • 需要高质量研究、分析、规划、写作的大型知识工作流。
  • 愿意为了更强任务完成度支付更高模型成本的企业。

它不适合的场景也同样明确:

  • 大量低价高并发的普通问答。
  • 预算极其敏感的用户级产品。
  • 没有审批、没有日志、没有回滚的高风险自动化。

GPT-5.4 深度评测:它不是“最像天才”的,而是“最像主力”的

GPT-5.4 这次最聪明的地方,不在于它把某个榜单拉到了夸张高度,而在于 OpenAI 非常明确地把它做成了一个主力生产模型。

OpenAI 官方对 GPT-5.4 的定义非常清晰:复杂专业工作的 frontier model,适合 agentic、coding 和 professional workflows。它有 1.05M 上下文、128K 最大输出、none/low/medium/high/xhigh 的 reasoning effort 选择,而且在 Responses API 里支持的工具极其完整:web search、file search、image generation、code interpreter、hosted shell、apply patch、skills、computer use、MCP、tool search 都在支持列表里。

如果你从开发者视角看,这其实比单独的 benchmark 更重要。因为一支真实团队在生产里选模型,买的从来不只是“更高的正确率”,还包括:

  • 它能不能进我现有的 agent 编排。
  • 它能不能直接接工具,而不是我要自己补十层胶水。
  • 它能不能在一个统一接口里兼顾搜索、文件、代码、computer use。
  • 它的价格能不能让我把成功样例跑成规模,而不只是做 demo。

在这几个问题上,GPT-5.4 是目前最完整的答案之一。OpenAI 这次最强的不是某一个点,而是整张能力面足够整齐。它在官方页里被描述为首个具备原生通用 computer-use 能力的主线推理模型,这件事很重要,因为它意味着 OpenAI 已经不再把“computer use”当作附属实验,而是在把它并入主型号能力本体。

更现实的一点是价格。GPT-5.4 的输入 2.50 美元 / MTok,输出 15 美元 / MTok,比 Opus 4.6 便宜很多,但又不像 mini 系列那样明显是性能换成本。对于多数企业团队来说,这个价格带非常适合作为主力层,而不是只在特殊场景才敢开。

GPT-5.4 的不足也要讲清楚。

第一,它在输入模态上没有 Gemini 3.1 Pro 那么宽。公开模型页显示 GPT-5.4 支持文本和图像输入,但音频、视频并不支持。对很多通用 agent 来说这没问题,但如果你的产品本来就 heavily multimodal,Google 的路线会显得更自然。

第二,它虽然非常强,但它的 benchmark 叙事更偏“OpenAI 认为未来重要的工作流”,比如 computer use、tool use、professional workflows。这对开发者很有价值,但如果你只盯着纯 reasoning 榜单,它未必会给你那种“碾压所有人”的观感。

第三,它越像主力生产模型,你越容易忘记它仍然是 frontier model。也就是说,强工具能力并不自动等于可以放飞自我。真正成熟的用法仍然需要审批、确认策略、监控和安全边界。

如果只用一句话概括 GPT-5.4,我会说:它可能不是气质最极端的那一个,但它是目前最像“拿来就能成为团队主型号”的那一个。

Gemini 3.1 为什么不能只当“顺带评测”

如果你还是把 Gemini 3.1 Pro 当作这篇文章里的配角,那大概率会低估 Google 这轮更新。

Gemini 3.1 Pro 最值得警惕的地方,是它开始把“很强的 reasoning”“很宽的多模态输入”和“还不错的 agent 指向性”放在同一个模型里。官方 model card 写得很直白:它是 Google 当前最先进的复杂任务模型,支持文本、图像、音频、视频和 PDF 输入,1M 上下文,64K 输出,并且特别强调 advanced coding、agentic performance、long context understanding、multimodal understanding。

Google 官方 benchmark 表对 Gemini 3.1 Pro 的自信也相当强。它在 ARC-AGI-2 上做到 77.1%,在 GPQA Diamond 上达到 94.3%,在 Terminal-Bench 2.0 上是 68.5%,在 MCP Atlas 上 69.2%,在 BrowseComp 上 85.9%,在 APEX-Agents 上 33.5%。你可以质疑不同 benchmark 的可比性,但很难否认一件事:Google 这次不是只把 Gemini 3 Pro 补齐了一点边角料,而是明显把上限又往前推了一截。

Gemini 3.1 Pro 的吸引力主要来自三点。

第一,多模态输入最完整。对于要处理语音、视频、PDF、图片和文本混合输入的团队,它天然比 GPT-5.4 和 Opus 4.6 更顺手。

第二,价格很有攻击性。2 / 12 的标准价格,至少在账面上足以让很多团队认真重新算账。

第三,它开始显露出比过去更强的 agent 化野心。无论是 Google Blog 里对 complex tasks 和 agentic workflows 的强调,还是它在 MCP Atlas、BrowseComp、APEX-Agents 这些更接近真实工作流的指标上的表现,都说明 Gemini 已经不只是“会做题的模型”。

但 Gemini 3.1 Pro 的问题也很清楚。

它仍然是 Preview。这个状态本身就意味着,如果你是大团队、强 SLA、严格变更流程,你要额外考虑接口变化、行为稳定性、限额策略和部署策略。再强的模型,只要版本和行为还在高频变化,它就更像前沿试验机,而不是默认主力。

另外,Google 这几年在“研究感很强”和“工程感很稳”之间一直来回切换。Gemini 3.1 Pro 现在已经明显把前者做出来了,但后者能不能在开发者心智里完全立住,还需要时间。

所以我对 Gemini 3.1 Pro 的结论是:

  • 它绝对不是顺带看看。
  • 它已经值得进入正式选型。
  • 但它更适合“敢于吃 Preview 红利”的团队,而不是所有团队的默认主线。

如果只看 Agent 能力,三家其实在打三场不同的仗

现在前沿模型的关键分歧,不是有没有 agent 能力,而是谁把 agent 理解成什么。

OpenAI 把 agent 当作工具调用、computer use、搜索、文件、shell、patch、MCP、tool search 都被统一收口后的开发平台能力。所以 GPT-5.4 的最大优势不是“会不会用工具”,而是“整套工具生态已经被平台化”。这对开发者很重要,因为它显著降低了你把模型拉进复杂 workflow 的摩擦成本。

Anthropic 把 agent 更理解为“长时间自主工作”。从 Claude Code 到上下文工程,再到 Opus 4.6 的自适应思考和长任务执行风格,Anthropic 的强项始终不是功能表最花,而是让模型在高复杂度任务里持续做正确的事,或者至少持续逼近正确的事。

Google 则更像在把 agent 建立在多模态推理和大上下文之上。Gemini 3.1 Pro 的强项不是“某个工具接口最成熟”,而是它天然更适合处理更复杂、更杂糅的输入世界。对于信息源极其混杂的复杂任务,这条路线会越来越重要。

所以如果你问“谁的 agent 更强”,我的回答不会是一个绝对排名,而是:

  • 要最完整的产品化 agent 栈,选 GPT-5.4。
  • 要最像高级自主执行者的 agent,选 Opus 4.6。
  • 要最宽输入面、最强多模态推理底盘的 agent,选 Gemini 3.1 Pro。

安全与可控性:2026 年真正拉开差距的,不是聪明,而是敢不敢交给它做事

前沿模型现在都很强,真正让团队睡得着觉的,是它们在“敢不敢交给它做事”上的差异。

OpenAI 对 GPT-5.4 的表述很明显:它已经在 computer use、agentic workflows 上进入实战路线,而且官方明确谈到了 confirmation policies、computer-use best practices、cyber safety stack 等部署问题。这意味着 OpenAI 对它的定位不是“你拿来试试看”,而是“你真的会用它去操作系统和软件环境,所以要按生产风险管理它”。

Anthropic 则更坦诚地承认了 Opus 4.6 的两面性。一方面,它被部署在 ASL-3 标准下,而且 Anthropic 明确写到它在多数安全与对齐评估上表现很强;另一方面,Anthropic 也直说它在 coding 和 computer-use 环境里会有过度积极的问题。这种披露方式其实很有价值,因为它提醒团队:高能力 agent 真正的风险从来不只是回答错,而是“它可能很有行动力,而且动作比你预期更快”。

Google 在 Gemini 3.1 Pro 的 model card 里,则把 Frontier Safety Framework 讲得比较完整。它明确写到模型在 CBRN、cyber、harmful manipulation、ML R&D、misalignment 等维度做了评估,当前没有跨过 CCL,但 cyber 能力的警戒阈值仍然是 Google 重点盯防的方向。这个信息的意思不是“Gemini 不安全”,而是 Google 很清楚多模态强模型的边界正在逼近更高风险区。

真正落到企业选型时,我会把这三家的安全可控性理解成:

  • GPT-5.4:更适合做被治理、被平台化的 agent。
  • Opus 4.6:更适合做高能力但必须强约束的 agent。
  • Gemini 3.1 Pro:更适合做强探索型、多模态复杂 agent,但治理成熟度要自己补更多。

如果你真要选型,我会怎么给建议

真正的选型不应该是“谁总分第一”,而是“你的业务最怕什么、最缺什么”。

如果你是做企业 agent、内部工具、coding assistant、工作流自动化,而且希望尽快进生产,我会优先建议 GPT-5.4。原因不是它在所有榜单都第一,而是它在模型能力、工具完整性、上下文长度、价格和产品成熟度之间平衡得最好。

如果你是做高价值知识工作,尤其是复杂 coding、深度研究、长时间规划和多步执行,而且你的任务单价高、失败代价也高,我会认真考虑 Opus 4.6。它仍然是最像“高级专家”的模型,但你必须搭配审批、日志和治理,不然它的行动倾向会反过来变成风险。

如果你做的是强多模态、强长上下文、强复杂输入的工作流,或者你希望提前押注下一轮前沿红利,我会把 Gemini 3.1 Pro 放进第一梯队候选,而不是备胎。尤其是在需要视频、音频、PDF 和复杂文档一起进入同一条推理链路的时候,Google 的路线确实更顺。

如果按场景直接给建议,我会简化成下面四条:

  • 企业主力模型、默认生产首选:GPT-5.4
  • 高难编码、深度研究、长任务自治:Opus 4.6
  • 多模态复杂输入、前沿探索、Preview 红利:Gemini 3.1 Pro
  • 预算极敏感但还想保留旗舰感:先试 Gemini 3.1 Pro,再和 GPT-5.4 做 A/B

补充:筛过水分之后,最值得看的外部 Top 5 评测

如果只看厂商自己的发布页,你很容易得出一个过于干净、过于整齐的结论。但真正做选型时,外部评测反而更重要,因为它们会暴露三个官方材料不太愿意正面展开的现实:第一,不同 benchmark 的可比性越来越差;第二,模型风格差异已经大到会直接影响工作流设计;第三,很多模型强弱不是“更聪明”这么简单,而是“在什么任务结构里更聪明”。

我这里额外筛了一轮外部来源,只保留五类我认为对选型真正有帮助的参考。筛选标准也很简单:长期跟踪模型演进、公开方法或任务设计、能解释失败模式,而不是只搬运厂商 PPT。需要先说明一点,国内真正对这三款最新模型做系统独立横评的材料,比国外少很多,所以中文来源我只保留了两个相对有方法感的补充信号,而且不会把它们当成主判据。

为了避免把外部材料都当成同一种证据,我这里先用三档标准做筛选:

  • 高:长期独立评测机构或一线开发者,方法较透明,可解释失败模式。
  • 中高:有真实任务和多轮复测,但样本量更偏场景化。
  • 中:有实测或企业反馈,但仍混有较多官方口径,适合作补充信号。

第一名,我会给 Artificial Analysis,可信度是高。这家机构现在最有价值的地方,不是又做了一个总榜,而是它把智能、价格、输出速度、token 消耗和 agentic eval 放在一起看。它在 2026 年 2 月 19 日的文章里把 Gemini 3.1 Pro Preview 放到 Artificial Analysis Intelligence Index 第一,写的是 57 分,领先当时的 Opus 4.6 四分,而且跑完整套指数的成本不到 892 美元,不到 Opus 4.6 和 GPT-5.2 同等级配置的一半。更关键的是,它明确指出 Gemini 3.1 Pro 在 10 个子评测里领跑 6 个,包括 Terminal-Bench Hard、SciCode、GPQA-Diamond、Humanity’s Last Exam 和 CritPt。与此同时,它在 2026 年 2 月 7 日关于 Opus 4.6 的文章里又给出另一个关键结论:Opus 4.6 虽然不再是总榜唯一王者,但在 GDPval-AA 这类更接近真实知识工作的 agentic 任务上仍然领先,而且在 CritPT 研究级物理题和 general agentic work 上有非常强的表现。到了 2026 年 3 月 5 日之后,Artificial Analysis 又把 GPT-5.4 提到 57 分,与 Gemini 3.1 Pro 基本并列,同时给出 74 token/s 的速度和较高 verbosity。把这三页拼起来看,最有价值的结论不是谁绝对第一,而是:Gemini 3.1 Pro 在智力/价格比上最凶,Opus 4.6 在高价值 agentic work 上仍很硬,GPT-5.4 则把高智能、较快速度和生产可用性拉到了一个很平衡的位置。

第二名,我会给 Simon Willison,可信度是高,但适用范围更偏开发者体验。Simon 的长处不在于做超大样本 benchmark,而在于他是少数既长期亲自使用模型、又能把 API、产品形态和开发者实际摩擦讲清楚的人。在他 2026 年 3 月 5 日写 GPT-5.4 的文章,以及 3 月 11 日的进一步观察里,他最重要的结论有两个。第一个结论是,benchmark 现在越来越难直接告诉你“哪家最好”,因为前沿模型之间的差异已经从智商差距,变成了风格、意图理解和工作方式差异。第二个结论是,GPT-5.4 相比 GPT-5.2 是一次“substantial upgrade”,但如果你真的在比较 GPT-5.4、Opus 4.6 和 Gemini 3.1 Pro,他的建议不是盲信排行榜,而是至少在自己的问题集上同时跑一段时间,尤其是复杂问题最好让 GPT-5.4 和 Opus 4.6 双跑。这个建议非常实用,因为它提醒团队:今天的选型已经不能只看单模型绝对胜负,而要看你是否愿意做 routing、fallback 和双模型验证。

第三名,我会给 Every 团队,可信度是中高,尤其适合参考 coding 和长任务执行。它的价值在于没有停留在传统代码 benchmark,而是自己做了更接近真实软件工程的任务评测。Kieran Klaassen 的 LFG benchmark 用四类实际项目任务测试模型,包括 React 落地页、Three.js 3D 场景、Streamlit 财报 dashboard 和一个完整电商站。它把 Claude Opus 4.6、Gemini 3 Pro、GPT-5.2 Codex、GPT-5.3 Codex 等放在一起,结论非常值得重视:在开放式、需要自主探索和补全上下文的任务里,Opus 4.6 原始得分更高、首次成功率大约是 Codex 的两倍,而且一致性更强;但在规格明确、文档清晰、执行型更强的任务里,GPT 线路能靠更高速度和更强 spec execution 追平甚至反超。到了 GPT-5.4 那篇 follow-up,Every 团队又明确表示 GPT-5.4 在代码审查、日常 coding 和 OpenClaws 工作流里已经变成他们更常用的默认模型之一,原因不是它一定最强,而是它比 Opus 4.6 便宜一半,同时“好用得多”。如果把 Every 的结论翻译成选型语言,那就是:任务越开放、越需要模型自己去猜你的真正意图,越该看 Opus;任务越规格化、越强调交付速度和日常可用性,GPT-5.4 越占便宜。

第四名,我会给 AiPy 的第六期大模型适配度测评,可信度是中。这不是最标准的纯 benchmark 机构,但它比很多中文“评测文”靠谱的地方在于,至少公开了样本量、任务类型和失败原因。它这一期用了 50 个测试用例、18 种任务类型、实际交互时长超过 105 小时、消耗 8500 万 token。虽然它测的还不是这次的 GPT-5.4 与 Opus 4.6,而是上一代 GPT-5.2、Opus 4.5 和 Gemini 3 Pro,但对中文场景、复杂工具链和本地工作流仍然有很强参考意义。AiPy 给出的结果是:Gemini 3 Pro 以 90% 成功率排第一,平均 74822 token、247 秒;Claude Opus 4.5 以 88% 排第二,但执行效率最高,平均 190 秒;GPT-5.2 只有 66%,平均 343 秒。更重要的是,AiPy 不只报分,还解释失败原因,比如 GPT-5.2 常见问题是“只规划不推进”和中文乱码较多。这种结论不能直接替代对 GPT-5.4 的判断,但它会强化一个趋势:在中文、本地工具链和复杂任务执行的组合场景里,Google 和 Anthropic 在过去一段时间里确实比 OpenAI 更稳,GPT-5.4 是否补回这一差距,需要你自己做中文工作流回归测试。

第五名,我会给极客公园,可信度是中。它不是纯 benchmark 机构,所以我不会把它当成第一手性能判据,但它在产品化和企业落地层面的观察依然有价值。它关于 GPT-5.4 的那篇文章里,最值得看的不是又列了哪些官方分数,而是两个来自真实使用环境的信号:一是 Walleye Capital 的内部测试说 GPT-5.4 在 Excel 财务模型评估里把准确度提升了 30 个百分点;二是 Mercor CEO 直接把它称为“他们测试过的最好模型”,特别提到长周期任务、幻灯片制作、财务建模和法律分析。与此同时,极客公园也没有完全被发布会带着走,它引用了爱丁堡大学 Jeff Dalton 的提醒:当前公开演示仍然缺少足够详细的独立评估证据来支撑宏大叙事。这个组合信息的价值在于,它把 GPT-5.4 的真实卖点和真实风险放在一起了。卖点是它非常适合嵌入企业工作流;风险是第三方独立验证还没完全跟上。

把这五类外部信号综合起来,我会把选型建议再收束一次,而且这次比正文前面的结论更偏“实战”。

  • 如果你是大多数企业团队,要一个默认主力模型,外部评测最支持的答案仍然是 GPT-5.4,但前提是你真的看重 agent 平台能力、computer use、工具整合和较好的价格性能比,而不是只盯某张 reasoning 榜。
  • 如果你的任务更像开放式 coding、复杂重构、模糊问题求解和长时间自治执行,那么外部 hands-on 评测比官方榜单更偏向 Opus 4.6,尤其是 Every 和 Simon 这一类开发者视角信号,会反复把它推回第一梯队。
  • 如果你对价格很敏感,又想要最强的推理/多模态上限,Artificial Analysis 和 AiPy 这类来源会更支持 Gemini 3.1 Pro,因为它在很多公开和半公开场景里都展示出极高的 intelligence-per-dollar。
  • 如果你的任务主要跑在中文、本地工具链和复杂自动化脚本里,不要只看官方英文 benchmark,最好专门补一组中文回归测试,因为这正是外部评测里最容易分出真差距的地方。

真正有帮助的外部评测,从来不是帮你选出一个“宇宙最强模型”,而是帮你确认:你到底是在买推理上限、任务完成率、产品化成熟度,还是预算效率。把这个问题问清楚之后,Top 5 外部信号和前文的官方资料,其实已经在指向同一个答案了。

最后的判断:2026 年这一轮,赢的不是“最聪明”,而是“最能进入工作流”

如果把这篇文章压缩成最后一个判断,我会这样收束。

Opus 4.6 还是那个最容易让人产生“这像个高级专家”的模型。它在复杂任务、持续执行、深度编码和高阶知识工作上的气质没有丢,反而因为价格回落、1M beta 长上下文和 128K 输出而更像真正可部署的旗舰。

GPT-5.4 则是这一轮里最像“默认主力”的模型。OpenAI 这次真正厉害的不是单点爆发,而是把 frontier intelligence、computer use 和 agent 平台能力做成了一整块可以直接接入生产系统的底盘。对大多数团队来说,这种完整性比单项第一更重要。

Gemini 3.1 Pro 是最不能再被轻视的变量。它仍然处于 Preview,但它已经不只是 Google 阵营里“进步很大”的模型,而是整个前沿通用模型格局里会实打实改变预算分配和技术选型的一股力量。

所以,如果你非要问谁是“2026 年 3 月最强通用模型”,我不会给一个幼稚的单一冠军。我会给三个更有用的答案。

  • 最像主力生产模型的是 GPT-5.4。
  • 最像高压专家模型的是 Opus 4.6。
  • 最像下一轮格局改写者的是 Gemini 3.1 Pro。

真正值得团队关心的,已经不是“哪个模型更会说”,而是“哪个模型更能被安全地塞进真实工作流,并持续把事情做完”。到了这个阶段,模型评测的终点就不再是排行榜,而是交付能力。