把“意识问题”先放回工程现场

Erik Hoel 那篇关于“大语言模型意识证伪”的论文,真正值得认真对待的价值,在于它给工程世界提了一个醒。如果一个系统在部署后是静态的,只能反复执行输入到输出的映射,那么它距离“像一个持续变化的主体那样存在”还有很远。

这并不等于说,未来强 AI 一定要先有意识。恰恰相反,未来三年更现实的问题是:一个 AI 系统要变得更强,到底要先补哪几块短板。把这个问题摊开看,真正关键的变量,未必是参数规模,而更像五条系统架构线。

  • 部署后的持续更新能力
  • 记忆架构
  • 工具闭环与环境反馈
  • 推理时算力分配
  • 可靠性层

如果把今天的大模型看成“会说、会写、会推理”的底座,那么未来更强的 AI,大概率会在这块底座外面长出一套真正能长期工作的系统。

第一条线:部署后的持续更新能力

这条线最接近 Hoel 论文真正刺中的痛点。今天绝大多数大模型在部署后并不会因为一次对话、一次错误、一次真实世界反馈,就改变自己的参数结构。它们可以记住一个会话,可以读更长上下文,可以把历史记录检索回来,但这些都还不是严格意义上的持续学习。

持续更新能力真正要求的是另一件事:系统用过一次之后,内部状态要被经验实质性改写,而且这种改写不能只靠用户重新把历史塞进 prompt。它应该更像一个长期工作的操作员,做过一次故障处置之后,下一次碰到同类问题时,系统本身已经不完全是原来的系统。

这一点难,难在三个地方。

  • 第一,在线更新极易把局部修正变成整体漂移。模型一旦在部署态改权重,就会遇到灾难性遗忘、分布污染和回滚困难。
  • 第二,真实业务环境的反馈很脏。用户点击、任务成败、人工修改、工具报错,这些都不天然等于高质量监督信号。
  • 第三,工程上很难审计。一个随时变化的系统,比一个冻结模型更难解释、更难复盘,也更难做合规。

所以至少到 2026 年 3 月,一个很现实的判断是:头部公司公开押注得更重的,暂时还没有把“部署后持续改权重”放在最前面,而是先把持续变化放在记忆层、工具层和策略层。换句话说,行业已经承认静态系统不够了,但它先选择了比在线再训练更可控的替代路径。

这也是为什么我会把这条线排在第一,却同时说它是未来三年最难跑通、也最稀缺的一条线。谁先把“上线后越用越会做事”这件事做稳,谁就可能真正拉开代际差距。

第二条线:记忆架构

如果持续学习是最难的窄门,那么记忆架构就是今天最现实的过渡路线。很多人把“长上下文”误以为是“长期记忆”,但二者不是一回事。上下文更像临时工作台,记忆则更像可以沉淀、检索、压缩和更新的内部档案系统。

更强的 AI 不会只有一个上下文窗口,而会有分层记忆。

  • 工作记忆,负责当前任务的中间状态、计划和临时变量。
  • 情景记忆,负责保存做过哪些事、犯过哪些错、和谁讨论过什么。
  • 语义记忆,负责沉淀稳定规则、偏好、领域知识和长期策略。

真正拉开差距的,往往不是“能存多少”,而是“知道什么时候写入、什么时候取回、什么时候压缩、什么时候遗忘”。没有遗忘机制的记忆系统,最后只会变成昂贵的垃圾堆;没有写入门槛的记忆系统,则会快速污染自己。

从公开产品动作看,这一层已经开始成为各家公司真正愿意下注的地方。Anthropic 在多智能体研究系统里公开谈到外部 memory、上下文压缩和 handoff;Meta 则把“更懂你、更记得你的偏好、更个性化”直接写进了 Meta AI app 的产品定义。行业正在逐步接受一个事实:比起让模型“全都记住”,更重要的是让系统形成可管理的记忆结构。

对产品团队来说,这条线的直接含义是,未来 AI 的竞争不只是谁回答得更像人,而是谁能在长期交互里形成更稳定的用户模型、任务模型和环境模型。

第三条线:工具闭环与环境反馈

静态聊天模型最大的局限,不在于它不会说,而在于它说完就结束了。更强的 AI 则要进入环境,拿到反馈,再根据反馈继续行动。这里的“环境”既可以是浏览器、终端、数据库,也可以是 CRM、工单系统、搜索接口、地图、企业知识库和真实世界设备。

一旦进入工具闭环,AI 的能力边界会发生质变。它不再只是“给建议”,而是能执行、检查、修正、重试、交接。过去我们更关心回答本身,现在则要开始关心这套系统能否在 10 步、20 步甚至更长链路里保持方向感。

这条线的重要性至少体现在四个方面。

  • 第一,能力从语言迁移到行动。很多看起来相似的模型,一接入真实工具和权限边界,差距会立刻拉开。
  • 第二,环境反馈能抑制幻觉。系统不只是生成一个答案,而是拿真实搜索结果、代码执行结果、页面状态和外部 API 回执来修正自己。
  • 第三,任务价值显著上升。能写邮件和能完成一整段报销流、工单流、代码修复流,完全不是一回事。
  • 第四,产品护城河开始外移。真正有价值的资产不只在模型里,还在工具接入、权限体系、连接器、工作流和业务数据映射里。

OpenAI 的 Responses API、Google 的 Gemini API 内建工具和 Google AI Studio 全栈工作流、Anthropic 围绕 Claude Code 与 MCP 的连接方式,本质都在指向同一个方向:模型必须被接进世界,才能从“像个助手”变成“像个系统”。

第四条线:推理时算力分配

过去讨论模型时,大家更熟悉训练时算力。未来三年,推理时算力会越来越像产品能力本身。一个强系统并不是每次都同样“认真地想”,而是会根据任务难度、风险和价值,决定要不要停下来思考、要不要调更多工具、要不要分给子代理、要不要重试。

这条线真正解决的是两个问题。

  • 第一,如何把更多 token 和更多步骤花在值得的地方。
  • 第二,如何避免把所有任务都做成高成本、低响应的“全力模式”。

Anthropic 在多智能体研究系统里非常直白地写过,多智能体很多时候之所以有效,是因为它们能把更多 token 花在问题上;Google 也在 Gemini 3 API 更新里把 thinking_level 明确做成了开发者可控参数;OpenAI 则在 Responses API 和 Codex app 里持续把多轮工具调用、长任务、并行 agent 和 tracing 串成一体。大家都在承认一件事:未来强 AI 不只是“更聪明的模型”,而是“更会花推理预算的系统”。

这条线很关键,因为它会直接决定 AI 能不能进入更高价值的任务。廉价、快速的一次性回复,适合问答;而真正昂贵但更可靠的多步推理,才适合研究、编程、复杂检索、流程自动化和企业决策支持。

换句话说,未来的核心问题会变成:系统知不知道什么时候值得多想一点。

第五条线:可靠性层

只要 AI 从“会回答”走向“会行动”,可靠性层就会从附属组件变成主系统的一部分。很多团队还习惯把 eval、tracing、权限、回滚、审计、人工接管当成上线前补一下的安全带,但未来它们更像底盘,而不是外挂。

可靠性层至少包括五类东西。

  • 评测层,用来判断系统到底有没有因为新工具、新提示、新记忆策略而变好。
  • 观测层,用来追踪模型调用、工具链路、失败节点和重试路径。
  • 权限层,用来限制哪些动作能自动做,哪些必须交给人。
  • 回滚层,用来在错误扩散前止损,把系统拉回稳定状态。
  • 治理层,用来处理企业级审计、数据边界、合规要求和团队协作。

Anthropic 近一年公开内容里,对 evals、secure autonomy、tool design 的强调很明显;Google 在 Gemini Enterprise 和 Agentspace 里反复把 connectors、governance、permissions-aware access、security 放在中心;OpenAI 也在 agent building 与 Codex 的表述里把 tracing、evaluations、sandboxing 直接写进平台能力。这说明行业已经不再把“可靠”理解成模型少说错一句话,而是系统是否能被组织化地信任。

谁先把可靠性层做成标准件,谁就更容易把 AI 从 demo 推进到真实生产。

这五条线会收敛成一套新栈

单独看每一条,都像一个局部能力;合起来看,它们其实更像一套下一代 AI 系统栈。

  • 持续更新能力,决定系统能不能真正越用越强。
  • 记忆架构,决定系统如何保存经验,而不是只反复读历史。
  • 工具闭环,决定系统能不能进入环境拿反馈。
  • 推理预算分配,决定系统能不能把算力花在高价值步骤上。
  • 可靠性层,决定系统能不能在组织里被长期使用。

把这五条线串起来之后,未来更强 AI 的形态会开始清晰。它不会只是一个更大的聊天框,而会更像“基础模型 + 分层记忆 + 工具运行时 + 可控推理预算 + 可靠性底盘”构成的长期工作系统。

这也是为什么我会说,意识在短中期不是更强 AI 的前置条件。对能力增长来说,真正紧迫的是这套系统栈能否成形。意识也许终有一天会重新变得重要,但在能力工程的时间线上,它并不是最先要解决的问题。

如果按这五条变量看,OpenAI、Anthropic、Google、Meta 目前各自最像押注了哪一条

先说一个总判断。到 2026 年 3 月为止,四家里没有任何一家公开把“部署后持续改权重”做成了主轴产品。行业正在认真往“系统会持续变化”这件事靠近,但主要方法仍然是记忆、外部状态、工具闭环和更强的运行时,而不是直接把在线学习放进公开产品中心。

所以,如果一定要把四家放进这五条变量里,更准确的做法不是硬给唯一答案,而是找出“它目前最像押注的主变量”。

OpenAI:最像押注第 4 条,推理时算力分配;第 3 条是紧邻支撑

OpenAI 这条线最明显的特征,是它正在把“多轮工具调用、长任务、并行 agent、追踪与评测”合成一个运行时问题。Responses API 把工具调用、搜索、文件检索、computer use 和 tracing 串在一起;Codex app 则进一步把多 agent 并行、技能、自动化和长时间监督变成产品表面。

这意味着 OpenAI 最像在押注两件事。

  • 第一,系统要能决定什么时候继续想、什么时候继续做、什么时候调用更多工具。
  • 第二,复杂任务需要一个能协调推理预算和任务拆分的上层运行时。

如果把这家公司最近一年的公开动作连起来看,它更像是在建设“agent runtime”而不只是“更强模型”。所以在这五条线里,我会把 OpenAI 首先放到第 4 条,其次才是第 3 条。

Anthropic:最像押注第 5 条,可靠性层;第 3 条是方法论支点

Anthropic 的风格和 OpenAI 很不一样。它公开内容里最稳定的一条主线,并不是把 agent 做得最花哨,而是反复强调简单可组合模式、工具设计、上下文工程、评测、权限与安全自治。Claude Code、MCP、Building Effective Agents、以及后续一系列工程文章,其实都在把“怎么让 agent 可信地工作”放在第一位。

所以我会把 Anthropic 的主变量判断为第 5 条。它最像押注的是:AI 要想真正进入生产,先把接口、评测、权限、安全和失败恢复做扎实。

第 3 条对 Anthropic 当然也很重要,但它处理工具闭环的方式更接近“先把连接方式、上下文边界和安全约束做成清晰协议”。这就是为什么 MCP 对它来说不只是生态动作,更像可靠性层的一部分。

Google:最像押注第 3 条,工具闭环与环境反馈;第 5 条在企业侧非常重

Google 这条线最清晰,因为它几乎把“进入环境”这件事拆成了一整套产品层。Gemini API 内建搜索、地图、URL context、code execution、computer use;Google AI Studio 正在把原型、代码、部署和云资源往一条链上收;Agentspace 及其后续并入 Gemini Enterprise,则把连接器、权限感知访问、企业数据接入和 no-code agent builder 明确摆到台前。

这说明 Google 的核心押注非常像第 3 条。它希望模型从孤立回答问题,走向直接连到企业环境、开发环境和多模态工作流里。Google 最强的地方,在于它既有模型层,又有云、搜索、地图、Workspace 和企业连接器,所以它天然更适合把 AI 接进真实世界。

但 Google 还有一个很重的副变量,就是第 5 条。因为一旦进入企业和组织环境,governance、permissions、data boundary、security 就会立刻成为主战场。Google 对第 3 条的押注,本质上是建立在第 5 条之上的。

Meta:在这五条里最像押注第 2 条,记忆架构;但它真正的大战略在五条之外

如果非要把 Meta 塞进这五条变量里,我会选第 2 条。原因不在于 Meta 已经做出了最强的 agent memory,而在于它在公开产品叙事里最明确押注的是“个性化”。Meta AI app 上线时直接写明,它要“了解你的偏好、记住上下文、对你更个性化”;年初关于 personalized assistant 的文章也在反复讲记忆、偏好和跨产品连续性。

所以在用户表层产品上,Meta 最像在押注“记忆如何变成个性化体验”,而不是“agent 如何深入企业工具链”。

但如果把 Meta 放到更大的竞争图里看,它真正的大战略其实不完全落在这五条里,而是在它们下面一层。

  • 一层是开放权重与生态分发。Llama 的下载量、政府与企业采用、区域生态扶持,说明 Meta 仍然把“让更多人基于 Llama 去构建”当成核心打法。
  • 一层是基础设施规模。无论是大规模 GPU 合作,还是围绕 personal AI 和 open model 的双线布局,本质都在为更广的生态渗透做准备。

所以对 Meta 最准确的判断是:如果只看产品表面,它最像押注第 2 条;如果看公司级策略,它更像在押注“开放底座 + 分发 + 基础设施”,这已经有点超出本文这五条变量本身。

接下来最值得盯的,是谁更像系统

把这几家公司放在一起之后,会看到一个很清晰的分化。

  • OpenAI 更像在做强运行时,争的是复杂任务里的推理预算与编排权。
  • Anthropic 更像在做强底盘,争的是 agent 的可控性、接口清晰度和可靠进入生产的能力。
  • Google 更像在做强环境闭环,争的是模型如何原生连接企业工具、云和多模态工作流。
  • Meta 更像在做强个体化入口与开放生态,争的是 personal AI 的用户面和 Llama 的分发面。

真正值得持续观察的,是这四条路线会不会在未来两三年重新汇合。因为一旦记忆层、工具层、推理预算和可靠性层开始互相补齐,行业就会从“谁家模型更强”进一步转向“谁家系统更完整”。

而这,可能才是比意识争论更快到来的分水岭。