长时间 AI Agent 生产架构蓝图

返回文章列表

技术沉思 AI Agent 软件工程

Feature Essay

长时间 AI Agent 生产架构蓝图

这篇文章偏工程实现，回答的是一个很具体的问题：在真实生产环境里，怎样设计一个长时间运行、可恢复、可验证、可观测、可控成本的 Agent 系统。文章会从默认架构一路落到数据模型和恢复策略。

2026-03-13 18:30 北京时间更新：2026-03-31 19:10 北京时间 22 分钟难度：硬核 Agent 系列

119 阅读 0 点赞

快速答案

如果一个 Agent 要连续运行二十分钟、两小时甚至更久，系统默认该长什么样？这篇文章把分层架构、状态模型、检查点、验证和上线顺序全部拆开讲清楚。

默认架构让 Orchestrator 调度很多短而可验证的小步骤。
这篇蓝图把状态层、检查点和恢复策略写到可落地粒度，并说明恢复边界。
如果要上线，正确顺序先把单 Agent 基座和验证做稳。

先给一个默认答案：生产架构应该长什么样

如果一定要先给一个默认方案，我会把长时间 Agent 拆成七层：Task API、Planner、Orchestrator、Worker Runtime、State and Memory、Verification and Recovery、Observability and Governance。这样分重点是为了把问题放回它该解决的层里。

最关键的部分，重点是 Orchestrator、State 和 Verification。Planner 负责理解目标和拆分任务，但决定系统能不能跑起来、坏了能不能续上、成本会不会失控的，是编排层、状态层和验证层。很多团队第一次做长任务系统时，会本能地把注意力全放在「怎么让 Agent 更聪明」；到了第二版才发现，拖住系统的往往是流程、状态和恢复太薄。

所以这套蓝图的出发点很简单：别指望一个 Agent 从头到尾自己把长链路处理得完美，而要让系统把任务拆成很多短、可控、可回滚的步骤。

Markdown 高层架构图

User / Upstream System
        │
        ▼
Task API / Job UI
        │
        ▼
Planner (strong model)
  - goal understanding
  - decomposition
  - acceptance definition
        │
        ▼
Orchestrator / State Machine
  - scheduling
  - retries
  - checkpoints
  - budgets
        │
 ┌──────┴──────────────┐
 ▼                     ▼
Worker Runtime         Verification / Review
  - tool calls           - tests
  - code changes         - schema checks
  - browser ops          - reviewer LLM
  - API execution        - human gates
        │
        ▼
Artifacts / State / Decision Logs

Planner、Orchestrator、Worker 各自负责什么

Planner 只做高杠杆决策：理解目标、生成任务树、标注依赖、给每个子任务定义验收标准和风险等级。它不应该沉到每一个工具细节里，更不应该自己去执行所有原子操作。

Orchestrator 是系统主心骨。它负责把任务树变成可执行状态机，负责调度 Worker、落 checkpoint、执行重试、控制并发、统计预算、触发审查和决定是否升级给人类。你可以把它理解成一个 workflow engine，而不是一个会思考的 Agent。

Worker 则应该尽可能保持轻：只拿当前子任务、必要约束和少量上下文，执行有限范围内的工具调用，然后返回结构化结果。Worker 不负责全局战略，也不应该看到整个任务历史。

Planner 负责方向和拆解。
Orchestrator 负责流程、状态和预算。
Worker 负责局部执行和结构化回报。

Markdown Planner 输出示例

{
  "goal": "ship feature safely",
  "assumptions": [
    "repository builds successfully",
    "staging credentials exist"
  ],
  "tasks": [
    {
      "task_id": "T1",
      "title": "inspect impacted modules",
      "depends_on": [],
      "tools": ["filesystem", "git", "tests"],
      "acceptance": [
        "changed files identified",
        "risk note recorded"
      ],
      "risk_level": "low",
      "requires_human_approval": false
    }
  ]
}

为什么任务必须拆成短步骤

稳定的长任务，是来自很多短步骤被稳定地串起来。经验上，最稳的执行单元往往是 2 到 15 分钟的人类等价工作量。超过这个尺度，问题会迅速恶化：上下文噪音变多、定位成本变高、失败半径变大。

每个步骤都应该具备五个属性：明确输入、有限工具、结构化输出、可验证的完成条件，以及独立重试能力。如果某一步失败会导致整条链路只能从头重跑，那就说明拆分粒度还不够细。

从系统设计角度看，任务拆细重点是为了让失败变得便宜，让恢复有入口，让观察和统计变得可能。

单步的目标要小到能被 reviewer 或规则验证。
单步失败要小到不需要整条链路重来。
单步输出要结构化到可以进入下一层状态机。

状态层应该保存哪些东西

长时间 Agent 默认是一种有状态系统，所以最关键的重点是状态模型。事务状态适合放数据库，例如任务、运行实例、步骤、尝试次数、审批、预算、验证结果。大对象产物适合放文件系统或对象存储，例如 patch、日志、截图、浏览器录屏和中间 JSON。

除此之外，还有一类经常被低估的信息：决策理由。很多团队会做向量记忆，却不认真做 decision log，结果系统一旦中断，恢复者只能看到「做了什么」，看不到「为什么这样做」。对长任务来说，这会大幅增加重复决策和错误回滚的风险。

所以我的建议是：先做结构化 decision log，再考虑语义检索。没有可靠日志的向量记忆，价值远低于很多团队想象。

Markdown 建议的核心表

tasks
task_runs
steps
step_attempts
checkpoints
artifacts
decisions
approvals
verifications
cost_events

Markdown checkpoint 最小字段

{
  "task_id": "job_123",
  "step_id": "T4",
  "status": "running",
  "inputs_ref": ["artifacts/plan.json"],
  "artifacts_ref": ["artifacts/test_report.json"],
  "decision_log_ref": ["decisions/2026-03-13_001.json"],
  "remaining_budget": {
    "usd": 12.40,
    "input_tokens": 180000,
    "output_tokens": 22000
  },
  "resume_instruction": "Resume from integration test triage; do not rerun completed unit tests."
}

上下文工程应该怎样分层

我更推荐把上下文固定成四层，而不是每次临时拼 prompt。第一层是系统级不变量，例如安全边界、工具权限和输出格式；第二层是任务级上下文，例如目标、成功定义、风险偏好和阶段状态；第三层是子任务级上下文，例如当前步骤目标、依赖输入和验收条件；第四层才是即时工作记忆，例如最近几轮观察、命令输出摘要和待处理异常。

需要高频压缩的，通常只有第四层。前面三层更像制度和地图，第四层才是现场。如果把这四层混在一起，模型很容易把临时现象当成长期约束，把已经失效的观察当成仍然成立的规则。很多「上下文太长」「模型开始绕圈」「任务越跑越飘」的问题，本质上都是现场信息没有被及时收束。

压缩产物也最好别停在一大段自然语言总结上。更稳的做法，是输出结构化摘要，让下一步系统能明确知道已经做了什么、发现了什么、哪些风险还挂着、接下来最合理的动作是什么。

Markdown 压缩摘要示例

{
  "what_was_done": [
    "ran unit tests",
    "updated parser config"
  ],
  "key_findings": [
    "failing suite is isolated to billing module"
  ],
  "open_risks": [
    "database migration not yet validated"
  ],
  "next_best_action": "run migration on staging with dry-run flag"
}

检查点和恢复应该怎么设计

长时间 Agent 默认会失败，所以恢复策略必须分层，而不是只有一种笼统的「重试」。我通常会把恢复分成四层：原地重试、压缩后重试、回滚到上一个 checkpoint、升级给人类。不同失败类型应该落到不同层，而不是一律多跑几遍。

原地重试适用于网络波动、临时限流和瞬时超时；压缩后重试适用于上下文过长和输出漂移；回滚适用于当前状态已经被污染；升级给人类适用于高风险动作前卡住、连续失败超阈值或预算快耗尽。

在生产环境里，最危险的重点是无限重试。没有熔断和升级策略的 Agent，很容易在错误路径上持续烧钱。

进入高风险操作前一定打 checkpoint。
重试必须有退避、上限和升级条件。
恢复说明应当显式写入 checkpoint，而不是只靠历史对话。

Markdown 恢复层级

Level 1: retry in place
  - transient network failure
  - timeout
  - short rate limit

Level 2: retry with compressed context
  - context too long
  - output drift
  - repeated loops

Level 3: rollback to checkpoint
  - state pollution
  - artifact inconsistency
  - bad decision propagation

Level 4: escalate to human
  - high risk action
  - retry threshold exceeded
  - budget near exhaustion

验证防线要做成三层，而不是一句「自测一下」

长任务最怕的重点是假完成。因此验证必须被设计成分层防线。第一层是 deterministic checks，例如 JSON schema、类型检查、lint、单元测试、SQL dry-run、权限校验、文件存在性校验。这一层最便宜，也最值得优先建设。

第二层是 reviewer LLM，用来做语义审查、目标统一检查和关键逻辑复核。它的职责是补上「规则很难完全表达」的那部分灰度判断。第三层则是 human approval，只拦高风险动作，如生产写操作、数据库迁移、删除数据、外发正式内容和权限变更。

一套成熟系统的核心是让不同层级的验证在不同成本点上各司其职。

deterministic checks 先于 LLM review。
LLM reviewer 应该与执行器解耦。
高风险动作必须显式过人。

成本工程不能后补

很多长时间 Agent 重点是成本先炸。长任务的 token 消耗重点是常常随上下文膨胀、评估循环和重试次数一起上升。没有预算系统的 Agent，非常容易在错误路径上花掉远超预期的费用。

所以预算至少应有三层：任务预算、阶段预算和模型预算。任务预算定义单任务最多跑多久、花多少钱、调用多少次模型；阶段预算限制 planning、execution 和 review 各自的消耗；模型预算限制强模型总调用次数，防止每一步都无脑走最贵路径。

此外，缓存、模型路由和工具优先于语言描述，都是很重要的成本优化手段。能直接查数据库就别让模型猜，能直接跑测试就别让模型推测「应该没问题」。

Markdown 预算控制示例

task_budget:
  max_usd: 25
  max_runtime_minutes: 90
  max_model_calls: 80

stage_budget:
  planning: 3 usd
  execution: 16 usd
  review: 6 usd

model_budget:
  strong_model_calls: 8
  cheap_model_calls: 72

最后给一套可以直接执行的规则

如果你今天就要带团队开工，我会更建议从规则开始，而不是从模型开始。规则的作用，是让系统在没有完美智能之前，先拥有合理的边界和可恢复性。

每个任务都写清 goal / constraints / acceptance / budget / rollback。
每个子任务都必须可单独重试。
每个子任务都必须有可验证的完成证据。
所有高风险动作都必须有人类审批。
所有关键动作前后都打 checkpoint。
所有原始工具输出都落盘，模型只看摘要和引用。
默认先做单 Agent，不默认多 Agent。
「完成」必须定义成验证通过，而不是模型自述。

更新附注

版本：v1.1

更新日期：2026-03-31 更新原因：重写开头、上下文分层与工具栈实施顺序，压缩口号化表达，把蓝图从「条目汇总」改得更像一篇可执行的工程说明。

参考来源

还没有评论，你可以写下第一条。

继续阅读

继续读这个系列

这篇属于「Agent 系列」，优先按系列顺序继续往下读。

2026-03-13 20:30 北京时间更新：2026-03-31 07:05 北京时间 16 分钟同属「Agent 系列」

现在做 Agent 产品，最该补哪一层缺口

现在做 Agent 产品，更值得补的是那层把 runtime、审批、回滚和团队规则接进真实工作流的控制层。系统层和平台层都已有强手，组织如何接住 Agent 反而还是空白。

2026-03-13 20:00 北京时间更新：2026-03-31 07:28 北京时间 24 分钟同属「Agent 系列」

平台层争夺战：谁会成为 Agent 基础设施

平台层决定的是 Agent 能不能长期、稳定、可治理地跑起来。眼下最值得看的四条路线，分别是 LangGraph、微软、OpenAI 和 AWS 所代表的平台化方向。

2026-03-13 19:30 北京时间更新：2026-03-31 18:30 北京时间 22 分钟同属「Agent 系列」

做 Agent 系统前，先看懂系统、平台与工具版图

如果你想做的是能承接长任务、异步执行和团队协作的 Agent 产品，动手前先看清系统、平台、工具三层版图。它们解决的问题不同，拿到的入口不同，真正留下的缺口也不同。

同主题延伸

如果你想顺着当前问题继续往下挖，这里优先给相近主题的文章。

2026-03-13 19:00 北京时间更新：2026-03-31 18:30 北京时间 18 分钟同主题：技术沉思等 3 个标签

编辑精选

如果你想从这篇扩出去，这里放最近值得继续看的站内长文。

2026-06-09 08:39 北京时间 8 分钟编辑精选

下一篇 最后一篇

阅读难度

硬核

结构和约束都很重，建议完整时间阅读。

专题

Agent 系列

1. 先给一个默认答案：生产架构应该长什么样
2. Planner、Orchestrator、Worker 各自负责什么
3. 为什么任务必须拆成短步骤
4. 状态层应该保存哪些东西
5. 上下文工程应该怎样分层
6. 检查点和恢复应该怎么设计
7. 验证防线要做成三层，而不是一句「自测一下」
8. 成本工程不能后补
9. 推荐工具栈与实施顺序
10. 最后给一套可以直接执行的规则
11. 更新附注

要点

默认架构让 Orchestrator 调度很多短而可验证的小步骤。
这篇蓝图把状态层、检查点和恢复策略写到可落地粒度，并说明恢复边界。
如果要上线，正确顺序先把单 Agent 基座和验证做稳。

RSS

Subscribe to long-form updates through RSS. Feed timestamps use Beijing time.

Open RSS feed

LLMs

This site also exposes llms.txt and sitemap.xml for model-friendly discovery.

Open llms.txt

长时间 AI Agent 生产架构蓝图

快速答案

先给一个默认答案：生产架构应该长什么样

Planner、Orchestrator、Worker 各自负责什么

为什么任务必须拆成短步骤

状态层应该保存哪些东西

上下文工程应该怎样分层

检查点和恢复应该怎么设计

验证防线要做成三层，而不是一句「自测一下」

成本工程不能后补

推荐工具栈与实施顺序

最后给一套可以直接执行的规则

更新附注

参考来源

评论（0）

继续阅读

继续读这个系列

现在做 Agent 产品，最该补哪一层缺口

平台层争夺战：谁会成为 Agent 基础设施

做 Agent 系统前，先看懂系统、平台与工具版图

同主题延伸

长时间 AI Agent：从研究叙事到生产系统

拆解 AI 工程新词：从概念到落地实践与工具选型

QVeris、LangChain 与 Agent 分层

编辑精选

判断一篇 AI 文章是不是水文的方法

企业采购 Agent 产品先问十个问题

Agent 评测必须回到真实任务链条