一次请求不再等于一次调用

传统聊天产品里,用户问一句,模型答一句,成本大致可以按输入输出 token 理解。Agent 产品不同。一个用户目标可能变成计划、检索、工具调用、结果检查、二次调用和人工确认。

这意味着产品经理看到的是一个按钮,基础设施看到的是一串推理流程。每个 step 都可能增加上下文、等待外部系统、触发重试。

容量问题会进入产品体验

当 Agent 任务变长,容量不再只是后台问题。用户会感知排队、等待、超时、局部失败和预算提醒。团队也会问:为什么这个任务花了这么久,为什么这个项目成本更高。

所以 Agent 产品需要把容量账产品化。它至少要能解释当前任务用了多少模型调用、多少工具调用、哪些步骤重试过、哪里等待外部系统。

OpenTelemetry 让事件有了共同语言

OpenTelemetry 的 GenAI 语义约定说明,行业正在尝试给模型请求、响应、工具调用和相关事件建立可观测语言。这个方向很关键,因为没有共同事件结构,任务级成本就很难比较。

Agent 产品不一定第一天就完整接入所有标准,但应该从一开始保留 step、tool、model、duration、tokens、error 这些字段。

成本解释会变成信任问题

企业不是不能为 Agent 付费,而是不能接受说不清的钱。一个任务为什么贵,贵在哪里,是否值得重跑,能不能降低精度或减少工具调用,这些都需要解释。

当 Agent 从玩具进入生产,成本解释本身就是产品能力。能把容量账讲清楚的团队,会比只展示神奇结果的团队更容易被企业长期采用。