先别把协作问题看成提示词问题
很多人一开始用 Agent,最容易走偏的地方,是默认问题出在“提示词还不够细”。任务没做好,就继续补限制;结果不稳定,就继续补格式;模型跑偏了,就继续加说明。这样当然有时有效,但它解决的多半只是表达问题,不一定解决能力问题。
更有用的顺序是先问一句:这件事到底落不落在它的能力边界内?协作质量的核心,不是谁更会写 prompt,而是任务需求和 Agent 能力是否匹配。
能力边界怎么看
我通常会从四件事判断。
- 模型本身有没有足够的知识储备
- 这件事需要的推理复杂度高不高
- Agent 能不能在较长过程里稳定维持上下文
- 外部世界里的信息是否可获得、可验证、可低成本试错
如果这四项里前三项都一般,最后一项还很差,那基本就别指望靠精细控制硬扛。相反,如果模型基本功扎实、认知复杂度不高、外部资料虽然难找但质量不错,这类任务往往仍然可以放手让它自己跑。
控制强度怎么定
我自己的原则一直很简单:先判断能力覆盖度,再决定控制强度。
- 能覆盖,就放手。给目标、边界、验收标准,让它自己展开。
- 部分覆盖,就补足。补背景事实、术语、样例、禁止项、验证方式、现成入口。
- 覆盖不了,就拆解。不要继续细控,要把任务改造成多个可验证、可回滚的小任务。
很多时候,问题根本不是“它不听话”,而是你把不该交给它的东西也一起交过去了。
人和 Agent 各负责什么
人最值钱的地方,不是替 Agent 多做执行,而是负责那些目前仍然更适合由人稳定承担的部分:边界判断、优先级判断、验收标准,以及在连续失败后重构任务本身。
Agent 更适合另一类工作:展开任务、搜索和整理资料、执行明确边界内的操作、在局部失败后继续有限试错。它在重复性动作上的耐心和成本结构,通常都比人更好。
所以常见的错误,不是高估 Agent 的执行力,而是把“定义框架”和“在框架里执行”混成了一件事。
真正该补的,常常不是提示词,而是脚手架
很多失败看上去像 Agent 不够聪明,实际只是缺了脚手架。这里的脚手架包括:仓库入口文档、目录职责、标准命令、测试入口、日志入口、样例输入输出、风险检查点和阶段交付格式。
这些东西对熟手来说是隐性经验,但对 Agent 来说,隐性经验就是能力缺口。所以当它反复失败时,更该问的不是“要不要再把要求说细一点”,而是“它缺的是理解,还是缺环境、事实、约束和验证器”。
有些缺口不是补信息能解决的
如果问题只是信息型缺口,比如少一个术语、少一段背景、少一个入口,补信息通常有效。但如果缺口是结构性的,比如任务过大、依赖太复杂、验证代价太高、失败代价太大,那继续细控通常只会越来越累。
这时更好的做法通常是:
- 把“一次完成”改成“分段交付”
- 把“全局正确”改成“先拿局部可验证结果”
- 把开放问题改成有明确输入输出的子任务
- 把高风险动作延后到检查点之后
这不是降级,而是让任务设计重新贴近现实能力。
有时候,最好的动作就是先别打断它
有一类任务很能说明这个问题。它可能超出了模型的现成知识储备,但认知复杂度并不高,外部世界里又确实存在高质量线索。这种任务里,人类最关键的贡献往往不是写很多提示词,而是提前判断:这件事虽然不在它现成会的范围里,但还在它能自己摸出来的范围里。
真实过程通常并不漂亮。它会找错方向,会走弯路,会回来重试。但如果某条支线仍然低风险、试错成本还在预算内,而且没有偏到另一个问题上去,那么不急着打断,往往比立刻接管更值钱。因为一条失败分支除了带来错误结果,也可能带来新的约束、新的排除项和新的搜索方向。
所以更稳妥的做法不是“看到走偏就马上接管”,而是先问三句:风险是否可控,试错成本是否可接受,它是否仍在原任务的认知范围内。若答案大体是肯定的,适度不打断,本身就是协作能力。
真要落地,我会先问这几句
- 这件事最核心的成功标准是什么
- 哪些边界不能碰
- 哪些资料或事实缺了会直接影响结果
- 当前任务更像信息缺口,还是结构性缺口
- 如果失败,代价是否可接受
- 有没有现成脚本、文档、样例、测试可以直接给到
- 最合适的任务粒度是什么
- 哪一步必须人工确认
- 最后用什么方式验收
如果这些问题里有一半都答不上来,那大概率还不该急着让 Agent 大步往前跑。
说到底
这套方法论其实没那么神秘,说到底就三句话:能覆盖,就放手;部分覆盖,就补足;覆盖不了,就拆解。
人类最重要的价值,是把边界、风险、优先级、任务结构和验收标准设计好。Agent 最重要的价值,是在清楚边界内高密度执行、展开、试错和迭代。很多时候,人类最英明的地方,不是多说一句,而是前面判断对了,后面少打断一点。
分享说明
本文按 CC0 方式分享。你可以自由转载、改写、摘编和再发布,不必额外征求许可;文中的案例只保留方法论所需的抽象结构,不对应任何具体敏感对象或内部细节。
更新附注
版本:v1.3 更新日期:2026-03-29 更新原因:压缩正文,收敛到约 10 分钟阅读长度。
还没有评论,你可以写下第一条。