04. 测试工程师会更靠近评测与放行规则

返回文章列表

职业发展 AI Agent 软件工程

Feature Essay

04. 测试工程师会更靠近评测与放行规则

很多人会先想到，模型天然擅长生成用例、补单测、跑回归，测试岗位是不是最容易被压缩。但只要 Agent 系统开始长时间运行、调用外部工具，团队就会更需要有人设计 eval、解释失败，并把“是否可放行”从经验判断变成系统能力。

2026-03-19 09:00 北京时间 9 分钟阅读难度：入门岗位重组认知系列

👀 51 阅读 👍 0 点赞

快速答案

测试工程师不会因为 AI 更会生成用例就自然淡出团队，先变化的更像是测试岗位里的重复执行层。越往前走，测试越会靠近评测工程、verifier 设计、安全边界和放行规则。

最先变化的，是机械执行测试这一层，而不是负责质量边界和放行条件的人。
Agent 时代的测试会更靠近 eval、verifier 和失败解释这些工作。
系统一旦开始长时间运行、能调工具、能做外部动作，测试的重要性反而会更明显。

测试总被排进“先变化”名单，但变化的不是最关键那层

外界一提岗位替代，测试工程师总会被排到靠前位置。原因也不难理解。生成用例、补单测、做冒烟、跑回归、汇总差异，这些动作都很适合被脚本化，而大模型进一步增强了脚本化和自动生成的能力。于是很多人顺着这个逻辑继续往前推：既然 AI 已经能生成测试，那测试工程师是不是会比开发更早被吞掉。

这个判断的问题在于，它把测试理解成了“执行用例的人”。可现实里的测试价值，从来不只是执行动作，而是定义质量边界、设计失败样本、解释异常结果、决定是否放行，以及在系统越来越复杂时，替团队看住“哪里最容易出事”。

当系统变成长任务，测试对象也变了

Anthropic 在 eval 文章里把一个核心问题讲得很透：没有评测体系，团队会在迭代中盲飞。OpenAI 在实践指南里也不断强调，要先有任务定义和基线，再谈自动化规模。AWS 的 agentic AI 安全指南则提醒得更直接，输入验证、权限收束和 guardrails 本身就应该被当成系统设计的一部分。

这些信息合在一起，指向的并不是“测试价值下降”，而是“测试对象变了”。以前很多团队测试的是一个页面或一个接口，现在越来越多团队测试的是一条任务链：它会不会误读目标，会不会误调工具，会不会在失败后继续错误执行，会不会在边界模糊时做出不该做的动作。

这已经不是传统意义上“跑一轮功能回归”就能覆盖的问题了。

测试的重心，会慢慢往前移

所以测试工程师真正的变化，不是整体消失，而是职责重心明显左移、也明显变厚。

要学会把自然语言目标压成 eval case，而不是只等开发把功能做完再接手。
要设计 verifier 和 grading 规则，而不是只看页面结果对不对。
要引入异常样本、对抗样本和安全样本，而不是只验证 happy path。
要读 trace、看 tool calls、查失败链路，而不是只盯最终输出。

如果把这个趋势讲得更直白一点，未来更值钱的测试工程师，会越来越像“评测工程师”和“质量系统工程师”的混合体。

哪些测试工作会先变得不一样

最先被压缩的，其实是那些高度重复、上下文要求低、判断空间小的测试环节。

按脚本机械点击页面、重复执行固定流程。
只做格式正确性确认，不参与成功标准设计。
用例长期不维护，只在发布前最后执行一次。
发现问题之后无法定位原因，只能把现象原样转回研发。

这些工作过去也很重要，但它们的共同特点是容易标准化，也容易被 AI 和自动化工具先吃掉。

反过来，更难被替代的测试能力会集中在另外一边：会设计高质量 eval、会补失败样本、会做安全边界校验、会搭 verifier、会解释一次异常到底是模型问题、工具问题还是流程问题。

结尾：测试不会退场，只会更靠近质量系统中心

我的倾向判断是：测试工程师不会先被替代，测试工程师会先被重写成更靠前、更靠系统的一类角色。被压缩的是机械执行层，被放大的则是质量定义、评测设计和失败治理。

所以如果你今天还把测试的核心价值理解成“多跑几轮”，那确实会越来越危险。但如果你开始把自己的位置理解成“替团队定义什么叫通过、什么叫越界、什么叫必须人工接管”，那这轮变化反而会把测试重新抬到软件组织的中轴线上。

更新附注

版本：v1.1

更新日期：2026-04-01 更新原因：重写标题、首屏判断与结尾收束，把文章焦点进一步收拢到“评测、verifier 与放行规则”。

参考来源

这里只有一层：长文 - 评论。可以改昵称，也可以不改；改完之后会在这台设备上记住。

还没有评论，你可以写下第一条。

继续阅读

别把这篇当成终点。这里优先给你系列内延续、同主题扩展和站内值得继续看的文章。

继续读这个系列

这篇属于「岗位重组认知系列」，优先按系列顺序继续往下读。

2026-03-19 09:00 北京时间 10 分钟同属「岗位重组认知系列」

同主题延伸

如果你想顺着当前问题继续往下挖，这里优先给相近主题的文章。

2026-03-19 09:00 北京时间 9 分钟同主题：职业发展等 3 个标签

编辑精选

如果你想从这篇扩出去，这里放最近值得继续看的站内长文。

2026-04-12 10:20 北京时间 12 分钟编辑精选

下一篇 05. 架构师在 Agent 时代，会更像运行时设计者

阅读难度

入门

概念为主，适合快速进入。

专题

岗位重组认知系列

这个系列使用显式顺序维护，不依赖发布时间改动来维持前后关系。

要点

最先变化的，是机械执行测试这一层，而不是负责质量边界和放行条件的人。
Agent 时代的测试会更靠近 eval、verifier 和失败解释这些工作。
系统一旦开始长时间运行、能调工具、能做外部动作，测试的重要性反而会更明显。

RSS

Subscribe to long-form updates through RSS. Feed timestamps use Beijing time.

Open RSS feed

LLMs

This site also exposes llms.txt and sitemap.xml for model-friendly discovery.

Open llms.txt

04. 测试工程师会更靠近评测与放行规则

快速答案

测试总被排进“先变化”名单，但变化的不是最关键那层

当系统变成长任务，测试对象也变了

测试的重心，会慢慢往前移

哪些测试工作会先变得不一样

结尾：测试不会退场，只会更靠近质量系统中心

更新附注

参考来源

评论（0）

继续阅读

继续读这个系列

05. 架构师在 Agent 时代，会更像运行时设计者

06. 项目管理进入 Agent 时代之后，会更像流程编排层

07. 当 Agent 开始读文档，文档会变成运行时上下文

同主题延伸

00｜AI 进入组织之后，8 个岗位会先重排责任链

03. 产品经理在 Agent 时代，会转向成功定义与边界设计

08. AI 工具扩散之后，IT 部门会更像内部 AI 平台

编辑精选

在原生 Windows 上，重搭 AI 编程命令行栈

Hermes 安装指南：macOS 和 Windows 怎么装

01｜论文精选：这一周最值得看的三条判断