拆解 AI 工程新词:从概念到落地实践与工具选型
Prompt、Context、Agentic Workflow、Eval 这些新词不是四种并列技术,而是同一件事的不同切面:把可靠性责任从模型手里一层层夺回到代码手里。这篇把概念、工程原则和工具选型一次讲清。
- 新词的本质是一个问题:把多少可靠性责任从模型手里夺回到代码手里。
技术、行业、人物与 Agent 系统观察。只保留能穿过噪声的材料。
Latest Archive
最近更新。
Prompt、Context、Agentic Workflow、Eval 这些新词不是四种并列技术,而是同一件事的不同切面:把可靠性责任从模型手里一层层夺回到代码手里。这篇把概念、工程原则和工具选型一次讲清。
判断 AI 文章是不是水文,不能只看口号是否刺耳。更稳的办法,是检查事实来源、机制解释、边界条件、反例处理、行动价值、可验证性和读完后的决策增量。
企业采购 Agent 产品时,不能只看演示效果。更该先问身份、权限、日志、成本、数据边界、人工审批、回滚、评测、供应链和退出机制这些控制面问题。
Agent 评测不能只看一次回答是否正确。真实任务链条里还包括目标理解、工具选择、状态恢复、人工交互、成本记录、风险暴露、失败处理和上线条件。
OpenAI、Anthropic 和 Microsoft 都在做 Agent,但控制点并不相同。OpenAI 更靠近开发者工具和运行体验,Anthropic 更强调工程模式,Microsoft 更贴近企业入口和框架整合。
垂直 Agent 如果继续只按席位卖,很容易掩盖真实成本和价值。更合理的起点,是按任务、风险等级、人工兜底、验证成本、失败边界和可交付结果重做定价。
MCP 的价值在于让模型连接工具和数据源,但风险也会从代码包扩展到工具描述、权限声明、服务器身份、版本变更和审查流程。工具描述会成为新的供应链入口。
Agent 把一次用户请求放大成多轮推理、工具等待、上下文增长、追踪事件和失败重试。产品化瓶颈不只是模型能力,而是推理容量和任务级成本解释。
企业治理 Agent 不能只靠原则。AI 资产清单至少要记录 owner、用途、权限、数据类型、模型来源、工具接入、风险等级和复核周期,才能真正进入安全、成本和合规流程。
Copilot code review 这类工具能更早给出结构化反馈,但代码评审的重心不会因此消失。真正缺口在 verifier layer:测试、约束、上下文和责任边界。
长程 Agent 不能只靠一段对话维持执行。真正进入生产后,它需要 job、step、checkpoint、handoff、retry 和 human takeover 这些状态对象。
OWASP Agentic Security Initiative 和 Agentic Skills Top 10 的价值,不只是列风险,而是把 Agent 应用从「模型安全」拉到工具、权限、身份、技能供应链和自主行动边界上。
Git 的核心价值,是让一个项目的每次可靠变化都留下可回退、可比较、可协作的记录。初学者先理解版本快照、暂存区、分支和远程仓库,再学命令会轻松很多。
AMD 现在不是简单的「英伟达二供」故事。Q1 2026 财报、OpenAI 和 Meta 的 6GW 合作、Helios 机架平台和 MI450 路线,说明它正在争取从芯片供应商变成 AI 基础设施平台。
Agent 时代不会让编程语言变得不重要。变化恰好相反:语言会从人的偏好问题,变成 Agent 能否理解、修改、验证、部署和长期维护系统的协作界面。
晚点聊 26Q1 AI 季报把 OpenClaw、Claude Code、OpenAI 和 Anthropic 放在同一张季度图里看。它提醒我们:Agent 的竞争已经不只是模型强弱,而是系统完成任务的能力。
我看好运营商卖 Token 的企业侧影响,不看好它短期变成大众像买流量一样主动购买的消费品。真正机会不在低价词元包,而在把 AI 调用做进企业账单、办公应用、政企服务和成本管理。
小模型有前途,关键价值是把高频、低延迟、隐私敏感和成本敏感的任务从大模型调用里拆出来。单片机 TinyML 当然是真小模型,但不能拿它证明小语言模型也能在所有设备上通用。
cch 真正坑人的地方不在随机字符本身,而在它把客户端归因、缓存命中、网关兼容和第三方 API 成本绑在了一起。对直连用户这可能只是实现细节,对代理、Bedrock、兼容层和企业网关来说,它会变成稳定性问题。
多 Agent 系统的关键在于什么时候转交、转给谁、带着什么上下文转交,以及转交后谁对结果负责。
Agent 沙箱不能只按安全容器理解。影响产品体验的,是它如何准备依赖、挂载仓库、限制网络、保留状态、运行测试,并把结果交还给人。
长程 Agent 不能被当成一条更长的模型调用。生产系统需要 job、step、worker、queue、checkpoint、局部 retry、人工等待和恢复机制。
企业 Agent 不能长期借人的账号和 token 做事。它需要自己的身份、owner、权限边界、委托记录、生命周期和撤销路径,否则自动化越强,责任越模糊。
Agent 产品化的瓶颈不只是模型会不会调用工具,而是一次用户任务会被放大成多轮推理、工具等待、上下文增长、KV cache 迁移、网络传输和电力负载。
MCP 让 Agent 接工具变得更容易,也把工具描述、schema、输出和 scope 变成新的供应链入口。企业不能只问能接多少工具,要问谁能把工具放进模型上下文。
Agent 进生产后,企业要的一条能复盘、能追责、能脱敏、能解释审批边界的执行证据链。
NVIDIA 和 Dell 最近的动作说明,企业 agent 基础设施不只会往云上集中,也会向工作组、本地机房和 deskside 设备下沉。约束开始变成内存、数据位置、网络和交付形态。
最近几篇 Agent memory 论文给出的共同判断很清楚:长期记忆不能只是把历史塞进向量库,而要管理写入、检索、更新、遗忘、调度和成本。
当 Agent 能读凭证、调工具、跨系统执行任务,安全问题就不只在提示词和权限策略。机密计算、远程证明和硬件隔离会重新进入企业 Agent 架构。
金融 Agent 的重要性不在「AI 会不会炒股」,而在它把 pitchbook、KYC、估值复核、月结和审计这类高价值流程做成可安装工作包。垂直 Agent 的落地路径,可能会比通用 Agent 框架更快。
金融 Agent 先落地,因为它有高价值、强流程、强审计和明确交付物。
GUI Agent 的把浏览器、桌面、手机和办公软件变成可观察、可执行、可回放的工作环境。谁能控制屏幕,谁才真正接近用户每天做事的地方。
GUI Agent 的关键变化,重点是浏览器、搜索、桌面和手机正在被重新做成 Agent 的执行环境。
最近的论文和开源项目说明,agent 的瓶颈不只在模型。沙箱回滚、工具 API、源码级自修复、repo memory 和经验共享,正在一起构成新的运行层。
最近几篇论文把 coding agent 的评估问题说得更清楚了:测试通过、PR 合并、终端任务跑完,都只能说明一部分事实。要看的是 agent 有没有投机、有没有越界,以及人类审查到底补了多少洞。
Coding agent 的成本不只在账单里,也在流程里。它能节省写代码的时间,也可能把成本转移到规格、审查、CI、回滚、权限和人类收口上。
企业对 agentic AI 的疑问正在从「能不能替人做事」转向「跑完整个流程后到底省不省钱」。变贵的往往是多轮调用、上下文、返工、审查和预算归因加在一起的真实工时。
AI 编程工具正在从座席订阅走向资源计量。Codex 限流、Copilot AI Credits、代码审查消耗 Actions minutes,说明团队必须开始按任务管理 token、并发、上下文和验证成本。
能调用工具的 Agent 不能再按聊天机器人管理。它会读文件、跑命令、连服务、写数据,安全边界必须放在运行时:权限、隔离、拦截、审计和回滚。
Agent 真正进入生产之后,问题不再只是能不能回答,而是每一步为什么这样做、花了多少成本、调用了什么工具、失败在哪里。可观测性会从辅助日志变成 Agent 平台的核心层。
Skills 把流程、工具、脚本、文件和调用约定打包成可安装资产。Agent 生态的下一层竞争,会落到谁能分发、治理和复用这些能力包。
Agent 安全不能继续只押在提示词上。模型会被外部内容误导,安全设计要限制的是它随后能访问什么、执行什么、改写什么,以及谁能复盘这些动作。
企业开始发现,agent 的成本一项任务从启动、运行、审查、返工到归责的完整工时账。
这一周的信号说明,Coding Agent 的竞争不再只看模型会不会写代码,而是看谁能把沙箱、权限、验证、成本和工作流一起接进企业工程系统。
这一周最值得看的论文,都在把 agent 从演示推回工程约束:沙箱回滚、隐藏测试、PR 结果解释、终端真实任务、越权行为和系统级安全。
一次原生 Windows 命令行整治记录:把 PowerShell、PATH 和 UTF-8 的反复故障,收敛成 Git Bash、rg、sd、jq、yq 与 ast-grep 这一套稳定工具链。
Hermes 不难装。macOS 直接跑官方安装器,Windows 先装 WSL2 再按 Linux 路线装。装完别先闲聊,先用并行读仓库和定时任务两个例子,看看它适不适合你。
Claude Managed Agents 重点是 Anthropic 把 Agent 从模型接口推进到官方运行时平台的一步。重要的变化,重点是 Anthropic 开始接管 session、memory、vault、observability 和 prompt versioning 这一层基础设施。
Anthropic 这次公开的一套正式的运行时抽象。Agent、Environment、Session、Events 这四层一起定义了 Claude Managed Agents 的架构边界,也决定了它更适合长任务、异步执行和托管式运行,而不是完全自定义的 prompt loop。
这条线只看最近 7 天值得工程和产品层继续跟进的 AI 论文,重点判断问题定义、证据强度和落地价值,不做摘要搬运,也不追每天的热点论文名单。
罗福莉批评 OpenClaw,核心是第三方 Agent 框架终于要自己承担长期运行的成本。把官方计费规则、API 价格和 OpenClaw 近期调整放在一起看,她对单位经济的批评基本成立。
需要重构的重点是项目控制层。多窗口同时写文章没有错,问题在于写作、主干集成、部署和恢复过去没有被放进同一套状态机里管理;而且这套控制面现在已经开始落成具体脚本和状态文件。
Hermes 最近热起来,不代表它会直接替代 OpenClaw。两者都挂着 agent 这面旗,但一个更像执行内核,一个更像个人助手入口和控制平面,个人用户与企业用户后面的答案会完全不同。
这页只做导读:告诉你本周 3 篇分别在讲什么,适合谁先读。
GSD2 在管项目,OMX 在管 Codex。两边都能做长任务,但不在同一层:一个更像执行内核,一个更像编排外挂。把它们看成同一层工具,后面基本都会用错。
Karpathy 的 LLM Wiki 之所以引发共鸣,在于它把大模型往「持续整理、持续改写、持续积累」的方向推了一步,也提醒普通人别把知识管理做成新的体力活。
彼得·蒂尔把 AI 利润高度集中于英伟达的现象说破了,但历史上决定硬件霸主寿命的,从来不只是制程和性能,而是它能把标准、生态、兼容性和资本开支周期捏在手里多久。
Cursor 3.0 已经不只是更强一点的 AI IDE。值得比较的,是它如何和 Windsurf、Copilot、Cline 分别走向不同的 agent 路线:控制台、协作编辑器、GitHub 代理系统和开放执行层。
如果你关心的是 Gemma 4 能不能在自己机器上稳定跑起来,而不是排行榜又赢了谁,结论很简单:31B 代表上限,26B A4B 是最值得部署的均衡版本,E4B 和 E2B 则把轻量本地模型推进到了真正可用的一档。
Zig 最近总被拿来讨论「重写旧工具」,因为它把语言、编译器、交叉编译、C 互操作和构建系统捆成了一套更完整的底层工具链,让很多旧原生工具第一次值得重做。
「32TB/s、光纤代替 DRAM、AI 硬件要变天」这串说法的底层算术并不荒唐,但它更像一个顺序流式缓存脑洞,而不是通用内存替代方案。值得追踪的变化,是光互连、CXL 内存池化和 photonic fabric 正在重写内存层级。
到 2026 年 4 月,主流产品已经把推理、工具调用、短期记忆和基础 Agent 形态做成标配,但决定下一代能力上限的几块底盘仍未完成:算力分配、验证器、持续记忆、长时程执行、长上下文工作记忆与可验证推理。
一篇「用 AI 一周办成 700 人大会」的文章之所以好看,是因为它说对了一半。AI 的确能显著压缩策划、写作、整理和沟通型工作,但一个成功案例还远远不够证明「经验已经失效」或「AI 是主要因」。
Oracle 这轮裁员如果只被理解成一家老牌软件公司的缩编,就会错过重点。更准确的看法是:它正在把成熟软件业务挤出的现金、人力和组织空间,强行转投到一场更重资产、更高风险、也更可能改写公司估值逻辑的 AI 云基础设施战役里。
「2028 末世论」并非宗教预言,它来自 Citrini Research 在 2026 年 2 月提出的一套 AI 宏观压力测试:如果白领自动化跑得太快,产出增长反而可能先撞上就业、消费和资产价格的连锁下行。
团队需要的是一套能按风险、可验证性和学习价值来分工的方法。研发协作的关键,不在全信或全禁,而在于给不同任务安排不同的人机关系,让交付、审查和学习都能继续成立。
AI 已经改写了编码、测试和局部修复这些实现层工作,很多团队也真实感受到了提速,但软件复杂性没有一起消失。系统边界、组织协作和长期演化,仍然决定大多数难题。
关于 AI 是否替代软件工程师,真正麻烦的不在答案太极端,关键在于证据来自不同层面。能力、采用、岗位和组织四条线并不总是同向移动,眼下更像一场分层推进,而不是一次整齐替代。
这期播客信息很满,但不同句子的分量并不一样。把官方口径、财报事实、一线体感和前瞻押注分开看,节目里哪些地方站得稳,哪些地方仍要等,就会清楚很多。
这期播客难听懂,主要是术语扎堆。AI 工厂、prefill、decode、KV cache、MoE 这些词一旦理顺,姚欣和季宇的分歧就会清楚很多。
看完 GTC,季宇先想到的重点是整台机器越做越大了。CPU、GPU、网络、LPU 被一起打包进系统之后,英伟达更像一家卖大型机的公司,这也是他整段访谈的出发点。
姚欣的判断值得看,因为它把英伟达放回了更长的产业周期:算力、系统集成、企业落地和资本开支怎样一起构成 AI 的下一阶段,而不是只看一场发布会。
模型当然仍是 AI 竞争的底座,但越往后走,真正锁定客户、提高迁移成本、决定长期利润结构的,越来越是连接器、运行时、评测、权限、协议和部署能力这些基础设施层。
AI 模型会做一件事,不等于它已经适合进入真实工作。很多讨论把「能力展示」和「长期可用」混在一起,结果高估了模型的落地速度,也低估了系统建设的难度。
对很多真实场景来说,模型能力当然重要,但最先把项目拖慢、拖贵、拖得难以上线的,往往是模型外面那一整套系统:工具接入、上下文管理、评测、权限、回滚和组织协作。
这一轮 AI 的核心变化,是行业开始把注意力从「谁更强」转向「谁更能进入真实世界并长期工作」。模型还是底座,但系统能力正在决定价值能不能落地。
传统 SaaS 公司转向 AI,真正难的从来都不在接入一个模型接口,而在定价、交付、组织分工、数据资产和产品边界要一起重写。能不能转型,先是公司战略问题,然后才落到功能层。
先用图讲清线性、指数和增长率继续上升三种曲线,再回答一个更具体的问题:截至 2026 年 3 月,AI 前沿能力已出现加速迹象,但整体经济层面还没有同步进入加速指数增长。
如果英伟达真的把 Groq 纳入版图,它得到的会是一层更重的系统能力与分发控制。交易的意义更接近补齐结构,重点落在异构 AI 工厂的整编,重资产方向本身并不会改写。
如果意识不是工程目标,那么更强 AI 的演化方向就没必要沿着「更像人」展开。值得追踪的,是架构、记忆、工具使用、世界模型和多代理协作这些更具体的系统变量。
Karpathy、Yegge 与 Peter Steinberger 指向的,是软件工程分工的上移:代码生成更便宜后,规格、验证、门禁、回滚和长期维护变成更稀缺的环节。变化的核心是责任位置重排。
Arm 的动作很容易被读成全面下场做 AI 芯片,但更准确的判断是:它在试图沿着设计、平台与定制化能力继续上探,却还没有变成另一家以整卡和整机为核心的基础设施公司。
这场对话最值得看的是黄仁勋如何把 AI 从模型讨论重新放回工厂、资本开支、基础设施与国家级算力组织。AI 工厂重点是他组织整个产业判断的核心框架。
QVeris 更像能力发现与统一执行层,LangChain、LangGraph 和 Deep Agents 则分别落在 framework、runtime 和 harness。把它们写成同类替代品,会直接讲乱技术栈边界。
机器人叙事最容易被 demo 放大,决定成败的却是部署、单位经济、数据完整流程和现场复杂度。这一批公司值得看,但必须按比 SaaS 更重的现实标准来判断。
Agent 基础设施会热,但热不等于都能长成平台。需要追问的,是身份、运行时验证、编排、监控和支付之中,哪几层站在动作执行与价值流转的关键入口上。
医疗 AI 最容易被乱。行政自动化、患者前端、临床辅助与长期管理看上去都在用模型,商业节奏、监管压力和兑现方式却完全不同。
这一组公司最值得看的是它们已经切进愿意持续付费的工作流。判断它们的关键是交付质量、替代强度和留存路径。
这组稿件不把 YC W26 的 Agent 项目混成一个总口号,而是按结果型产品、医疗、基础设施、机器人和长周期研究五个框架重排。重要的是谁占住了预算、控制点与时间窗口。
熬夜、久坐、剧烈运动和睡眠不足都可能推高风险,但需要警惕的,是这些因素怎样在心血管基础状态不佳时叠加成事故条件。把单一习惯妖魔化,反而会遮住防线。
自进化 agent 听上去像终局叙事,但当前研究真正提供的,更多是一张问题地图:评估如何设计、反馈如何形成、记忆怎样约束、改进怎样不失控。地图重要,胜利尚早。
Swarms 的吸引力在于它不满足于单个 agent,而是试图把多 agent 策略批量化、模块化、产品化。但一旦走向工厂化,复杂度、调试成本和可靠性问题也会同时放大。
让 coding agent 自我改进听上去像自然下一步,但如果评估体系不够硬,所谓进化很容易只是噪声累积。SICA 的意义,在于先把怎么验证变好摆到系统中心。
crewAI 值得看的地方,把角色分工、任务编排和流程可见性收回到工程可执行的范围。它代表的是多 agent 从演示叙事向工作流产品的回落。
并行 agent 的难点,不在再多开几个模型窗口,而在任务拆分、依赖协调、结果合并与失败回收。Agent Orchestrator 的价值,是把这些后勤工作从演示效果推进成可持续工程。
AI 产业的竞争重心,正从单点模型能力转向芯片、云、数据平台与交付渠道的重新结盟。能持续拿到利润的,往往是站在企业系统关键控制点上的玩家,而不是只会发布模型的一方。
做知识库最容易犯的错误,是把所有信息都当知识留下来。值得长期保留的,应该是 30 天后、90 天后还能支持判断、设计和行动的内容,而不是今天最热的链接。
如果主要上网「客户端」逐步从人变成 AI 代理,互联网真正要重写的就不只是搜索入口,还包括接口层、支付层、身份层和预算层。Agentic Web 的核心,正在变成一张机器之间可调用、可结算、可审计的执行网络。
对认真独立建站的博主来说,缺的往往是一套能同时承接采集、生成、审计、发布、主题切换和运维的内容操作系统。WordPress 和 Hexo 很成熟,但它们主要解决的仍是上一代建站问题。
这四周更值得留下的,一条更稳的传导链:AI 先受制于电力和资本开支,再进入代码评审与后台代理流程,随后撞上课堂、办公室和训练路径,最后反噬推动热潮的公司治理。
这轮外刊精读该留下的,重点是同一轮 AI 热潮背后的 4 层现实:基础设施、软件工作流、制度承接能力与组织权力结构变化。把这几层叠起来看,判断会稳很多。
AI 时代的程序员面试,答案不该停留在「我会写提示词」。更有区分度的,是看候选人能不能把 AI 放进明确的任务边界、验证完整流程和责任链里。下面这篇把前一篇 10 道题,进一步拆成优秀回答、中等回答和危险信号。
如果代码越来越多由 AI 生成,面试就不该再把重点放在徒手写实现,而该转向任务定义、上下文组织、验证完整流程和责任承担。下面这 10 道题,适合直接拿来面试允许使用 AI 的程序员候选人。
《纽约客》写 AI 公司最有价值的地方,在于它能把 OpenAI 的理想主义、商业化、安全叙事与权力斗争写成立体现实。读完之后,你会更清楚这类公司为什么总在扩张中积累张力。
很多人看 AI 编程,只盯模型和演示。WIRED 最值得学的地方,是它反复盯着另外几件事:代码到底在哪个环节被自动化,错误和责任会怎么转移,团队流程会怎么被重写。
很多人看 AI 外刊时,眼睛先盯着模型、产品和公司。《经济学人》更稳定的价值,是把你从这些表层热点里拽出来,逼你去看算力、能源、资本开支和国家竞争这些更慢、更硬的变量。
截至 2026 年 3 月,OpenClaw 在全球范围内更像一个先在 C 端和 prosumer 层爆发、再被 B 端试点和平台层承接的产品。C 端赢在入口和上手速度,B 端更可能在治理、托管、安全和组织化包装上沉淀收入。
先挑出那些三个月后仍会重写你判断的原文。这 10 篇博客覆盖 Agent 定义、评测偏差、软件工程、推理路线、系统安全和 Agent 公司结构这几条关键线。
如果你只想补最近一轮 AI 讨论里最有信息密度的 10 场播客与 YouTube 访谈,这份清单足够覆盖模型、Agent、评测、编码、世界模型、机器人和 AI for Science 这几条主线。
这次被热传成「AI Studio 四个月重构」的事件,实质是谷歌把 Firebase Studio 的全栈原型能力收进 Google AI Studio,并把重度代码工作收敛到 Antigravity,开始把模型、后端和部署串成一条开发链。
把独立 AI 公司理解为产品入口、数据来源、资本边界和组织边界都相对清楚的主体,xAI 就从来不是那种公司。它确实有模型、API 和超算,但更像马斯克商业体系里的 AI 中枢,而不是边界稳定的独立公司。
如果你最近也在一边用 AI 写代码,一边又担心自己只是更快地试错,这篇文章想看的正是 4 种更稳的方向:Karpathy 讲学习,Simon 讲工程,Jeremy 讲主动权,swyx 讲生态与组织。
如果前几篇张小珺系列文章是在看谁坐在哪张桌上,这一篇要解决的是另一件事:当你想补上她节目里最有价值的技术背景板,应该先听哪几期、按什么顺序、每一摞节目到底解决什么问题。
国内大厂这一轮真正承压的,已经是利润结构。AI 重投入、即时零售高竞争和旧业务利润弹性减弱三条线同时压上来,经营利润、自由现金流和估值框架都在重排。
这是一张读法地图:张小珺的 AI 访谈已经足够多,重要的是先分清哪几张桌在说话,再决定自己该从哪里进入。这样读模型、Agent、物理世界和技术解读时,才不会把所有问题混在一起。
如果前几篇写的是做模型的人和做 Agent 的人,这一篇写的是张小珺 AI 访谈里另一半更杂、更关键的角色:前沿研究者、垂类应用创业者、账上有钱却还在找方向的人,以及不断给行业泼冷水的投资人。
如果前两篇写的是模型公司和 Agent 公司怎样在屏幕里争入口,这一篇写的就是另一件更硬的事:当 AI 要接管汽车、机器人和物理动作时,软件、世界模型、终端与时间尺度会一起改变。
到 2026 年 3 月 19 日,国内智能电车企业的公开 AI 动作早已超出「把大模型塞进语音助手」这一步,开始重写智驾、座舱、车控与制造;拉开距离的,在于谁先把数据、算力、OS 和整车执行流程跑通。
把杨植麟、王小川、李开复几场最关键的对谈放在一起看,会发现中国大模型创业争的重点是 AGI 北极星、技术与场景的咬合、推理成本和产品入口怎样同时成立。
今年一季度国内大厂的 AI 动作已经从「发模型」转向「抢位置」:阿里推进执行系统,腾讯卡住微信分发链,百度稳技术与云,字节加速 Agent 产品化,华为下探网络与运维控制面。
这组文章追踪的重点是软件组织里的责任链会如何被重排:哪些执行环节变轻,哪些判断权上移,哪些角色会因为 Agent 变强而重新变贵,以及团队该怎样重新分工。
产品经理这类岗位短期更像是在换重心,而不是被整体替代。需求文档、调研摘要和会议纪要会更容易自动化,但成功定义、边界处理和取舍判断会变得更重要。
测试工程师不会因为 AI 更会生成用例就自然淡出团队,先变化的更像是测试岗位里的重复执行层。越往前走,测试越会靠近评测工程、verifier 设计、安全边界和放行规则。
架构师的工作不会因为 AI 更会写代码就自然缩小,真正被重新筛选的,是只停留在图纸层、不碰运行细节的那种工作方式。Agent 时代更稀缺的,是能设计状态、协议、权限和运行边界的人。
项目管理不会整体淡出团队,但信息同步、状态跟进和会议纪要整理这类环节会更早自动化。更有价值的部分,会逐渐转向流程编排、升级路径、依赖管理、人工接管点和例外治理。
IT 部门不会因为团队自助用 AI 工具就自然边缘化,先被压缩的更像是装机、开账号和工单分发这类旧式支持工作。接下来更重要的 IT,会更像内部 AI 平台、权限控制和治理团队。
黄仁勋这场 GTC 演讲把注意力从 GPU 型号表挪到了 AI 时代的新分工:模型公司会更深地卷基础设施,架构师和工程师要开始用 AI factory 的视角设计系统,普通人会先在本地助手、低成本推理和行业服务里感到变化。
这是一份只保留可核验样本的投资视角备忘录。我更看重收入可见性、毛利修复路径、资本强度、分发控制力和估值张力,而不是谁在社交媒体上更热。
从公开财报、招股书和研究报告看,AI 创业公司最稳的生意,往往来自把模型能力、分发入口和高价值工作流绑成一体,最后变成可复制收入结构与持续付费完整流程。
端侧大模型下一阶段的核心变化,重点是智能效率、统一内存、带宽、功耗和软件栈一起成熟;未来 1 年先吃下单轮助手与轻代理,3 年进入持续多模态,5 年才接近个人本地 AI 系统。
PicoClaw、NullClaw、ZeroClaw 的名字虽然都带 claw,但它们不是 OpenClaw 官方产品矩阵,更不是简单的大中小版本。三者分别在轻量部署、Zig 极简路线和本地隐私上做了不同取舍。
OpenClaw 更适合被理解成一层把聊天入口、长连接网关和底层 coding agent 接起来的协调层。它主要解决的是长期在线、跨设备接力和多执行器编排,而不是单次仓库编码的速度比较。
这组公司小传重点是借六种不同公司形态拆开今天产业竞争结构:谁做模型,谁做科学发现,谁把安全当主轴,谁握住工作入口,谁押注开放生态,谁提供算力底盘。
NVIDIA 这些年最重要的变化,是一步步把自己从芯片供应商改造成整套 AI 生产系统的提供者:从 CUDA 到 DGX,再到 NIM 和 AI Factory,真正扩张的是它对整栈的控制力。
Meta 的 AI 主线,把开放研究和开放权重一路升级成产业策略:从 FAIR 到 PyTorch,再到 Llama,它一直试图用开放生态换取平台影响力。
Microsoft 在这轮 AI 竞赛里最厉害的地方,是几乎把「模型进入真实工作」所需的每一层入口都握在自己手里:云、Office、Windows、GitHub 和企业采购关系。最强模型未必总由它率先做出,但分发链路常常掌握在它手中。
Anthropic 值得单写,因为它从创立开始就在验证另一件事:前沿模型公司能不能把安全、组织治理和商业化做成同一条主线,并长期承受这种选择的成本。
Google DeepMind 的独特之处,不只是做出了 AlphaGo、AlphaFold 和 Gemini,而是把「通向 AGI」长期写成一条科学发现、基础研究和产品系统并行推进的公司路线。
OpenAI 过去十年的关键是三次改写公司边界:从研究实验室,到用户入口,再到主动组织 AI 基础设施,并把自己推向产业总枢纽,成为模型、开发者和算力之间的连接点。
Harness Engineering 要做的,是把代码仓库、执行环境、验证门禁和反馈回路改造成 Agent 可读、可控、可评估的工程系统,让 AI 能在真实项目里稳定交付。
Mustafa Suleyman 最值得写的,不在他待过哪些公司,而在他始终在争同一件事:AI 该以什么姿态进入人的日常和工作。到了微软,这条路线已经从 AI companion 一路推进到企业工作流与 Agent 治理层。
Mira Murati 最值得写的是她长期站在研究、产品与发布节奏的交汇处;创办 Thinking Machines Lab 后,她押注的是更可理解、更可定制、更能协作的前沿 AI。
Dario Amodei 最容易被误读成「安全派」,但更准确的说法是,他是把强大 AI 视为近程现实的部署现实主义者:既相信能力会快速逼近,也坚持把可解释性、组织纪律和社会治理提前写进公司运行方式,而不是等出事后再补一份道歉声明。
Sam Altman 最值得写的,是他把 AGI 从宏大叙事压成了算力、能源、资本、开发者生态与全球伙伴关系同时开工的超大基础设施工程系统。
Demis Hassabis 今天最值得写的,早已不止 AlphaGo 或诺奖;关键的是,他一直在把 AI 从「会赢的系统」推进成「会做科学的机器」。如果这条路走通,AI 时代最深的入口可能是实验室。
顺着 ETH2030 的仓库、文档和 git 节奏往回拆,Yaq 更像规格编译者、边界裁剪者、多代理调度者和验证架构师的组合体,而不只是一个会用 AI 疯狂写代码的人。
本文把范围收敛到 2026 年 Q1,只整理 2026-01-01 至 2026-03-16 之间科技、IT、互联网公司的已确认裁员事实,以及同一时间窗口内的 AI、软件、IT 就业市场报告。
ETH2030 不是假项目,它确实把以太坊 Strawmap 做成了实验性参考实现;但「6 天写完未来以太坊」是夸写,重要的是它把路线图中的依赖、性能和验证问题提前暴露了出来。
截至 2026 年 3 月 16 日,Yaq 公开可核验的传统履历信息并不多,但 GitHub、个人站和公开仓库已经足够勾出一条很清晰的技术轨迹:偏底层、偏协议、偏密码学、偏验证,以及越来越强的 AI 驱动研发能力。
GEO 灰产是通过批量制造伪共识、伪第三方和结构化营销内容,去污染 AI 可感知的信息环境。它的风险真实存在,但「国内一定比国外更糟」与「所有 GEO 都是投毒」这两种说法都过头了。
Pi 的核心并不神秘:它用 `createAgentSession()` 把模型、资源加载、工具集合、会话树和运行模式装配起来,再由 `AgentSession` 接管工具执行、上下文管理、自动压缩与 RPC 集成。
OpenClaw 在 `2026.3.13` 更新线里把 live Chrome session attach 做成官方能力,真实浏览器会话第一次进入 Agent 的正式工作流,浏览器插件也从必选项退回到可选路径。
AI 已经能写代码、审代码,甚至自己在 PR 里给出修改建议;但如果 review 只剩「高吞吐检查」和形式签字,它就不再是软件工程里的真正 review。更值得追问的,是谁还真的看懂、敢签字、能补救。
Ars Technica 的假引语风波真正警示的,不只是新闻业会被 AI 绊倒,而是当代码生成速度远超人类核验速度时,软件工程的责任链、风险边界和上线契约都需要重写。
Pi 是一套刻意保持极简的 coding agent harness,不走大而全的平台路线。它把上下文、工具、会话状态和多种接入方式压成一层轻量执行骨架。
今天前沿 AI 的主导权,已经从单看模型分数,变成同时看科学突破、算力基建、产品入口与安全治理;Demis、Sam、Dario、Ilya、Mira、Mustafa,正分别卡在这几条最关键的链路上。
在 AI Agent 时代,Martin Fowler 之所以仍然很重要,因为当生成变快、代理变多、系统边界更容易被穿透时,重构、边界划分、渐进式演化和技术判断反而比以前更像硬约束。
AI Agent 时代如果有一种基础设施级的默认语言,几乎就是 Python;Guido van Rossum 依然重要,不只因为他创造了 Python,更因为他把可读性、演化节奏与工程现实捏成了稳定底座。
如果说 AI 编程正在把代码生成这件事推到前所未有的速度上,那么 Kent Beck 之所以依然重要,是因为反馈回路、整洁设计和小步试错这些老办法,恰好是驾驭这种速度最可靠的刹车与方向盘。
在 AI 越来越快地产生代码之后,Robert C. Martin 之所以仍值得重读,因为测试、边界、命名和职业责任这些老问题,正在被生成式工具重新放大。
如果说 AI 编程工具正在从补全器变成能拆任务、会写代码、会组织工作流的代理,那么 Steve Yegge 是最早一批把这条路讲清楚、写透并持续鼓动行业往前走的人。
OpenClaw 背后最值得认识的人,是被官网 credits 明确标注为 Creator 的 Peter Steinberger。他并非传统 AI 学者,更像把开发者工具、产品直觉与工程执行力压到同一条线上的产品型工程师。
这 48 小时里,我搭起来的一套能长期写下去的个人母站:草稿在本地,发布可校验,内容能归档,也能继续分发到各个平台,后续写作不用再从零搭架子。
对文科生来说,AI Agent 最有价值的用法,先接手找资料、拆提纲、改写、多版本分发这些重复环节,让人把精力留在判断、事实核验和语气控制上。
编程 Agent 是一套能围绕目标读取上下文、调用工具、执行步骤并根据结果继续推进的系统。把这条线看懂,模型、工具、状态和评测这些基础概念就会立刻落地。
Java 后端转向 AI Agent,是把过去积累的系统边界感、异常经验和工具工程能力,重新组织成运行时、评测完整流程和治理能力,并把业务流程改造成可审计的执行系统。
如果今天只能为团队选一个主力模型,我的结论是:追求完整产品化能力,优先看 GPT-5.4;追求长时编码和持续执行,Opus 4.6 依然最锋利;追求激进多模态和 benchmark,Gemini 3.1 Pro 是最大变量。
如果你还把 AI Agent 工程师理解成「更会写 Prompt 的人」,那大概率会转错方向。真正有价值的 Agent 工程,是把模型、工具、状态、评测和治理串成可交付系统能力。
「SSE 可以让 WebSocket 退役」这种说法,方向对了一半,但结论下得太满。更准确的判断是:在浏览器里的单向实时推送和文本流场景里,SSE 常常是更稳妥的默认值。
Agent 的长期价值,主要来自持续沉淀任务拆解、工具调用、异常处理和验证标准这些可迁移的 knowhow,而不只是在数据和微调上继续加码。
Clawith 最有意思的地方在于认真回答团队协作里身份、权限、触发器、审批和审计怎样一起落地,并让多 Agent 真正进入组织工作流,这一点很关键。
现在做 Agent 产品,更值得补的是那层把 runtime、审批、回滚和团队规则接进真实工作流的控制层。系统层和平台层都已有强手,组织如何接住 Agent 反而还是空白。
平台层决定的是 Agent 能不能长期、稳定、可治理地跑起来。眼下最值得看的四条路线,分别是 LangGraph、微软、OpenAI 和 AWS 所代表的平台化方向。
如果你想做的是能承接长任务、异步执行和团队协作的 Agent 产品,动手前先看清系统、平台、工具三层版图。它们解决的问题不同,拿到的入口不同,真正留下的缺口也不同。
长时间 Agent 的真正难点,不在单步够不够聪明,而在跨很多轮、很多上下文和很多工具调用之后,能不能继续保持状态连续、结果可验证和错误可恢复。
如果一个 Agent 要连续运行二十分钟、两小时甚至更久,系统默认该长什么样?这篇文章把分层架构、状态模型、检查点、验证和上线顺序全部拆开讲清楚。
OpenClaw 是一根很清楚的产业探针。它暴露了一件事:当 AI 编码从聊天升级为工作流,产业链每一层都会重新找位置,重新争入口、运行时和服务边界。