档案库

技术、行业、人物与 Agent 系统观察。只保留能穿过噪声的材料。

Latest Archive

技术沉淀

技术沉淀 时间线。

2026-06-19 02:30 北京时间 16 分钟 阅读难度:硬核

AI 写太多代码,是因为它分不清源事实和派生事实

语义压缩对 AI 编程最有用的启发,不止是“少写几行代码”,关键是先分清哪些是系统必须维护的源事实,哪些只是能由类型、schema、约束和测试推出的派生事实。

  • 代码库里的 schema、类型、约束和接口契约,才是最值得维护的不可约核。
阅读全文
2026-06-09 08:34 北京时间 9 分钟 阅读难度:入门

MCP 工具描述会成为新的供应链入口

MCP 的价值在于让模型连接工具和数据源,但风险也会从代码包扩展到工具描述、权限声明、服务器身份、版本变更和审查流程。工具描述会成为新的供应链入口。

  • MCP 把工具接入标准化,也扩大了工具描述对模型行动的影响力。
阅读全文
2026-06-09 08:30 北京时间 10 分钟 阅读难度:进阶

长程 Agent 的任务状态机该怎么设计

长程 Agent 不能只靠一段对话维持执行。真正进入生产后,它需要 job、step、checkpoint、handoff、retry 和 human takeover 这些状态对象。

  • 长程 Agent 的基本单位应从 prompt 变成 job 和 step。
阅读全文
2026-06-08 01:24 北京时间 10 分钟 阅读难度:入门

OWASP 把 Agent 安全问题正式命名

OWASP Agentic Security Initiative 和 Agentic Skills Top 10 的价值,不只是列风险,而是把 Agent 应用从「模型安全」拉到工具、权限、身份、技能供应链和自主行动边界上。

  • OWASP Agentic Security Initiative 将自主 Agent 的关键风险整理成框架。
阅读全文
2026-05-24 23:01 北京时间 11 分钟 阅读难度:进阶

cch 随机请求头为什么会坑到第三方 API 用户

cch 真正坑人的地方不在随机字符本身,而在它把客户端归因、缓存命中、网关兼容和第三方 API 成本绑在了一起。对直连用户这可能只是实现细节,对代理、Bedrock、兼容层和企业网关来说,它会变成稳定性问题。

  • cch 不是普通随机数,它出现在归因字符串里,并且会让请求形状随调用变化。
阅读全文
2026-04-12 10:20 北京时间 12 分钟 阅读难度:进阶

在原生 Windows 上,重搭 AI 编程命令行栈

一次原生 Windows 命令行整治记录:把 PowerShell、PATH 和 UTF-8 的反复故障,收敛成 Git Bash、rg、sd、jq、yq 与 ast-grep 这一套稳定工具链。

  • 原生 Windows 下,PowerShell 适合系统管理,不适合承担高频中文文本处理主流程。
阅读全文
2026-04-11 12:10 北京时间 11 分钟 阅读难度:进阶

Hermes 安装指南:macOS 和 Windows 怎么装

Hermes 不难装。macOS 直接跑官方安装器,Windows 先装 WSL2 再按 Linux 路线装。装完别先闲聊,先用并行读仓库和定时任务两个例子,看看它适不适合你。

  • macOS 原生可装,Windows 走 WSL2,别在原生 PowerShell 路线上耗时间。
阅读全文
2026-04-09 19:35 北京时间 14 分钟 阅读难度:进阶

Anthropic 为什么要把 Managed Agents 做成平台层

Claude Managed Agents 重点是 Anthropic 把 Agent 从模型接口推进到官方运行时平台的一步。重要的变化,重点是 Anthropic 开始接管 session、memory、vault、observability 和 prompt versioning 这一层基础设施。

  • Anthropic 现在提供的不只是模型,而是一套托管式 agent harness,把 agent、environment、session 和 events 打包成官方平台能力。
阅读全文
2026-04-09 00:20 北京时间 20 分钟 阅读难度:硬核

把多窗口 AI 工作流重构成单一控制面

需要重构的重点是项目控制层。多窗口同时写文章没有错,问题在于写作、主干集成、部署和恢复过去没有被放进同一套状态机里管理;而且这套控制面现在已经开始落成具体脚本和状态文件。

  • 多 Console 并发写作不是问题,问题是过去没有把主干合并和部署收口成单写者流程。
阅读全文
2026-04-09 00:01 北京时间 18 分钟 阅读难度:硬核

Hermes 和 OpenClaw 怎么选:先看层级

Hermes 最近热起来,不代表它会直接替代 OpenClaw。两者都挂着 agent 这面旗,但一个更像执行内核,一个更像个人助手入口和控制平面,个人用户与企业用户后面的答案会完全不同。

  • Hermes 更像 agent runtime,OpenClaw 更像个人助手入口和 control plane。
阅读全文
2026-04-07 21:22 北京时间 17 分钟 阅读难度:进阶

GSD2 和 OMX 怎么选:两套 AI 编程工作流的分水岭

GSD2 在管项目,OMX 在管 Codex。两边都能做长任务,但不在同一层:一个更像执行内核,一个更像编排外挂。把它们看成同一层工具,后面基本都会用错。

  • GSD2 把项目压成 milestone、slice、task 和落盘状态,更像执行内核。
阅读全文
2026-03-30 22:20 北京时间 13 分钟 阅读难度:进阶

别把 AI 当外包商:软件研发里更稳的协作四分法

团队需要的是一套能按风险、可验证性和学习价值来分工的方法。研发协作的关键,不在全信或全禁,而在于给不同任务安排不同的人机关系,让交付、审查和学习都能继续成立。

  • 同一个 AI 工具,不应该用同一种协作方式处理所有研发任务,关键在于先给任务分级,而不是先给工具站队。
阅读全文
2026-03-30 22:19 北京时间 19 分钟 阅读难度:进阶

AI 改写了编码,为什么软件复杂性还在

AI 已经改写了编码、测试和局部修复这些实现层工作,很多团队也真实感受到了提速,但软件复杂性没有一起消失。系统边界、组织协作和长期演化,仍然决定大多数难题。

  • 编码这一层已经被明显改写,AI 正在接管一段连续的软件工程工作流。
阅读全文
2026-03-30 14:50 北京时间 13 分钟 阅读难度:进阶

为什么越往后走,AI 竞争越不像模型竞赛,越像一场基础设施竞赛

模型当然仍是 AI 竞争的底座,但越往后走,真正锁定客户、提高迁移成本、决定长期利润结构的,越来越是连接器、运行时、评测、权限、协议和部署能力这些基础设施层。

  • 模型决定能力上限,基础设施决定能力怎样进入组织、留在组织,并最终形成迁移成本。
阅读全文
2026-03-30 14:35 北京时间 12 分钟 阅读难度:进阶

我们今天聊 AI,常常把能力和可用性混成一件事

AI 模型会做一件事,不等于它已经适合进入真实工作。很多讨论把「能力展示」和「长期可用」混在一起,结果高估了模型的落地速度,也低估了系统建设的难度。

  • 能力回答的是「它能不能做出来」,可用性回答的是「它能不能在真实环境里长期做、稳定做、低摩擦地做」。
阅读全文
2026-03-30 14:03 北京时间 13 分钟 阅读难度:进阶

很多人以为 AI 的难点在模型,真正麻烦的是系统

对很多真实场景来说,模型能力当然重要,但最先把项目拖慢、拖贵、拖得难以上线的,往往是模型外面那一整套系统:工具接入、上下文管理、评测、权限、回滚和组织协作。

  • 模型像发动机,决定上限;系统像整辆车,决定它能不能上路、能开多远、坏了以后怎么修。
阅读全文
2026-03-30 08:50 北京时间 12 分钟 阅读难度:进阶

AI 行业开始换问题了:模型还重要,系统正在变成主战场

这一轮 AI 的核心变化,是行业开始把注意力从「谁更强」转向「谁更能进入真实世界并长期工作」。模型还是底座,但系统能力正在决定价值能不能落地。

  • AI 行业没有停止比模型,但系统比较已经抬头:工具接入、成本控制、稳定性和工作流整合都在抬高权重。
阅读全文
2026-03-30 00:20 北京时间 12 分钟 阅读难度:进阶

AI 到底是指数增长,还是已经进入加速段

先用图讲清线性、指数和增长率继续上升三种曲线,再回答一个更具体的问题:截至 2026 年 3 月,AI 前沿能力已出现加速迹象,但整体经济层面还没有同步进入加速指数增长。

  • 先分清固定增量、固定比例和增长率上升,才不会把三种曲线混成一句口号。
阅读全文
2026-03-26 20:58 北京时间 更新:2026-03-31 07:20 北京时间 22 分钟 阅读难度:硬核

更强 AI 的下一步,也许不在「更像人」这条线上

如果意识不是工程目标,那么更强 AI 的演化方向就没必要沿着「更像人」展开。值得追踪的,是架构、记忆、工具使用、世界模型和多代理协作这些更具体的系统变量。

  • 未来更强 AI 的主战场,更像系统架构,而不只是参数规模。
阅读全文
2026-03-26 00:05 北京时间 更新:2026-03-31 00:19 北京时间 18 分钟 阅读难度:硬核

当顶级程序员开始少写代码,软件工程的重心移到了哪里

Karpathy、Yegge 与 Peter Steinberger 指向的,是软件工程分工的上移:代码生成更便宜后,规格、验证、门禁、回滚和长期维护变成更稀缺的环节。变化的核心是责任位置重排。

  • 顶级程序员减少手写代码,背后是工程重心从编码转向约束、验证和审计。
阅读全文
2026-03-23 11:30 北京时间 更新:2026-04-01 22:58 北京时间 17 分钟 阅读难度:进阶

从信息流到知识层:怎样筛出值得长期沉淀的可靠知识

做知识库最容易犯的错误,是把所有信息都当知识留下来。值得长期保留的,应该是 30 天后、90 天后还能支持判断、设计和行动的内容,而不是今天最热的链接。

  • 信息排序解决的是「今天先看什么」,知识沉淀解决的是「未来还该保留什么」,这两个问题不能共用一个分数。
阅读全文
2026-03-21 10:35 北京时间 20 分钟 阅读难度:进阶

想建立 2026 年 AI 判断,先别只追新闻

先挑出那些三个月后仍会重写你判断的原文。这 10 篇博客覆盖 Agent 定义、评测偏差、软件工程、推理路线、系统安全和 Agent 公司结构这几条关键线。

  • 这十篇里最重要的是它们分别重写了 Agent 定义、评测方法和工程边界。
阅读全文