AI 写太多代码,是因为它分不清源事实和派生事实
语义压缩对 AI 编程最有用的启发,不止是“少写几行代码”,关键是先分清哪些是系统必须维护的源事实,哪些只是能由类型、schema、约束和测试推出的派生事实。
- 代码库里的 schema、类型、约束和接口契约,才是最值得维护的不可约核。
技术、行业、人物与 Agent 系统观察。只保留能穿过噪声的材料。
Latest Archive
技术沉淀 时间线。
语义压缩对 AI 编程最有用的启发,不止是“少写几行代码”,关键是先分清哪些是系统必须维护的源事实,哪些只是能由类型、schema、约束和测试推出的派生事实。
MCP 的价值在于让模型连接工具和数据源,但风险也会从代码包扩展到工具描述、权限声明、服务器身份、版本变更和审查流程。工具描述会成为新的供应链入口。
长程 Agent 不能只靠一段对话维持执行。真正进入生产后,它需要 job、step、checkpoint、handoff、retry 和 human takeover 这些状态对象。
OWASP Agentic Security Initiative 和 Agentic Skills Top 10 的价值,不只是列风险,而是把 Agent 应用从「模型安全」拉到工具、权限、身份、技能供应链和自主行动边界上。
cch 真正坑人的地方不在随机字符本身,而在它把客户端归因、缓存命中、网关兼容和第三方 API 成本绑在了一起。对直连用户这可能只是实现细节,对代理、Bedrock、兼容层和企业网关来说,它会变成稳定性问题。
一次原生 Windows 命令行整治记录:把 PowerShell、PATH 和 UTF-8 的反复故障,收敛成 Git Bash、rg、sd、jq、yq 与 ast-grep 这一套稳定工具链。
Hermes 不难装。macOS 直接跑官方安装器,Windows 先装 WSL2 再按 Linux 路线装。装完别先闲聊,先用并行读仓库和定时任务两个例子,看看它适不适合你。
Claude Managed Agents 重点是 Anthropic 把 Agent 从模型接口推进到官方运行时平台的一步。重要的变化,重点是 Anthropic 开始接管 session、memory、vault、observability 和 prompt versioning 这一层基础设施。
需要重构的重点是项目控制层。多窗口同时写文章没有错,问题在于写作、主干集成、部署和恢复过去没有被放进同一套状态机里管理;而且这套控制面现在已经开始落成具体脚本和状态文件。
Hermes 最近热起来,不代表它会直接替代 OpenClaw。两者都挂着 agent 这面旗,但一个更像执行内核,一个更像个人助手入口和控制平面,个人用户与企业用户后面的答案会完全不同。
GSD2 在管项目,OMX 在管 Codex。两边都能做长任务,但不在同一层:一个更像执行内核,一个更像编排外挂。把它们看成同一层工具,后面基本都会用错。
团队需要的是一套能按风险、可验证性和学习价值来分工的方法。研发协作的关键,不在全信或全禁,而在于给不同任务安排不同的人机关系,让交付、审查和学习都能继续成立。
AI 已经改写了编码、测试和局部修复这些实现层工作,很多团队也真实感受到了提速,但软件复杂性没有一起消失。系统边界、组织协作和长期演化,仍然决定大多数难题。
模型当然仍是 AI 竞争的底座,但越往后走,真正锁定客户、提高迁移成本、决定长期利润结构的,越来越是连接器、运行时、评测、权限、协议和部署能力这些基础设施层。
AI 模型会做一件事,不等于它已经适合进入真实工作。很多讨论把「能力展示」和「长期可用」混在一起,结果高估了模型的落地速度,也低估了系统建设的难度。
对很多真实场景来说,模型能力当然重要,但最先把项目拖慢、拖贵、拖得难以上线的,往往是模型外面那一整套系统:工具接入、上下文管理、评测、权限、回滚和组织协作。
这一轮 AI 的核心变化,是行业开始把注意力从「谁更强」转向「谁更能进入真实世界并长期工作」。模型还是底座,但系统能力正在决定价值能不能落地。
先用图讲清线性、指数和增长率继续上升三种曲线,再回答一个更具体的问题:截至 2026 年 3 月,AI 前沿能力已出现加速迹象,但整体经济层面还没有同步进入加速指数增长。
如果意识不是工程目标,那么更强 AI 的演化方向就没必要沿着「更像人」展开。值得追踪的,是架构、记忆、工具使用、世界模型和多代理协作这些更具体的系统变量。
Karpathy、Yegge 与 Peter Steinberger 指向的,是软件工程分工的上移:代码生成更便宜后,规格、验证、门禁、回滚和长期维护变成更稀缺的环节。变化的核心是责任位置重排。
做知识库最容易犯的错误,是把所有信息都当知识留下来。值得长期保留的,应该是 30 天后、90 天后还能支持判断、设计和行动的内容,而不是今天最热的链接。
先挑出那些三个月后仍会重写你判断的原文。这 10 篇博客覆盖 Agent 定义、评测偏差、软件工程、推理路线、系统安全和 Agent 公司结构这几条关键线。