档案库

技术、行业、人物与 Agent 系统观察。只保留能穿过噪声的材料。

Latest Archive

技术沉思

技术沉思 时间线。

2026-06-13 12:25 北京时间 20 分钟 阅读难度:硬核

拆解 AI 工程新词:从概念到落地实践与工具选型

Prompt、Context、Agentic Workflow、Eval 这些新词不是四种并列技术,而是同一件事的不同切面:把可靠性责任从模型手里一层层夺回到代码手里。这篇把概念、工程原则和工具选型一次讲清。

  • 新词的本质是一个问题:把多少可靠性责任从模型手里夺回到代码手里。
阅读全文
2026-06-09 08:39 北京时间 8 分钟 阅读难度:入门

判断一篇 AI 文章是不是水文的方法

判断 AI 文章是不是水文,不能只看口号是否刺耳。更稳的办法,是检查事实来源、机制解释、边界条件、反例处理、行动价值、可验证性和读完后的决策增量。

  • 水文的核心问题是制造洞察感,却不给读者真实决策价值和判断依据。
阅读全文
2026-04-07 10:30 北京时间 15 分钟 阅读难度:进阶

Karpathy 的 LLM Wiki 火了,普通人该怎么用

Karpathy 的 LLM Wiki 之所以引发共鸣,在于它把大模型往「持续整理、持续改写、持续积累」的方向推了一步,也提醒普通人别把知识管理做成新的体力活。

  • 这套方法最有意思的地方,是把问一次答一次的临时问答,变成会留下痕迹的整理流程。
阅读全文
2026-04-04 09:30 北京时间 18 分钟 阅读难度:硬核

为什么 Zig 最近总让人想重写底层工具

Zig 最近总被拿来讨论「重写旧工具」,因为它把语言、编译器、交叉编译、C 互操作和构建系统捆成了一套更完整的底层工具链,让很多旧原生工具第一次值得重做。

  • Zig 最有杀伤力的地方,是把语言、编译器、构建和跨平台分发合成了一套统一工具链。
阅读全文
2026-04-02 22:16 北京时间 更新:2026-04-03 14:13 北京时间 14 分钟 阅读难度:进阶

AI 一周办成 700 人大会?一个案例能证明什么,不能证明什么

一篇「用 AI 一周办成 700 人大会」的文章之所以好看,是因为它说对了一半。AI 的确能显著压缩策划、写作、整理和沟通型工作,但一个成功案例还远远不够证明「经验已经失效」或「AI 是主要因」。

  • 现有研究较强支持 AI 抬高新手下限、压缩写作策划类工作的时间成本,但不支持把单个成功故事直接上升为普遍规律。
阅读全文
2026-03-25 00:42 北京时间 更新:2026-03-31 00:19 北京时间 17 分钟 阅读难度:硬核

QVeris、LangChain 与 Agent 分层

QVeris 更像能力发现与统一执行层,LangChain、LangGraph 和 Deep Agents 则分别落在 framework、runtime 和 harness。把它们写成同类替代品,会直接讲乱技术栈边界。

  • QVeris 当前公开交付的是 tool search + tool execution,更像能力路由层。
阅读全文
2026-03-23 00:52 北京时间 18 分钟 阅读难度:硬核

Agentic Web:当 AI 代理开始替人上网

如果主要上网「客户端」逐步从人变成 AI 代理,互联网真正要重写的就不只是搜索入口,还包括接口层、支付层、身份层和预算层。Agentic Web 的核心,正在变成一张机器之间可调用、可结算、可审计的执行网络。

  • 浏览器型代理证明了 AI 已能替人操作网页,但它更像过渡性的义肢,而不是最终形态。
阅读全文
2026-03-22 18:20 北京时间 13 分钟 阅读难度:进阶

WordPress 和 Hexo 之外,独立博主还需要什么

对认真独立建站的博主来说,缺的往往是一套能同时承接采集、生成、审计、发布、主题切换和运维的内容操作系统。WordPress 和 Hexo 很成熟,但它们主要解决的仍是上一代建站问题。

  • WordPress 解决的是后台运营,Hexo 解决的是静态生成,但两者都还不是一条 Agent 原生的内容生产线。
阅读全文
2026-03-22 13:50 北京时间 更新:2026-04-03 14:18 北京时间 12 分钟 阅读难度:进阶

外刊精读|AI 热潮怎样从机房一路传到董事会

这四周更值得留下的,一条更稳的传导链:AI 先受制于电力和资本开支,再进入代码评审与后台代理流程,随后撞上课堂、办公室和训练路径,最后反噬推动热潮的公司治理。

  • 这四周真正拼出的,是一条从机房到后台代理、再到制度和董事会的传导链。
阅读全文
2026-03-19 22:46 北京时间 21 分钟 阅读难度:硬核

AI 开发者时代的四种关键原型与方法

如果你最近也在一边用 AI 写代码,一边又担心自己只是更快地试错,这篇文章想看的正是 4 种更稳的方向:Karpathy 讲学习,Simon 讲工程,Jeremy 讲主动权,swyx 讲生态与组织。

  • 这四个人放在一起看,更像教学、观察、方法与组织四种 AI 影响力。
阅读全文
2026-03-17 22:00 北京时间 18 分钟 阅读难度:硬核

黄仁勋 GTC 2026 演讲之后:谁会先被改变

黄仁勋这场 GTC 演讲把注意力从 GPU 型号表挪到了 AI 时代的新分工:模型公司会更深地卷基础设施,架构师和工程师要开始用 AI factory 的视角设计系统,普通人会先在本地助手、低成本推理和行业服务里感到变化。

  • 对 LLM 玩家来说,竞争重心会继续从「模型能力」外溢到 tokens 成本、推理系统、长任务运行时和基础设施控制力。
阅读全文
2026-03-16 03:44 北京时间 11 分钟 阅读难度:入门

公司小传之三:Anthropic 的安全主轴

Anthropic 值得单写,因为它从创立开始就在验证另一件事:前沿模型公司能不能把安全、组织治理和商业化做成同一条主线,并长期承受这种选择的成本。

  • Anthropic 从 2021 年创立起,就把「更可控、更可解释、更可靠」当成公司层面的起始条件,而不是事后补丁。
阅读全文
2026-03-16 02:50 北京时间 16 分钟 阅读难度:硬核

从 70 万行代码反推 Yaq 的研发活动图谱

顺着 ETH2030 的仓库、文档和 git 节奏往回拆,Yaq 更像规格编译者、边界裁剪者、多代理调度者和验证架构师的组合体,而不只是一个会用 AI 疯狂写代码的人。

  • 从代码看,Yaq 的核心角色「规格编译者 + 多代理调度者 + 验证架构师」。
阅读全文
2026-03-16 00:11 北京时间 15 分钟 阅读难度:硬核

Yaq 与 ETH2030:不是神话,也不是胡扯

ETH2030 不是假项目,它确实把以太坊 Strawmap 做成了实验性参考实现;但「6 天写完未来以太坊」是夸写,重要的是它把路线图中的依赖、性能和验证问题提前暴露了出来。

  • 项目和仓库属实,但公开写法是约 8 天和约 7100 美元。
阅读全文
2026-03-16 00:10 北京时间 11 分钟 阅读难度:进阶

315 之后,重新理解 GEO、AI 投毒与答案污染

GEO 灰产是通过批量制造伪共识、伪第三方和结构化营销内容,去污染 AI 可感知的信息环境。它的风险真实存在,但「国内一定比国外更糟」与「所有 GEO 都是投毒」这两种说法都过头了。

  • 截至 2026-03-16,GEO 污染 AI 答案的风险已被消费者组织、学术研究与厂商文档共同印证。
阅读全文
2026-03-15 19:02 北京时间 更新:2026-03-31 19:10 北京时间 15 分钟 阅读难度:硬核

AI 时代的代码评审,还算 Review 吗

AI 已经能写代码、审代码,甚至自己在 PR 里给出修改建议;但如果 review 只剩「高吞吐检查」和形式签字,它就不再是软件工程里的真正 review。更值得追问的,是谁还真的看懂、敢签字、能补救。

  • AI code review 已经规模化进入工程流程,但「能给评论」不等于「能承担 review 的责任」。
阅读全文
2026-03-15 18:47 北京时间 14 分钟 阅读难度:硬核

从假引语到假代码:AI 正在逼近人类核验的极限

Ars Technica 的假引语风波真正警示的,不只是新闻业会被 AI 绊倒,而是当代码生成速度远超人类核验速度时,软件工程的责任链、风险边界和上线契约都需要重写。

  • 研究和行业调查已经显示,AI 代码产出增长得远快于人类核验能力,「验证债」正在形成。
阅读全文
2026-03-15 17:24 北京时间 更新:2026-03-31 18:30 北京时间 16 分钟 阅读难度:硬核

谁在塑造 AI 时代:6 位关键掌门人与三条分叉路线

今天前沿 AI 的主导权,已经从单看模型分数,变成同时看科学突破、算力基建、产品入口与安全治理;Demis、Sam、Dario、Ilya、Mira、Mustafa,正分别卡在这几条最关键的链路上。

  • 这六个人分别卡住了科学突破、平台分发、安全路径与产品入口,所以比一般 CEO 更值得写。
阅读全文
2026-03-15 03:00 北京时间 更新:2026-03-31 19:10 北京时间 15 分钟 阅读难度:进阶

我如何在 48 小时里,从零打造自己的个人博客站

这 48 小时里,我搭起来的一套能长期写下去的个人母站:草稿在本地,发布可校验,内容能归档,也能继续分发到各个平台,后续写作不用再从零搭架子。

  • 这 48 小时搭起来的一套从草稿到上线都能完整流程运转的表达系统。
阅读全文
2026-03-14 21:30 北京时间 更新:2026-03-31 19:10 北京时间 16 分钟 阅读难度:进阶

SSE 不是 WebSocket 的退役通知,而是更好的默认值

「SSE 可以让 WebSocket 退役」这种说法,方向对了一半,但结论下得太满。更准确的判断是:在浏览器里的单向实时推送和文本流场景里,SSE 常常是更稳妥的默认值。

  • 对单向实时更新,SSE 通常比 WebSocket 更轻、更省心,尤其适合浏览器里的文本流。
阅读全文
2026-03-13 20:30 北京时间 更新:2026-03-31 07:05 北京时间 16 分钟 阅读难度:进阶

现在做 Agent 产品,最该补哪一层缺口

现在做 Agent 产品,更值得补的是那层把 runtime、审批、回滚和团队规则接进真实工作流的控制层。系统层和平台层都已有强手,组织如何接住 Agent 反而还是空白。

  • 系统层最像产品,平台层最像底座,但两边都已经出现清晰强手。
阅读全文
2026-03-13 20:00 北京时间 更新:2026-03-31 07:28 北京时间 24 分钟 阅读难度:进阶

平台层争夺战:谁会成为 Agent 基础设施

平台层决定的是 Agent 能不能长期、稳定、可治理地跑起来。眼下最值得看的四条路线,分别是 LangGraph、微软、OpenAI 和 AWS 所代表的平台化方向。

  • LangGraph 目前最像开放生态里的头号平台层选手,优势在 durable execution 和状态工作流。
阅读全文
2026-03-13 19:30 北京时间 更新:2026-03-31 18:30 北京时间 22 分钟 阅读难度:硬核

做 Agent 系统前,先看懂系统、平台与工具版图

如果你想做的是能承接长任务、异步执行和团队协作的 Agent 产品,动手前先看清系统、平台、工具三层版图。它们解决的问题不同,拿到的入口不同,真正留下的缺口也不同。

  • 市场已经分成系统、平台、工具三层,三类玩家的强项和边界并不相同。
阅读全文
2026-03-13 19:00 北京时间 更新:2026-03-31 18:30 北京时间 18 分钟 阅读难度:硬核

长时间 AI Agent:从研究叙事到生产系统

长时间 Agent 的真正难点,不在单步够不够聪明,而在跨很多轮、很多上下文和很多工具调用之后,能不能继续保持状态连续、结果可验证和错误可恢复。

  • METR 证明的是任务跨度能力在增长,不等于企业级稳定性已经成熟。
阅读全文
2026-03-13 18:30 北京时间 更新:2026-03-31 19:10 北京时间 22 分钟 阅读难度:硬核

长时间 AI Agent 生产架构蓝图

如果一个 Agent 要连续运行二十分钟、两小时甚至更久,系统默认该长什么样?这篇文章把分层架构、状态模型、检查点、验证和上线顺序全部拆开讲清楚。

  • 默认架构让 Orchestrator 调度很多短而可验证的小步骤。
阅读全文