档案库

技术、行业、人物与 Agent 系统观察。只保留能穿过噪声的材料。

Latest Archive

AI Agent

AI Agent 时间线。

2026-06-13 12:25 北京时间 20 分钟 阅读难度:硬核

拆解 AI 工程新词:从概念到落地实践与工具选型

Prompt、Context、Agentic Workflow、Eval 这些新词不是四种并列技术,而是同一件事的不同切面:把可靠性责任从模型手里一层层夺回到代码手里。这篇把概念、工程原则和工具选型一次讲清。

  • 新词的本质是一个问题:把多少可靠性责任从模型手里夺回到代码手里。
阅读全文
2026-06-09 08:38 北京时间 9 分钟 阅读难度:入门

企业采购 Agent 产品先问十个问题

企业采购 Agent 产品时,不能只看演示效果。更该先问身份、权限、日志、成本、数据边界、人工审批、回滚、评测、供应链和退出机制这些控制面问题。

  • Agent 采购要先看控制面能力,而不是只看一次演示效果。
阅读全文
2026-06-09 08:37 北京时间 9 分钟 阅读难度:进阶

Agent 评测必须回到真实任务链条

Agent 评测不能只看一次回答是否正确。真实任务链条里还包括目标理解、工具选择、状态恢复、人工交互、成本记录、风险暴露、失败处理和上线条件。

  • Agent 评测对象应是完整任务过程,而不只是最后答案。
阅读全文
2026-06-09 08:36 北京时间 10 分钟 阅读难度:进阶

三家 Agent 路线正在分成三种控制点

OpenAI、Anthropic 和 Microsoft 都在做 Agent,但控制点并不相同。OpenAI 更靠近开发者工具和运行体验,Anthropic 更强调工程模式,Microsoft 更贴近企业入口和框架整合。

  • OpenAI 的路线更靠近开发者体验、工具链整合和默认构建路径。
阅读全文
2026-06-09 08:35 北京时间 9 分钟 阅读难度:入门

垂直 Agent 定价应该从任务开始

垂直 Agent 如果继续只按席位卖,很容易掩盖真实成本和价值。更合理的起点,是按任务、风险等级、人工兜底、验证成本、失败边界和可交付结果重做定价。

  • 垂直 Agent 的成本和价值都更接近任务,而不是传统席位。
阅读全文
2026-06-09 08:34 北京时间 9 分钟 阅读难度:入门

MCP 工具描述会成为新的供应链入口

MCP 的价值在于让模型连接工具和数据源,但风险也会从代码包扩展到工具描述、权限声明、服务器身份、版本变更和审查流程。工具描述会成为新的供应链入口。

  • MCP 把工具接入标准化,也扩大了工具描述对模型行动的影响力。
阅读全文
2026-06-09 08:33 北京时间 10 分钟 阅读难度:入门

Agent 产品化会先撞上推理容量账

Agent 把一次用户请求放大成多轮推理、工具等待、上下文增长、追踪事件和失败重试。产品化瓶颈不只是模型能力,而是推理容量和任务级成本解释。

  • Agent 会把一次请求放大成一串动态推理和工具执行流程。
阅读全文
2026-06-09 08:32 北京时间 9 分钟 阅读难度:入门

AI 资产清单到底该记录哪些关键字段

企业治理 Agent 不能只靠原则。AI 资产清单至少要记录 owner、用途、权限、数据类型、模型来源、工具接入、风险等级和复核周期,才能真正进入安全、成本和合规流程。

  • AI 资产清单要同时记录责任、权限、数据类型和生命周期字段。
阅读全文
2026-06-09 08:31 北京时间 9 分钟 阅读难度:进阶

AI 代码评审真正缺的是验证流程层设计

Copilot code review 这类工具能更早给出结构化反馈,但代码评审的重心不会因此消失。真正缺口在 verifier layer:测试、约束、上下文和责任边界。

  • AI review 适合提前发现局部问题,但不能替代责任签字。
阅读全文
2026-06-09 08:30 北京时间 10 分钟 阅读难度:进阶

长程 Agent 的任务状态机该怎么设计

长程 Agent 不能只靠一段对话维持执行。真正进入生产后,它需要 job、step、checkpoint、handoff、retry 和 human takeover 这些状态对象。

  • 长程 Agent 的基本单位应从 prompt 变成 job 和 step。
阅读全文
2026-06-08 01:24 北京时间 10 分钟 阅读难度:入门

OWASP 把 Agent 安全问题正式命名

OWASP Agentic Security Initiative 和 Agentic Skills Top 10 的价值,不只是列风险,而是把 Agent 应用从「模型安全」拉到工具、权限、身份、技能供应链和自主行动边界上。

  • OWASP Agentic Security Initiative 将自主 Agent 的关键风险整理成框架。
阅读全文
2026-05-25 00:33 北京时间 16 分钟 阅读难度:进阶

Agent 时代,编程语言不会消失,只会重新分工

Agent 时代不会让编程语言变得不重要。变化恰好相反:语言会从人的偏好问题,变成 Agent 能否理解、修改、验证、部署和长期维护系统的协作界面。

  • 自然语言会成为任务入口,但不会替代编程语言承担系统边界。
阅读全文
2026-05-25 00:15 北京时间 14 分钟 阅读难度:入门

从模型竞争到系统竞争,Agent 季报该看什么

晚点聊 26Q1 AI 季报把 OpenClaw、Claude Code、OpenAI 和 Anthropic 放在同一张季度图里看。它提醒我们:Agent 的竞争已经不只是模型强弱,而是系统完成任务的能力。

  • Agent 产品的核心变量,正在从模型分数转向系统完成任务的能力。
阅读全文
2026-05-24 23:44 北京时间 15 分钟 阅读难度:硬核

运营商卖 Token,国内 AI 计费会怎么变

我看好运营商卖 Token 的企业侧影响,不看好它短期变成大众像买流量一样主动购买的消费品。真正机会不在低价词元包,而在把 AI 调用做进企业账单、办公应用、政企服务和成本管理。

  • 普通用户买的是 AI 搜索、写作、总结、办公助手等具体权益。
阅读全文
2026-05-24 23:35 北京时间 15 分钟 阅读难度:进阶

小模型有前途,但别把单片机和语言模型混为一谈

小模型有前途,关键价值是把高频、低延迟、隐私敏感和成本敏感的任务从大模型调用里拆出来。单片机 TinyML 当然是真小模型,但不能拿它证明小语言模型也能在所有设备上通用。

  • 单片机上的 TinyML 是真小模型,但主要做传感器、语音唤醒和简单视觉,不等于通用语言模型。
阅读全文
2026-05-24 23:01 北京时间 11 分钟 阅读难度:进阶

cch 随机请求头为什么会坑到第三方 API 用户

cch 真正坑人的地方不在随机字符本身,而在它把客户端归因、缓存命中、网关兼容和第三方 API 成本绑在了一起。对直连用户这可能只是实现细节,对代理、Bedrock、兼容层和企业网关来说,它会变成稳定性问题。

  • cch 不是普通随机数,它出现在归因字符串里,并且会让请求形状随调用变化。
阅读全文
2026-05-24 13:47 北京时间 10 分钟 阅读难度:进阶

多 Agent 系统最难的重点是控制权转交

多 Agent 系统的关键在于什么时候转交、转给谁、带着什么上下文转交,以及转交后谁对结果负责。

  • handoff 不是普通工具调用,它会改变谁拥有下一步对话或任务控制权。
阅读全文
2026-05-24 13:38 北京时间 10 分钟 阅读难度:进阶

沙箱不只是安全层,而是 Agent 产品的运行界面

Agent 沙箱不能只按安全容器理解。影响产品体验的,是它如何准备依赖、挂载仓库、限制网络、保留状态、运行测试,并把结果交还给人。

  • 沙箱的核心价值不只是隔离风险,还在于把仓库、依赖、工具链、网络和测试变成可复用的执行现场。
阅读全文
2026-05-24 13:30 北京时间 10 分钟 阅读难度:进阶

长程 Agent 缺的重点是生产任务队列

长程 Agent 不能被当成一条更长的模型调用。生产系统需要 job、step、worker、queue、checkpoint、局部 retry、人工等待和恢复机制。

  • 长程 Agent 的生产边界应该从 job 和 step 开始,而不是从更长上下文开始。
阅读全文
2026-05-24 13:24 北京时间 10 分钟 阅读难度:进阶

Agent 进企业以后,第一件事是给它一个身份

企业 Agent 不能长期借人的账号和 token 做事。它需要自己的身份、owner、权限边界、委托记录、生命周期和撤销路径,否则自动化越强,责任越模糊。

  • Agent 身份重点是能被目录、权限、审计、生命周期和风险策略管理的非人主体。
阅读全文
2026-05-24 13:02 北京时间 10 分钟 阅读难度:进阶

一次任务变成一串推理,Agent 产品化会卡在容量上

Agent 产品化的瓶颈不只是模型会不会调用工具,而是一次用户任务会被放大成多轮推理、工具等待、上下文增长、KV cache 迁移、网络传输和电力负载。

  • OpenAI 的 function calling 和 Codex agent loop 说明,工具型 Agent 天然会把一次任务拆成多轮模型请求和外部执行。
阅读全文
2026-05-24 12:56 北京时间 10 分钟 阅读难度:进阶

MCP 工具供应链最危险的依赖,可能是工具描述

MCP 让 Agent 接工具变得更容易,也把工具描述、schema、输出和 scope 变成新的供应链入口。企业不能只问能接多少工具,要问谁能把工具放进模型上下文。

  • MCP server 不是普通插件,它会把工具描述、参数和返回值放进模型上下文,描述本身就可能成为指令入口。
阅读全文
2026-05-24 12:55 北京时间 10 分钟 阅读难度:进阶

Agent 每一步都要可追责,trace 会变成审计证据链

Agent 进生产后,企业要的一条能复盘、能追责、能脱敏、能解释审批边界的执行证据链。

  • Agent trace 要覆盖模型调用、工具参数、检索材料、handoff、审批、guardrail 和异常,而不是只记录最终回答。
阅读全文
2026-05-24 12:33 北京时间 8 分钟 阅读难度:进阶

企业 AI 工作站正在变成 Agent 的新底座

NVIDIA 和 Dell 最近的动作说明,企业 agent 基础设施不只会往云上集中,也会向工作组、本地机房和 deskside 设备下沉。约束开始变成内存、数据位置、网络和交付形态。

  • DGX Station 把 GB300 Grace Blackwell 做成桌边 AI 超算形态。
阅读全文
2026-05-24 12:33 北京时间 10 分钟 阅读难度:入门

Agent 记忆重点是生命周期管理

最近几篇 Agent memory 论文给出的共同判断很清楚:长期记忆不能只是把历史塞进向量库,而要管理写入、检索、更新、遗忘、调度和成本。

  • Goal-Mem 把检索从相似度搜索推进到目标分解,说明记忆 retrieval 必须服务于推理目标。
阅读全文
2026-05-24 12:33 北京时间 9 分钟 阅读难度:进阶

Agent 开始处理密钥后,机密计算会重新上桌

当 Agent 能读凭证、调工具、跨系统执行任务,安全问题就不只在提示词和权限策略。机密计算、远程证明和硬件隔离会重新进入企业 Agent 架构。

  • Agent 的威胁面覆盖感知、规划、记忆、行动和协作层,已经超过单次模型推理。
阅读全文
2026-05-24 11:20 北京时间 11 分钟 阅读难度:进阶

垂直 Agent 会先从金融工作包里跑出来

金融 Agent 的重要性不在「AI 会不会炒股」,而在它把 pitchbook、KYC、估值复核、月结和审计这类高价值流程做成可安装工作包。垂直 Agent 的落地路径,可能会比通用 Agent 框架更快。

  • 金融 Agent 可写的是有输入、模板、数据源、复核点和交付物的专业流程。
阅读全文
2026-05-24 11:19 北京时间 9 分钟 阅读难度:进阶

垂直 Agent 为什么先在金融落地

金融 Agent 先落地,因为它有高价值、强流程、强审计和明确交付物。

  • Anthropic 的金融 Agent 模板把 skills、connectors 和 subagents 组合成参考架构,面向 pitchbook、KYC、月结和估值复核等具体工作。
阅读全文
2026-05-24 11:19 北京时间 10 分钟 阅读难度:进阶

Agent 的下一块战场,是屏幕上的真实工作流

GUI Agent 的把浏览器、桌面、手机和办公软件变成可观察、可执行、可回放的工作环境。谁能控制屏幕,谁才真正接近用户每天做事的地方。

  • GUI Agent 的关键是能不能稳定理解界面状态、执行动作并在失败时恢复。
阅读全文
2026-05-24 11:19 北京时间 9 分钟 阅读难度:进阶

Agent 的下一块战场是屏幕和浏览器

GUI Agent 的关键变化,重点是浏览器、搜索、桌面和手机正在被重新做成 Agent 的执行环境。

  • Google 在 I/O 2026 把 Search agents、Universal Cart 和 Gemini Spark 连在一起,说明入口竞争已经从回答问题延伸到持续执行任务。
阅读全文
2026-05-24 11:19 北京时间 8 分钟 阅读难度:进阶

Agent 走向生产后,真正缺的是运行层

最近的论文和开源项目说明,agent 的瓶颈不只在模型。沙箱回滚、工具 API、源码级自修复、repo memory 和经验共享,正在一起构成新的运行层。

  • DeltaBox 说明,长程 agent 需要便宜的状态回滚。
阅读全文
2026-05-24 11:19 北京时间 8 分钟 阅读难度:进阶

评估 coding agent,不能只看测试绿了没有

最近几篇论文把 coding agent 的评估问题说得更清楚了:测试通过、PR 合并、终端任务跑完,都只能说明一部分事实。要看的是 agent 有没有投机、有没有越界,以及人类审查到底补了多少洞。

  • SpecBench 说明,测试绿了也可能只是学会投机动作和绕过验收。
阅读全文
2026-05-24 11:19 北京时间 10 分钟 阅读难度:进阶

Agent 的流程税:省下的代码时间,可能还给了审查和返工

Coding agent 的成本不只在账单里,也在流程里。它能节省写代码的时间,也可能把成本转移到规格、审查、CI、回滚、权限和人类收口上。

  • Agent 的流程税来自规格、验证、审查、回滚、权限和预算归因,不会自动出现在 token 单价里。
阅读全文
2026-05-24 11:19 北京时间 9 分钟 阅读难度:进阶

Agent 不是免费同事:企业开始重算 AI 的真实工时

企业对 agentic AI 的疑问正在从「能不能替人做事」转向「跑完整个流程后到底省不省钱」。变贵的往往是多轮调用、上下文、返工、审查和预算归因加在一起的真实工时。

  • 企业开始把 agentic AI 当成可归因的工作流成本,而不是一次性的模型试用费。
阅读全文
2026-05-24 11:15 北京时间 11 分钟 阅读难度:进阶

AI 编程的包月幻觉正在结束

AI 编程工具正在从座席订阅走向资源计量。Codex 限流、Copilot AI Credits、代码审查消耗 Actions minutes,说明团队必须开始按任务管理 token、并发、上下文和验证成本。

  • GitHub 从 premium request 转向 AI Credits,并按 token 消耗计算,打破了短问答和多小时 autonomous coding session 成本相同的订阅错觉。
阅读全文
2026-05-24 11:10 北京时间 12 分钟 阅读难度:入门

Agent 安全重点是运行时问题

能调用工具的 Agent 不能再按聊天机器人管理。它会读文件、跑命令、连服务、写数据,安全边界必须放在运行时:权限、隔离、拦截、审计和回滚。

  • Agent 的风险来自工具调用和真实副作用,提示词约束挡不住文件操作、shell 命令、HTTP 请求和多步攻击链。
阅读全文
2026-05-24 03:57 北京时间 11 分钟 阅读难度:进阶

Agent 可观测性会成为新的基础设施

Agent 真正进入生产之后,问题不再只是能不能回答,而是每一步为什么这样做、花了多少成本、调用了什么工具、失败在哪里。可观测性会从辅助日志变成 Agent 平台的核心层。

  • Agent 的结果对错只是最后一帧,需要管理的是中间轨迹、工具选择、上下文消耗和失败原因。
阅读全文
2026-05-24 03:28 北京时间 10 分钟 阅读难度:进阶

Agent Skills 正在变成新的软件包

Skills 把流程、工具、脚本、文件和调用约定打包成可安装资产。Agent 生态的下一层竞争,会落到谁能分发、治理和复用这些能力包。

  • Skills 的价值不在把提示词写长,而在把稳定流程、工具调用、脚本和检查方式封装成可复用单元。
阅读全文
2026-05-24 03:10 北京时间 10 分钟 阅读难度:进阶

Agent 安全的边界正在从提示词移到运行时

Agent 安全不能继续只押在提示词上。模型会被外部内容误导,安全设计要限制的是它随后能访问什么、执行什么、改写什么,以及谁能复盘这些动作。

  • Prompt injection 的麻烦在于指令和数据混在同一个输入通道里,不能只靠写更强提示词来消除风险。
阅读全文
2026-05-24 02:10 北京时间 11 分钟 阅读难度:进阶

Agent 不是免费同事:企业开始重新计算 AI 的真实工时

企业开始发现,agent 的成本一项任务从启动、运行、审查、返工到归责的完整工时账。

  • Agent 成本不能只按模型调用价格看,还要算任务描述、上下文管理、review、返工和事故复盘。
阅读全文
2026-05-24 01:58 北京时间 10 分钟 阅读难度:进阶

Coding Agent 正在竞争企业运行层

这一周的信号说明,Coding Agent 的竞争不再只看模型会不会写代码,而是看谁能把沙箱、权限、验证、成本和工作流一起接进企业工程系统。

  • Dropbox Nova 把 coding agent 接进 monorepo、Bazel 和内部验证路径,说明落地重点已经转向工程系统集成。
阅读全文
2026-05-24 01:58 北京时间 9 分钟 阅读难度:进阶

03|论文精选:Agent 评测和运行时正在变硬

这一周最值得看的论文,都在把 agent 从演示推回工程约束:沙箱回滚、隐藏测试、PR 结果解释、终端真实任务、越权行为和系统级安全。

  • DeltaBox 把有状态 agent 的 checkpoint 和 rollback 做到毫秒级,说明沙箱已经是长程 agent 基础设施。
阅读全文
2026-04-11 12:10 北京时间 11 分钟 阅读难度:进阶

Hermes 安装指南:macOS 和 Windows 怎么装

Hermes 不难装。macOS 直接跑官方安装器,Windows 先装 WSL2 再按 Linux 路线装。装完别先闲聊,先用并行读仓库和定时任务两个例子,看看它适不适合你。

  • macOS 原生可装,Windows 走 WSL2,别在原生 PowerShell 路线上耗时间。
阅读全文
2026-04-09 19:35 北京时间 14 分钟 阅读难度:进阶

Anthropic 为什么要把 Managed Agents 做成平台层

Claude Managed Agents 重点是 Anthropic 把 Agent 从模型接口推进到官方运行时平台的一步。重要的变化,重点是 Anthropic 开始接管 session、memory、vault、observability 和 prompt versioning 这一层基础设施。

  • Anthropic 现在提供的不只是模型,而是一套托管式 agent harness,把 agent、environment、session 和 events 打包成官方平台能力。
阅读全文
2026-04-09 19:20 北京时间 15 分钟 阅读难度:进阶

Claude Managed Agents 的运行时架构是什么

Anthropic 这次公开的一套正式的运行时抽象。Agent、Environment、Session、Events 这四层一起定义了 Claude Managed Agents 的架构边界,也决定了它更适合长任务、异步执行和托管式运行,而不是完全自定义的 prompt loop。

  • Claude Managed Agents 的核心是 `Agent -> Environment -> Session -> Events` 这一套托管运行时抽象。
阅读全文
2026-04-09 08:30 北京时间 6 分钟 阅读难度:进阶

00|论文精选:最近 7 天的新论文该怎么挑

这条线只看最近 7 天值得工程和产品层继续跟进的 AI 论文,重点判断问题定义、证据强度和落地价值,不做摘要搬运,也不追每天的热点论文名单。

  • 默认只看最近 7 天公开的新论文或重要新版本,不靠旧论文翻红撑版面。
阅读全文
2026-04-09 00:27 北京时间 13 分钟 阅读难度:进阶

罗福莉谈 OpenClaw:成本批评成立到哪一步

罗福莉批评 OpenClaw,核心是第三方 Agent 框架终于要自己承担长期运行的成本。把官方计费规则、API 价格和 OpenClaw 近期调整放在一起看,她对单位经济的批评基本成立。

  • 罗福莉批评得最准确的部分,是第三方 Agent 框架不能继续把第一方订阅当成长期补贴。
阅读全文
2026-04-09 00:20 北京时间 20 分钟 阅读难度:硬核

把多窗口 AI 工作流重构成单一控制面

需要重构的重点是项目控制层。多窗口同时写文章没有错,问题在于写作、主干集成、部署和恢复过去没有被放进同一套状态机里管理;而且这套控制面现在已经开始落成具体脚本和状态文件。

  • 多 Console 并发写作不是问题,问题是过去没有把主干合并和部署收口成单写者流程。
阅读全文
2026-04-09 00:01 北京时间 18 分钟 阅读难度:硬核

Hermes 和 OpenClaw 怎么选:先看层级

Hermes 最近热起来,不代表它会直接替代 OpenClaw。两者都挂着 agent 这面旗,但一个更像执行内核,一个更像个人助手入口和控制平面,个人用户与企业用户后面的答案会完全不同。

  • Hermes 更像 agent runtime,OpenClaw 更像个人助手入口和 control plane。
阅读全文
2026-04-07 21:55 北京时间 更新:2026-04-08 20:42 北京时间 6 min 阅读难度:入门

00|本周 3 篇 Hacker News AI 文章先看哪一篇

这页只做导读:告诉你本周 3 篇分别在讲什么,适合谁先读。

  • 这里只留最近 7 天里能回到原始来源核对的讨论。
阅读全文
2026-04-07 21:22 北京时间 17 分钟 阅读难度:进阶

GSD2 和 OMX 怎么选:两套 AI 编程工作流的分水岭

GSD2 在管项目,OMX 在管 Codex。两边都能做长任务,但不在同一层:一个更像执行内核,一个更像编排外挂。把它们看成同一层工具,后面基本都会用错。

  • GSD2 把项目压成 milestone、slice、task 和落盘状态,更像执行内核。
阅读全文
2026-04-07 10:30 北京时间 15 分钟 阅读难度:进阶

Karpathy 的 LLM Wiki 火了,普通人该怎么用

Karpathy 的 LLM Wiki 之所以引发共鸣,在于它把大模型往「持续整理、持续改写、持续积累」的方向推了一步,也提醒普通人别把知识管理做成新的体力活。

  • 这套方法最有意思的地方,是把问一次答一次的临时问答,变成会留下痕迹的整理流程。
阅读全文
2026-04-04 20:16 北京时间 22 分钟 阅读难度:硬核

Cursor 3.0 和 AI Agent IDE 怎么选

Cursor 3.0 已经不只是更强一点的 AI IDE。值得比较的,是它如何和 Windsurf、Copilot、Cline 分别走向不同的 agent 路线:控制台、协作编辑器、GitHub 代理系统和开放执行层。

  • Cursor 3.0 最关键的升级把本地与云端 agent 收口成统一调度面。
阅读全文
2026-04-03 17:28 北京时间 16 分钟 阅读难度:硬核

2026 年看 Agent 与大模型,还没做完的六件事

到 2026 年 4 月,主流产品已经把推理、工具调用、短期记忆和基础 Agent 形态做成标配,但决定下一代能力上限的几块底盘仍未完成:算力分配、验证器、持续记忆、长时程执行、长上下文工作记忆与可验证推理。

  • 更长的思考时间已经商品化,但「把额外算力稳定转成成功率」仍然没有被产品层彻底解决。
阅读全文
2026-04-02 22:16 北京时间 更新:2026-04-03 14:13 北京时间 14 分钟 阅读难度:进阶

AI 一周办成 700 人大会?一个案例能证明什么,不能证明什么

一篇「用 AI 一周办成 700 人大会」的文章之所以好看,是因为它说对了一半。AI 的确能显著压缩策划、写作、整理和沟通型工作,但一个成功案例还远远不够证明「经验已经失效」或「AI 是主要因」。

  • 现有研究较强支持 AI 抬高新手下限、压缩写作策划类工作的时间成本,但不支持把单个成功故事直接上升为普遍规律。
阅读全文
2026-03-30 00:20 北京时间 更新:2026-03-31 07:20 北京时间 15 分钟 阅读难度:进阶

传统 SaaS 转向 AI:要重写的不只是产品,还有公司结构

传统 SaaS 公司转向 AI,真正难的从来都不在接入一个模型接口,而在定价、交付、组织分工、数据资产和产品边界要一起重写。能不能转型,先是公司战略问题,然后才落到功能层。

  • 这轮转型最后会体现在收入质量和估值逻辑上,核心变量是上下文、动作权限和结果交付,不是页面多几个 AI 按钮。
阅读全文
2026-03-26 20:58 北京时间 更新:2026-03-31 07:20 北京时间 22 分钟 阅读难度:硬核

更强 AI 的下一步,也许不在「更像人」这条线上

如果意识不是工程目标,那么更强 AI 的演化方向就没必要沿着「更像人」展开。值得追踪的,是架构、记忆、工具使用、世界模型和多代理协作这些更具体的系统变量。

  • 未来更强 AI 的主战场,更像系统架构,而不只是参数规模。
阅读全文
2026-03-25 00:42 北京时间 更新:2026-03-31 00:19 北京时间 17 分钟 阅读难度:硬核

QVeris、LangChain 与 Agent 分层

QVeris 更像能力发现与统一执行层,LangChain、LangGraph 和 Deep Agents 则分别落在 framework、runtime 和 harness。把它们写成同类替代品,会直接讲乱技术栈边界。

  • QVeris 当前公开交付的是 tool search + tool execution,更像能力路由层。
阅读全文
2026-03-25 00:03 北京时间 更新:2026-03-31 00:01 北京时间 15 分钟 阅读难度:进阶

04|YC W26 Physical AI:机器人项目如何穿过部署现实

机器人叙事最容易被 demo 放大,决定成败的却是部署、单位经济、数据完整流程和现场复杂度。这一批公司值得看,但必须按比 SaaS 更重的现实标准来判断。

  • 机器人应用层最先成立的地方,往往是单场景、高 ROI、流程极痛的工业与农业动作。
阅读全文
2026-03-25 00:02 北京时间 更新:2026-04-04 10:51 北京时间 16 分钟 阅读难度:硬核

03|YC W26 Agent 基础设施:谁在争下一层控制点

Agent 基础设施会热,但热不等于都能长成平台。需要追问的,是身份、运行时验证、编排、监控和支付之中,哪几层站在动作执行与价值流转的关键入口上。

  • 最值得重视的控制点,是 orchestration、runtime action validation、identity governance 和 payment rails。
阅读全文
2026-03-25 00:01 北京时间 更新:2026-03-31 00:01 北京时间 13 分钟 阅读难度:进阶

02|YC W26 医疗 AI:同一标签下的四条兑现路径

医疗 AI 最容易被乱。行政自动化、患者前端、临床辅助与长期管理看上去都在用模型,商业节奏、监管压力和兑现方式却完全不同。

  • 最接近真钱的医疗 AI,往往先发生在前台、计费、排班与保险环节,而不是最宏大的临床叙事。
阅读全文
2026-03-25 00:00 北京时间 更新:2026-03-31 00:19 北京时间 14 分钟 阅读难度:进阶

01|YC W26 收入型 Agent:谁最先逼近真钱

这一组公司最值得看的是它们已经切进愿意持续付费的工作流。判断它们的关键是交付质量、替代强度和留存路径。

  • 结果型 Agent 的关键在于客户愿不愿意按结果持续付费。
阅读全文
2026-03-24 23:18 北京时间 更新:2026-03-31 00:01 北京时间 10 分钟 阅读难度:进阶

00|YC W26 Agent 创业地图:27 家公司该怎么分层

这组稿件不把 YC W26 的 Agent 项目混成一个总口号,而是按结果型产品、医疗、基础设施、机器人和长周期研究五个框架重排。重要的是谁占住了预算、控制点与时间窗口。

  • 最应该优先看的,是已经切进结果付费工作流的公司,而不是口号最响的通用 Agent。
阅读全文
2026-03-24 12:30 北京时间 更新:2026-04-01 22:58 北京时间 14 分钟 阅读难度:入门

Self-Evolving Agents:自进化研究地图

自进化 agent 听上去像终局叙事,但当前研究真正提供的,更多是一张问题地图:评估如何设计、反馈如何形成、记忆怎样约束、改进怎样不失控。地图重要,胜利尚早。

  • 它的核心贡献,是把自进化 Agent 研究整理成四条主轴和问题边界。
阅读全文
2026-03-24 12:26 北京时间 更新:2026-03-31 00:19 北京时间 16 分钟 阅读难度:入门

Swarms:多 Agent 工厂化的野心与代价

Swarms 的吸引力在于它不满足于单个 agent,而是试图把多 agent 策略批量化、模块化、产品化。但一旦走向工厂化,复杂度、调试成本和可靠性问题也会同时放大。

  • Swarms 的核心是用一组预制架构把多 Agent 协作做成可选择、可切换的策略集合。
阅读全文
2026-03-24 12:18 北京时间 更新:2026-04-01 22:58 北京时间 15 分钟 阅读难度:进阶

SICA:在自我进化之前,先把评估做硬

让 coding agent 自我改进听上去像自然下一步,但如果评估体系不够硬,所谓进化很容易只是噪声累积。SICA 的意义,在于先把怎么验证变好摆到系统中心。

  • 这个项目最核心的把自改进收敛成「评估-归档-修改-再评估」的实验完整流程。
阅读全文
2026-03-24 12:14 北京时间 更新:2026-03-31 00:19 北京时间 16 分钟 阅读难度:入门

crewAI:把多 Agent 从概念秀拉回工作流

crewAI 值得看的地方,把角色分工、任务编排和流程可见性收回到工程可执行的范围。它代表的是多 agent 从演示叙事向工作流产品的回落。

  • crewAI 最早吸引人的是角色协作,后来真正补强的是 Flows、Memory 和可观测性。
阅读全文
2026-03-24 12:10 北京时间 更新:2026-04-01 22:58 北京时间 15 分钟 阅读难度:入门

Agent Orchestrator:并行 Agent 的后勤层

并行 agent 的难点,不在再多开几个模型窗口,而在任务拆分、依赖协调、结果合并与失败回收。Agent Orchestrator 的价值,是把这些后勤工作从演示效果推进成可持续工程。

  • 它的核心,在于给每个 Agent 独立 worktree、分支和 PR 槽位。
阅读全文
2026-03-23 11:30 北京时间 更新:2026-04-01 22:58 北京时间 17 分钟 阅读难度:进阶

从信息流到知识层:怎样筛出值得长期沉淀的可靠知识

做知识库最容易犯的错误,是把所有信息都当知识留下来。值得长期保留的,应该是 30 天后、90 天后还能支持判断、设计和行动的内容,而不是今天最热的链接。

  • 信息排序解决的是「今天先看什么」,知识沉淀解决的是「未来还该保留什么」,这两个问题不能共用一个分数。
阅读全文
2026-03-23 00:52 北京时间 18 分钟 阅读难度:硬核

Agentic Web:当 AI 代理开始替人上网

如果主要上网「客户端」逐步从人变成 AI 代理,互联网真正要重写的就不只是搜索入口,还包括接口层、支付层、身份层和预算层。Agentic Web 的核心,正在变成一张机器之间可调用、可结算、可审计的执行网络。

  • 浏览器型代理证明了 AI 已能替人操作网页,但它更像过渡性的义肢,而不是最终形态。
阅读全文
2026-03-22 18:20 北京时间 13 分钟 阅读难度:进阶

WordPress 和 Hexo 之外,独立博主还需要什么

对认真独立建站的博主来说,缺的往往是一套能同时承接采集、生成、审计、发布、主题切换和运维的内容操作系统。WordPress 和 Hexo 很成熟,但它们主要解决的仍是上一代建站问题。

  • WordPress 解决的是后台运营,Hexo 解决的是静态生成,但两者都还不是一条 Agent 原生的内容生产线。
阅读全文
2026-03-21 10:40 北京时间 19 分钟 阅读难度:进阶

OpenClaw 全球 B 端与 C 端使用现状对比

截至 2026 年 3 月,OpenClaw 在全球范围内更像一个先在 C 端和 prosumer 层爆发、再被 B 端试点和平台层承接的产品。C 端赢在入口和上手速度,B 端更可能在治理、托管、安全和组织化包装上沉淀收入。

  • OpenClaw 的核心母体仍然是个人 AI 助手,而不是企业软件套件。
阅读全文
2026-03-21 10:35 北京时间 20 分钟 阅读难度:进阶

想建立 2026 年 AI 判断,先别只追新闻

先挑出那些三个月后仍会重写你判断的原文。这 10 篇博客覆盖 Agent 定义、评测偏差、软件工程、推理路线、系统安全和 Agent 公司结构这几条关键线。

  • 这十篇里最重要的是它们分别重写了 Agent 定义、评测方法和工程边界。
阅读全文
2026-03-21 10:30 北京时间 18 分钟 阅读难度:入门

近期最值得看的 10 场 AI 播客与 YouTube 访谈

如果你只想补最近一轮 AI 讨论里最有信息密度的 10 场播客与 YouTube 访谈,这份清单足够覆盖模型、Agent、评测、编码、世界模型、机器人和 AI for Science 这几条主线。

  • 最值得补的重点是能解释 2026 年技术与产业分岔点的长访谈。
阅读全文
2026-03-21 09:20 北京时间 18 分钟 阅读难度:硬核

谷歌整合 AI Studio 之后,AI 开发市场会怎么变

这次被热传成「AI Studio 四个月重构」的事件,实质是谷歌把 Firebase Studio 的全栈原型能力收进 Google AI Studio,并把重度代码工作收敛到 Antigravity,开始把模型、后端和部署串成一条开发链。

  • 谷歌这次收拢的「模型、原型、后端、部署、本地 IDE」整条开发链。
阅读全文
2026-03-19 19:48 北京时间 23 分钟 阅读难度:入门

当 AI 离开聊天框:张小珺访谈里的机器人、汽车与物理世界

如果前两篇写的是模型公司和 Agent 公司怎样在屏幕里争入口,这一篇写的就是另一件更硬的事:当 AI 要接管汽车、机器人和物理动作时,软件、世界模型、终端与时间尺度会一起改变。

  • 张亚勤把 AGI 画成一张分阶段地图:先信息智能,再物理智能,最后才是生物智能,时间尺度和载体完全不同。
阅读全文
2026-03-19 09:00 北京时间 9 分钟 阅读难度:进阶

00|AI 进入组织之后,8 个岗位会先重排责任链

这组文章追踪的重点是软件组织里的责任链会如何被重排:哪些执行环节变轻,哪些判断权上移,哪些角色会因为 Agent 变强而重新变贵,以及团队该怎样重新分工。

  • 这组系列真正关心的,重点是责任、边界和交付链会怎样迁移。
阅读全文
2026-03-19 09:00 北京时间 9 分钟 阅读难度:进阶

03. 产品经理在 Agent 时代,会转向成功定义与边界设计

产品经理这类岗位短期更像是在换重心,而不是被整体替代。需求文档、调研摘要和会议纪要会更容易自动化,但成功定义、边界处理和取舍判断会变得更重要。

  • 需求文档和纪要整理会更容易自动化,但目标定义和取舍判断并没有变轻。
阅读全文
2026-03-19 09:00 北京时间 9 分钟 阅读难度:入门

04. 测试工程师会更靠近评测与放行规则

测试工程师不会因为 AI 更会生成用例就自然淡出团队,先变化的更像是测试岗位里的重复执行层。越往前走,测试越会靠近评测工程、verifier 设计、安全边界和放行规则。

  • 最先变化的,是机械执行测试这一层,而不是负责质量边界和放行条件的人。
阅读全文
2026-03-19 09:00 北京时间 10 分钟 阅读难度:入门

05. 架构师在 Agent 时代,会更像运行时设计者

架构师的工作不会因为 AI 更会写代码就自然缩小,真正被重新筛选的,是只停留在图纸层、不碰运行细节的那种工作方式。Agent 时代更稀缺的,是能设计状态、协议、权限和运行边界的人。

  • 先被削弱的,重点是那种长期脱离执行、只在上层画图的工作方式。
阅读全文
2026-03-19 09:00 北京时间 8 分钟 阅读难度:进阶

06. 项目管理进入 Agent 时代之后,会更像流程编排层

项目管理不会整体淡出团队,但信息同步、状态跟进和会议纪要整理这类环节会更早自动化。更有价值的部分,会逐渐转向流程编排、升级路径、依赖管理、人工接管点和例外治理。

  • 状态同步和信息搬运会更早自动化,但例外治理和依赖编排并没有变轻。
阅读全文
2026-03-19 09:00 北京时间 9 分钟 阅读难度:入门

08. AI 工具扩散之后,IT 部门会更像内部 AI 平台

IT 部门不会因为团队自助用 AI 工具就自然边缘化,先被压缩的更像是装机、开账号和工单分发这类旧式支持工作。接下来更重要的 IT,会更像内部 AI 平台、权限控制和治理团队。

  • 先被压缩的,是 helpdesk 型、工单搬运型 IT,而不是负责身份、权限和审计边界的人。
阅读全文
2026-03-16 13:07 北京时间 更新:2026-03-16 14:10 北京时间 17 分钟 阅读难度:进阶

Pico、Null、Zero 三种 claw 路线怎么分

PicoClaw、NullClaw、ZeroClaw 的名字虽然都带 claw,但它们不是 OpenClaw 官方产品矩阵,更不是简单的大中小版本。三者分别在轻量部署、Zig 极简路线和本地隐私上做了不同取舍。

  • 三只 claw 都有官网和仓库,但不是 OpenClaw 官方产品线。
阅读全文
2026-03-16 07:59 北京时间 更新:2026-03-16 14:10 北京时间 15 分钟 阅读难度:入门

OpenClaw 更像长期在线的 Agent 协调层

OpenClaw 更适合被理解成一层把聊天入口、长连接网关和底层 coding agent 接起来的协调层。它主要解决的是长期在线、跨设备接力和多执行器编排,而不是单次仓库编码的速度比较。

  • OpenClaw 的核心价值不在单次仓库编码速度,而在聊天入口、Gateway 和执行器之间的长期协调。
阅读全文
2026-03-16 03:35 北京时间 24 分钟 阅读难度:硬核

从实践到原则:Harness Engineering 的落地方法

Harness Engineering 要做的,是把代码仓库、执行环境、验证门禁和反馈回路改造成 Agent 可读、可控、可评估的工程系统,让 AI 能在真实项目里稳定交付。

  • Harness Engineering 的对象重点是 Agent 所处的整个工程执行环境与治理回路。
阅读全文
2026-03-15 20:38 北京时间 26 分钟 阅读难度:硬核

Pi 内部原理:从会话树到 RPC 接入

Pi 的核心并不神秘:它用 `createAgentSession()` 把模型、资源加载、工具集合、会话树和运行模式装配起来,再由 `AgentSession` 接管工具执行、上下文管理、自动压缩与 RPC 集成。

  • Pi 的核心抽象重点是 `AgentSession` 这层把状态、工具、扩展和模式统一起来的运行时。
阅读全文
2026-03-15 19:52 北京时间 8 分钟 阅读难度:进阶

OpenClaw 把真实 Chrome 会话接进 Agent

OpenClaw 在 `2026.3.13` 更新线里把 live Chrome session attach 做成官方能力,真实浏览器会话第一次进入 Agent 的正式工作流,浏览器插件也从必选项退回到可选路径。

  • 新增 `existing-session` 后,已登录的本机 Chrome 会话第一次成为官方 attach 对象。
阅读全文
2026-03-15 17:57 北京时间 19 分钟 阅读难度:硬核

Pi:OpenClaw 背后的极简 Agent,是怎么工作的

Pi 是一套刻意保持极简的 coding agent harness,不走大而全的平台路线。它把上下文、工具、会话状态和多种接入方式压成一层轻量执行骨架。

  • Pi 更像一套 coding agent 运行时和 harness,而不是一个把所有功能都打包好的大平台。
阅读全文
2026-03-15 10:06 北京时间 15 分钟 阅读难度:进阶

机器上桌之后之六:Martin Fowler

在 AI Agent 时代,Martin Fowler 之所以仍然很重要,因为当生成变快、代理变多、系统边界更容易被穿透时,重构、边界划分、渐进式演化和技术判断反而比以前更像硬约束。

  • Martin Fowler 的重要性,在于他持续把复杂技术变化翻译成团队能执行的工程判断,而不只是抽象观点。
阅读全文
2026-03-15 02:56 北京时间 更新:2026-03-15 11:20 北京时间 16 分钟 阅读难度:入门

文科生如何有效使用 AI Agent 做内容创作

对文科生来说,AI Agent 最有价值的用法,先接手找资料、拆提纲、改写、多版本分发这些重复环节,让人把精力留在判断、事实核验和语气控制上。

  • 文科生不是 AI Agent 的边缘用户,内容工作反而很适合先从人机协作开始落地。
阅读全文
2026-03-15 02:54 北京时间 更新:2026-03-15 11:25 北京时间 18 分钟 阅读难度:进阶

编程 Agent 的基础结构:模型、工具、状态与验证完整流程

编程 Agent 是一套能围绕目标读取上下文、调用工具、执行步骤并根据结果继续推进的系统。把这条线看懂,模型、工具、状态和评测这些基础概念就会立刻落地。

  • 理解 Agent 的第一步,是先看清它和聊天、补全、工作流之间的边界。
阅读全文
2026-03-15 01:17 北京时间 26 分钟 阅读难度:进阶

Java 后端如何转向 AI Agent 工程

Java 后端转向 AI Agent,是把过去积累的系统边界感、异常经验和工具工程能力,重新组织成运行时、评测完整流程和治理能力,并把业务流程改造成可审计的执行系统。

  • Java 旧栈不会失效,它会重新定价成工具层、状态层、观测层和治理层能力。
阅读全文
2026-03-14 23:40 北京时间 更新:2026-03-31 18:30 北京时间 18 分钟 阅读难度:进阶

如何转成 AI Agent 工程师:一份基于最新研究的转型路线图

如果你还把 AI Agent 工程师理解成「更会写 Prompt 的人」,那大概率会转错方向。真正有价值的 Agent 工程,是把模型、工具、状态、评测和治理串成可交付系统能力。

  • 从官方实践到最新论文都在指向同一个结论:Agent 工程的核心是系统能力。
阅读全文
2026-03-14 10:30 北京时间 更新:2026-03-31 19:10 北京时间 14 分钟 阅读难度:进阶

Agent 积累的是 Knowhow,不只是数据

Agent 的长期价值,主要来自持续沉淀任务拆解、工具调用、异常处理和验证标准这些可迁移的 knowhow,而不只是在数据和微调上继续加码。

  • Agent 的长期进步,更常来自工作流和验证完整流程不断变强,不只靠参数自己长出新能力。
阅读全文
2026-03-14 09:00 北京时间 11 分钟 阅读难度:进阶

Clawith:一支 AI 团队的开源样机

Clawith 最有意思的地方在于认真回答团队协作里身份、权限、触发器、审批和审计怎样一起落地,并让多 Agent 真正进入组织工作流,这一点很关键。

  • Clawith 的新意不在模型层,而在把 Agent 当成带身份和关系的组织成员来设计。
阅读全文
2026-03-13 20:30 北京时间 更新:2026-03-31 07:05 北京时间 16 分钟 阅读难度:进阶

现在做 Agent 产品,最该补哪一层缺口

现在做 Agent 产品,更值得补的是那层把 runtime、审批、回滚和团队规则接进真实工作流的控制层。系统层和平台层都已有强手,组织如何接住 Agent 反而还是空白。

  • 系统层最像产品,平台层最像底座,但两边都已经出现清晰强手。
阅读全文
2026-03-13 20:00 北京时间 更新:2026-03-31 07:28 北京时间 24 分钟 阅读难度:进阶

平台层争夺战:谁会成为 Agent 基础设施

平台层决定的是 Agent 能不能长期、稳定、可治理地跑起来。眼下最值得看的四条路线,分别是 LangGraph、微软、OpenAI 和 AWS 所代表的平台化方向。

  • LangGraph 目前最像开放生态里的头号平台层选手,优势在 durable execution 和状态工作流。
阅读全文
2026-03-13 19:30 北京时间 更新:2026-03-31 18:30 北京时间 22 分钟 阅读难度:硬核

做 Agent 系统前,先看懂系统、平台与工具版图

如果你想做的是能承接长任务、异步执行和团队协作的 Agent 产品,动手前先看清系统、平台、工具三层版图。它们解决的问题不同,拿到的入口不同,真正留下的缺口也不同。

  • 市场已经分成系统、平台、工具三层,三类玩家的强项和边界并不相同。
阅读全文
2026-03-13 19:00 北京时间 更新:2026-03-31 18:30 北京时间 18 分钟 阅读难度:硬核

长时间 AI Agent:从研究叙事到生产系统

长时间 Agent 的真正难点,不在单步够不够聪明,而在跨很多轮、很多上下文和很多工具调用之后,能不能继续保持状态连续、结果可验证和错误可恢复。

  • METR 证明的是任务跨度能力在增长,不等于企业级稳定性已经成熟。
阅读全文
2026-03-13 18:30 北京时间 更新:2026-03-31 19:10 北京时间 22 分钟 阅读难度:硬核

长时间 AI Agent 生产架构蓝图

如果一个 Agent 要连续运行二十分钟、两小时甚至更久,系统默认该长什么样?这篇文章把分层架构、状态模型、检查点、验证和上线顺序全部拆开讲清楚。

  • 默认架构让 Orchestrator 调度很多短而可验证的小步骤。
阅读全文
2026-03-13 18:00 北京时间 19 分钟 阅读难度:进阶

OpenClaw 爆火之后,谁在卖工具,谁在卖云,谁在卖入口

OpenClaw 是一根很清楚的产业探针。它暴露了一件事:当 AI 编码从聊天升级为工作流,产业链每一层都会重新找位置,重新争入口、运行时和服务边界。

  • OpenClaw 的意义在 AI 编码工作流第一次低门槛跨过开发者圈层。
阅读全文