模型评测

档案库

技术、行业、人物与 Agent 系统观察。只保留能穿过噪声的材料。

全部技术沉思 AI Agent AI 编程软件工程技术沉淀大模型行业观察 AI 创业 AI战略职业发展人物小传访谈 OpenClaw 模型评测他山之石 Hacker News精选论文精选外刊精读

Latest Archive

模型评测时间线。

论文精选 AI Agent 模型评测

2026-06-09 08:37 北京时间 9 分钟阅读难度：进阶

Agent 评测不能只看一次回答是否正确。真实任务链条里还包括目标理解、工具选择、状态恢复、人工交互、成本记录、风险暴露、失败处理和上线条件。

模型评测大模型 AI 编程

2026-04-04 20:13 北京时间 14 分钟阅读难度：进阶

如果你关心的是 Gemma 4 能不能在自己机器上稳定跑起来，而不是排行榜又赢了谁，结论很简单：31B 代表上限，26B A4B 是最值得部署的均衡版本，E4B 和 E2B 则把轻量本地模型推进到了真正可用的一档。

模型评测大模型 AI 编程

2026-03-15 01:16 北京时间 22 分钟阅读难度：进阶

如果今天只能为团队选一个主力模型，我的结论是：追求完整产品化能力，优先看 GPT-5.4；追求长时编码和持续执行，Opus 4.6 依然最锋利；追求激进多模态和 benchmark，Gemini 3.1 Pro 是最大变量。