Agent 评测必须回到真实任务链条
Agent 评测不能只看一次回答是否正确。真实任务链条里还包括目标理解、工具选择、状态恢复、人工交互、成本记录、风险暴露、失败处理和上线条件。
- Agent 评测对象应是完整任务过程,而不只是最后答案。
技术、行业、人物与 Agent 系统观察。只保留能穿过噪声的材料。
Latest Archive
模型评测 时间线。
Agent 评测不能只看一次回答是否正确。真实任务链条里还包括目标理解、工具选择、状态恢复、人工交互、成本记录、风险暴露、失败处理和上线条件。
如果你关心的是 Gemma 4 能不能在自己机器上稳定跑起来,而不是排行榜又赢了谁,结论很简单:31B 代表上限,26B A4B 是最值得部署的均衡版本,E4B 和 E2B 则把轻量本地模型推进到了真正可用的一档。
如果今天只能为团队选一个主力模型,我的结论是:追求完整产品化能力,优先看 GPT-5.4;追求长时编码和持续执行,Opus 4.6 依然最锋利;追求激进多模态和 benchmark,Gemini 3.1 Pro 是最大变量。