Freelemon Long-form, Players, Trends, Small Games
首页 长文 玩家 趋势 小游戏

趋势页保留原文入口,而不是只剩一句结论

这里收的是 Freelemon 当前关注的一组 AI 趋势。每条卡片都给出简短提炼,同时保留原始来源,方便继续向下追。它不抢长文的位置,但也不该被削成不能点击的静态装饰。

Agents 2026-02-11

Agent 工程开始从提示词技巧转向 Harness 与运行基座

真正决定生产可用性的,不再只是模型本身,而是任务拆解、状态保存、工具调用、回放与失败恢复这套系统边界。

  • 工程重点从“单次生成质量”上移到“长任务可持续运行”。
  • Harness 负责检查点、回放、资源约束和异常兜底。
  • Agent-first 产品更像任务系统,而不是聊天窗口。
OpenAI
Harness engineering: leveraging Codex in an agent-first world
查看原文
Evaluation 2026-01-09

Agent 评测越来越像系统评测,而不是模型裸分

行业正在更认真地区分模型能力、工具使用、运行环境和评测脚手架,排行榜上的小分差不再自动等于能力差距。

  • Agent eval 不只是 prompt + model,而是 model + tools + infra 的组合结果。
  • 稳定性、资源约束与执行环境会显著影响最终得分。
  • 企业更关心可复现与可治理,而不是单次最优成绩。
Anthropic
Demystifying evals for AI agents
查看原文
Workflow 2026-03-04

IDE 正在把 Agent 模式做成默认工作流入口

从代码补全到跨文件执行、自动修复和长任务协作,开发环境正在把 Agent 变成真正的工作台。

  • Agent 不再只是补全插件,而是逐步接手项目级任务。
  • 开发者角色会向目标设定、约束设计和结果审查移动。
  • 可验证、可中断、可回放的工作流会越来越重要。
Visual Studio Code
Visual Studio Code February 2026
查看原文
Edge 2026-01-15

端侧模型正在补齐函数调用与 Agent 能力的关键缺口

一旦小模型具备更稳的结构化输出和函数调用能力,端侧与云侧混合架构就会更像正式产品方案,而不是技术演示。

  • 函数调用让轻量模型更容易接入真实工具链。
  • 端云混合将更适合低延迟、隐私敏感和成本敏感场景。
  • 产品差异会更多体现在架构编排,而不是单个模型名称。
Google
Introducing Function Calling in Gemma
查看原文
Protocol 2025-12-09

Agent 之间的协议与协作标准开始走向台面

当 Agent 不再只在单个产品内工作,跨工具、跨组织、跨运行时的通信协议会变成新的基础设施层。

  • 多 Agent 协作的难点正在从生成能力转向接口和协议。
  • 标准化会降低系统之间的接入与迁移成本。
  • 企业集成会越来越看重可互操作性与治理能力。
OpenAI
OpenAI co-founds the Agentic AI Foundation
查看原文