提示工程解决不了所有办公任务
办公 Agent 的早期产品常用通用模型加提示词控制 Excel 或 Sheets。简单任务可以跑通:改个格式、写个公式、筛个数据。但复杂工作簿会暴露问题。
表格任务的难点在于状态和工具。Agent 要知道该读哪个 sheet、选哪个区域、用什么函数、是否保留格式、公式是否跨表引用。一步错,后面都可能错。
Spreadsheet-RL 的判断是:真实表格工作流需要专门训练,而不只是更长 prompt。
论文的训练环境
论文提出 Spreadsheet Gym,在现实 Microsoft Excel 环境中训练表格 Agent。它通过 Python sandbox 暴露 Excel 功能,并设计工具集和 tool-routing rules,让 Agent 能多轮操作表格。
数据方面,论文从在线论坛收集 paired start-goal spreadsheets,构造可扩展训练管线;同时编译 Domain-Spreadsheet benchmark,覆盖金融、供应链管理等领域任务。
这种设计的让训练目标更贴近真实文件变化,而不是让模型只在文本里描述该怎么做。
结果说明了什么
论文报告,Spreadsheet-RL 把 Qwen3-4B-Thinking-2507 在 SpreadsheetBench 上的 Pass@1 从 12.0% 提高到 23.4%,在 Domain-Spreadsheet 数据集上从 8.4% 提高到 17.2%。
提升幅度很明显,但绝对数值也提醒我们:真实表格 Agent 仍然很难。即使经过强化学习,Pass@1 也远未到可以无监督接管高风险表格的程度。
这恰恰是它的价值。它把办公 Agent 从「看起来能操作软件」的演示,拉回可量化训练和评测。
对应用开发的启发
第一,垂直办公场景可能需要小而专的 Agent,而不是只把最大通用模型接到工具上。第二,训练环境要能反映真实软件状态,不能只用抽象 API。
第三,评测应关注最终文件质量。用户不会因为模型思路正确就接受一个损坏公式的工作簿。
对中国企业软件团队来说,表格 Agent 是很现实的落点。但上线策略应该保守:先做低风险修订、批量检查、公式解释和辅助生成,再逐步进入自动改表和审批流。
还没有评论,你可以写下第一条。