很多决策正在变成数据分析问题

最近我越来越强烈地感受到一件事:很多以前被叫作生活选择、消费决策、人生规划的问题,正在变成数据分析问题。

高考志愿是一个数据分析问题。一个家庭要看分数、位次、批次、专业组、学校历年录取线、招生计划、城市、学费、就业和读研路径,还要把家庭约束和风险偏好放进去。问题不能停在「这个分数能上什么学校」。更真实的任务是,在一堆结构化和非结构化信息里,找到对这个家庭风险收益合适的组合。

购物也是一个数据分析问题。用户看似在买一个商品,实际在分析预算、使用场景、品牌、参数、价格、券后价、差评、售后、发货速度、店铺可信度和真实评价。「加入购物车」只是分析结束后的一个动作。

投资更明显。投资者要看财报、估值、行业周期、宏观环境、市场情绪、新闻、政策、竞争格局、历史价格和风险敞口。难点不在于找到一条信息,而在于把多源信息放在一起,判断它们之间的关系、冲突和不确定性。

我把这类问题叫作泛数据分析。

这里的数据分析不是坐在 BI 系统里看图表,也不只属于写 SQL 做报表的数据分析师。它是一种更广义的能力:围绕一个具体决策,收集信息、理解信息、交叉验证信息,最后交付一个人能直接使用的结果。

传统 BI 覆盖不了这类任务

过去,数据分析主要发生在企业内部。

销售看销售数据,运营看用户数据,财务看收入和成本,老板看仪表盘。典型界面是报表、图表、SQL 和 Excel。它解决的是「公司已经有一批数据,我要从里面看出点东西」。

现在的问题变了。

很多分析任务发生在现实世界里。一个家长要帮孩子判断志愿风险,一个普通人要买一台不踩坑的洗烘套装,一个投资者要判断一家公司是不是透支了预期,一个创业者要分析细分市场还有没有机会,一个销售要评估客户是不是高价值线索,一个医生、律师、咨询顾问要把资料、案例和数据库放在一起做判断。

这些任务有三个共同点:

  • 数据来源很散。
  • 判断过程很长。
  • 最终结果必须能行动。

它们通常不只是查数据库,也不只是搜网页。它们会同时用到用户输入的目标和约束、数据库里的结构化数据、搜索引擎找到的公开信息、浏览器里才能访问和操作的网页、PDF、Word、Excel、图片、截图、领域知识库,以及最后要生成的报告、表格、PDF、仪表盘、购物车或工单。

这已经超出传统 BI 的边界。通用聊天机器人随便聊两句,也很难把这类工作做完。

它需要一个 Data Agent 底座。

高考、购物、投资共享同一个骨架

高考志愿、购物和投资看起来完全不同。一个是教育,一个是消费,一个是金融。用户情绪不同,页面不同,交付物也不同。

但把外壳拆掉,它们的骨架很像。

第一步,收集用户约束。

高考助手要知道省份、分数、位次、目标学校、专业偏好、城市偏好、家庭约束和风险偏好。购物助手要知道想买什么、预算多少、给谁用、使用场景、必须满足什么、明确不要什么、已经登录了哪些购物平台。投资助手要知道投资标的、周期、风险承受能力、关注指标和组合约束。

第二步,连接信息来源。

高考要接录取数据集、院校数据、专业信息,还要搜索教育部、阳光高考、省考试院、高校招生网等官方来源。购物要打开电商网站,读商品页、评论区、问答、价格和购物车。投资要接行情、财报、公告、新闻、研究资料和用户自己的交易记录。

第三步,做分析。

这里的分析包含比较、筛选、验证、推理和风险判断。高考要分冲稳保,购物要给出推荐和避坑理由,投资要看收益来源、估值风险和不确定性。

第四步,交付结果。

高考助手最好交付 PDF 报告,家长可以保存、转发、讨论。购物助手最好生成购物报告,并在合适时把商品加入购物车,但不下单、不付款。投资类产品可以交付研究摘要、风险清单、监控看板或调仓建议,但不能越过用户确认直接交易。

这些任务的本质是一条完整工作流:

  • 收集约束。
  • 获取数据。
  • 分析判断。
  • 交付行动。

这是泛数据分析应用的基本形态。

小 App 是入口,重能力在后面

我在 InfiniSynapse 里做过几个小 App,其中两个很典型。

一个是高考报考选校 AI 助手。用户在页面上输入省份、分数、位次、目标学校、目标专业、城市偏好和家庭约束,系统把这些信息发给 InfiniSynapse。后面由 InfiniSynapse 使用高考录取数据源、院校数据源和官方公开信息搜索能力,最后生成 Markdown 和 PDF 报考分析报告。

另一个是直男购物 AI 助手。用户输入想买什么、预算、使用场景、必须满足和明确不要的条件,再勾选自己已经在当前 Chrome 浏览器登录的购物网站。任务发给 InfiniSynapse 后,Agent 会使用浏览器能力访问用户勾选的平台,复用当前登录态做比价、读评论、看差评、筛商品,最后生成购物报告,并在合适时把商品加入购物车。

表面上看,这是两个产品。

从工程角度看,它们的前端都很薄。前端主要做三件事:

  • 把用户输入收集清楚。
  • 把场景需要的能力开关配置清楚。
  • 把结果用适合该场景的方式展示出来。

复杂的部分在后面:数据源连接、知识库使用、Web Search、浏览器操作、文件读取、任务流、工作区产物、报告生成、PDF 导出、实时进度同步和用户确认边界。

InfiniSynapse 要承接的就是这部分工作。

外部世界也在往这个方向走

这个方向有外部信号支撑。过去一年,产品、开源项目和论文都在朝同一个地方收敛:让 Agent 从回答问题,走向长程研究、网页操作、文件分析、工具调用和结构化交付。

OpenAI 在 2025 年 2 月发布 Deep Research,定位就是多步骤互联网研究。它会搜索、阅读和综合大量在线信息,生成带引用的报告。官方场景里既包括金融、科学、政策和工程,也包括汽车、家电、家具这类高研究成本的消费决策。

到 2025 年 7 月,OpenAI 又发布 ChatGPT Agent,把网页操作、深度研究、对话、连接器、终端和文件产物放进同一个系统。这个产品变化说明一个趋势:Agent 正在从「回答」走向「使用工具完成任务」。

Google DeepMind 的 Project Mariner 也在同一条线上。它研究的是浏览器里的 Agent,能理解网页、操作网页,并完成跨页面任务。浏览器一旦变成 Agent 的工作台,购物、填表、找资料、比较产品和整理网页信息都会变成可执行流程。

开源侧更直接。browser-use 的目标是让网站可以被 AI Agent 使用,项目示例覆盖网页搜索、购物、填表和浏览器操作。Skyvern 用大模型和视觉模型做网页自动化,解决传统 RPA 依赖 XPath、页面一改就坏的问题。LangGraph 则提供长任务、有状态、多步骤 Agent 的编排能力。

论文和 benchmark 也开始把「数据 Agent」作为单独问题研究。Data Agent Benchmark 关注多源异构数据推理,任务里同时包含数据库、表格、文本和领域知识。它的意义在于指出真实数据分析任务的难度:问题往往不在一个干净数据库里,经常散落在多个来源之间,需要 join、解释、验证和推理。

Deep Research Agents 的综述则把这类系统总结成长期规划、多跳检索、工具使用、结构化报告生成和可验证引用。这个框架和泛数据分析应用几乎是同一件事的研究版表达。

这些进展共同说明,泛数据分析不是给 BI 换个 AI 外壳。它更像一层新的决策基础设施。

底座要抽出分析引擎

如果没有底座,每做一个泛数据分析应用,都要从头造一遍。

做高考助手,要接数据库、整理录取数据、写分析逻辑、接搜索、做 PDF、处理实时任务。

做购物助手,要接浏览器、处理登录态、打开电商页面、读评论、比价、做报告、处理购物车和敏感操作边界。

做投资助手,又要接行情、财报、新闻、公告、研报、知识库、历史数据,还要做风险提示和用户确认。

如果每个应用都重做这些能力,成本会很高,也很难稳定。

InfiniSynapse 的思路是把中间最重的分析能力抽成底座。先配置数据源:数据库、知识库、文件、外部数据服务,或者把某个领域数据做成可订阅的数据集。小 App 只负责收集该场景特有的信息,把任务发给 InfiniSynapse。

底座根据任务调用已经具备的能力:

  • 数据库连接。
  • 知识库和 RAG。
  • 搜索。
  • 浏览器使用。
  • 文件和图片读取。
  • 沙箱分析。
  • 多步骤任务规划和自我纠错。
  • 工作区产物生成。

最后,小 App 把结果接回来,以场景需要的方式交付。高考是 PDF,购物是报告和购物车,企业经营分析可能是仪表盘,销售线索分析可能是 CRM 里的评分和跟进建议,投资研究可能是风险清单、监控表和需要人工确认的动作。

同一个底座,支撑不同交付形态。

产品经理要重新理解数据源

过去说数据源,通常想到数据库。

泛数据分析时代,数据源会变宽。

一个网页是数据源。一个 PDF 是数据源。一个用户上传的截图是数据源。一个浏览器登录态背后的电商后台是数据源。一个知识库是数据源。一段用户口述的偏好也是数据源。

甚至一个「不能做什么」的边界,也是一种重要输入。

购物助手里,「只加购物车,不付款」是关键约束。它不属于分析材料,却决定了 Agent 的行动边界。

高考助手里,「只能做分析和建议,不能登录志愿填报系统,不能提交任何志愿」也是关键约束。越是高风险场景,边界越重要。

所以泛数据分析产品不能只把更多数据丢给模型。产品设计者要把数据源、用户约束、工具权限、交付物和风险边界一起设计。

一个好的泛数据分析产品要能分析,也要知道什么时候停下来,什么时候标注不确定性,什么时候必须交给用户确认。

ToC 机会在高后悔成本决策

评论里有人说,这个坑有巨大商业价值,而且可能比 ToB 更有商业化前景。这个判断有道理,但要加一个限定条件。

ToC 里只有一部分决策值得做 Agent。低价、低后悔成本、信息差不大的消费,用户未必愿意付费。买一盒纸巾不需要泛数据分析。

机会在高金额、高后悔成本、高信息复杂度的场景:

  • 高考志愿、考研择校、留学申请、职业规划。
  • 买车、装修、家电、旅游、保险、体检套餐。
  • 投资研究、资产配置复盘、公司基本面监控。
  • 法律咨询、医疗资料整理、复杂采购和家庭财务规划。

这些任务有几个特点:用户怕踩坑,信息来源分散,决策结果影响大,传统搜索很难直接给答案,人工专家又贵又难标准化。

泛数据分析应用可以在这里提供中间层价值。它不一定替代专家,但可以把资料收集、初筛、交叉验证、风险提示和报告生成自动化,让用户带着更清楚的问题去找专家,或者在低风险范围内自己完成决策。

创新点不在聊天框

如果把泛数据分析应用做成又一个聊天框,价值会被压低。

更值得做的是五类底层能力。

第一,应用模板工厂。每个场景都可以拆成输入字段、数据源、工具权限、分析步骤和输出物。行业专家不需要重写系统,只要配置出高考助手、买车助手、客户分析助手。

第二,决策型数据源市场。未来会出现能被 Agent 调用的决策数据包。比如高考录取数据包、家电评测数据包、企业工商数据包、行业政策数据包。

第三,证据链引擎。每个结论都能回溯到来源:哪个网页、哪个 PDF、哪条评论、哪张表、哪个计算步骤。泛数据分析要商业化,证据链比漂亮话重要。

第四,人类确认边界。购物只加购物车不付款,高考只生成建议不提交志愿,投资只提示风险不自动交易。可行动但不越界,是高信任场景的基本设计。

第五,垂直场景评测集。高考推荐是否落在真实录取区间,购物推荐是否避开差评风险,销售线索评分是否提升转化,投资研究是否及时暴露风险。没有评测,泛数据分析很容易退化成漂亮报告生成器。

这五件事合在一起,才像基础设施。

InfiniSynapse 应该做决策基础层

InfiniSynapse 不应该只做一个「你问它答」的分析工具。

更有价值的定位是泛数据分析应用的基础层。开发者、产品经理、行业专家或企业内部团队,只要有一个具体场景,就可以在这个底座上快速做出一个应用:

  • 配置数据源。
  • 写清楚任务目标。
  • 设置工具能力和边界。
  • 收集用户输入。
  • 把任务交给 InfiniSynapse。
  • 拿回报告、文件、图表、链接或其他交付物。

这套模式的意义在于,让专业分析能力不再只藏在少数数据团队手里,也不再只能以 BI 报表的形式出现。

它可以进入每一个具体决策现场。

当一个家长需要填志愿时,它是高考助手。当一个人需要买东西时,它是购物助手。当一个企业要分析客户时,它是销售助理。当一个投资者要复盘标的时,它是研究助理。

前端形态可以完全不同,底层能力可以复用。

把散落信息变成可执行决策

泛数据分析世界正在到来。

原因不是大家突然都变成了数据分析师。越来越多普通决策已经复杂到需要数据、工具和 Agent 一起完成。

人不会为了填志愿先学 SQL。人不会为了买耳机先学爬虫。人也不会为了判断一家公司先搭一个数据仓库。

他们需要的是一个能把信息收集、分析判断和结果交付串起来的应用。应用开发者需要的是一个能承接这些复杂能力的底座。

未来很多看起来毫不相干的应用,可能都会长在同一类基础设施上。高考志愿、购物、投资、销售、运营、咨询、研究,表面完全不同,底层都在做一件事:

把散落的信息变成可执行的决策。

谁能把这条工作流做稳,谁就会成为泛数据分析时代的基础设施。