先把「小模型」这个词拆开

讨论小模型,最容易犯的错是把三四种完全不同的东西塞进同一个词里。它们都可以叫 small model,但工程含义、硬件约束和商业价值差得很远。

第一类是真正跑在微控制器、传感器和极低功耗硬件上的 TinyML。它的模型体积可以小到 KB 级或几十 KB、几百 KB 级,典型任务是关键词唤醒、异常检测、简单图像分类、姿态或振动信号识别。MLCommons 的 MLPerf Tiny 把它的目标写得很清楚:评估超低功耗系统上的 tiny neural networks,并覆盖图像分类、视觉唤醒词、关键词识别、异常检测和流式唤醒词等任务。TensorFlow Lite for Microcontrollers 也是同一路线,目标设备是 DSP、微控制器和其他内存受限设备。

所以,单片机上的「小模型」不是伪概念。它确实存在,也确实很小。只是它通常和今天大家讨论的「能聊天、能写代码、能做推理」的小语言模型无关。把一个能在 MCU 上做唤醒词识别的模型,拿来证明「通用语言模型也能塞进任意物联网设备」,这就是偷换概念。

第二类是小语言模型,也就是通常说的 SLM。它大概落在几亿到十几二十几亿参数之间。Hugging Face 的 SmolLM 从 135M、360M 到 1.7B;Qwen3 给出了 0.6B、1.7B、4B、8B、14B、32B 等 dense 版本;Meta 的 Llama 3.2 发布了 1B 和 3B 文本模型,明确面向 edge 和 mobile;Apple 公开的 Apple Intelligence 技术资料里,也有约 3B 参数的端侧基础语言模型。

第三类是云端「mini / flash / haiku」模型。它们往往不小到能塞进手机,更谈不上单片机,但比旗舰模型便宜、快、吞吐高。很多企业口中的「小模型降本」,实际指的是这类云端低价模型。

第四类是企业自己训练或微调的窄任务模型。它们可能是 2B、8B,也可能是一个更小的分类器、reranker 或 embedding 模型。价值主要来自任务边界窄:只做工单分类、合同条款抽取、客服质检、RAG 重排、路由判断、风控初筛。

这四类都可以有前途,但不能互相证明。TinyML 的成功,不能直接证明小语言模型会替代 GPT-5 这类旗舰模型;云端 mini 模型的低价,也不能证明企业已经拥有端侧隐私能力;一个专用分类器跑得好,也不能说明它有通用推理能力。

小模型有没有前途

有。更准确地说,它的前途是把大模型不该做、也没必要做的活拆出来。

大模型像一个能力很强但很贵的通用工人。早期大家把所有问题都扔给它,是因为系统还没来得及分工。等 AI 应用开始进入真实业务,问题会变得更具体:每个请求都走最强模型,延迟太高;每个中间步骤都按高价 token 计费,成本扛不住;每个隐私数据都送到云端,合规风险变大;每个离线场景都依赖网络,体验不稳定。

小模型正是在这些缝隙里成立。

它适合先判断「这件事值不值得叫大模型」。比如用户输入一句话,系统先用小模型判断意图、敏感级别、任务难度、是否需要检索、是否需要工具调用。简单问题直接回答,复杂问题升级给大模型。这个模式已经有研究支撑。FrugalGPT 早在 2023 年就把 prompt adaptation、LLM approximation 和 LLM cascade 放在一起讨论,并报告在一些任务上可以用级联方式显著降低 API 成本。到 2026 年,围绕 model routing 和 cascade inference 的论文更多,说明业界已经把「先小后大」当成严肃工程问题。

它也适合做高频但低风险的结构化任务。比如摘要、分类、抽取、打标签、简单改写、表单补全、日志解释、RAG 的初筛和重排。IBM 在 Granite 3.0 发布里把 8B 和 2B 模型定位为企业 AI 的 workhorse,列出的任务正是 RAG、分类、摘要、实体抽取和工具使用。这个定位很现实:企业不一定需要一个小模型去写战略报告,但很需要它每天稳定处理几十万条窄任务。

它还适合端侧和边缘场景。Apple 的端侧模型服务写作润色、通知摘要、文本理解、短对话、应用内动作等系统级体验,并不试图在手机上复刻云端最强模型。Meta 说 Llama 3.2 的 1B 和 3B 文本模型适合本地摘要、指令跟随和改写。Mistral 的 Ministral 系列也把 3B、8B、14B 放在 edge、self-hosted 和 robotics 这条线上。

这些场景的共同点是任务本身有边界。边界越清楚,小模型越容易做成产品;边界越开放,小模型越容易露怯。

谁在做小模型

如果把「小模型」按真实用途拆开,牌桌上的公司会更清楚。

Microsoft 的 Phi 是最典型的小语言模型路线。微软把 Phi 直接称为 small language models,围绕高质量数据、推理能力和低成本部署做系列化产品。它的意义在于让企业把「模型能力」和「部署成本」放到同一张表里算。

Google 的 Gemma 和 Gemini Nano 代表另一条路线:把开放权重生态、Android / Web / 本地工具链和端侧能力连起来。本站前面已经单独写过 Gemma 4 的本地部署,这里不重复型号细节。更重要的是,Google 把小模型放进开发者生态和端侧运行框架里。

Meta 的 Llama 3.2 1B / 3B 很直接:轻量文本模型面向 edge 和 mobile,配合 Qualcomm、MediaTek 和 Arm 生态。Meta 的优势不只在模型本身,还在开放权重带来的二次微调和部署生态。

Alibaba Qwen 的特点是型号梯度很密。Qwen3 同时给出 0.6B、1.7B、4B、8B、14B、32B dense 模型,以及 30B-A3B、235B-A22B MoE 模型。这个家族很适合观察一个趋势:小模型没有单一「甜点位」,它要覆盖浏览器、笔记本、单卡服务器、私有云和云端 API 的不同预算。

Mistral 的 Ministral 系列把 3B、8B、14B 明确打到边缘、本地和机器人场景。IBM Granite 则更企业化,2B、8B 和 Granite Guardian 这类安全模型,瞄准的是 RAG、分类、摘要、实体抽取、工具调用和安全护栏。Hugging Face 的 SmolLM 更像研究和社区路线,它把 135M、360M、1.7B 这种尺度公开出来,提醒大家:小语言模型不一定从 7B 起步。

Apple 是另一个很关键的参照。它没有把「端侧模型」包装成开放模型生态,而是把约 3B 参数的模型放进 Apple Intelligence 的系统体验里。这个案例说明,小模型最强的商业位置可能在操作系统、设备和应用工作流内部。

还有一类玩家容易被忽略:Qualcomm、MediaTek、Arm、Intel、AMD、NVIDIA、Apple Silicon、Jetson、Core ML、MLX、llama.cpp、Ollama、vLLM、SGLang。小模型能不能落地,不只取决于模型发布页,也取决于硬件内存、带宽、低比特推理、KV cache、算子支持、批处理和本地运行时。模型小只是开始,跑得稳才是产品。

哪些场景真的成立

小模型最容易落地的场景,大多有三个特征:输入格式稳定,答案空间有限,失败可以回退。

第一是端侧个人助理。通知摘要、邮件提炼、文本润色、简单问答、应用内动作建议,都可以让小模型先处理。这里的价值是低延迟和隐私。用户在手机上改一句话,不应该每次都等一个远端旗舰模型慢慢返回。

第二是企业流程里的结构化处理。工单分类、合同条款抽取、简历筛选、客服质检、销售线索打标签、内部知识库摘要,都不需要每一步都叫最强模型。小模型在这些地方的好处很朴素:便宜、快、可私有化,且容易用企业自己的标注数据微调。

第三是 RAG 系统里的前后处理。小模型可以做 query rewrite、文档初筛、chunk 选择、答案草稿、引用核对和低风险摘要。大模型留给最终综合、复杂推理和高风险输出。RAG 本来就是检索、排序、生成、校验的流水线。流水线越清楚,小模型越有位置。

第四是 Agent 系统里的子任务。Agent 不应该每个动作都拿大模型思考一遍。工具选择、参数填充、页面分类、日志归纳、任务状态判断、是否需要升级,都可以交给小模型或专用模型。大模型负责难的规划和失败修复,小模型负责高频机械动作。这比「让一个旗舰模型从头包到尾」更像生产系统。

第五是物联网和工业边缘。这里小模型通常是 TinyML:电机异常检测、设备振动识别、关键词唤醒、摄像头里的人体存在检测、环境传感器异常预警。它的核心价值是少传数据、省电、离线、实时。对很多传感器来说,把原始数据全传到云端既贵又慢,还可能不合规。

不适合的场景也要说清楚。小模型不适合承担开放式复杂推理,不适合长时间自主 Agent 的核心规划,不适合高风险法律、医疗、金融结论,不适合没有检索支撑的广泛知识问答,也不适合把错误成本很高的代码修改直接交出去。它可以参与这些系统,但不该单独补救。

到底怎么做

做小模型,第一步是拆任务,而不是先找参数最小的模型。

一个可用的系统通常要先把请求分成几类:简单查询、结构化抽取、需要检索、需要工具、需要长推理、需要人工确认。小模型可以负责前两三类,大模型负责后几类。这里最重要的是路由门槛:小模型不仅要会回答,还要会承认自己不该回答。

第二步是选基座。通用中文任务可以看 Qwen、Gemma、Llama、Phi、Mistral、Granite、SmolLM 等家族;端侧 Apple 生态要看 Core ML、MLX 和系统能力;企业私有化要看许可证、部署栈、量化支持、显存占用和推理吞吐;MCU 场景则根本重点是选 TFLite Micro、CMSIS-NN、厂商 SDK 或 Edge Impulse 这类 TinyML 工具链。

第三步是降本。常见路径有六个:蒸馏、量化、剪枝、LoRA / QLoRA 微调、RAG 外挂知识、级联路由。很多失败项目只做量化,以为把 8B 压成 4-bit 就完成了「小模型化」。实际上,量化只解决权重体积和推理成本,不解决任务适配,也不解决模型什么时候该升级的问题。

第四步是做评测。小模型不能只看通用榜单。你要做客服分类,就评分类准确率、拒答率、错分代价和延迟;你要做 RAG,就评引用命中、答案忠实度和幻觉率;你要做端侧摘要,就评电量、首 token 延迟、内存峰值和用户偏好;你要做 TinyML,就评 RAM、ROM、能耗、单次推理延迟和误触发率。

第五步是加失败回退。小模型系统最怕「便宜但错得很自信」。实用做法是把置信度、规则校验、检索证据、用户权限、风险等级放进路由器。低风险任务小模型直接处理;中风险任务小模型给草稿,大模型复核;高风险任务直接升级或要求人工确认。

小模型首先是一套系统设计,然后才是一个模型文件。模型只是其中一块,旁边还有数据、路由、评测、缓存、监控、回退和产品边界。

第三方数据怎么看

判断小模型有没有前途,不能只看厂商发布会。至少要看四类外部信号。

第一类是成本和效率趋势。Stanford HAI 的 2025 AI Index 提到,达到 GPT-3.5 级别表现的系统推理成本,在 2022 年 11 月到 2024 年 10 月之间下降超过 280 倍。这个数字不等于每个小模型都能替代 GPT-3.5,但它说明能力下沉和推理效率提升是正在发生的长期趋势。

第二类是独立榜单。Artificial Analysis 把开放模型按大小、速度、价格、能力等维度放在一起比较,其中 small open source models 页面覆盖 4B 到 40B 区间。它不能替代自己的业务评测,但能帮助判断一个模型是不是已经进入可用区间。

第三类是 TinyML 基准。MLPerf Tiny v1.3 的结果页明确说,tiny neural networks 通常低于 100KB,并处理来自音频和视觉等传感器的数据。这句话很重要,因为它给了「真的非常小的模型」一个硬参照:这种模型确实存在,主要做端点智能和传感器智能。

第四类是厂商技术报告和产品分层。Apple 的约 3B 端侧模型、Meta 的 1B / 3B edge 模型、Qwen3 的 0.6B 到 32B dense 梯度、Mistral 的 3B / 8B / 14B Ministral、IBM Granite 的 2B / 8B 企业模型、Hugging Face 的 135M / 360M / 1.7B SmolLM,都说明主流玩家并没有只押旗舰模型。它们在补齐一个更细的部署光谱。

这四类数据合在一起,给出的结论比较克制:小模型有现实前途,但前途来自分工,不来自玄学。它会扩大 AI 的可部署边界,降低大量中间任务的成本,也会让端侧和私有化应用更容易成立。但它不会取消大模型,也不会让每个设备都突然拥有通用智能。

再回答单片机这个问题

把物联网、单片机上的部署叫「小模型」,在宽泛机器学习语境里是合适的。TinyML 本来就是小模型的一支,而且是最「小」的一支。

但如果一篇文章先用 MCU 上的关键词识别、异常检测、视觉唤醒词做例子,然后转头说「所以小语言模型会无处不在」,这里就不严谨。因为两边的任务不同,输入不同,模型结构不同,评估指标不同,硬件约束也不同。

一个几十 KB 的关键词识别模型,可以在微控制器上持续监听语音片段;一个 0.6B 或 1.7B 的语言模型,即使用 4-bit 量化,权重也会到几百 MB 到 GB 级,还要考虑 KV cache、tokenizer、运行时内存和算子支持。前者解决「有没有某个信号」,后者解决「这段话是什么意思、怎么生成下一段话」。它们都小,只是小在不同尺度。

更准确的说法应该是:

  • TinyML 是传感器和微控制器上的小模型,适合低功耗、低带宽、低延迟的识别任务。
  • 小语言模型是端侧、私有化和低成本推理里的语言模型,适合有明确边界的文本与工具任务。
  • 云端 mini 模型是服务商用更低价格和更高吞吐提供的通用模型档位,适合大规模在线应用降本。
  • 企业专用小模型是围绕业务数据和任务边界训练出来的窄模型,适合稳定流程和内部系统。

如果有人把这四个概念混在一起卖一个故事,就要警惕。小模型不是骗局,容易出问题的是「小模型」这个词被拿来偷换。

额外五个问题

第一个问题:小模型会不会改变 AI 应用的商业模式?

会。大模型 API 把应用成本变成按 token 计费,小模型和端侧模型则可能把一部分成本重新变成设备成本、软件成本或一次性部署成本。对高频低价应用来说,这个变化很关键。

第二个问题:路由器应该由小模型做,还是由规则做?

早期应该规则和小模型混用。纯规则便于解释,但覆盖不了复杂语义;纯小模型灵活,但容易漂移。生产系统更适合把风险等级、任务类型、置信度、历史失败率和成本预算合在一起判断。

第三个问题:企业会不会训练自己的 1B 到 8B 内部模型?

会有一部分企业这么做,但更多企业会先微调、蒸馏或做 RAG。真正从零训练小模型,需要数据治理、评测体系和持续训练能力。多数企业缺的重点是高质量内部数据和稳定任务定义。

第四个问题:端侧小模型真的更安全吗?

不自动安全。模型在本地运行可以减少原始数据出设备的次数,但日志、同步、云端回退、插件调用、崩溃上报和产品埋点仍然可能泄露信息。端侧只是降低一部分风险,不等于隐私问题消失。

第五个问题:小模型会不会让大模型失去价值?

不会。更可能发生的是大模型变成高难任务、复杂规划、强推理、最终复核和模型蒸馏的上游能力;小模型负责前端高频任务和本地执行。越成熟的 AI 系统,越不像一个模型包打天下,而像一组模型按任务分层工作。

结论

小模型的前途很清楚:它会成为 AI 系统里的成本层、延迟层、隐私层、端侧层和任务专用层。

但它不能被当成一个随便套用的标签。TinyML 的「小」,是真正意义上的 KB 级和微控制器级;小语言模型的「小」,通常还是几亿到十几亿参数;云端 mini 模型的「小」,只是相对旗舰模型更便宜更快;企业专用小模型的「小」,更多是任务边界小。

把这些边界讲清楚,小模型是很务实的工程方向。把这些边界抹掉,小模型就会变成营销词。值得做的是把每个 AI 系统拆开,问清楚:这一步到底需不需要最强模型,需不需要联网,需不需要上传数据,需不需要复杂推理,错误之后有没有回退。

能回答这些问题,小模型就有前途。回答不了,再小也只是换了一个更便宜的错误来源。