会场很热闹,季宇先看到的是机器越做越大

季宇在节目里先用了一个词:“琳琅满目”。

这当然可以理解成产品很多,但他后面的语气更接近另一层意思:今年 GTC 上台的,已经不是几件孤零零的新品,而是一整套越来越密、越来越重、越来越完整的系统。CPU、GPU、网络、存储、互联都被塞进同一套叙事里,摆在客户面前的也不再只是芯片,而是一台可以成批吐出 token 的机器。

顺着这层意思往下讲,他才会把今天的英伟达类比成上世纪的大型机公司。这个类比带着历史感,也带着一点警惕。

为什么他会把英伟达类比成 IBM

季宇在节目里反复提到 IBM 和 Intel。

他的意思不难懂。IBM 代表的是一种“把性能、集成度和系统完整性推到极致”的路线。它可以做出非常强、非常完整、也非常昂贵的机器。Intel 代表的则是另一条路:不是先把系统做到最豪华,而是把门槛降下来,让更多公司、更多开发者、更多普通人用得起、接得住。

季宇认为,今天的英伟达更接近前者。

这个类比之所以成立,不是因为英伟达真的和 IBM 一模一样,而是因为 GTC 2026 展示出来的重点,确实越来越偏向“大型机器”的逻辑。官方在 2026 年 3 月 16 日 发布 Vera Rubin 平台时,已经不再只是讲一代 GPU,而是一次性讲了 Vera CPURubin GPUNVLinkBlueField-4Spectrum-6,再加上并入平台的 Groq 3 LPU。这套说法本身就在告诉市场:英伟达要卖的是一整座可配置的 AI 基础设施,而不是若干张卡。

季宇真正担心的,是这种路线会天然带来两个后果。

第一个后果是门槛越来越高。系统越完整、堆叠越深、非标件越多,能接住这套方案的客户就越集中到超大厂、超大模型公司和超大型云平台。

第二个后果是普及会变慢。因为“最强”这件事,和“最容易大规模铺开”这件事,往往不是同一个目标。

说得更直白一点,季宇不是在说英伟达这条路走不通,而是在说它走的是“把最贵、最强、最整合的东西继续往上推”的路。这条路当然能赢高端市场,但它未必是让 AI 最快变成普遍基础设施的那条路。

五层蛋糕和 AI 工厂,本质上是在卖一套更大的系统

这期播客里,季宇和主持人讨论“五层蛋糕”时,语气其实很一致。

他们都意识到,英伟达已经不满足于“我有最好的 GPU”。它必须向资本市场解释,GPU 之外还有什么增长。于是你会看到,英伟达这两年反复讲 AI factory,再把 AI 解释成从能源、芯片、基础设施一路到模型、应用的“五层蛋糕”。

从商业角度看,这套叙事很顺。

如果客户相信自己买的不是几块芯片,而是一座会持续吐出 token 的工厂,那么英伟达就不再只是在和别人比“单卡价格”或“单卡性能”,而是在争整套系统的预算份额。季宇在节目里说得很直接:英伟达要回答的,始终是“下一步增长在哪里”。如果只卖 GPU,这个故事已经太窄了;如果能把基础设施、互联、存储、CPU 乃至部分系统设计都包进来,蛋糕就会更大。

这个判断和英伟达官方口径是合拍的。黄仁勋在官方博客里把 AI 写成“五层蛋糕”,意思就是 AI 不再只是模型,而是从供电到应用的整套工业系统。Vera Rubin 的新闻稿则进一步把这套系统写成“为预训练、后训练、测试时扩展和 agentic inference 的每个阶段配置不同基础设施”。

但季宇的提醒也很重要:这套话不仅在解释产业趋势,也在抬高英伟达对整条链条的控制力。

换句话说,AI 工厂当然是在回答真实需求,因为今天训练、推理、长上下文、低延迟、agent 工作流确实已经把系统变得更复杂了。可它同时也是一个定价叙事。它让客户更容易接受“你买的不是零件,而是整台机器”,而整台机器天然更容易带出更多非标件、更多绑定、更多上游利润。

季宇为什么会说,LPU 是他唯一看不懂的选择

这大概是整段访谈里最有技术含量,也最容易把人听晕的一段。

季宇不是简单说 LPU 不行。他的质疑其实非常具体:如果英伟达把推理拆成不同步骤,再把不同步骤交给 GPU 和 LPU 去跑,那么这个拆法到底合不合理。

要把这件事听明白,只需要先记住两个词。

第一个词叫 attention。可以把它理解成模型在“回头翻上下文”。你和模型聊得越长、给它塞的文档越多,它越要不断读取前面那些内容之间的关系。

第二个词叫 FFN / MoE。可以把它理解成模型在“真正算下一步该说什么”。尤其是 MoE,也就是混合专家,它不是所有参数都一起干活,而是每次只激活一部分“专家”。

按英伟达官方技术博客的说法,Vera Rubin 搭配 LPX 的方案会把推理解码阶段拆成两部分:GPU 负责对 KV cache 做 attention,LPU 负责 FFN / MoE 这类更偏延迟敏感的计算。官方逻辑是,GPU 有大内存和高吞吐,LPU 有超高片上带宽和确定性低延迟,两者拆开能把交互速度和系统效率一起拉上去。

季宇觉得问题没这么简单。

他的怀疑点主要有三个。

第一,LPU 最突出的优势是带宽高,但 MoE 在高并发场景下未必最吃带宽,反而可能更吃算力利用率。用他自己的说法,这就像你明明有一条特别宽的原料传送带,却把它拿去做一个更靠工人忙不忙得起来的工序,多少有点错配。

第二,真正持续吃带宽的 attention 部分,往往又和上下文长度、KV cache 容量强相关。这部分对内存容量和数据读取方式很敏感,而 LPU 的片上存储虽然快,却小得多。季宇的意思是,英伟达也许正因为 LPU 存储太有限,才不敢把 attention 放上去,只能把它放在更“装得下”的那一段。

第三,就算芯片内部分工说得通,芯片之间怎么传数据也还是个问题。季宇在节目里特别提到,机柜内部互联很强,不等于跨机柜、跨系统的交互成本也同样低。如果模型每生成一个 token,都要在 GPU 和 LPU 之间反复来回交换中间激活值,最终瓶颈未必在单颗芯片,而可能在系统级数据搬运。

这三个质疑都不是情绪判断,而是工程判断。

当然,这里也要收一下。季宇说“看不懂”,不等于英伟达一定做错了。更准确地说,英伟达目前给出的公开论证,更多还是架构图和收益叙事,还不是足够完整的系统实测。官方已经明确把这种设计叫作 attention–FFN disaggregation,也就是把解码里的注意力和前馈部分拆开,交给不同处理器去跑。这个设计方向本身当然可能成立,但外界暂时还拿不到足够多的公开数据去判断,这个拆法在真实高并发、长上下文和多租户场景下究竟稳不稳、值不值。

所以季宇这句“唯一看不懂”,其分量恰恰在于他没有泛泛地反对异构,而是在追问异构之后最麻烦的那件事:你是不是把最合适的计算,放到了最合适的芯片上。

TPU、LPU、GPU 的差别,播客里其实讲得很实在

这期节目还有一个优点,就是季宇没有把所有非 GPU 芯片混成一团。

他说,TPUGPU 的关系,其实没有 LPUGPU 的关系那么激进。因为 TPU 再怎么专用,它仍然比较像一种“没那么通用、但依旧延续了主流内存和系统设计”的加速芯片。它是中间路线,不是另起炉灶。

LPU 则更激进。它押的是超高片上带宽、确定性执行和极低延迟,希望在某些推理环节里把速度做到非常夸张。问题是,极端优化的东西很容易遇到一个老问题:今天适合,明天未必适合。

季宇在节目里举的例子很朴素。大模型前两年还是比较“稠密”的结构,现在则更多转向 MoE;过去大家主要在做聊天,今天则越来越多是 agent 工作流。请求形态一变,输入和输出 token 的比例会变,长上下文会变,工具调用会变,推理系统最吃什么也会变。

所以他对推理芯片的态度,不是“谁赢谁输”这么简单,而是:如果一种芯片是为某个特定负载特别深地定制出来的,那它也更容易在负载结构变化时变得没那么合适。

这也是为什么他最后并没有说 GPU 一定最好,而是说今天的推理系统还是需要保留一些“四平八稳”的成分。翻译成普通话就是:别把自己押得太死,因为应用还在变。

“消失的 CPX”和非标件推广,说的是英伟达的小心思

播客后面还有一段很值得听。

季宇提到,有些英伟达之前讲过的产品组合,在这次 GTC 上反而没那么显眼了。他把这件事和存储涨价、性价比变化联系在一起,意思是说,英伟达在台上讲的未来路线,并不总是已经板上钉钉,它也会根据供应链价格、客户反馈和市场热度反复调整。

这个观察很重要,因为它把 GTC 从“产品发布会”重新拉回到了“战略展示会”。

也就是说,GTC 上讲的很多东西,既是在发布,也是在试探。英伟达会不断把自己的非标组合推到台前,看市场愿不愿意接,看性价比账能不能算得过来,看哪些绑定能够成立。

季宇对 Vera CPU 的判断也建立在这里。他并不否认 CPU 在 AI 系统里有价值,但他特别提醒:英伟达推 CPU,不只是为了 CPU 自己的性能,更可能是为了把内存、互联、系统形态一起重新定义掉。节目里他说得很直白,如果你用了它的 CPU、用了它的整机方案,往往也就更容易连同它的非标内存和整套堆叠一起买下去。

这话不必理解成阴谋论。大型系统公司天然会做捆绑、做整合、做非标化,因为只有这样,它才能把原本在标准件市场里分散出去的利润重新收回来。季宇要提醒的,不是“英伟达坏”,而是“英伟达越来越像一家整机厂商了”,所以它的每一个技术动作,都不能只从技术最优去理解,还得从利润结构去理解。

大型机和普惠机之间,真正的分歧不是技术,而是门槛

季宇整段访谈最值得保留的,其实不是对某颗芯片的判断,而是他对“普惠化”的执念。

他说,如果 AI 最后只能靠少数超大型 AI 工厂来吐出海量 token,那么这当然是一条路,但很可能不是最有普及力的那条路。真正能让一项技术大规模渗透社会的,往往不是把最强系统继续做大,而是把门槛逐步做低。

这句话听上去像价值判断,背后其实是很现实的算账逻辑。

如果一套系统越来越贵、越来越复杂、越来越依赖特定机柜和特定互联,那么它当然会更适合头部云厂商和超级大客户。可大量中小公司、高校、普通开发者,以及未来更广泛的终端设备,就会越来越难接近它。这种距离一旦被拉开,AI 产业就更容易出现“两层世界”:上面是越来越强的 AI 工厂,下面是很难真正触碰核心能力的大多数用户。

季宇用 IBM 和 Intel 的历史来提醒这一点,意义就在这里。

这个类比不能硬套,因为今天的软件生态、开源模型、云服务和终端设备条件,和上世纪完全不是一回事。但它确实提出了一个很好的问题:如果英伟达把“最强的大机器”这条路走得越来越深,那么谁来回答“更低门槛的普及”这件事。

这段访谈把一条分界线说得很清楚

季宇并没有否认英伟达的工程能力,也没有否认 AI 工厂的现实需求。他更关心的是另一条分界线:一条路通向更强、更密、更贵、更完整的系统;另一条路通向更低门槛、更大范围的普及。

今天的 GTC 明显站在前一条路上。英伟达把更多零部件、更多非标件、更多控制点一起装进系统,性能会继续上去,客户门槛也会跟着抬高。季宇的提醒,是让人别把“更强”自动听成“更普及”。

所以再回头看那句“琳琅满目”,它里面有惊叹,也有保留。这家公司正在把能打包的东西尽量打包,而行业最后会不会长期接受这种越来越重的整机路线,还得看后面的账怎么算。

更新附注

v1.1 2026-03-30:重写摘要、开头和收束段落,压低评论腔和二分句式,改成更平实的叙述方式。