导读:英伟达过去十年靠GPU在“AI训练”市场建立的霸权,正在被“AI推理”需求所动摇。算力竞赛的焦点,已经从“谁能堆更多算力”转向了“谁能构建更优的经济模型”。这场由“AI推理成本”引发的革命,正在催生一个多元化的算力新格局。
英伟达正在从“规则制定者”,转变为“牌桌上的玩家之一”。
过去几年,AI行业的算力军备竞赛,可以说就是英伟达显卡FLOP的提升。从H100到Blackwell再到Vera Rubin,每一代新GPU的发布,都是在探索新的物理极限。
但当需求逐渐从集中的“大炼模型”到细水长流的“推理使用”时,成本问题开始浮现。

最近一段时间,非GPU算力逐渐崛起。Anthropic与谷歌和AWS分别签下价值数百亿美元、各采购百万颗级别TPU和Trainium芯片;当Meta一边采购英伟达和AMD的GPU,一边又与谷歌签下数十亿美元的TPU租赁协议;连OpenAI也在绕开英伟达,直接与Cerebras签下超100亿美元的算力协议。
这些都说明,AI世界的底层操作系统正在重构。TPU、LPU这些非GPU路线,开始反攻英伟达。
无法回避的“推理税”英伟达过去的领先,其实是在“训练”阶段。
训练,是一次性的、资本密集型的“大兴土木”工程。投入数万张GPU,耗费数月时间和数亿美元,教会一个模型认识世界。在这个阶段,GPU凭借其强大的通用并行计算能力和成熟的CUDA生态,是无可争议的王者。
但模型终究是要用的。推理,就是模型被训练好后,每一次对外提供服务的过程。ChatGPT的每一次问答,豆包生成的每张图片,都是一次推理。与一次性的训练不同,推理是持续的、高频的、规模随用户量指数级增长的运营成本。

市场分析普遍认为,到2030年,推理将占据所有AI计算资源的75%,形成一个2550亿美元的庞大市场。
问题在于。为训练而生的GPU,在推理这件事上,效率并不经济。GPU的设计哲学是“吞吐量优先”,像一个巨大的体育场,能同时容纳成千上万的人处理并行任务。
但在实时推理中,任务往往是串行的,比如生成式AI需要一个Token一个Token地输出。这就好比每次只让一个人进出这个巨大的体育场,绝大部分座位(计算核心)都在闲置,等待数据从昂贵且遥远的高带宽内存(HBM)中慢悠悠地搬运过来。这导致了极高的延迟和极低的单位效率。

对于数据中心而言,这意味着每一瓦特电力、每一平方毫米的芯片,都没有被充分利用。
当用户规模达到数十亿,这种低效被放大成天文数字的成本。这笔“推理税”,所有AI公司都交给了英伟达。
一场针对“数据移动”的围剿在英伟达GPU的“先天缺陷”之上,一批新的计算架构应运而生。它们的设计哲学各不相同,但目标高度一致:杀死数据移动的成本。
1.谷歌TPU:为规模而生
谷歌早在2016年就推出了TPU(张量处理单元),但并非谷歌提前10年预见了AI浪潮,而是为了支撑搜索、翻译、YouTube推荐等全球性业务,必须解决推理的成本和能效问题。
TPU是ASIC(专用集成电路)的典范,它牺牲了GPU的通用性,只为以极致效率执行神经网络计算。

其核心优势在于架构。TPU的“脉动阵列”让数据像在流水线上一样,在计算单元之间高效流动,无需频繁访问主内存,从物理上减少了数据搬运的距离和能耗。相比之下,GPU需要不断地从HBM中取指令、解码、执行,增加了大量开销。
结果是,在同类推理任务上,TPU的性价比可以做到英伟达H100的4倍,能耗则低60-65%。
过去,谷歌将TPU作为“秘密武器”,只供内部使用,构建了深厚的护城河。但现在,面对外部客户的巨大需求,谷歌开始将TPU算力作为云服务出售。当Anthropic、Meta这些英伟达的顶级客户开始用真金白银投票给TPU时,英伟达高利润的商业模式便受到了直接威胁。
2. Cerebras:挑战物理定律的“晶圆计算机”
如果说TPU是对GPU的精巧优化,那么Cerebras的Wafer-Scale Engine(WSE)则是一场彻底的物理革命。
创始人Andrew Feldman看透了英伟达集群模式的本质:用成千上万个分散的小芯片(GPU)组成一个“虚拟大脑”,再用NVLink、NVSwitch等昂贵的互联技术,去弥补这些“大脑”之间物理距离带来的通信鸿沟。这是一种“横向扩展”,但数据移动的成本依然是根本瓶颈。
Cerebras选择了完全相反的“纵向扩展”路线:如果数据移动是最大的敌人,那就干脆不移动数据。他们没有将12英寸的晶圆切割成数百个小芯片,而是完整地做成了一个巨型芯片。

其第三代芯片WSE-3,面积是H100的56倍,集成了4万亿个晶体管和90万个AI核心。最关键的是,它拥有高达44GB的片上SRAM(目前速度最快的存储器)。
这意味着,对于一个足够大的模型,几乎所有的计算和数据都可以在这一块芯片内部完成,彻底消除了跨芯片、跨服务器的通信。Nvidia的方案是“建更快的路”,Cerebras的方案是“取消通勤”。在处理大模型推理时,Cerebras的速度和能效比可以达到GPU集群的10倍以上。
长期以来,业界认为制造晶圆级芯片是不可能的,因为任何一个微小的制造缺陷都会毁掉整块晶圆。Cerebras通过设计冗余核心和可重构网络解决了这个问题,这本身就是一项工程奇迹。
当OpenAI决定将未来核心的推理负载大规模部署在Cerebras的系统上时,等于向市场宣告:这条路不仅走得通,而且在生产环境中被证明优于GPU。
3. Groq:为低延迟而生的“速度机器”
Groq的创始人Jonathan Ross,正是谷歌第一代TPU芯片的核心设计者。他创立Groq,其核心产品LPU(语言处理单元),在思想上是TPU的延伸和进化。LPU将“消灭延迟”做到了极致。
它同样抛弃了对外部HBM的依赖,将所有内存直接集成在计算单元旁边,并采用了“确定性调度”架构。GPU的运行是“动态”的,像一个混乱的十字路口,由硬件调度器实时指挥交通,这导致了执行时间的不可预测性。而LPU是“静态”的,编译器在运行前就规划好了每一个数据在每一个时钟周期的精确路径,像一张完美的列车时刻表。

这种架构,让Groq在处理LLM推理时,能跑出每秒数百甚至上千Tokens的恐怖速度,而同期的GPU只有几十到一百。对于需要实时交互的AI Agent等应用,这种低延迟是决定性的。
TPU、Cerebras、Groq,再加上亚马逊的Trainium、微软的Maia,它们共同构成了一个“非GPU阵营”:AI算力的未来,不再是GPU的一枝独秀,而是一个根据不同应用场景(大规模训练、低成本推理、实时交互)选择最优化架构的多元化生态。
英伟达:从制定规则到适应规则面对多方围剿,黄仁勋并没有坐以待毙。英伟达豪掷200亿美元对Groq进行了“非排他性技术许可”交易。
这与其说是收购,不如说是一场“软兼并”。英伟达付出了近三倍的溢价,买的不是Groq这家公司,而是Jonathan Ross和他的团队,以及他们手中那套最懂ASIC推理架构的技术。

黄仁勋这么做,恰恰证明了他已经认识到,单靠GPU一条腿走路的时代结束了。
第一,他将市场上最可能颠覆其推理业务的独立团队收入囊中,让他们在英伟达内部,将LPU的架构思想与CUDA生态进行融合。可以预见,在未来的架构中,英伟达很可能会推出异构芯片:在一块芯片上,既有用于训练的GPU核心,也有专门用于低延迟推理的LPU-like核心。他必须补上自己最短的那块木板。
第二,即便整合不顺,他也达到了防御目的。一个被“招安”的Groq,大脑已经来到了英伟达,剩下的躯壳再也无法对英伟达构成致命威胁。如果Groq被AMD或者某个云巨头收购,那将是英伟达的噩梦。
这场交易揭示了英伟达的战略转变:从固守GPU的单一范式,转向构建一个包含不同架构的“算力武器库”。英伟达不再是唯一的武器供应商,为了保住市场,它必须学会使用所有类型的武器。
终局之战:单位经济模型的胜利当我们将视野拉高,就会发现这场竞争的本质,已经超越了芯片本身。它是一场关于商业模式和单位经济模型的战争。
头部AI公司,如Meta、Anthropic、OpenAI,它们的“去GPU化”战略,更准确地说是“去单一供应商化”。它们采取的是一种“多供应商、多架构”混合策略。用英伟达的GPU进行前沿模型的探索和训练,因为CUDA生态的灵活性无可替代;同时,将大规模、成熟的推理任务,迁移到成本更低的TPU、Trainium或Cerebras上。
这种策略,让它们在与英伟达的谈判中获得了巨大的议价能力。它们不再是被动接受报价的买家,而是可以用实际的迁移案例来压低采购成本。同时,这也倒逼了整个算力市场的商业模式创新。
未来的算力竞争,不再是简单地卖芯片。谷歌和AWS从不单独售卖TPU或Trainium芯片,而是将其打包在云服务中,以“每百万Tokens成本”或“每次API调用成本”来计费。Cerebras也推出了Condor Galaxy超级集群,直接以“ExaFLOPS训练工厂”的方式对外接单。
它们卖的不是硬件,而是一个可预测、低成本的“AI生产能力”。客户关心的不再是底层用了什么芯片,而是最终的TCO(总拥有成本)和投资回报率。
结论:一个更多元的AI未来回到最初的看法。英伟达的GPU帝国根基依然稳固,尤其是在需要高度灵活性的模型研究和训练领域,CUDA生态的护城河短期内无人能及。但推理市场的经济规律,正在不可逆转地削弱其绝对统治力。
未来的AI基础设施,将是一个异构计算的世界。GPU将回归其更擅长的领域,而TPU、LPU、WSE等专用ASIC将在各自擅长的领域大放异彩。
这些“非GPU”玩家的存在,迫使英伟达不得不重新审视其集群架构的根本缺陷。这也打破了单一供应商的垄断,通过竞争压低了AI的准入门槛,释放了被高昂算力成本抑制的创新活力。
这条新的路线,将通向一个更多元、更高效、成本更低的AI未来。在这场变革中,没有永恒的王者,只有不断适应变化、为客户创造更优经济模型的实干家。
对英伟达来说,挑战才刚刚开始。对整个AI世界来说,一个更健康的时代,正在到来。