英伟达收购了Groq之后,在这次GTC大会上推出了推理专用加速器LPU。咱们来看下这个LPU的特点:1、SRAM-based内存架构。主要是不用HBM了,改用片上SRAM,带宽高延迟快。2、确定性执行机制。主要是消除了core计算等待的时间,流水线效率大幅提升。3、因为SRAM功耗低,所以能耗比也高。 但是LPU主要是内存容量小,所以不能都靠它来做推理,只能把一部分推理任务(decode)给它,这样速度快的效果就发挥出来了。在prefill的阶段还是要用GPU。英伟达的混合架构就是GPU和LPU混用。这样就不需要大量堆LPU了,也用不起啊。这个思路,华为之前已经设计了。26年华为主要是分型号推的两个AI芯片产品,950PR和950DT,分别做prefill和decode。