Google TPU v9 技术方案、封装与供应链核心问答
关于 Google TPU v9 的设计方案,目前有哪些已经确定的技术方向和评估进展?目前仍处于早期评估阶段,主要进行分模块、分线路的评估,包括 IP 评估、EDA、以及 CAE 仿真分析。尽管整体方案尚未最终确定,但有几个关键技术方向已基本明确:第一是 3D 堆叠,第二是采用定制化的 HBM。虽然也存在不使用 HBM 的备选方案,但这并非主流方向。3D 堆叠主要指对计算 Die 进行进一步堆叠,整合 3D DRAM 和 SRAM 或其混合体。该设计的核心目标是为超大规模推理基础设施服务,要求在处理高 batch size 的同时,能够支持深度推理。当前设计面临的挑战是片上 SRAM 缓冲容量不足,导致大量权重访问需在 HBM 和主计算芯片间反复进行,从而造成计算效能损失。
在 TPU v9 的 3D 堆叠方案中,SRAM 是堆叠在计算芯片的上方还是下方?是否存在将 SRAM 集成于中介层内部的技术可能性?在 3D 堆叠结构中,计算芯片会更靠近中介层,即 SRAM 堆叠在计算芯片上方。这是因为计算芯片有大量的外部 I/O 需要与中介层连接,而存储器只有对内的 I/O,用于向计算芯片提供数据读取。将 SRAM 集成到中介层内部的方案基本不会采用。中介层是平面结构,其横向的片间通信无论从接口宽度还是通信载体来看,都不适合高速、大容量的通信需求。相比之下,3D 存储器与计算 Die 之间采用混合键合(Hybrid Bonding)技术,能提供接近片内 I/O 的连接密度。目前,混合键合技术已能实现每平方毫米 1 万至 2 万个触点,虽然距离理论上可媲美片内 I/O(每平方毫米 10 万个触点)的极限水平尚有差距,但对于存储器 I/O 而言已经足够。
Google TPU v9 的后道封装业务是否会倾向于选择英特尔?目前没有听说 TPU 项目有前道在台积电、后道在英特尔的方案,主流趋势是完全在美国本土制造。关于英特尔与 Google 的合作,需要考虑到博通在其中的角色。英特尔 18AP 工艺当前主要服务于英伟达(解决高性能计算工艺配方)和苹果(解决消费电子工艺配方)。预计到 2027 年,当 18AP 工艺进入规模量产,14AE 工艺进入早期风险市场阶段时,由于工艺已得到验证,英特尔可能会引入博通这类 ASIC 设计服务业务。博通目前处于场外待命状态,不愿用其客户的项目为英特尔的 18AP 工艺进行风险爬坡。一旦 14AE 工艺成熟,博通的一个核心客户确实是谷歌。因此,未来存在谷歌 TPU 完全采用英特尔前后道工艺的可能性,但这仍是较远期的规划。
在 TPU v9 项目中,联发科与博通的参与情况如何?在 TPU v9 项目目前的早期阶段,即架构评估、关键技术选型和 IP 选择层面,主要是新思与 Google 直接合作。博通的参与度不高,也未涉及联发科。联发科在 TPU v8 项目上的表现据称不佳。未来的合作模式将取决于谷歌的商业决策。
预计哪一代 TPU 的 Die Size 会显著增大,以及增大的幅度如何?预计 TPU v9 这一代的 Die Size 会变得更大。虽然具体尺寸尚不明确,但可能会出现类似 NVIDIA Ultra 这种多 Die 整合的结构。