
1月27日,微软正式宣布推出第二代人工智能(AI)芯片地推出 Maia 200,这是一款突破性的推理加速器,旨在显著提升 AI Token生成的经济效益。
据介绍,Maia 200 采用台积电 3nm 工艺制造,配备原生 FP8/FP4 张量核心,重新设计的内存系统包含 216GB HBM3e(读写速度高达 7TB/s)和 272MB 片上 SRAM,以及能够确保海量模型快速高效运行的数据传输引擎。这使得 Maia 200 成为目前所有超大规模数据中心中性能最高的自研芯片,其 FP4 性能是第三代 Amazon Trainium 的三倍,FP8 性能更是超越谷歌第七代 TPU。Maia 200 也是微软迄今为止部署的最高效推理系统,其每美元的性能比我们目前部署的最新一代硬件提升了 30%。
微软称,Maia 200 是其异构 AI 基础设施的一部分,它将支持多种模型,包括来自 OpenAI 的最新 GPT-5.2 模型,从而为 Microsoft Foundry 和 Microsoft 365 Copilot 带来更高的性价比。微软超级智能团队将利用 Maia 200 进行合成数据生成和强化学习,以改进下一代内部模型。对于合成数据管道用例,Maia 200 的独特设计有助于加快高质量、特定领域数据的生成和筛选速度,从而为下游训练提供更新鲜、更具针对性的信号。
目前,Maia 200 已部署在微软位于爱荷华州得梅因附近的美国中部数据中心区域,接下来将部署位于亚利桑那州凤凰城附近的美国西部数据中心区域,未来还将部署更多区域。Maia 200 与 Azure 无缝集成,我们正在预览 Maia SDK,其中包含一套完整的工具,用于构建和优化 Maia 200 模型。它包含全套功能,包括 PyTorch 集成、Triton 编译器和优化的内核库,以及对 Maia 底层编程语言的访问。这使开发人员能够在需要时进行细粒度控制,同时实现跨异构硬件加速器的轻松模型移植。
专为人工智能推理而设计
Maia 200 采用台积电先进的 3nm 工艺制造,每颗芯片包含超过 1400 亿个晶体管,专为大规模 AI 工作负载量身打造,同时兼顾高性价比。Maia 200 在这两方面都力求卓越。它专为使用低精度计算的最新模型而设计,每颗 Maia 200 芯片在 4 位精度 (FP4) 下可提供超过 10 petaFLOPS 的性能,在 8 位精度 (FP8) 下可提供超过 5 petaFLOPS 的性能,所有这些都控制在 750W 的 SoC TDP 范围内。实际上,Maia 200 可以轻松运行当今最大的模型,并且为未来更大的模型预留了充足的性能空间。
至关重要的是,FLOPS(浮点运算次数)并非提升人工智能速度的唯一要素。数据输入同样重要。Maia 200 通过重新设计的内存子系统解决了这一瓶颈问题。Maia 200 的内存子系统以窄精度数据类型、专用 DMA 引擎、片上 SRAM 和用于高带宽数据传输的专用片上网络 (NoC) 架构为核心,从而提高了令牌吞吐量。

优化的人工智能系统
在系统层面,Maia 200 引入了一种基于标准以太网的新型双层可扩展网络设计。定制的传输层和紧密集成的网卡无需依赖专有架构,即可实现卓越的性能、强大的可靠性和显著的成本优势。
每个加速器都会暴露:
2.8 TB/s 双向专用扩展带宽可预测的、高性能的跨集群集体操作,最多可达 6,144 个加速器该架构可为密集推理集群提供可扩展的性能,同时降低 Azure 全球集群的功耗和总体拥有成本。

每个托架内,四个 Maia 加速器通过直接的非交换链路完全连接,从而实现高带宽的本地通信,以获得最佳推理效率。机架内和机架间联网均采用相同的通信协议,即 Maia AI 传输协议,从而能够以最小的网络跳数实现跨节点、机架和加速器集群的无缝扩展。这种统一的架构简化了编程,提高了工作负载的灵活性,并减少了闲置容量,同时在云规模下保持了一致的性能和成本效益。
云原生开发方法
微软芯片开发计划的核心原则是在最终芯片上市之前,尽可能多地验证端到端系统。
从架构的早期阶段开始,一套精密的芯片前开发环境就指导着Maia 200的开发,它能够高保真地模拟LLM的计算和通信模式。这种早期协同开发环境使我们能够在首块芯片问世之前,将芯片、网络和系统软件作为一个整体进行优化。
微软表示,从设计之初就将 Maia 200 定位为数据中心内快速、无缝的可用性解决方案,并对包括后端网络和第二代闭环液冷热交换器单元在内的一些最复杂的系统组件进行了早期验证。与 Azure 控制平面的原生集成,可在芯片和机架级别提供安全、遥测、诊断和管理功能,从而最大限度地提高生产关键型 AI 工作负载的可靠性和正常运行时间。
得益于这些投资,Maia 200 芯片首批封装件到货后数日内,人工智能模型便已在其上运行。从首批芯片到首个数据中心机架部署的时间缩短至同类人工智能基础设施项目的一半以上。这种从芯片到软件再到数据中心的端到端解决方案,直接转化为更高的资源利用率、更快的生产交付速度,以及在云规模下持续提升的每美元和每瓦性能。

微软表示:“大规模人工智能时代才刚刚开始,基础设施将决定其发展的可能性。我们的 Maia AI 加速器项目旨在实现跨世代发展。随着我们在全球基础设施中部署 Maia 200,我们已经在为未来几代人工智能系统进行设计,并期望每一代系统都能不断树立新的标杆,为最重要的 AI 工作负载带来更卓越的性能和效率。”
微软面向全新的 Maia 200 软件开发工具包 (SDK) 已经对外开放,该 SDK 包含 Triton 编译器、PyTorch 支持、NPL 底层编程以及 Maia 模拟器和成本计算器,可在代码生命周期的早期阶段优化效率。
编辑:芯智讯-浪客剑