DC娱乐网

AI智算的运力保障,颠覆性创新背后的Credo信念

飞象原创(魏德龄/文)一旦回顾2g到5g的技术变化,就能发现连接并不是件容易的事。在人类开始构建ai大脑的当下,连接于机架间的线缆,犹如交织的神经脉络,它的表现同样决定了ai智算能否反应敏捷、不断片。其中一些线缆甚至已经成为品牌辨识度的象征,比如credo的紫色aec线缆,总是在一些厂商的智算中心方案展示中显得格外亮眼。

“在ai智算网络中,不只是需要算力,还要关注运力。”credo销售副总裁杨学贤在不久前深圳光博会期间举行的媒体会专门谈到,运力的基础就是高速互联,不只局限在某一层面或节点上,而是每一个节点上。

ai智算要算力也要运力

原因就在于进入ai时代后,智能计算网络不止包含原有的scaleout扩展模式,还包括scaleup扩展模式。后者将所有gpu连接在一起来满足协同运算的需求,所以ai计算网络包含更复杂的连接,所需光收发器数量,至少是通用计算网络的2-10倍。

另从互联网大厂的ai军备竞赛中也能发现,目前投入达到50亿美元级别的公司至少有11家,一些公司会将大约16%的投资用在高速互联上,可见业界对于运力需求的关注程度。

这也意味着,运力正在决定着算力的最终工作表现。对于ai应用而言,如果数据能够从一颗gpu更快地传送到另一个gpu,就可以更快地完成训练。要想实现如文章开头提到的每一个节点上的运力提升,需要包括很多方面的改善,例如通过xsr或者pcie方式的片芯到片芯互联、通过vsr、mr或者lr技术实现的芯片之间或芯片到模组之间的互联。

credo的解决方案也全面覆盖数据中心高速连接的各个节点,包括应用于ai/ml、超大规模数据中心的aec线缆;延长rootcomplex与终端设备之间pcie链路长度的pcieretimer;依托行业前沿的低功耗线卡解决方案;为行业客户提供的创新的serdesip和chiplet。

今年深圳光博会期间,credo发布的bluebird1.6tdsp芯片,进一步为下一代ai网络的演进提供运力保障。

为ai网络打造1.6t光dsp芯片

bluebird1.6tdsp产品采用credo第六代dsp架构,基于3nm工艺,带来比竞品更低的功耗。例如,基于该dsp的1.6t全dsp光模块,功耗远低于25w,而该数值在当前依旧是很多厂商挣扎实现的目标。credo还提供为1.6t提供lrodsp方案,功耗更是能够低于20w,甚至接近于一些800g产品的功耗。

在谈及本次新品选用3nm工艺的原因时,credo光产品销售与市场副总裁chriscollins透露,以往credo所秉持的“n-1”理念,意味着即便在工艺节点比友商低一代的情况下,也能保持性能与功耗上的优势。此次,当bluebird1.6tdsp开始采用相同的工艺节点,就意味着竞品将开始在功耗等方面无法与credo抗衡,或是需要用成本更高的更先进工艺来接近credo的性能指标。

bluebird支持4通道或8通道224gbpspam4两种配置,既能实现高密度800g传输,也能支持容量更大的1.6t光模块;此外,bluebird同时推出全功能dsp与线性接收光模块(lro)两种版本,全面覆盖scaleup与scaleout等多元网络架构需求。

为突破gpu间的通信瓶颈,bluebird的架构设计经过了缜密优化,将往返单向时延均控制在40ns以内,这一超低时延可以显著提升大语言模型(llm)训练与推理过程的计算效率与性能。bluebird还配备整套遥测功能,支持链路实时监测与诊断,最大化系统在线时长与可靠性;上述功能亦可用于故障隔离、调试与量产测试。

“bluebird1.6t光dsp是为实现超越现有方案的更高灵活性而精心设计,以支持更广泛的应用场景。这一里程碑式突破再次彰显我们在光通信行业推动创新的承诺——为光模块合作伙伴提供无与伦比的性能与能效,并持续创造长期价值。”chriscollins表示。

credo能够在产品性能与功耗上占据优势,自然有其颠覆性创新的秘诀,甚至还可以从它的名字谈起。

信念之上的颠覆性创新秘诀

在今年深圳光博会的credo展台上,有这样两个演示案例。其一是通过credo客户采用的lark850的lro800g光模块的半个dsp方案,功耗在对标全dsp方案时,能够降低35%以上。并且通过一条500米长的光纤进行测试。

另一个演示是与ofc上展示类似的aiscaleout网络,形象地展示credo如何在ai应用开发中发挥作用,通过相同的网卡连接目前四种主流服务器,通过不同供应商的光模块,并连接到不同公司的qr和ur交换机平台上,模拟了现实的数据中心互联架构。产品数量总共包括25款,来自10家不同客户,来进行实际性能演示。

在credo公布的上季度财报中,营业收入达到创纪录的2.23亿美元,同比增长了270%以上,环比也增长30%以上。足见credo产品在市场中获得认可,以及人工智能浪潮之下的火热需求。

值得一提的是,credo一词本身的含义中便包含信念。“在17年前credo成立的时候,我们就相信高速连接不只需要高的带宽,它还包括更高的性能,更低的功耗,更稳定可靠的连接,灵活多变的配置。”杨学贤一语双关地表示“credo”是指引公司的一个原则。

credo运力解决方案的特点可以用“三高”和“三低”来形容,分别是高带宽、高性能、高可靠,以及低功耗、低延迟和低成本。这些也体现在了credo的产品演进脉络中,除了最明显的低功耗优势外,例如在高带宽方面,当行业常见速率达到53g时,credo已经做到了58g,甚至是64g。又比如在可靠性方面,credo的技术方案在对标竞品时,可以达到两个数量级以上的优势。又比如在低延迟上,同样对标竞品有着明显优势。

“credo主要有三个层面的创新:ip、芯片、应用。”杨学贤表示credo正是通过上述维度创新来实现突破性与颠覆性的产品打造。credo的所有产品芯片基础均基于自身的ip产品,并平衡产品性能、功耗、工艺、成本、技术风险多个维度,最终找到其中的平衡点,才能实现越发凸显的“三高”和“三低”产品特色。

在ai运力上的强大创新能力,也为credo产品满足国内市场需求,带来了更多可能。对于运力问题的解决更能够帮助在gpu算力受限的情况下,利用更大规模的运力网络来构建集群超节点,来反哺解决算力问题;比如自主芯片所提供gearbox功能,在国内网络环境下非常受欢迎,支持电口和光口承载不同速率,像在单波100g的dove系列中提供了支持单波100g连接单波50g的gearbox功能,更好地满足国内市场的容量演进节奏;又比如credo还能在支持51.2t交换容量的主流400g架构同时,通过dove系列dsp与seagull光模块的灵活组合,实现从4×100g到8×50g或2×100g的高效互联,带来更符合企业现实需求的更多低成本演进路径,并达到相同的性能。

在连接领域,永远看向未来十年是一句经常被提及的话。credo的信念不仅带来了多层面多维度的技术创新,也让“信念”真正转化为推动ai智算时代前行的核心力量。