大模型端侧部署竞争激烈！芯动力推出AI加速卡

著者|程曦

编辑|荒漠之影

大规模的终端一侧模型的普及速度加快，新的产品如人工智能个人电脑不断涌现，公司对于人工智能的加速牌也越来越感兴趣。

但是，如何将 AI加速卡应用到以人工智能电脑等终端设备中，是一个很大的难题，这就要求在体积小、性能好、功耗低的情况下，使其能够承载大容量的机器。

最近，清华大学芯动技术公司发布了一款针对更大型号的新型 AI处理器—— AzureBlade L系列 M.2级加速器。这款 M.2加速器是国产微型计算机中性能最好的高性能加速器，它的强劲性能保证了主机模式的顺利运转。

M.2加速盘只有80 mm×22 mm，是专门针对 Lamama 2型进行设计的。

M.2高速卡具有体积小，性能高，接口多等优点，已经被广泛应用于 PC等各种终端装置中，作为一种加速器。

针对这个加速盘，科通芯城和科通芯城的联合创始人和 CEO李原展开了深度对话，讨论到目前为止大数据行业发生的巨大变革，科通芯城的科技对于大数据后端商业模式的价值，到底是什么样的手机游戏才算是真正意义上的手机游戏。

I.小尺寸，高性能，低能量消耗，在最后的曲面上，有三个主要的要点

基于 AI （AI）的计算机已经是将大尺寸产品引入到终端设备中的一个主要手段。

从去年末开始， AI个人电脑的疯狂增长。英特尔启动了 AI个人计算机加速项目，高通公司开发了面向人工智能的个人计算机处理器 Snapdragon XRlite，而英伟达则于上星期公布了全新的 RTX 500及1000图形卡，使其能够在诸如便携式计算机等终端装置中使用产生型 AI软件。

据 IDC最新报道，到2024年， AI PC的发货量有望达到5000万部，2027年达到1.67，占据全世界 PC发货量的60%。

新的人工智能电脑加快了大规模型号的扩充。而大规模的多尺度建模需要大量的数据处理，这就需要更多的数据处理能力。

而在另外一种情况下，通常是一种单独的装置。就拿我们常用的 PC机来说，在尺寸和质量上，我们必须要有一款小型的人工智能加速主板。以 M.2加速版的方式进军 AI个人电脑，无疑是一个极具优势的产品。

可以看出，目前大规模数值模拟的发展方向已经从单纯的参量分析走向了更多更少的数值模拟，例如 Llama 2系列（Llama 2)，其参数范围从70-700亿，这为大规模数值模拟在终端应用带来了机遇。

但如何在芯片厂商端实现大规模模型，以解决其运算与存储资源受限问题，急需解决芯片体积与高性能间的矛盾。

李原表示，另外一项终端产品最大的特色就是它的核心部件是图形处理器。这种做法存在着一个危险，那就是企业将 GPU当成了自己的硬件，从而增加了研发时间，从而制约了其将来的发展。然而，现有的外围终端可供使用的介面较少，且很多终端都要为其量身定做各种介面，因此厂商必须承受介面限制的危险。

这种新的改变与需求为新成立的 GPGPU企业提供了新的机会。

创新性的封装科技使lam2在大小和表现上的优点相结合。

CorePower公司推出的 AzureBlade L型2型速热板，是目前最好的适应不断发展的市场需求的产品。

2的速度卡配置了4块 DDR记忆体，总共16 G的存储空间。除了对传统的视频网站如 YOLO之外，还有 Lama 2, Stable Diffusion等。李原表示，2.2加速盘目前能够支撑 lama 2模型，其参数分别为70万，130,000,000，甚至3亿。现在，在 M.2的加速主板上， Llama 2的运算能力能够实现超过10个 token/s的运算。

对于当前手机厂商最大的问题——体积庞大， M.2的处理器具有体积小，性能高，功耗低等优点。

李原表示，传统的 GPU或者 NPU都要对大规模的数据进行运算，这就导致了其体积非常大，难以将其与终端器件进行整合。相比之下，只有80 mmx22 mm大小的 M.2加速盘就可以实现这个目标。

而这一点，则得益于 CoreTech为 M.2处理器设计的AE7100整合了一颗具有32 G运算能力、60 GB存储带宽的17毫米x17毫米大小的处理器。

芯动科技已研发出一套新颖的包装方法，以制造出足够薄且小的晶片。从最早的时候起，他们便一直在往这方面努力，通过去除 ABF材质，制造无衬底的晶片，同时也解决了晶片对散热的要求。我们率先进行了这样的包装，制造出了业界最小最薄的图形处理器。

M.2的加速卡结合了体积与效能的优点。

考虑到可用于终端装置的介面数目非常少， Core公司在 M.2的加速盘上选用了目前比较受欢迎的 Flash驱动介面，该介面在 PC及其它装置中相当普遍，所以可以让企业在不需要自定义晶片介面的情况下，迅速地执行各项功能。

很多用户已经开始选择M.2提速卡， CoreTech公司提供的普通M.2提速卡界面可以在扩展其功能以满足各种需求的情况下，为企业规避个性化的风险。

本项目的研究成果有望在人工智能计算机、机器视觉、泛安全、内容过滤等方面得到广泛的应用。

第三种：" Hexagon Warrior"处理器，支持 M.2加速卡

在大机器已经悄无声息地进入终端设备，人工智能等新兴学科兴起的当下，芯原技术之所以能迅速推出具有创新性的 M.2芯片，其中一个重要的基础就是可配置并行处理器（RPP）。这是AE7100的杀手锏，同时也是 M.2加速器的内核。

RPP体系结构是一种专门用于平行运算的芯片， CorePower称之为“六角形武士”。本项目将 NPU的高性能、 GPU的多功能性以及 DSP的低时延特性有机地融合在一起，为高性能的并行计算以及人工智能等领域提供新的解决方案。

使用酷睿处理器，使用相同工艺制造的 GPGPU可以比英伟达的 GPU更快50%，而酷睿处理器则只有同级别芯片的1/7，能耗也只有1/2-1/3。

探究这个结构是他们创立公司的最大理由。芯片的研发周期是一个漫长的过程，所以芯原必须要在保证芯片性能的前提下，在5到6年的时间里，才能在诸如人工智能和 PC这样的机会面前，快速地抓住机会，制造出更有竞争力的产品。

CorePower体系结构起源于英伟达发布其新的 GPGPU概念。那时， CorePower的创始团队就开始探讨，在充分发挥 GPU并行运算和多功能特性的同时，兼顾其它体系结构的优点，在性能、功耗、成本、时延以及部署速度等方面取得更好的平衡。

为此，他们从2011年到2016年开始，致力于将 NPU的高性能和 GPU的多样性有机地结合起来，并最终形成 RPP体系结构。

科通芯城的产品研发分为两期，科通芯城负责研发芯片和基础软件，因此根据企业的要求，在这样的基础架构下研发芯片，最多也就是2-3个月，就能达到预期的效果，极大地降低芯片的使用周期。

这就是芯片市场的问题。同时，他也指出，目前人工智能技术尚处在起步阶段，相对于其它传统工业装备而言，真正落地的产品并不多，所以产品的定义也在不断改变。以 MPC体系结构为中心的产品，将会指导未来多种场景下的总体需求，就像他们所面临的“70%”的终端产品一样。

为了适应目前的市场需求，我们很快就为用户提供了一张 M.2加速卡。当前，人工智能个人电脑制造商，工业视觉系统，以及人工智能服务器等领域均采用了 M.2的加速器。现在， M.2加速器已经交付给了遗传测试和 AI服务器的用户，而后者还在不断地改进自己的产品。

可以说，这款 CoreMotion的革新产品，不仅能够运用大型号，而且还能在装修中发挥出无穷的想象力。

总结：一个巨大的模型将要被 GPGPU的开发者所喜爱！

海量建模技术的兴起，给国产 GPGPU厂商带来了诸多机遇，同时，面向应用的海量建模需求，也给国产软件开发商带来了极大的发展空间。

芯原自创立之初，便以打造更具功能性的产品为目标，透过 RPP架构，可提供更具弹性的设计，以满足企业客户更具一般性的需要，并以更具弹性的应变能力，来回应市场的变化。

同时，由于 M.2芯片的大批量生产，以及人工智能电脑的批量生产，使得更大规模的终端设备的开发速度也将加快。芯原亦期望藉由大型机种所引发的行业变迁，寻找商机。

可以看出，在这个时候，要抓住行业机会，必须要有核心技术的积累与前瞻的技术规划。

DC娱乐网

大模型端侧部署竞争激烈！芯动力推出AI加速卡

热门分类