初创用3000万造不可编程的AI芯片，推理速度是Nvidia最强GPU 50倍

2026年2月21日，一家名为Taalas的芯片初创公司正式揭开面纱，发布了它的第一款产品：一颗将Meta的Llama3.18B大语言模型几乎完整“刻进”硅片的推理芯片HC1。按照该公司公布的数据，这颗芯片在单用户场景下可以跑到17,000tokens/s的输出速度，大约是目前市面上最快竞品Cerebras的近9倍，是NvidiaBlackwell架构GPU的近50倍。构建成本据称只有同等GPU方案的二十分之一，功耗低一个数量级。

不过这颗芯片的局限也非常明显，那就是它只能跑Llama3.18B。要想换个模型？就只能再造一颗芯片。

这是AI芯片行业迄今为止最激进的专用化尝试，没有之一。

当前主流的推理部署依赖GPU，尤其是Nvidia的H100/H200和最新的Blackwell系列。GPU的优势在于通用性和成熟的软件生态，但它的架构天然存在一个瓶颈：计算单元和存储单元是分离的。模型的参数存储在HBM（HighBandwidthMemory，高带宽内存）中，计算核心每次运算都需要从HBM搬运数据，这个搬运过程消耗大量能量和时间。

为了缓解这个问题，整个行业在先进封装、3D堆叠、液冷散热、高速互联等方向上投入了巨大的工程资源。Nvidia的GB200NVL72机柜级系统就是这种路线的极致体现：72颗GPU通过NVLink互联，单机柜功耗接近120kW，需要液冷支持，造价以百万美元计。

Taalas的做法是把这套复杂性连根拔掉。

他们的核心思路可以概括为三个词：全面专用化、存算合一、极度简化。HC1芯片采用MaskROM（掩模只读存储器）工艺将模型权重直接编码在芯片的金属互连层中，和计算逻辑共存于同一块硅片上，不再需要外部DRAM或HBM。芯片上保留了一小块SRAM（StaticRandom-AccessMemory，静态随机存取存储器），用于存放KVCache（键值缓存，Transformer推理时缓存历史注意力信息的数据结构）和LoRA（Low-RankAdaptation，低秩适配）微调权重，提供有限的灵活性，但整体架构的可编程性几乎为零。

据报道，HC1基于台积电N6工艺制造，芯片面积815mm²，接近光罩极限（reticlelimit），单颗芯片即可容纳完整的8B参数模型。功耗约250W，10块HC1板卡装进一台服务器总功耗约2.5kW，可以在标准风冷机架中运行。这和动辄数十千瓦、必须上液冷的GPU服务器差别很大。

Taalas的CEOLjubisaBajic是Tenstorrent的联合创始人，曾担任该公司的CEO和CTO。Tenstorrent是AI芯片领域另一家知名初创企业，走的是基于RISC-V架构的可编程AI加速器路线，后来由芯片行业传奇人物JimKeller接任CEO并继续发展。Bajic离开Tenstorrent后大约在2023年中创立了Taalas，走了一条和Tenstorrent几乎完全相反的路：不追求通用性，而是把专用化推到极端。目前，Taalas团队规模约25人，累计融资超过2亿美元，但据Bajic本人披露，第一款产品实际只花费了约3000万美元。

Taalas的芯片定制流程借鉴了2000年代早期结构化ASIC（Application-SpecificIntegratedCircuit，专用集成电路）的思路。结构化ASIC通过固化门阵列和硬化IP模块，只修改互连层来适配不同工作负载，在成本和性能上介于FPGA（Field-ProgrammableGateArray，现场可编程门阵列）和全定制ASIC之间。

Taalas的做法类似但更进一步：每次为新模型定制芯片时只需更换两层掩模，这两层掩模同时决定模型权重的编码和数据在芯片内部的流动路径。Bajic表示，从拿到一个新模型到生成RTL（RegisterTransferLevel，寄存器传输级描述）大约只需要一周的工程工作量，整个从模型到芯片的周期目标是两个月。

这个两个月的周转速度如果能稳定实现，意味着什么？意味着当一个模型在生产环境中被验证有效、用户粘性足够高、预计至少运行一年时，Taalas可以在较短时间内为它制造专用硅片，以远低于GPU的成本和功耗来提供推理服务。Bajic承认，这种模式要求客户对某个特定模型做出至少一年的承诺，“肯定有很多人不愿意，但会有人愿意”。

那么，这种极端专用化能扩展到更大的模型吗？Taalas给出了他们对DeepSeekR1671B的模拟数据。671B参数的模型需要大约30颗芯片协同工作，每颗芯片承载约20B参数（采用MXFP4格式，并将SRAM分离到独立芯片以提高密度）。30颗芯片意味着30次增量流片，但Bajic指出由于每次只改两层掩模，增量流片成本并不高。

模拟结果显示，这套30芯片系统在DeepSeekR1上可以达到约12,000tokens/s/user，而当前GPU最优水平大约在200tokens/s/user。推理成本约7.6美分/百万token，不到GPU吞吐优化方案的一半。

这些数字当然还停留在模拟阶段。实际多芯片系统面临的互联、同步、良率等工程挑战不可小觑，30颗大面积芯片协同工作的验证复杂度也是指数级增长的。Bajic自己也提到，因为芯片完全不可编程，“出错的余地基本为零”，唯一能建立信心的方法就是在流片前对整个模型进行完整的仿真——如何在合理时间内完成30颗芯片的联合仿真，本身就是一个巨大的工程问题。Taalas声称已经建立了可以在大规模计算集群上运行的仿真流程来应对。

还有一个值得关注的细节是，HC1使用了自定义的3-bit基础数据类型进行激进量化，结合3-bit和6-bit参数，会带来相对于标准量化模型的质量损失。Taalas对此并未回避，承认模型在质量基准测试中会有退化。他们的第二代硅平台HC2将采用标准4-bit浮点格式以改善这一问题。第二款产品预计是一个中等规模的推理模型，计划今年春季在实验室完成，随后接入推理服务。基于HC2平台的前沿大模型则计划冬季部署。

当前AI推理芯片市场大致可以按专用化程度排列成一个光谱：一端是NvidiaGPU这样的高度通用方案；中间是Groq、Cerebras、SambaNova等，它们设计了针对LLM推理优化的定制架构，但仍保留可编程性，能运行多种模型；Etched更往前走一步，专门针对Transformer架构设计芯片，牺牲部分灵活性换效率；而Taalas直接站在了最末端，把一个特定模型焊死在硅片里。

这种极端策略的风险很明显。AI领域模型迭代速度极快，去年的前沿模型今年可能就被淘汰。如果一颗芯片只能跑一个模型，而那个模型在芯片寿命结束前就过时了，投资就打了水漂。这也是Bajic所说的“为什么之前没人敢走到这个角落”。但他认为随着行业成熟，总有一些模型在实际业务中被长期使用。Taalas产品副总裁PareshKharya（此前曾在Nvidia长期任职）也对EETimes表示，对于在重要业务场景中运行的模型，用户粘性可能持续一年甚至更久。

商业模式上Taalas还在摸索。Kharya透露了几种可能方向：自建基础设施运行开源模型并提供API推理服务；直接向客户出售芯片；或者与模型开发者合作，为他们的模型定制专用芯片供其自有推理基础设施使用。哪种模式最终能跑通，取决于市场对这种极端专用化方案的接受程度。

不过从纯技术角度来说，Taalas的方案确实触及了一个被主流路线忽略的设计空间。存算分离带来的带宽墙（memorywall）是当前推理硬件的核心瓶颈，而Taalas通过将权重以MaskROM形式与计算逻辑同层集成，从根本上消除了这个瓶颈。代价是灵活性的彻底丧失，但如果应用场景允许这种刚性，换来的性能和成本优势是实打实的。

Bajic还透露，Taalas能用单个晶体管同时存储4-bit模型参数并完成乘法运算。他拒绝透露更多，但确认计算仍然是全数字的。如果属实，这意味着Taalas在电路层面实现了一种极为高效的存内计算（Compute-in-Memory）机制，虽然不同于学术界讨论较多的模拟存内计算方案，但目标一致：让数据就地参与运算，不再搬来搬去。

硬接线芯片还带来了一个意想不到的副产品：软件栈的极度简化。Bajic说“软件作为一个东西基本消失了”，公司只有一个工程师负责软件栈，而且这人还兼顾其他工作。对比当前GPU推理系统中vLLM、TensorRT-LLM、PagedAttention等复杂软件优化层的工程投入，这种简化几乎是降维式的。当然，这种简化是以极端硬件专用化为前提的，不具有一般性。

Bajic在博客中用ENIAC到晶体管的演化做类比，暗示当前以GPU数据中心为核心的AI基础设施可能只是早期的“笨重原型”，未来终将被更高效的方案取代。这个类比有一定道理，但也不宜过度引申。GPU数据中心的“暴力”不仅仅是硬件层面的，它背后是整个CUDA软件生态、成熟的开发工具链和庞大的工程师社区。颠覆硬件容易，颠覆生态难。Taalas的芯片或许在特定场景下拥有压倒性的性能和成本优势，但要成为主流路线的替代方案，需要的远不止一颗跑得快的芯片。

不过，Taalas可能也从未打算成为“替代方案”。Kharya表示：“模型最优硅片不会取代满是GPU的大型数据中心，但它会适合某些应用。”

参考资料：

1.https://taalas.com/the-path-to-ubiquitous-ai/

2.https://www.eetimes.com/taalas-specializes-to-extremes-for-extraordinary-token-speed/

DC娱乐网

初创用3000万造不可编程的AI芯片，推理速度是Nvidia最强GPU 50倍

热门分类