2026世界智能产业博览会落幕了。
展会上,几乎每家企业都在谈Token——Token成本、Token效率、Token落地。但热闹过后,一个尴尬的现实依然摆在那里:很多企业的算力越堆越多,Token却越用越贵,场景落地依然卡顿。

这不是算力不够的问题,而是算力与任务“不对口”的问题。
▌Token焦虑的本质,是“通用算力”干了太多活
当前主流的AI算力方案,逻辑很简单:GPU负责一切。
训练用它,推理用它,甚至连数据预处理、任务调度这些本该CPU干的活,也被塞进了GPU。结果就是,GPU在大量非矩阵计算任务上空转,算力闲置率惊人,Token的边际成本居高不下。

这个问题的本质,不是单个芯片性能不够,而是整个算力系统的“分工”出了问题。CPU擅长复杂逻辑调度和I/O,DCU(或GPU)擅长大规模并行矩阵运算——这本该是一个常识,但在“堆卡”的行业惯性下,分工被遗忘,取而代之的是“把所有任务扔给加速器”。
▌超智融合:回归分工常识,但需要系统级协同
所谓超智融合,听起来像新词,实则是对算力分工常识的回归:CPU负责调度、兼容、预处理,DCU专攻矩阵运算。两者从底层互联到上层调度实现一体化协同,而不是各管一摊、中间靠“翻译”硬连。
海光信息展示的CPU+DCU双芯底座,正是这套思路的硬件载体。但比硬件更值得关注的,是它带来的实际效果——尤其是生态兼容层面的突破。

南大通用华北区总经理陈明智在展台上用三个词概括了这种协同带来的变化:接得上、跑得稳、算得快。“从芯片到数据库,软硬件全链路打通,接口标准统一,不用反复适配。”他提到,加入光合生态后,相关项目的交付周期大幅缩短,“以前做国产化替换,光是适配就能拖一两个月,现在快了很多。”
为什么适配时间能缩短?因为海光C86 CPU完全兼容x86生态,DCU通过自研DTK工具栈实现CUDA无缝迁移。对于金融、政务等沉淀了大量x86资产和CUDA代码的行业用户来说,这意味着不需要“推倒重来”——存量应用可以平滑跑上来,Token的跨平台流转成本自然降了下来。
这恰恰是超智融合被低估的价值:它不仅解决计算效率问题,更解决了生态兼容问题。没有兼容,再强的算力也是孤岛。
▌一个来自虚拟化场景的佐证
在“一云多芯”的虚拟化场景中,不同架构芯片之间的调度损耗是长期痛点。云宏信息华北区总经理葛玉龙提到,光合组织把多芯调度的底层打通后,Token损耗降到了最低水平。他感慨:“开放生态,才是Token效益的解药。”
这个案例说明,超智融合不止于海光自家的双芯协同,更延伸到异构芯片的统一调度层面。而海光依托光合组织超6000家生态伙伴、1.5万余项联合调优的积累,为这种跨厂商协同提供了基础。

然而,即使智博会上展示了诸多“成果秀”,但真实挑战依然存在。超智融合对软件栈的要求极高——从编译器、算子库到调度器,需要全栈协同优化。目前能做到这一层的国产厂商并不多,海光双芯算是比较明确的一家厂商。
葛玉龙对未来的期待或许给出了一个落点:“我希望未来不再需要‘国产替代’这个词——不是因为替代需求消失了,而是因为国产化产品本身就是最好的选择。”
从好用到高效,超智融合提供了一条可行的技术路径。但它能否真正成为Token焦虑的“解药”,取决于未来一年里,这套双芯底座在真实场景中的长期表现。至少这次智博会,伙伴们的反馈让我们看到了一个比“堆卡”更有希望的方向。
声明:如以上内容有误或侵犯到你公司、机构、单位或个人权益,请联系我们说明理由,我们会配合,无条件删除处理。