
最近,阿里开源的Qwen3.6-27B模型在开发者圈子里引起了不小的关注。这款参数仅270亿的“小模型”,在编程、数学推理等核心能力上,竟然超越了体积近15倍、参数达3970亿的前代旗舰Qwen3.5-397B。SWE-bench
Verified编程基准上跑出了77.2%的得分,高于后者的76.2%,而且支持256K上下文窗口和多模态输入。27B的小体量加上Apache
2.0开源协议,让开发者们看到了依靠消费级设备本地部署的机会,不必再受制于昂贵且服务条款充满了不确定性的token plan订阅。

(图片来源:阿里云开发者社区)
不过,一台普通消费级电脑的算力,要独自跑起一个27B参数的模型完成流畅推理,仍然相当吃力。Qwen3.6-27B以FP16精度加载需要约54GB显存,即便使用4-bit量化压缩到约22GB,单张消费级显卡的显存也很难满足要求,这还不算推理过程中KV
Cache需要的额外开销。
而多台设备组成算力集群,将模型切分到不同设备上协同推理,则是一个成本远低于购买专业计算卡的可行方案。而把这几台设备串联起来的关键,就是一根Intel®Thunderbolt™雷电数据线。
集群效率的命门
不在算力在通信
多机协同做模型推理,设备之间的数据交换速度是决定整体性能的核心变量。推理过程中,不同设备各自持有的模型层需要频繁传递中间计算结果,如果数据传输存在瓶颈,那么每台设备都有大量时间处于等待数据的“空转”状态,算力聚合的效果就会大打折扣,这也是局域网方案在算力集群场景中力不从心的原因。普通千兆网口的实际传输速率受制于路由器、交换机以及网络拥堵等因素,通常只能跑到1Gbps左右,远远跟不上模型推理时设备间高频、大流量的数据交换需求。

(图片来源:图库unsplash)
而Intel®Thunderbolt™技术,则为这个问题提供了一个相当利落的解法:只需将数台搭载Intel®Thunderbolt™接口的电脑使用雷电数据线两两连接组成菊花链,就能让所有设备之间建立起高速双向数据连接。再搭配EXO等开源分布式推理框架,每一台电脑各自承载模型的一个分片,通过Intel®Thunderbolt™的高带宽通道完成中间结果的实时传递,让聚合起来的算力尽可能接近“1+1=2”的效果。

(图片来源:英特尔官网)
在Intel®Thunderbolt™ 4接口下,数据传输带宽可以达到32Gbps;升级到Intel®Thunderbolt™ 5后,这一数字直接翻倍至64Gbps,相当于PCIe 4.0x1的速率水准。相比经过路由器中转的局域网传输,Intel®Thunderbolt™直连的延迟更低、稳定性更强,且完全不依赖外部网络设备。
而更关键的还要数Intel®Thunderbolt™
5引入的RDMA远程直接内存访问能力。在传统的TCP/IP网络传输中,数据需要在发送端从GPU显存拷贝到系统内存,再经过内核网络协议栈封包后发出,接收端再逐层解包、拷贝、写入,每一步都在消耗时间和算力。而RDMA则可以绕过操作系统内核,让一台设备直接读取和写入另一台设备的物理内存,将中间结果的交换延迟大幅降低。
目前EXO等开源分布式推理框架已经在macOS 26.2以上版本中实现了对Intel®Thunderbolt™ 5 RDMA的支持。EXO的基准测试显示,通过RDMA做张量并行后,对比普通的TCP/IP网络传输协议,2台设备集群和4台设备集群的运行效率得到了相当显著的提升。

(图片来源:IT之家转载国外科技博主Jeff Geerling评测)
跨平台组网
不受系统差异限制
除了带宽层面的优势,Intel®Thunderbolt™技术还有一个在组建算力集群时非常实用的特性:跨平台兼容。
EXO等主流分布式推理框架目前已经支持Linux、Mac OS和Windows平台。这意味着,只要设备搭载了Intel®Thunderbolt™ 4或Intel®Thunderbolt™ 5接口,不管它们运行的是哪个操作系统,都可以通过雷电数据线组建成一个统一的算力网络。你手上一台装了Linux的旧台式机、一台Windows笔记本和一台Mac mini,完全可以在Intel®Thunderbolt™的串联下协同跑同一个模型,不受系统差异的限制。
这对于个人开发者和中小团队来说,是一个相当灵活的选择。不必为了组集群而统一采购同型号、同系统的设备,手边有什么就用什么。现有的硬件资源借助Intel®Thunderbolt™接口即可盘活——比如一台搭载M4 Pro的Mac mini,其64GB统一内存版本能够在售价比一张RTX 5090D显卡还低的前提下,就能提供远超后者的可用内存空间。将几台Mac mini通过Intel®Thunderbolt™ 5串联起来,512GB的统一内存池甚至可以把671B的“满血版”DeepSeek V3.2跑起来,而采用同等显存规模的RTX 5090方案则需要16张卡,仅显卡成本就是前者的数倍。
综合来看,随着Qwen3.6-27B这类高性能“小模型”的不断涌现,本地部署大模型的门槛正在从“能不能跑”向“怎么跑得更好”转变。EXO框架大幅降低了多台设备组建算力集群的技术门槛,而Intel®Thunderbolt™技术——尤其是Intel®Thunderbolt™ 5引入的RDMA能力,则为利用现有消费级设备搭建本地算力集群,提供了一条切实可行的路径。

(图片来源:英特尔官网)
在当前AI算力价格持续波动的环境下,基于Intel®Thunderbolt™技术构建的本地算力集群方案,或许会作为一个更加持久、可控的选项,逐渐走上更多开发者的工作台。