本地小模型的“大性能”，靠一根线撑起来

最近，阿里开源的Qwen3.6-27B模型在开发者圈子里引起了不小的关注。这款参数仅270亿的“小模型”，在编程、数学推理等核心能力上，竟然超越了体积近15倍、参数达3970亿的前代旗舰Qwen3.5-397B。SWE-bench
Verified编程基准上跑出了77.2%的得分，高于后者的76.2%，而且支持256K上下文窗口和多模态输入。27B的小体量加上Apache
2.0开源协议，让开发者们看到了依靠消费级设备本地部署的机会，不必再受制于昂贵且服务条款充满了不确定性的token plan订阅。

（图片来源：阿里云开发者社区）

不过，一台普通消费级电脑的算力，要独自跑起一个27B参数的模型完成流畅推理，仍然相当吃力。Qwen3.6-27B以FP16精度加载需要约54GB显存，即便使用4-bit量化压缩到约22GB，单张消费级显卡的显存也很难满足要求，这还不算推理过程中KV
Cache需要的额外开销。

而多台设备组成算力集群，将模型切分到不同设备上协同推理，则是一个成本远低于购买专业计算卡的可行方案。而把这几台设备串联起来的关键，就是一根Intel®Thunderbolt™雷电数据线。

集群效率的命门

不在算力在通信

多机协同做模型推理，设备之间的数据交换速度是决定整体性能的核心变量。推理过程中，不同设备各自持有的模型层需要频繁传递中间计算结果，如果数据传输存在瓶颈，那么每台设备都有大量时间处于等待数据的“空转”状态，算力聚合的效果就会大打折扣，这也是局域网方案在算力集群场景中力不从心的原因。普通千兆网口的实际传输速率受制于路由器、交换机以及网络拥堵等因素，通常只能跑到1Gbps左右，远远跟不上模型推理时设备间高频、大流量的数据交换需求。

（图片来源：图库unsplash）

而Intel®Thunderbolt™技术，则为这个问题提供了一个相当利落的解法：只需将数台搭载Intel®Thunderbolt™接口的电脑使用雷电数据线两两连接组成菊花链，就能让所有设备之间建立起高速双向数据连接。再搭配EXO等开源分布式推理框架，每一台电脑各自承载模型的一个分片，通过Intel®Thunderbolt™的高带宽通道完成中间结果的实时传递，让聚合起来的算力尽可能接近“1+1=2”的效果。

（图片来源：英特尔官网）

在Intel®Thunderbolt™ 4接口下，数据传输带宽可以达到32Gbps；升级到Intel®Thunderbolt™ 5后，这一数字直接翻倍至64Gbps，相当于PCIe 4.0x1的速率水准。相比经过路由器中转的局域网传输，Intel®Thunderbolt™直连的延迟更低、稳定性更强，且完全不依赖外部网络设备。

而更关键的还要数Intel®Thunderbolt™

5引入的RDMA远程直接内存访问能力。在传统的TCP/IP网络传输中，数据需要在发送端从GPU显存拷贝到系统内存，再经过内核网络协议栈封包后发出，接收端再逐层解包、拷贝、写入，每一步都在消耗时间和算力。而RDMA则可以绕过操作系统内核，让一台设备直接读取和写入另一台设备的物理内存，将中间结果的交换延迟大幅降低。

目前EXO等开源分布式推理框架已经在macOS 26.2以上版本中实现了对Intel®Thunderbolt™ 5 RDMA的支持。EXO的基准测试显示，通过RDMA做张量并行后，对比普通的TCP/IP网络传输协议，2台设备集群和4台设备集群的运行效率得到了相当显著的提升。

（图片来源：IT之家转载国外科技博主Jeff Geerling评测）

跨平台组网

不受系统差异限制

除了带宽层面的优势，Intel®Thunderbolt™技术还有一个在组建算力集群时非常实用的特性：跨平台兼容。

EXO等主流分布式推理框架目前已经支持Linux、Mac OS和Windows平台。这意味着，只要设备搭载了Intel®Thunderbolt™ 4或Intel®Thunderbolt™ 5接口，不管它们运行的是哪个操作系统，都可以通过雷电数据线组建成一个统一的算力网络。你手上一台装了Linux的旧台式机、一台Windows笔记本和一台Mac mini，完全可以在Intel®Thunderbolt™的串联下协同跑同一个模型，不受系统差异的限制。

这对于个人开发者和中小团队来说，是一个相当灵活的选择。不必为了组集群而统一采购同型号、同系统的设备，手边有什么就用什么。现有的硬件资源借助Intel®Thunderbolt™接口即可盘活——比如一台搭载M4 Pro的Mac mini，其64GB统一内存版本能够在售价比一张RTX 5090D显卡还低的前提下，就能提供远超后者的可用内存空间。将几台Mac mini通过Intel®Thunderbolt™ 5串联起来，512GB的统一内存池甚至可以把671B的“满血版”DeepSeek V3.2跑起来，而采用同等显存规模的RTX 5090方案则需要16张卡，仅显卡成本就是前者的数倍。

综合来看，随着Qwen3.6-27B这类高性能“小模型”的不断涌现，本地部署大模型的门槛正在从“能不能跑”向“怎么跑得更好”转变。EXO框架大幅降低了多台设备组建算力集群的技术门槛，而Intel®Thunderbolt™技术——尤其是Intel®Thunderbolt™ 5引入的RDMA能力，则为利用现有消费级设备搭建本地算力集群，提供了一条切实可行的路径。

（图片来源：英特尔官网）

在当前AI算力价格持续波动的环境下，基于Intel®Thunderbolt™技术构建的本地算力集群方案，或许会作为一个更加持久、可控的选项，逐渐走上更多开发者的工作台。

DC娱乐网

本地小模型的“大性能”，靠一根线撑起来

热门分类