Qwen的小模型还是很能打的,最近Qwen团队发表的论文,公开了他们具体是如何从大模型中提炼出小模型的地址:arxiv.org/pdf/2605.08738
里面具体介绍了将80A3B MoE 模型压缩到 23A2B 模型的过程。“结构化剪枝和知识蒸馏(KD)是压缩大语言模型的典型技术,但在预训练规模下应如何应用它们,尤其是如何应用于近期的混合专家(MoE)模型,仍不清楚。
本文系统研究了大规模预训练中的 MoE 压缩,重点关注三个问题:剪枝是否能比从零训练提供更好的初始化;专家压缩方式会如何影响继续训练后的最终模型;哪种训练策略最有效。我们得到以下发现:第一,在深度、宽度和专家压缩三个方面,剪枝后的预训练 MoE 在相同训练预算下始终优于从零训练目标架构。第二,不同的一次性专家压缩方法在大规模继续预训练后会收敛到相近的最终性能。基于这一发现,我们提出了一种简单的“部分保留”专家合并策略,在大多数基准测试上提升了下游性能。第三,将 KD 与语言建模损失结合使用,比单独使用 KD 表现更好,尤其是在知识密集型任务上。我们进一步提出了多 token 预测(MTP)蒸馏,并带来了稳定增益。最后,在使用相同训练 token 数的情况下,渐进式剪枝优于一次性压缩,说明逐步过渡模型架构能带来更好的优化路径。综合这些方法后,我们将 Qwen3-Next-80A3B 压缩为 23A2B 模型,同时保持了有竞争力的性能。这些结果为高效的大规模 MoE 压缩提供了实用参考。”AI创造营How I AI
