华为盘古Pro MoE核心技术梳理:
1. 创新架构
提出分组混合专家模型(MoGE),通过专家分组机制解决传统MoE负载不均衡问题。将64专家分为8组,每组独立路由,确保跨设备计算负载均衡。
2.性能突破
72B总参数/16B激活参数,在昇腾硬件实现高效训练:
• 昇腾300I Duo:321 tokens/s
• 昇腾800I A2:1528 tokens/s
SuperCLUE榜单千亿内模型并列国内第一(59分)。
3.技术亮点
• 分组均衡路由:强制每组激活相同数量专家
• 均衡辅助损失函数:优化批次级负载分布
• 架构仿真优化:分层调优匹配昇腾硬件特性
4.行业价值
突破参数规模限制,实现:
• 云端推理成本降低
• 高并发实时响应
• 昇腾芯片高效适配
5.应用前景
为AI产业提供高效普惠的智能底座,推动大模型从参数竞赛转向实效应用。