小米大模型团队放出的新成绩,有点意外。他们在通用 GPU 集群上,把万亿参数规模的模型推理跑到了每秒 1000 tokens,这个速度放在万亿级别模型里,确实是目前公开能看到的最快水平。利用算法和系统工程优化把 GPU 潜力榨干了,工程能力比很多人预想的要强。
最直观的感受是交互节奏变了:以前喂大模型出结果,要等,现在几乎是提问即所得。这对车载语音、手机智能助手、实时代码补全这些场景,意义比跑分大得多。新推的 UltraSpeed 版本定价是普通版的三倍,但响应速度带来的效率提升,重度用户和开发者算笔账会觉得值。从 MiMo 开源模型到这次推理加速,小米 AI 的工程化节奏明显加快了,可能真到了需要重新审视他们技术布局的时候了 小米大模型刷新全球最快推理速度





