小米大模型团队放出的新成绩，有点意外。他们在通用 GPU 集群上，把万亿参数规模

小米大模型团队放出的新成绩，有点意外。他们在通用 GPU 集群上，把万亿参数规模的模型推理跑到了每秒 1000 tokens，这个速度放在万亿级别模型里，确实是目前公开能看到的最快水平。利用算法和系统工程优化把 GPU 潜力榨干了，工程能力比很多人预想的要强。

最直观的感受是交互节奏变了：以前喂大模型出结果，要等，现在几乎是提问即所得。这对车载语音、手机智能助手、实时代码补全这些场景，意义比跑分大得多。新推的 UltraSpeed 版本定价是普通版的三倍，但响应速度带来的效率提升，重度用户和开发者算笔账会觉得值。从 MiMo 开源模型到这次推理加速，小米 AI 的工程化节奏明显加快了，可能真到了需要重新审视他们技术布局的时候了小米大模型刷新全球最快推理速度

DC娱乐网

小米大模型团队放出的新成绩，有点意外。他们在通用 GPU 集群上，把万亿参数规模

热门分类