DC娱乐网

我最喜欢的小米技术最近沉迷发文。我知道这么长的东西大家普遍懒得看,我做一篇简短的

我最喜欢的小米技术最近沉迷发文。

我知道这么长的东西大家普遍懒得看,我做一篇简短的解读:

Q1、为什么降价幅度这么夸张?A1、大模型推理的核心开销是KVCache,MiMo使用了Hybrid SWA 可以在架构上省成本。

Q2、怎么节省的KVCache?A2、把KVCache拆成两个独立的池——完整注意力的长期保存,滑动窗口的按需淘汰,效率直接提升7倍,不再有打个招呼“Hi”一下就烧掉上万Token的情况。

Q3、为什么干这事?A2、官方的回答是"技术的价值,最终要体现在被使用的广度上。让更多人能用到更好的模型——这是 MiMo 不变的使命。"呱唧呱唧👏👏👏👏👏