微博悄悄干了件大事，他们自研的VibeThinker-3B模型今天上了Huggi

微博悄悄干了件大事，他们自研的VibeThinker-3B模型今天上了Hugging Face热榜和Hacker News前五。参数只有30亿，但数学和编程成绩直接叫板那些千亿参数的怪物模型。

我看了下，他们核心是提出了一个"参数压缩假说"，意思是最耗算力的推理能力其实不需要那么多参数，反而是通用知识才需要庞大的模型底座。成本低到只花了几万美元，团队才9个人。更实在的是，这东西在RTX 2070 Super这种普通显卡上就能跑到每秒25个token，实打实能用。

当然，网上也有质疑说是不是"刷榜"，毕竟实测和跑分有时候不是一回事。但咱们得客观看，能把推理能力从大模型里"蒸馏"出来，压缩到这么小的体量里，这个思路本身就很厉害了。这说明路可能不止一条，非得卷参数不是唯一的解法。