微博悄悄干了件大事,他们自研的VibeThinker-3B模型今天上了Hugging Face热榜和Hacker News前五。参数只有30亿,但数学和编程成绩直接叫板那些千亿参数的怪物模型。
我看了下,他们核心是提出了一个"参数压缩假说",意思是最耗算力的推理能力其实不需要那么多参数,反而是通用知识才需要庞大的模型底座。成本低到只花了几万美元,团队才9个人。更实在的是,这东西在RTX 2070 Super这种普通显卡上就能跑到每秒25个token,实打实能用。
当然,网上也有质疑说是不是"刷榜",毕竟实测和跑分有时候不是一回事。但咱们得客观看,能把推理能力从大模型里"蒸馏"出来,压缩到这么小的体量里,这个思路本身就很厉害了。这说明路可能不止一条,非得卷参数不是唯一的解法。
其实我早觉得微博在AI上一直有点低调,但是其实一直都没落下。目前在用微博的V创作中心用的也挺舒服的。这次微博算是憋了个小招,期待看看后续还有没有大招。
微博大模型可真能省钱
