谷歌的TurboQuant其实是2025年4月的文章,而前沿大模型已经用了更激进的办法节省内存
这事我一开始也没注意,以为很厉害,还兴奋地发了个贴,因为看见美股大跌挺开心。但后来觉得不太对劲,因为说的是FP16和TurboQuant的3.5bit比,4.5倍加速,但只是在7B的小参数模型上测试的。
再想想,现在FP4的应用都很普遍了,业界用各种办法来节省内存了。和FP4比,这个TurboQuant应该没啥优势了。业界那么多公司和牛人,都知道KV cache是优化目标,不可能忽然跑出一个技术有6倍之类的神奇优化。
所以这是一个技术乌龙事件,说明市场对于技术并没有真正兴趣,只想炒股赚钱。炒高了就担惊受怕,说能做空。
