刚刚mimo官宣和TileRT AI联合推出MiMo-V2.5-Pro的UltraSpeed模式,直接把1T参数大模型的推理速度干到了1000+ tokens/s。
之前行业里有个共识——万亿参数级别的大模型,推理速度是不可能快的。
你要么上Cerebras那种晶圆级集成的天价设备,花几千万买一台专用硬件;要么就老老实实等,一个token一个token地蹦,用户问个问题,AI得先读完你预设的前文想半分钟才回你。说白了,大模型的能力和速度,只能二选一。
之前想用大模型做产品,要么烧钱买设备,要么忍受龟速。现在小米这套方案,旗舰模型的能力全保留,响应速度拉到和小模型差不多的水平,成本效率还能做到传统方案的3到10倍。
有可能啊,我是说有可能啊兄弟们,大模型商业化的最后一道门槛
要被踹开了!?
