3月16日,马斯克在X上转发并点赞了中国AI公司月之暗面旗下Kimi团队的一项新研究成果。他只写了一句很简短但很重磅的话:“Kimi的作品令人印象深刻”。
简单来说,Kimi团队今天公布了一份技术报告,他们找到了一种让AI“大脑”变得更聪明、更省电的方法,而且这个方法效果真的很明显。
我们平时用的大模型(比如ChatGPT这类AI),核心零件叫Transformer,它从2017年问世以来,基本靠一种叫“残差连接”的方式把每一层的信息加起来传给下一层。听起来挺简单,但层数一多就出问题了:最前面几层学到的东西越传越淡,最后几层为了让声音被听到,只能使劲“喊”,导致训练特别费力、也很不稳定。
Kimi团队这次的做法就像给AI装了个“智能选择器”:不再简单粗暴地把前面所有层的信息平均加起来,而是让当前这一层自己去“挑”——“我现在最需要前面哪几层的信息?”它用一种叫注意力的机制(就像人脑关注重点的机制)来动态挑选和加权,把真正有用的信息放大,没用的信息自动压低。
为了不让电脑内存爆炸,他们还把模型分成几个大块,块里面照旧简单相加,块和块之间才用这个聪明挑选的方式。这样既保留了原来的稳定性,又大大降低了计算成本。
他们在自己48亿参数的模型上实测,结果非常亮眼: 用同样的电(算力),模型学得更好,相当于白送了25%的算力提升 回答问题时速度几乎没变慢(只多用了不到2%的时间) 在好几个很难的考试里成绩明显提高,比如科学推理题高了7.5%,数学题高了3.6%
马斯克这一句点赞,让很多人都开始关注这件事。不少人觉得,如果这个方法以后被证明靠谱、被大家广泛使用,可能会成为未来两三年里AI模型的“新标配”。
