清华毕业、斯坦福理论物理博士,硅谷顶尖的 AI 研究员姚顺宇(原在Anthropic,现在 Google DeepMind负责Gemini的训练)在 3 月份张小珺的采访中,谈到了 Scaling Law。
他认为目前模型发展非常快的一个重要原因是「预训练」有了很大的进步。
事实上并没有出现所谓的 Scaling Law 停滞,他认为很多人认为存在 Scaling Law 瓶颈,要么是因为从认知上预训练就应该有 Scaling Law 饱和了。
要么是认为觉得某一个数据已经用到头了,存在饱和了。
但是最大的可能是你的训练方法有问题,存在 bug,你自己没发现。简而言之还是太菜…



